亚洲精品成人福利网站,无码伊人66久久大杳蕉网站谷歌,亚洲变态另类天堂av手机版,性猛交富婆╳xxx乱大交小说,无码精品国产va在线观看dvd

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

從預(yù)訓(xùn)練轉(zhuǎn)向推理,大模型廠商尋找新的Scaling Law

   發(fā)布時(shí)間:2024-11-22 20:22 作者:顧青青

文 | AI大模型工場(chǎng),作者|參商,編輯|星奈

最近,關(guān)于Scaling Law是否失效的討論居高不下。

起因是The Information、路透社和彭博社接連爆出LLM進(jìn)展放緩,Scaling Law撞墻。

The Information表示,據(jù)OpneAI內(nèi)部人員透露,GPT系列模型更新緩慢,即將推出的下一代旗艦?zāi)P蚈rion并沒(méi)有實(shí)現(xiàn)質(zhì)的飛躍,雖然性能上超過(guò)了以往模型,但相較于從GPT-3到GPT-4的迭代,改進(jìn)幅度縮小,OpenAI正在轉(zhuǎn)變策略。

路透社也發(fā)文表示,由于當(dāng)前方法受到限制,OpenAI和其他公司正在尋求通向更智能AI的新途徑。

隨后,彭博社也出來(lái)拱火,認(rèn)為OpenAI、谷歌、Anthropic三家AI公司,在新模型開(kāi)發(fā)上的付出與回報(bào)的差額正在逐漸擴(kuò)大。

報(bào)道稱,谷歌即將推出的新版Gemini并未達(dá)到內(nèi)部預(yù)期,Anthropic也推遲了備受期待的Claude 3.5「超大杯」Opus的發(fā)布時(shí)間。

盡管,后面山姆.奧特曼親自下場(chǎng)辟謠:沒(méi)有墻。微軟AI主管Mustafa Suleyman也表示,不會(huì)有任何放緩。

但不爭(zhēng)的事實(shí)是,模型界“三巨頭”在預(yù)訓(xùn)練方面接連碰壁,模型發(fā)展遇到瓶頸。Scaling Law的邊界真的已經(jīng)到來(lái)了嗎?

一、暴力美學(xué)失效

Scaling Law也稱尺度定律,被業(yè)界認(rèn)為是大模型預(yù)訓(xùn)練第一性原理。

2020年,OpenAI發(fā)布論文“Scaling Laws for Neural Language Models”,首次發(fā)現(xiàn)模型參數(shù)量、數(shù)據(jù)集大小、訓(xùn)練計(jì)算量的關(guān)系,即三者中任何一個(gè)因素受限時(shí),Loss與其之間存在冪律關(guān)系,其中一些趨勢(shì)跨越了超過(guò)七個(gè)數(shù)量級(jí)。

也就是說(shuō),模型能力會(huì)隨著參數(shù)量的增加而不斷提升。OpenAI沿著這個(gè)思路也確實(shí)大獲成功,在論文發(fā)布四個(gè)月后,GPT3問(wèn)世,再到2022年ChatGPT上線,后面的故事大家都已經(jīng)清楚。

從GPT3到GPT4,從Gemini到Claude,Scaling Law的暴力美學(xué)被一次次證明其正確性。

不過(guò),隨著模型參數(shù)不斷增加,對(duì)數(shù)據(jù)量的需求也是指數(shù)級(jí)增長(zhǎng),人類(lèi)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)遲早有一天會(huì)被大模型“吞噬”,只是這一天來(lái)得如此之快。

The Information指出,OpenAI下一代ChatGPT 5的訓(xùn)練出現(xiàn)了重大瓶頸,原因之一是高質(zhì)量文本數(shù)據(jù)越來(lái)越少。

下一代要發(fā)布的旗艦?zāi)P蚈rion,在預(yù)訓(xùn)練階段只用了20%的訓(xùn)練量,就達(dá)到了GPT4的水平,能力上升的很快,但OpenAI的研究者發(fā)現(xiàn),后邊增加訓(xùn)練量,Orion的水平提升卻很慢很微小,沒(méi)有實(shí)現(xiàn)從GPT3到GPT4的質(zhì)得飛躍,這或許也是OpenAI并沒(méi)有將Orion命名為GPT5的原因。

谷歌和Anthropic也面臨著相同的問(wèn)題,谷歌的下一代Gemini 模型表現(xiàn)低于內(nèi)部預(yù)期,Anthropic Claude 3.5 Opus 的發(fā)布也將推遲。

國(guó)內(nèi),10月初,就有消息傳出,“AI六小虎”中已經(jīng)有兩家公司已經(jīng)決定逐步放棄預(yù)訓(xùn)練模型,近期又有消息指出,仍在繼續(xù)預(yù)訓(xùn)練的公司只剩下智譜AI和MiniMAX,其他包括月之暗面、百川只能在內(nèi)的公司都已經(jīng)放棄預(yù)訓(xùn)練。

除了這些AI初創(chuàng)公司,國(guó)內(nèi)的BAT包括字節(jié)這些大廠對(duì)預(yù)訓(xùn)練的進(jìn)展并沒(méi)有披露過(guò)多,都在卷向應(yīng)用層。

實(shí)際上,國(guó)內(nèi)模型廠商轉(zhuǎn)向應(yīng)用也從側(cè)面印證了大模型Scaling Law目前存在的困境。

LLM除了吞噬了大量的數(shù)據(jù)外,在訓(xùn)練過(guò)程中所消耗的大量算力、電力等能源也成為嚴(yán)重阻礙,此外更為重要的是,超大規(guī)模的前期投入與收益無(wú)法匹配,ROI過(guò)低。

OpenAI研究者Noam Brown前段時(shí)間曾公開(kāi)表示,更先進(jìn)的模型可能在經(jīng)濟(jì)上不可行。“畢竟,我們真的要花費(fèi)數(shù)千億美元或數(shù)萬(wàn)億美元訓(xùn)練模型嗎?”Brown 說(shuō),“在某個(gè)時(shí)候,scaling 范式會(huì)崩潰?!?/p>

超大規(guī)模語(yǔ)言模型的預(yù)訓(xùn)練過(guò)程極其耗費(fèi)資源,通常需要數(shù)十萬(wàn)張GPU并行運(yùn)行數(shù)月之久,單次訓(xùn)練成本可達(dá)數(shù)千萬(wàn)至數(shù)億美元。例如,擁有1.8萬(wàn)億參數(shù)的ChatGPT 4模型,其單次訓(xùn)練費(fèi)用大約為6300萬(wàn)美元。

然而盡管投入巨大,這些新模型在性能上的提升卻與之前的模型性能所差無(wú)幾,這種情況下,大模型公司下一輪的融資故事恐怕難以講下去。

目前,以O(shè)penAI為代表的初創(chuàng)企業(yè),現(xiàn)在并沒(méi)有跑通商業(yè)模式,投資人的錢(qián)也不是大風(fēng)刮來(lái)的,如果長(zhǎng)時(shí)間看不到回報(bào),他們對(duì)繼續(xù)投資的態(tài)度肯定會(huì)更加謹(jǐn)慎。畢竟,沒(méi)有那個(gè)投資人原意一直當(dāng)“冤大頭”。在這種情況下,國(guó)內(nèi)大模型行業(yè)整體轉(zhuǎn)向了更符合商業(yè)利益的做法——做AI應(yīng)用。

另外從技術(shù)角度看,整個(gè)AI行業(yè)還有另一個(gè)轉(zhuǎn)向——從預(yù)訓(xùn)練向推理轉(zhuǎn)向。

Scaling Law的忠實(shí)追隨者OpenAI前首席科學(xué)家Ilya Sutskever,在最近接受路透社采訪時(shí)表示,擴(kuò)大預(yù)訓(xùn)練的結(jié)果已經(jīng)達(dá)到了平臺(tái)期。

“現(xiàn)在重要的是「擴(kuò)大正確的規(guī)模」”他表示,“2010年代是scaling的時(shí)代,現(xiàn)在,我們?cè)俅位氐搅似孥E和發(fā)現(xiàn)的時(shí)代。每個(gè)人都在尋找下一個(gè)奇跡?!?/p>

二、大廠轉(zhuǎn)向推理層,尋找新的Scaling Law

面對(duì)大模型Scaling Law降速的事實(shí),各巨頭紛紛尋找新的擴(kuò)展定律。

事實(shí)上,目前討論的Scaling Law撞墻更多的是指預(yù)訓(xùn)練擴(kuò)展定律(Pre-training Scaling Law),也就是上文討論的大模型暴力美學(xué)。

但是有關(guān)后訓(xùn)練和推理的Scaling Law還未被充分挖掘,這也是諸多大佬認(rèn)為Scaling Law沒(méi)有失效的重要原因。

后訓(xùn)練擴(kuò)展定律(Post-training Scaling Law)與傳統(tǒng)的預(yù)訓(xùn)練擴(kuò)展定律不同,關(guān)注的是在模型訓(xùn)練完成后,如何通過(guò)增加推理階段的計(jì)算量來(lái)提升模型性能。

后訓(xùn)練擴(kuò)展定律表明,即使模型參數(shù)保持不變,通過(guò)增加推理階段的計(jì)算量,也可以顯著提升模型的性能

而推理擴(kuò)展定律(Inference Scaling Law)則強(qiáng)調(diào)在推理階段通過(guò)增加計(jì)算資源來(lái)提升模型性能的原則。

提到這兩個(gè)定律,不得不提到測(cè)試時(shí)計(jì)算(test-timi compute ),測(cè)試時(shí)計(jì)算可以被看做是實(shí)現(xiàn)后訓(xùn)練擴(kuò)展定律和推理擴(kuò)展定律的關(guān)鍵手段。

那么什么是測(cè)試時(shí)計(jì)算?

測(cè)試時(shí)計(jì)算是一種在模型推理階段通過(guò)優(yōu)化計(jì)算資源分配來(lái)提高模型性能的方法。與預(yù)訓(xùn)練相比,測(cè)試時(shí)計(jì)算借助強(qiáng)化學(xué)習(xí)、原生思維鏈和更長(zhǎng)的推理時(shí)間,能夠在面對(duì)復(fù)雜問(wèn)題時(shí),能夠智能地分配計(jì)算資源,用最經(jīng)濟(jì)的成本提供更高效和準(zhǔn)確的答案。

OpenAI推出的O1推理模型正是靠測(cè)試時(shí)計(jì)算實(shí)現(xiàn)的。即在訓(xùn)練好的O1模型回答問(wèn)題時(shí),也就是在推理階段,給他更多時(shí)間和算力,讓它自己從自己的回復(fù)中得到更好的答案。

在OpenAI提供的O1模型后訓(xùn)練階段的縮放定律圖標(biāo)顯示,隨著強(qiáng)化學(xué)習(xí)時(shí)間和推理思考時(shí)間的增長(zhǎng),O1模型性能得到顯著提升。

不僅OpenAI,微軟CEO Satya Nadella在微軟Ignite大會(huì)上也直言,看到了“測(cè)試時(shí)計(jì)算”新的擴(kuò)展規(guī)律的出現(xiàn),并表示微軟Copilot的 "深入思考"功能也是利用這一規(guī)律來(lái)解決更難的問(wèn)題。

實(shí)際上,OpenAI O1模型的推出將預(yù)訓(xùn)練Scaling Law范式帶向了推理層的Scaling Law,國(guó)內(nèi)企業(yè)也紛紛追隨OpenAI腳步上線推理模型。

這兩天,國(guó)內(nèi)DeepSeek扔出重磅炸彈,上線了全新的推理模型 DeepSeek-R1-Lite-Preview,性能直逼O1。背后也同樣是推理層的Scaling Law在發(fā)揮作用。

DeepSeek-R1在數(shù)學(xué)和編程方面與O1-preview相當(dāng),甚至在一些競(jìng)賽中已經(jīng)領(lǐng)先O1。

DeepSeek之所以能有如此強(qiáng)勢(shì)的推理能力,很重要的一點(diǎn)就是他們采用了超長(zhǎng)推理時(shí)間。官方表示,DeepSeek R1 系列模型推理過(guò)程包含大量反思和驗(yàn)證,思維鏈長(zhǎng)度可達(dá)數(shù)萬(wàn)字。隨著思考長(zhǎng)度的增加,模型性能在穩(wěn)步提升。

最近,一反常態(tài)的月之暗面,也在成立一周年之際,向外界公布了其數(shù)學(xué)模型k0-math的進(jìn)展情況,要知道此前月之暗面的唯一核心在C端產(chǎn)品Kimi身上。

據(jù)了解,k0-math采用了強(qiáng)化學(xué)習(xí)和思維鏈推理技術(shù),也是Open AI o1系列背后的關(guān)鍵技術(shù)。

楊植麟早已預(yù)見(jiàn),隨著訓(xùn)練數(shù)據(jù)達(dá)到上限,推理層的Scaling Law想象空間更大,也因此在推理模型上早早準(zhǔn)備并上線。他表示,Open AI o1的變化其實(shí)可以預(yù)測(cè),接下來(lái)會(huì)越來(lái)越關(guān)注基于強(qiáng)化學(xué)習(xí)(RL)的方法去“Scale”。

國(guó)內(nèi)還有阿里、昆侖萬(wàn)維等也都上線了相關(guān)的推理大模型產(chǎn)品,無(wú)論從技術(shù)實(shí)現(xiàn)角度還是可落地性角度,Scaling Law已經(jīng)從預(yù)訓(xùn)練向推理層轉(zhuǎn)向。

結(jié)尾

大模型預(yù)訓(xùn)練的Scaling Law之所以能跑出來(lái),是因?yàn)樵诋?dāng)時(shí)的條件下,這是投入與回報(bào)最佳的Scale up路線。

然而,站在歷史角度上看,每個(gè)技術(shù)曲線的Scaling law都有其壽命,不存在一招吃遍天下的情況。

正如摩爾定律最初定義的是集成電路中晶體管數(shù)量每?jī)赡攴环?,但隨著時(shí)間的推移,這一規(guī)律在新技術(shù)的推動(dòng)下不斷擴(kuò)展,成為廣義摩爾定律,甚至超越之前的發(fā)展速度一樣。

在AI領(lǐng)域,雖然短期內(nèi)可能會(huì)遇到技術(shù)瓶頸或成本效益比下降的問(wèn)題,但從長(zhǎng)遠(yuǎn)來(lái)看,AI的軟硬件能力仍然會(huì)以每十年六個(gè)數(shù)量級(jí)的速度呈指數(shù)增長(zhǎng)。

這種增長(zhǎng)將通過(guò)多種創(chuàng)新路徑得以實(shí)現(xiàn),包括但不限于算法優(yōu)化、硬件加速、新型計(jì)算架構(gòu)等,共同維持AI技術(shù)的快速發(fā)展趨勢(shì)。

即使Scaling Law真的撞墻,前代技術(shù)的商業(yè)化應(yīng)用紅利依然會(huì)持續(xù)很久。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容
本欄最新