Cerebras AI芯片因DeepSeek服務(wù)需求激增，大語(yǔ)言模型推理成新熱點(diǎn)

發(fā)布時(shí)間：2025-02-12 19:23 來(lái)源：ITBEAR 作者：任飛揚(yáng)

AI芯片巨頭Cerebras近期遭遇了一場(chǎng)前所未有的挑戰(zhàn)，其CEO Andrew Feldman在一次訪談中透露，公司正被大量運(yùn)行DeepSeek-R1大語(yǔ)言模型的訂單淹沒。

Cerebras，這家以推出高性能AI晶圓級(jí)芯片著稱的公司，其單塊芯片便能提供驚人的125 PFLOPS峰值算力，并搭配高達(dá)1.2PB的內(nèi)存容量，一直以來(lái)都是AI領(lǐng)域的佼佼者。然而，這次DeepSeek-R1的火爆需求，顯然超出了他們的預(yù)期。

DeepSeek-R1，這款被視作AI領(lǐng)域分水嶺的模型，其預(yù)訓(xùn)練成本僅為GPTo1等主流模型的十分之一，但效果卻與之相近甚至更佳。Feldman表示，DeepSeek不僅在當(dāng)前展現(xiàn)出了巨大影響力，更將推動(dòng)更大規(guī)模AI系統(tǒng)的誕生。隨著成本的降低，AI市場(chǎng)的潛力正在被不斷挖掘。

在Cerebras的官方展示中，其晶圓級(jí)AI芯片在部署DeepSeek-R1 70B時(shí)，性能達(dá)到了1508 tokens/s，遠(yuǎn)超GPU。然而，這款模型在推理過(guò)程中，卻需要消耗大量算力。由于采用了Chain-of-thought（CoT）方法增強(qiáng)推理能力，模型需要將多步問題分解為中間步驟，并在需要時(shí)執(zhí)行額外計(jì)算。這種逐字推理的方式，對(duì)于整段提示詞的推理需要多次進(jìn)行，從而導(dǎo)致了算力的巨大需求。

面對(duì)這一痛點(diǎn)，Cerebras提出了利用蒸餾技術(shù)將大模型的“知識(shí)”轉(zhuǎn)移到小模型中的解決方案。大模型被稱為教師模型，而較小的模型則被稱為學(xué)生模型。通過(guò)這種方式，客戶可以在保持模型精度的同時(shí)，降低推理過(guò)程中的算力需求。

Cerebras在官網(wǎng)上表示，DeepSeek R1在蒸餾到Llama 70B后，精度幾乎沒有下降。為了改善用戶體驗(yàn)，Cerebras為客戶提供了一種標(biāo)準(zhǔn)做法：利用開源在Hugging Face上的DeepSeek模型參數(shù)作為教師模型，蒸餾出一個(gè)較小的學(xué)生模型用于實(shí)際部署。

Feldman強(qiáng)調(diào)，DeepSeek作為首個(gè)頂級(jí)的開源推理模型，是開源AI的重大勝利。通過(guò)蒸餾技術(shù)，開源模型只需公開模型參數(shù)，研究人員無(wú)需訪問源碼便能復(fù)制新AI模型的進(jìn)步。他認(rèn)為，DeepSeek的經(jīng)濟(jì)性不僅震撼了整個(gè)AI行業(yè)，更將吸引更多投資流向尖端AI芯片和網(wǎng)絡(luò)技術(shù)。

盡管有些人擔(dān)心計(jì)算成本的下降會(huì)導(dǎo)致市場(chǎng)萎縮，但Feldman指出，過(guò)去50年的歷史表明，降低成本反而能夠擴(kuò)大市場(chǎng)容量。無(wú)論是電腦還是智能手機(jī)，價(jià)格的降低都推動(dòng)了產(chǎn)品的普及。因此，他相信DeepSeek和Cerebras的推動(dòng)將進(jìn)一步加速AI市場(chǎng)的增長(zhǎng)。

自去年8月開始提供公共推理服務(wù)以來(lái)，Cerebras自稱是“世界上最快的人工智能推理服務(wù)提供商”。然而，面對(duì)高昂的405B模型成本，該公司目前主要提供的是蒸餾后的70B模型。Feldman表示，雖然有一部分客戶愿意為更高的準(zhǔn)確性支付更高的成本，但大多數(shù)客戶更傾向于選擇價(jià)格實(shí)惠的模型。

更多>同類內(nèi)容