圖片系A(chǔ)I生成
“為解決AI算力供給不足,除了選擇英偉達(dá),我們也可以用CPU芯片實現(xiàn)AI推理?!眹鴥?nèi)某云計算大廠基礎(chǔ)設(shè)施負(fù)責(zé)人在年初一次技術(shù)分享會上表達(dá)。
該負(fù)責(zé)人所指的AI推理芯片市場需求量正逐年增長。VerifiedMarketResearch報告顯示,2023年人工智能推理芯片市場規(guī)模為158億美元,預(yù)計到2030年將達(dá)到906億美元,在2024-2030年預(yù)測期內(nèi)的復(fù)合年增長率為22.6%。
今年早些時候,英偉達(dá)財報會上也有表示,公司全年數(shù)據(jù)中心里已經(jīng)有40%的收入來自推理業(yè)務(wù)。
分析其中緣由,除了邊緣計算和物聯(lián)網(wǎng)設(shè)備驅(qū)動外,更重要的是AI應(yīng)用急劇擴張,相較于需要大規(guī)模算力的AI(大模型)訓(xùn)練場景,AI推理對算力性能要求沒有AI訓(xùn)練嚴(yán)苛,主要是滿足低功耗和實時處理的需求。但在部署在實際終端場景中時,會需要大量服務(wù)器進行并行網(wǎng)絡(luò)計算,推理成本會驟然提升。
為此,硬件層面,廠商會不斷升級處理器和加速器,從CPU到GPU、FPGA、TPU等,以提高在AI推理方面的性能和能效比。在軟件和算法層面,廠商為大規(guī)模算力集群提供AI訓(xùn)練推理框架、軟件框架,做軟硬適配,同時在算法層面,如量化、稀疏化、蒸餾、剪枝等手段,從減少模型的計算復(fù)雜度和內(nèi)存占用入手,以降低推理所需存算空間。
“不可能三角”下的AI推理
一位頭部協(xié)同辦公軟件海外負(fù)責(zé)人在今年6月告訴鈦媒體,谷歌當(dāng)時將Gemini Nano模型應(yīng)用于Chrome瀏覽器,用于端側(cè)生成式AI實現(xiàn)。但問題是現(xiàn)在的實際效果比較堪憂,就是又要推理又要翻譯同時還要計算量低,不太現(xiàn)實。這種在端側(cè)AI技術(shù)上的“不可能三角”,讓該負(fù)責(zé)人所在企業(yè)還在觀望。
與此同時,據(jù)路透社報道,OpenAI 正在與博通(Broadcom)合作開發(fā)其首款定制 AI 推理芯片,旨在處理其大規(guī)模的AI工作負(fù)載,特別是推理任務(wù)。
這意味著,對企業(yè)客戶而言,在模型推理或部署階段,需要考慮部署靈活性、性價比以及低門檻接入方式,這些都決定了企業(yè)TCO(總體擁有成本,Total Cost of Ownership)。Melius Research的分析師Ben Reitzes在給客戶的一份說明中表示:“有看法認(rèn)為,英偉達(dá)未來在推理領(lǐng)域的市場份額將低于訓(xùn)練領(lǐng)域?!?/p>
有需求的地方就有市場,有市場的地方就有競爭。如今,AI推理市場正在被英特爾、AMD、高通等CPU廠商盯上。
以英特爾為例。10月28日,英特爾宣布擴容英特爾成都封裝測試基地,其成都基地擴容主要有兩方面:一是新增產(chǎn)能將集中在為服務(wù)器芯片提供封裝測試服務(wù),以響應(yīng)中國客戶市場需求;二是即將設(shè)立英特爾客戶解決方案中心,推動為行業(yè)客戶提供基于英特爾架構(gòu)和產(chǎn)品的定制化方案。更早一個月,除了很早就預(yù)熱的Gaudi 3 AI加速器,英特爾還升級至強6處理器,其性能是前代產(chǎn)品的兩倍,可支持邊緣、數(shù)據(jù)中心、云環(huán)境中的AI大模型推理訴求。據(jù)外媒報道,目前73%的AI服務(wù)器都使用英特爾至強系列作為服務(wù)器機頭。
鈦媒體注意到,僅在企業(yè)級應(yīng)用市場,中國云廠商、OEM、ODM、ISV等伙伴正密集對其搭載CPU芯片的通用算力服務(wù)器進行升級。例如,阿里云基于方升架構(gòu)推出最新一代磐久計算型服務(wù)器,以及第九代阿里云英特爾平臺企業(yè)級計算實例產(chǎn)品;火山引擎對其第四代云服務(wù)器實例進行了架構(gòu)和性能優(yōu)化;在基于松耦合開放架構(gòu)設(shè)計的服務(wù)器計算模組設(shè)計規(guī)范(OCM)下,浪潮信息元腦服務(wù)器第八代算力平臺也于近日正式推出,同時支持英特爾至強6處理器及AMD EPYC 9005系列處理器。
那么從英特爾等的技術(shù)升級進程上可以理解,相比于昂貴且緊缺的GPU或者適合于小規(guī)模的RTX 4090,CPU處理器的能核能效正逐漸去適應(yīng)AI工作負(fù)載和高密度可擴展的融合需求。
CPU用于AI算力背后的幾點變化
“當(dāng)下AI應(yīng)用層出不窮,尤其在產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域,已不單純是需要超大算力的訓(xùn)練場景,一個新的問題是,很多傳統(tǒng)應(yīng)用也存在一定智能化需求,比如在CRM系統(tǒng)中幫助客戶自動識別線索、幫助銷售自動填報信息。但是,這些AI需求并不見得需要配備AI加速卡去支撐?!崩顺毙畔⒎?wù)器產(chǎn)品線總經(jīng)理趙帥對等說道。
趙帥表示:“在AI訓(xùn)練場景中,CPU目前主要參與數(shù)據(jù)預(yù)處理環(huán)節(jié),包括數(shù)據(jù)清洗、格式轉(zhuǎn)換、特征提取等,目前大模型訓(xùn)練所需的數(shù)據(jù)集仍在呈指數(shù)級增長,需要有更強大的CPU。在AI推理場景,目前主流大模型月活非常高,這意味著AI推理需要同時處理高并發(fā)任務(wù),對整個CPU的資源調(diào)度能力是一個極其嚴(yán)峻的考驗。CPU需要在極短的時間內(nèi)對各種任務(wù)進行合理分配和調(diào)度,確保每個任務(wù)都能得到及時處理和實時響應(yīng)?!?/p>
在趙帥看來,多模態(tài)模型的出現(xiàn),對內(nèi)存容量提出了更大要求,以便支持?jǐn)?shù)據(jù)預(yù)處理和存儲。例如多模態(tài)模型LLaMA3.2包含60億圖文和1500小時的語音數(shù)據(jù),數(shù)據(jù)規(guī)模達(dá)到PB級,相比LLaMA3.1的數(shù)據(jù)量已增加百倍以上。長本文的出現(xiàn),導(dǎo)致某些先進創(chuàng)企已經(jīng)提出要以KVCache為中心的分離架構(gòu)設(shè)計,即根據(jù)不同計算特性將預(yù)填充服務(wù)器與解碼服務(wù)器分開,在大batch size及隊列場景下需要更大的系統(tǒng)內(nèi)存帶寬。適配各種加速卡的處理器節(jié)點也面臨算力、內(nèi)存容量、內(nèi)存帶寬、IO擴展等多方面的挑戰(zhàn),需要豐富的強大的CPU系統(tǒng)生態(tài)來實現(xiàn)系統(tǒng)資源的最佳利用。
據(jù)工信部今年9月公布數(shù)據(jù),中國在用算力中心機架總規(guī)模超過830萬標(biāo)準(zhǔn)機架,算力總規(guī)模達(dá)246EFLOPS(EFLOPS是指每秒進行百億億次浮點運算)。據(jù)中國信通院測算,截至2023年底,全球算力基礎(chǔ)設(shè)施總規(guī)模達(dá)到910EFLOPS,同比增長40%;其中,美國、中國算力基礎(chǔ)設(shè)施規(guī)模位列前兩名,算力占比分別為32%、26%。
那么問題來了,當(dāng)算力中心仍在如火如荼建設(shè)中時,這種在數(shù)據(jù)、內(nèi)存、算力、帶寬等需求的急劇變化下,算力落地挑戰(zhàn)將在未來被逐一放大。
更重要的是滿足場景需要
以服務(wù)器為例,作為算力的承載體系,正面向更智能、更開放、更綠色的算力體系不斷進化。
不同于一年前市場端服務(wù)器采購的需求收緊,服務(wù)器尤其是AI服務(wù)器在大模型應(yīng)用需求的拉動下,市場需求開始復(fù)蘇。Gartner數(shù)據(jù)顯示,2024 年第一季度,全球服務(wù)器出貨量同比增長 5.9%,總出貨量達(dá) 282 萬臺。本季度供應(yīng)商收入同比增長 59.9%,AI服務(wù)器需求推動平均售價增長 51.0%。而在全球服務(wù)器市場強勁增長的態(tài)勢中,浪潮信息服務(wù)器出貨量全球第二,中國第一。
2020-2030全球服務(wù)器市場規(guī)模(按產(chǎn)品劃分)
“我們面向于多場景需求滿足,每款產(chǎn)品都基于具體業(yè)務(wù)場景和客戶真實收益而來。你會發(fā)現(xiàn)我們的產(chǎn)品布局相較于其他廠商更為廣泛。這一優(yōu)勢很大程度上歸功于我們現(xiàn)行的解耦設(shè)計與開發(fā)模式?!壁w帥對鈦媒體表示。
他指出,從客戶角度,往往面臨各種特定的方案需求場景。通過將部件設(shè)計成通用的構(gòu)建模塊(CBB),這些模塊經(jīng)過一次測試和驗證后,便能在多個平臺上高效應(yīng)用,從而支撐起浪潮信息廣泛的產(chǎn)品布局,這也使得產(chǎn)品在更細(xì)分的場景中能夠發(fā)揮更高價值。
浪潮信息服務(wù)器產(chǎn)品線規(guī)劃經(jīng)理羅劍告訴鈦媒體,“第八代算力平臺最核心的技術(shù)攻關(guān),一是提升了軟件方面的智能化水平,比如故障告警的智能化處理水平,通過大模型對過去歷史故障數(shù)據(jù)進行建模,對關(guān)鍵部件如內(nèi)存、硬盤等可能產(chǎn)生的故障進行智能預(yù)判,從而減少客戶計劃停機外的業(yè)務(wù)影響;二是計算模組的解耦,還有內(nèi)存帶寬的提升,破除存儲墻、內(nèi)存墻。尤其是支持更高計算性能的處理器,會有大量數(shù)據(jù)吞吐需求,針對大內(nèi)存帶寬需求,元腦服務(wù)器可配備最高12T內(nèi)存,同時也可支持內(nèi)存容量和帶寬同步擴展的CXL方案,其目的也是釋放計算性能的最大潛力,避免客戶在內(nèi)存資源上的閑置。”
鈦媒體注意到,目前基于OCM、OAM、CXL、整機柜標(biāo)準(zhǔn)的開放產(chǎn)品,浪潮信息實現(xiàn)了在計算、存儲、I/O擴展、整機柜部署和智算的五種場景化優(yōu)化機型。除了在硬件層面,浪潮信息此前基于龍蜥社區(qū)開發(fā)的下游商業(yè)版服務(wù)器操作系統(tǒng)KOS進行了升級,實現(xiàn)軟硬協(xié)同優(yōu)化。
過去一個月內(nèi),不只是浪潮信息,中興通訊、聯(lián)想、新華三等服務(wù)器廠商相繼公布多款算力新品,同樣覆蓋了通用算力、人工智能、液冷、存儲型等多個用途場景。一位服務(wù)器售前專家與鈦媒體交流時指出,他們圍繞下游客戶訴求而采取的是earlyship策略,“在還沒有交付時,實現(xiàn)大批量提前供應(yīng),其優(yōu)勢在于能保證建設(shè)時客戶拿到的是真正先進的芯片。”
算力多元化時代,用戶根據(jù)場景來選擇不同的算力單元,滿足不同的計算需求,服務(wù)器廠商為滿足客戶訴求也不再局限于提供單一算力產(chǎn)品。(本文首發(fā)于,作者 | 楊麗,編輯 | 蓋虹達(dá))