軟硬協(xié)同算力領(lǐng)域的創(chuàng)新浪潮再次涌動,毅伯智算,一家專注于全棧自研的算力解決方案提供商,近期向市場推出了其最新的力作——TORA3000 8卡推理一體機,該設(shè)備搭載了性能強勁的滿血版DeepSeek-R1-671B模型,旨在為行業(yè)帶來前所未有的推理性能體驗。
TORA3000的問世,不僅標(biāo)志著毅伯智算在AI推理技術(shù)上的重大突破,更以其卓越的推理性能,對業(yè)界產(chǎn)生了深遠(yuǎn)影響。據(jù)官方數(shù)據(jù)顯示,該一體機的推理性能相較于市場上的同類產(chǎn)品,如英偉達(dá)的H20-141G,提升了高達(dá)40%,成功躋身業(yè)界領(lǐng)先水平。這一成就的背后,是毅伯智算團隊對軟硬件一體化解決方案的深入探索與優(yōu)化。
作為一家國內(nèi)少有的實現(xiàn)全棧自研的算力解決方案提供商,毅伯智算擁有一支由超過百名AI工程師組成的精英團隊,其中不乏在人工智能與超算領(lǐng)域擁有超過10年研發(fā)經(jīng)驗的核心成員。正是這樣一支實力雄厚的團隊,在過去三年中,始終致力于全棧式AI訓(xùn)推平臺的研發(fā),并最終在2024年推出了其自研的全棧式AI訓(xùn)推平臺。
TORA3000作為毅伯智算在AI推理領(lǐng)域的又一力作,不僅實現(xiàn)了軟硬件的一體化,更以其開箱即用的便捷性,全面滿足了客戶的推理需求。該一體機通過全自研的算子庫、編譯技術(shù)、推理框架等技術(shù)手段,實現(xiàn)了更快計算效率、長文本和高并發(fā)請求支持,以及更高的推理性能。同時,它還原生支持DeepSeek-R1-671B所采用的FP8精度,兼容FP64/32/16及INT8,在保證推理精度的同時,有效降低了部署成本。
對于企業(yè)用戶而言,在選擇Deepseek推理一體機時,往往會面臨滿血版與蒸餾版的選擇。這兩者之間的關(guān)系,類似于教師與學(xué)生的關(guān)系,其中滿血版是知識輸出者,而蒸餾版則通過知識蒸餾過程繼承前者的知識。在實際應(yīng)用中,滿血版能夠深度處理代碼生成、知識圖譜構(gòu)建等高復(fù)雜度任務(wù),而蒸餾版則受限于知識壓縮與固定架構(gòu),僅適用于應(yīng)用特別定義且相對簡單的場景。因此,對于大中型企業(yè)而言,配置至少一臺滿血版一體機作為核心引擎,是支撐業(yè)務(wù)迭代與高密度推理需求的必要選擇。
然而,受GPU硬件性能的限制,市場上滿血版推理一體機的部署方案多種多樣,包括單機、雙機甚至四機等。其中,雙機方案相較于單機方案,硬件成本和功耗都會翻倍,而四機方案則更高,且會增加額外的組網(wǎng)和運維成本。在Deepseek原生FP8精度下,一體機(8卡)要流暢運行滿血模型,單卡顯存需大于120G(整機顯存大于1000GB),否則必須采用多機部署。同時,部分GPU不支持FP8運算,只能量化為INT8或FP16模型,但I(xiàn)NT8精度下推理精度會有所下降,而FP16則會導(dǎo)致所需顯存和節(jié)點數(shù)量翻倍。
面對這些挑戰(zhàn),毅伯智算憑借其TORA3000一體機,為市場提供了一個最優(yōu)解。該一體機不僅支持原生FP8精度,且單卡顯存超過120GB,完全滿足高性能推理的需求。同時,經(jīng)過采用開源數(shù)據(jù)集和開源測試工具對TORA3000與英偉達(dá)H20-141G的推理性能進行測試發(fā)現(xiàn),TORA3000的性能提升高達(dá)40%,再次證明了其在業(yè)界領(lǐng)先地位。