隨著人工智能技術(shù)的飛速發(fā)展,AI芯片的功耗和散熱問題日益凸顯,成為制約AI應(yīng)用擴(kuò)展的關(guān)鍵因素。高功耗不僅增加了企業(yè)的運(yùn)營成本,還可能引發(fā)芯片過熱、短路等風(fēng)險(xiǎn),嚴(yán)重影響AI訓(xùn)練和推理的效率與效果。
數(shù)據(jù)量的爆炸性增長進(jìn)一步加劇了這一挑戰(zhàn)。據(jù)統(tǒng)計(jì),全球數(shù)據(jù)量從2015年的10EB預(yù)計(jì)將在2025年飆升至175ZB,到2035年更是可能達(dá)到2432ZB的驚人規(guī)模。邊緣AI的發(fā)展需要在性能、功耗和成本之間找到完美的平衡點(diǎn),尤其是在低功耗的電池供電設(shè)備中,如何在不推高成本的前提下提升算力,成為亟待解決的問題。
AI應(yīng)用,如ChatGPT所使用的大型語言模型(LLM),依賴于“并行計(jì)算”,即由芯片網(wǎng)絡(luò)同時(shí)執(zhí)行多項(xiàng)計(jì)算任務(wù)。作為人工智能基礎(chǔ)設(shè)施的核心,GPU擅長處理這類高性能并行計(jì)算工作,但其強(qiáng)大的處理能力也伴隨著高能耗和高熱量輸出。高端GPU的功率密度約為CPU的四倍,這給數(shù)據(jù)中心的規(guī)劃和運(yùn)營帶來了全新的挑戰(zhàn)。
以Nvidia的A100和H100 AI芯片為例,A100的恒定功耗約為400W,而H100的功耗更是接近700W,與微波爐相當(dāng)。如果超大規(guī)模數(shù)據(jù)中心采用這些高性能GPU替換現(xiàn)有的CPU服務(wù)器,所需功率將激增4-5倍,相當(dāng)于一座核電站的供電量。功率密度的提升意味著散熱需求也隨之增加,傳統(tǒng)的冷卻系統(tǒng)已難以滿足需求,數(shù)據(jù)中心的設(shè)計(jì)必須進(jìn)行革新。
為了應(yīng)對(duì)這一挑戰(zhàn),臺(tái)積電推出了3DVC(三維均熱板)技術(shù),這是一種針對(duì)高性能計(jì)算和AI芯片的先進(jìn)散熱解決方案。與傳統(tǒng)的二維均熱板不同,3DVC通過立體化設(shè)計(jì),在芯片封裝內(nèi)部集成多層微流體通道,利用相變傳熱原理快速導(dǎo)出熱量。其內(nèi)部采用三維毛細(xì)結(jié)構(gòu),增強(qiáng)工質(zhì)的毛細(xì)回流能力,實(shí)現(xiàn)近結(jié)散熱,有效縮短熱傳導(dǎo)路徑。
3DVC技術(shù)不僅提高了散熱效率,還實(shí)現(xiàn)了多維度散熱,能夠接觸更多發(fā)熱源并提供更多散熱路徑。臺(tái)積電計(jì)劃在AMD、NVIDIA的下一代產(chǎn)品中應(yīng)用這一技術(shù),與CoWoS-L封裝技術(shù)同步推出,為CPU、GPU等提供一體化散熱解決方案。
在液冷方面,高功率下的散熱需求使得液冷成為唯一可行的解決方案。液冷的散熱效率遠(yuǎn)高于空氣,水的散熱效率約為空氣的3600倍。當(dāng)芯片面積每平方厘米的散熱量超過50瓦時(shí),通常需要采用液冷。直接芯片冷卻技術(shù)通過熱界面將液體連接到芯片散熱器的冷板通道流動(dòng),實(shí)現(xiàn)高效散熱。浸入式冷卻技術(shù)和嵌入式微通道相變冷卻技術(shù)也是解決高功耗散熱問題的有效途徑。
英偉達(dá)在AI硬件領(lǐng)域也取得了顯著進(jìn)展。其發(fā)布的Blackwell超級(jí)芯片標(biāo)志著AI硬件邁入新紀(jì)元?;贐lackwell的DGX GB200服務(wù)器結(jié)合了36顆NVIDIA Grace CPU和72塊Blackwell GPU,通過第五代NVLink連接成一臺(tái)超級(jí)計(jì)算機(jī),提供前所未有的計(jì)算支持。為了應(yīng)對(duì)高功耗問題,英偉達(dá)采用了全新的液冷機(jī)架規(guī)模架構(gòu),通過DGX GB200 SuperPod超級(jí)計(jì)算集群,為各行各業(yè)提供強(qiáng)大的AI計(jì)算能力。
NVLink作為一種高速互聯(lián)技術(shù),允許GPU之間以點(diǎn)對(duì)點(diǎn)方式進(jìn)行通信,實(shí)現(xiàn)更高的帶寬和更低的延遲。在DGX GB200中,NVLink連接了多個(gè)GPU和CPU,形成了強(qiáng)大的計(jì)算網(wǎng)絡(luò),為處理復(fù)雜AI模型提供了有力支持。例如,GB200 NVL72服務(wù)器提供了720 petaflops的FP8性能和1440 petaflops的FP4計(jì)算性能,可處理多達(dá)27萬億個(gè)AI LLM參數(shù)模型。
隨著AI技術(shù)的不斷發(fā)展,功耗和散熱問題將持續(xù)受到關(guān)注。各大廠商和科研機(jī)構(gòu)正不斷探索新的散熱技術(shù)和解決方案,以應(yīng)對(duì)日益增長的算力需求帶來的挑戰(zhàn)。未來,我們有望看到更多創(chuàng)新技術(shù)的涌現(xiàn),為AI技術(shù)的普及和規(guī)?;瘧?yīng)用提供有力支撐。