亞馬遜AWS近日宣布,其內(nèi)部團隊研發(fā)的AI訓練芯片Trainium2已正式進入廣泛應用階段,并隨之推出了搭載該芯片的Trn2實例。AWS還揭曉了Trn2 UltraServer大型AI訓練系統(tǒng),以及更為先進的3nm制程Trainium3芯片。
Trainium2芯片作為AWS的新星,每個Trn2實例內(nèi)置了16顆這樣的芯片。通過超高速、高帶寬、低延遲的NeuronLink互聯(lián)技術,Trn2實例能夠提供高達20.8 petaflops的峰值算力,這對于訓練和處理數(shù)以億計參數(shù)的模型來說,無疑是一個強大的助力。
AWS聲稱,與當前基于GPU的EC2 P5e和P5en實例相比,Trn2實例在性價比上提升了30-40%,為用戶帶來了更為經(jīng)濟的AI訓練解決方案。
而Trn2 UltraServer則進一步擴大了算力的邊界。通過NeuronLink技術,4臺Trn2服務器被巧妙地聚合在一起,形成了包含64顆Trainium2芯片的超級系統(tǒng),其算力峰值可達83.2 petaflops。這一強大的算力,足以滿足當前全球最大規(guī)模模型的訓練和部署需求。
不僅如此,AWS還展示了Trn2 UltraServer的實體機架,其規(guī)模之大、算力之強,令人嘆為觀止。
AWS還與投資的AI模型企業(yè)Anthropic攜手,共同打造名為Project Rainier的EC2 UltraCluster巨型計算集群。這個集群將包含大量的Trn2 UltraServer,總計擁有數(shù)十萬顆Trainium2芯片,其算力之強,有望成為全球公開的最大AI計算集群。
據(jù)透露,這個巨型計算集群的算力,將是Anthropic目前用于訓練最先進Claude模型所需算力的5倍以上,這無疑將極大地推動AI技術的發(fā)展。
AWS還透露了其下一代AI訓練芯片Trainium3的信息。作為AWS首款采用3nm制程的芯片產(chǎn)品,Trainium3的性能將遠超現(xiàn)有的Trainium2?;赥rainium3的UltraServer性能預計可達Trn2 UltraServer的4倍,而首批基于Trainium3的實例也將在2025年底正式推出。