近日,一場聚焦新質生產力產業(yè)實踐的洞見活動在京成功舉辦,該活動由環(huán)球時報、中國科協新技術開發(fā)中心及清華大學技術創(chuàng)新研究中心等機構聯合發(fā)起,吸引了眾多行業(yè)內外專家的關注。
活動中,清華大學計算機系教授、中國工程院院士鄭緯民針對國內大模型產業(yè)的發(fā)展趨勢發(fā)表了獨到見解。他指出,2024年,國內大模型產業(yè)將呈現出兩大顯著特點:一是從基礎大模型向多模態(tài)的拓展,二是大模型與各行各業(yè)的深度融合。鄭緯民院士認為,我國在推動大模型與行業(yè)結合方面具有顯著優(yōu)勢,有望在全球范圍內走在前列。
鄭緯民院士進一步剖析了大模型生命周期的五個關鍵環(huán)節(jié),并逐一指出了各環(huán)節(jié)存在的問題。在數據獲取環(huán)節(jié),他強調了大模型訓練所需處理的數據量之龐大,以及數據讀取頻繁所帶來的挑戰(zhàn)。數據預處理環(huán)節(jié)則面臨數據質量不高的問題,需要耗費大量時間進行預處理,以GPT-4為例,其訓練過程中有近半年的時間用于數據預處理,效率亟待提升。
針對當前國際主流的數據處理軟件Spark,鄭緯民院士指出其優(yōu)勢在于生態(tài)良好、可擴展性和容錯性強,但同時也存在處理速度慢、受限于Java語言以及內存成本高、容量低等缺點。為此,清華大學的研究團隊正在探索使用C++編寫部分模塊,并采取措施降低內存占用,以期將數據預處理時間減半。
在模型訓練環(huán)節(jié),鄭緯民院士強調了可靠性的重要性。他指出,大規(guī)模計算系統在訓練過程中頻繁出錯會嚴重影響訓練效率。當前業(yè)界的做法是定期記錄軟硬件狀態(tài),以便在出錯時恢復到上一個標記點繼續(xù)訓練,但這一方法仍面臨數據量大、復雜度高的問題。行業(yè)正在積極探索更高效的讀寫方案以提高訓練效率。
模型微調環(huán)節(jié)則涉及基礎大模型在特定行業(yè)或場景下的二次訓練。鄭緯民院士以醫(yī)療行業(yè)為例,闡述了基礎大模型如何結合醫(yī)院數據進行二次訓練,進而得到醫(yī)療領域的大模型。這一過程可以連續(xù)進行多次,逐步縮小模型的應用領域,提高模型的針對性和準確性。
推理環(huán)節(jié)則是將訓練好的大模型應用于具體場景的關鍵步驟。鄭緯民院士指出,AI芯片作為大模型產業(yè)的焦點,其發(fā)展對于支撐國產大模型訓練具有重要意義。他強調,產業(yè)各界應著力探索構建國產萬卡系統和異構卡聯合訓練,以優(yōu)化國產AI芯片的性能和生態(tài)。
鄭緯民院士還指出,盡管國產AI芯片在近年來取得了顯著進步,但用戶接受度仍有待提高。他認為,這主要歸因于國產AI芯片的生態(tài)不夠完善。他強調,良好的生態(tài)應能夠支持軟件在不同硬件平臺上的快速移植和優(yōu)化,以提高整體性能和用戶體驗。
活動中,科大訊飛聯合創(chuàng)始人、高級副總裁江濤也分享了科大訊飛在AI領域的最新進展。他透露,科大訊飛已聯合華為推出國內首個萬卡規(guī)模大模型算力平臺“飛星一號”,該平臺能夠實現大模型訓練推理一體化設計,有效解決大模型時代的“卡脖子”問題。江濤還表示,訊飛星火大模型已迭代至4.0 Turbo版本,在綜合指標上已達到GPT-4 Turbo水平,并在數學能力和代碼能力上超越GPT-4。
華為云大數據與AI領域總裁尤鵬則對未來基礎模型的發(fā)展趨勢進行了預測。他認為,未來基礎模型可能會收斂到少數幾家企業(yè)手中,而大量的企業(yè)則將專注于行業(yè)模型的開發(fā)和行業(yè)落地。尤鵬還結合AI To B實踐提出了三個觀點:一是并非每個企業(yè)都需要大規(guī)模建設AI算力;二是選擇業(yè)界主流基礎模型應用于自己的場景是更經濟的選擇;三是并非所有應用都需要追求大模型,原有的專業(yè)小模型可以繼續(xù)使用,并通過大模型進行調度和優(yōu)化。