1956年的夏天,達特茅斯學院見證了一場歷史性的學術聚會。數(shù)學教授約翰·麥卡錫首次提出了“人工智能”這一術語,原本預期僅用兩個月時間徹底探討機器模擬智能的問題,卻未曾預料到,這一討論開啟了一場影響深遠的認知革命。
阿里巴巴集團CEO吳泳銘在財報會議上的發(fā)言擲地有聲,他預見到,一旦通用人工智能(AGI)成為現(xiàn)實,其催生的產(chǎn)業(yè)規(guī)?;?qū)⒌琼斎?,甚至可能深刻影響乃至部分取代當前全球?jīng)濟中的半壁江山。
面對這一科技浪潮,人們在驚喜與擔憂中逐漸接納人工智能,同時也不安地揣測著AGI的到來。然而,作為本輪AI熱潮的主角,大語言模型或許只是探索AGI路途中的一個先鋒,距離真正的AGI仍有很長的路要走,甚至可能并非通往AGI的正確道路。這不禁讓人思考,我們距離實現(xiàn)真正的AGI究竟還有多遠?
AGI的概念最初由北卡羅萊納大學的物理學家Mark Gubrud在1997年提出,他將其定義為一種在復雜性和速度上能與人類大腦相媲美或超越的AI系統(tǒng),能夠獲取一般性知識,并基于此進行推理和操作,能在各種工業(yè)或軍事活動中發(fā)揮人類智力的作用。
長久以來,AGI被視為人工智能領域的“圣杯”,意味著機器能夠像人類一樣,在多種任務中自主學習、推理并適應復雜環(huán)境。從GPT-4的對話能力到Sora的視頻生成,AI技術近年來取得了長足的進步,但AGI的實現(xiàn)仍面臨重重挑戰(zhàn)。
AI的核心在于將現(xiàn)實世界的現(xiàn)象轉(zhuǎn)化為數(shù)學模型,通過語言讓機器理解現(xiàn)實世界與數(shù)據(jù)的關系。而AGI則更進一步,要求AI不再局限于單一任務,而是具備跨領域?qū)W習和遷移能力,具有更強的通用性。然而,當前AI系統(tǒng)雖然在特定任務上超越了人類,如文本生成和圖像識別,但本質(zhì)上仍是“高級模仿”,缺乏對物理世界的感知和自主決策能力。
大模型在處理任務時存在局限性,它們主要處理文本領域的任務,無法與物理和社會環(huán)境進行互動。這意味著像ChatGPT這樣的模型并不能真正“理解”語言的含義,因為它們沒有身體來體驗物理空間。大模型也不是自主的,需要人類明確定義每個任務,就像鸚鵡只能模仿被訓練過的話語一樣。真正的自主智能應該能夠自主完成比現(xiàn)有AI更智能的任務,而當前的AI系統(tǒng)尚不具備這種潛力。
盡管ChatGPT已經(jīng)在不同文本數(shù)據(jù)語料庫上進行了大規(guī)模訓練,包括隱含人類價值觀的文本,但它并不具備理解或與人類價值保持一致的能力,缺乏道德指南針。然而,這并未阻止科技巨頭對大模型的推崇。OpenAI和谷歌等公司將大模型視為邁向AGI的關鍵一步。
根據(jù)OpenAI提出的AGI五級標準,當前AI技術正從L2“推理者”階段向L3“智能體”階段躍遷。2025年被認為是智能體應用爆發(fā)的一年,我們已經(jīng)看到ChatGPT、DeepSeek、Sora等應用開始普及,融入人們的生活。
但通往AGI的道路并非一帆風順,大模型偶爾出現(xiàn)的“幻覺輸出”暴露出當前系統(tǒng)對因果關系的理解局限。自動駕駛汽車在面對極端場景時的決策困境,也折射出現(xiàn)實世界的復雜性與倫理悖論。
要實現(xiàn)AGI,大模型需要經(jīng)歷單模態(tài)到多模態(tài),再到世界模型的演進。當前階段是多模態(tài)融合階段,如GPT-4V可以理解輸入的文字與圖像,Sora可以根據(jù)輸入的文字、圖像與視頻生成視頻。然而,現(xiàn)階段的多模態(tài)融合還不徹底,“理解”與“生成”兩個任務是分開的,導致GPT-4V理解能力強但生成能力弱,而Sora生成能力強但理解能力有時較差。
多模態(tài)模型能夠處理和理解不同模態(tài)的數(shù)據(jù),如圖像、文本、音頻和視頻,提供比單一模態(tài)更全面、豐富的信息表達。模擬動態(tài)環(huán)境變化并做出預測和決策,也需要強大的多模態(tài)生成能力。人與現(xiàn)實世界的交互涉及多種模態(tài)信息,因此AI必須具備多模態(tài)理解能力。
多模態(tài)模型的研究途徑包括對齊、融合、自監(jiān)督和噪聲添加。這些技術結合使用,使多模態(tài)模型在處理復雜的現(xiàn)實世界數(shù)據(jù)方面表現(xiàn)出強大能力。它們能夠理解和生成多模態(tài)數(shù)據(jù),模擬和預測環(huán)境變化,幫助智能體做出更精確和有效的決策。
微軟近日開源的多模態(tài)模型Magma就是一個例子,它不僅具備跨數(shù)字、物理世界的多模態(tài)能力,還能推測視頻中人物或物體的意圖和未來行為。階躍星辰的兩款Step系列多模態(tài)大模型已與吉利汽車星睿AI大模型完成深度融合,推動AI技術在智能座艙、高階智駕等領域的普及應用。
然而,多模態(tài)在發(fā)展過程中仍面臨數(shù)據(jù)獲取和處理、模型設計和訓練的復雜性,以及模態(tài)不一致和不平衡等挑戰(zhàn)。多模態(tài)學習需要收集和處理來自不同源的數(shù)據(jù),這些數(shù)據(jù)可能具有不同的分辨率、格式和質(zhì)量,需要復雜的預處理步驟。獲取高質(zhì)量、標注精確的多模態(tài)數(shù)據(jù)成本高昂。
設計能夠有效處理和融合多種模態(tài)數(shù)據(jù)的深度學習模型比單模態(tài)模型更復雜。需要考慮如何設計合適的融合機制、平衡不同模態(tài)的信息貢獻,以及如何避免模態(tài)間的信息沖突等問題。同時,多模態(tài)模型的訓練過程也更為復雜和計算密集。
meta人工智能首席科學家楊立昆認為,目前的大模型路線無法通往AGI?,F(xiàn)有大模型雖然表現(xiàn)出色,但只是一種“統(tǒng)計建?!奔夹g,通過學習數(shù)據(jù)中的統(tǒng)計規(guī)律來完成任務,本質(zhì)上并不具備真正的“理解”和“推理”能力。他認為,“世界模型”更接近真正的智能。
世界模型試圖通過對視頻、音頻等媒體的模擬與補全,讓AI經(jīng)歷自主學習的過程,從而形成“常識”,并最終實現(xiàn)AGI。世界模型與多模態(tài)大模型的主要區(qū)別在于,世界模型主要通過傳感器直接感知外部環(huán)境信息,輸入數(shù)據(jù)以實時感知的外部環(huán)境為主;而多模態(tài)大模型則以圖片、文字、視頻、音頻等信息交互為主。
世界模型的發(fā)展面臨多方面的挑戰(zhàn),包括模擬環(huán)境動態(tài)及因果關系的能力、進行反事實推理的能力,以及物理規(guī)則的模擬能力。為了克服這些挑戰(zhàn),研究人員需要考慮更精確的物理引擎與計算模型,確保生成的場景遵循真實世界的物理定律。
評估世界模型性能的關鍵標準之一是泛化能力,強調(diào)數(shù)據(jù)外推而非僅數(shù)據(jù)內(nèi)插。例如,學習得到的世界模型能否想象罕見的駕駛事件,要求模型不僅要記憶訓練數(shù)據(jù),還要發(fā)展對駕駛原理的深刻理解。
通過在模型訓練過程中加入更多真實場景的實時動態(tài)數(shù)據(jù),可以讓AI更好地理解三維世界的空間關系、運動行為和物理規(guī)律,從而實現(xiàn)對物理世界的洞察和理解。AGI的到來或許不會像奇點理論預言的那樣突然,而是在數(shù)據(jù)洪流的沖刷下逐漸顯現(xiàn)。
AI的未來并非一個固定終點,而是人類與技術共同書寫的敘事。它可能是工具、伙伴、威脅,或是超越想象的形態(tài)。關鍵問題或許不在于“AI的盡頭是什么”,而在于“人類希望以何種價值觀引導AI的發(fā)展”。答案取決于我們今天的決策與責任。