在科幻電影中,人工智能常常展現(xiàn)出超越人類智慧的特性,從《2001:太空漫游》中的HAL 9000到《流浪地球》中的Moss,這些角色以其高效、理性和邏輯縝密給人留下深刻印象。如今,隨著大語言模型和深度學習技術(shù)的快速發(fā)展,人們對于實現(xiàn)類似Moss這樣的“全能助手”級人工智能充滿了期待。然而,要跨越這一鴻溝,實現(xiàn)AI在復(fù)雜場景中的快速理解和應(yīng)對,仍面臨諸多挑戰(zhàn)。
在機器學習的廣泛應(yīng)用中,數(shù)據(jù)分類、預(yù)測、規(guī)劃與生成等任務(wù)均需要對復(fù)雜多變的情境進行理解和應(yīng)對。然而,傳統(tǒng)方法往往依賴于海量的數(shù)據(jù)和龐大的計算資源,在處理高維度和大規(guī)模數(shù)據(jù)時顯得力不從心。為了解決這一難題,Karl Friston在arxiv上發(fā)表了一篇題為“Renormalising generative models:From pixels to planning: scale-free active inference”的論文,提出了一種新的解決方案。
Friston通過主動推理(Active Inference)構(gòu)建了尺度不變的生成模型(Renormalising Generative Model, RGM),將分類、預(yù)測與規(guī)劃等問題轉(zhuǎn)化為推理問題,并通過最大化模型證據(jù)的統(tǒng)一框架,有效解決了視覺數(shù)據(jù)、時序數(shù)據(jù)分類及強化學習中的多種挑戰(zhàn)。該框架引入的重整化群技術(shù)能夠高效處理大規(guī)模數(shù)據(jù)集,為AI在復(fù)雜場景中的應(yīng)用提供了新的可能。
主動推理是一種基于當前觀察現(xiàn)象來預(yù)測未來的模型。它不僅被動等待事件發(fā)生,還通過主動觀察來推斷事件的原因。在網(wǎng)球比賽中,球員需要根據(jù)對手的動作和策略來做出選擇,這種“對未來有所猜測但不可確定的程度”被稱為自由能。通過觀察和行動,球員可以降低這種不確定性,從而做出最佳決策。RGM正是利用這種原理,通過最小化預(yù)期自由能來實現(xiàn)對復(fù)雜場景的理解和應(yīng)對。
RGM的工作流程包括策略選擇、隱藏狀態(tài)生成和結(jié)果生成。通過預(yù)期自由能的softmax函數(shù)選擇策略,生成隱藏狀態(tài)序列,并最終通過模態(tài)生成最終結(jié)果。這一過程中,模型不僅關(guān)注當前狀態(tài),還通過跨時間和空間的多層次描述來應(yīng)對復(fù)雜場景。
在圖像和視頻處理方面,RGM通過量化、分塊處理和奇異值分解等方法實現(xiàn)圖像壓縮和重建。以MNIST數(shù)字分類問題為例,RGM通過對圖像進行預(yù)處理和快速結(jié)構(gòu)學習,生成具有多個層次的模型,并通過主動學習優(yōu)化參數(shù),實現(xiàn)了高效的分類和識別。這種方法不僅適用于圖像分類,還可用于視頻生成和聲音處理。
在聲音處理方面,RGM將像素替換為頻率和時間上的體素,通過連續(xù)小波變換和逆變換實現(xiàn)聲音的壓縮和復(fù)現(xiàn)。以鳥叫聲和爵士音樂為例,RGM成功實現(xiàn)了聲音的壓縮和生成,展示了其在音頻數(shù)據(jù)處理方面的潛力。
RGM還可應(yīng)用于規(guī)劃推理(強化學習),幫助智能體在不確定性下進行決策。與強化學習不同,主動推理基于自由能原理進行決策,通過最小化預(yù)期自由能來選擇最佳行動方案。在Atari類游戲中的應(yīng)用表明,RGM能夠從隨機動作的結(jié)果序列中自動組裝出能夠以專家水平進行游戲的智能體。
Friston及其同事的研究表明,RGM在多種場景下均表現(xiàn)出色,通過最小化預(yù)期自由能來實現(xiàn)高效的數(shù)據(jù)處理和決策。這一成果不僅為人工智能的發(fā)展提供了新的思路和方法,還為物理學、生物學和計算機科學等多個領(lǐng)域的研究提供了新的啟發(fā)。隨著技術(shù)的不斷進步,我們有望看到更加智能、高效的AI系統(tǒng)出現(xiàn)在我們的生活中。