文|AI大模型工場,作者|參商,編輯|星奈
今天凌晨,AI教母李飛飛創(chuàng)立的World Labs推出第一個重磅成果:世界模型,一張單個圖像便可生成3D世界。
此消息一出,業(yè)界炸開了鍋。李飛飛也第一時間在X上宣傳:
在大家還在2D視頻生成賽道卷生卷死的時候,World Labs已經進入Next Level,AI生成3D世界。
據(jù)World Labs官方介紹,目前大多數(shù)GenAI 工具都制作圖像或視頻等 2D 內容,存在缺乏控制和一致性的問題,而3D生成則可以提高控制和一致性,其模型可以預測3D幾何圖形,填充場景中看不到的部分。這將改變我們制作電影、游戲、模擬器和物理世界的其他數(shù)字表現(xiàn)形式的方式。
一、一張圖生成一個世界
輸入任意一張圖,World Labs還你一個世界。
比如,丟給World Labs一張左邊的圖片,它能給你一個這樣的3D世界:
你可以通過WASD建控制3D世界得上下左右視角,還可以拖動鼠標逛這個世界的每一個角落。
同時,官方也給了很多玩法。
相機效果
生成場景后,我們可以使用虛擬攝像機進行實時渲染。通過精確控制虛擬攝像機的各項參數(shù),可以實現(xiàn)各種藝術攝影效果。
例如,我們可以模擬淺景深效果,使得只有距離攝像機一定距離的物體才清晰對焦,從而突出主體并增強畫面的層次感。
還可以模擬推移變焦效果,即同時調整攝像機的位置和視野,創(chuàng)造出獨特的視覺沖擊力和動態(tài)感。
3D效果
World Labs官方介紹,大多數(shù)生成模型是預測像素。而生成3D場景則不僅限于像素層面的表現(xiàn),其優(yōu)勢更多地體現(xiàn)在:
持久的現(xiàn)實:一旦生成了一個世界,它就會一直存在。如果你把視線移開并回來,場景不會在你的背后改變。
實時控制:生成場景后,可以實時移動場景??梢葬溽嘤诨ǘ涞募毠?jié),或者偷看角落看看揭示了什么。
符合物理規(guī)則:生成的世界遵循現(xiàn)實世界的基本物理規(guī)則。它們具有堅實感和深度感,與某些 AI 生成的視頻的夢幻般的性質形成鮮明對比。
World Labs生成的3D場景通過深度貼圖技術,使得其中每個像素都按其與相機的距離著色,更具空間感。
不僅如此,World Labs還可以添加各種動效,比如聲效、燈光等,構建3D場景的交互式效果,瞬間進入“真賽博空間”。
走進繪畫世界
World Labs 團隊還展示了他們從梵高、霍珀、修拉和康定斯基等作品中生成了世界。
創(chuàng)意工作流程
除了以上玩法外,3D生成還可以與其他AI工具組合,比如Midjourney、Runway、Suno等,這將極大地改變創(chuàng)作者的工作流程。
例如,可以先使用文生圖模型生成圖像,不同的模型生成的圖像風格不盡相同,而World Labs可以繼承這些風格。
比如我們輸入相同的Prompt,可以得到不同風格得3D世界:
一間充滿活力的卡通風格青少年臥室,床上鋪著五顏六色的毯子,雜亂的書桌上放著一臺電腦,墻上貼著海報,運動裝備散落。一把吉他靠在墻上,中間是一塊舒適的圖案地毯。窗外的光線為房間增添了溫暖、年輕的氛圍。
看到現(xiàn)在是不是已經迫不及待想上手試試,不過遺憾的是,目前還在內測中,可以申請候補名單。
附上地址: https://forms.gle/tkfW7yMqMsCXWw4F7
二、3個月估值10億,空間智能時代才剛剛開始
今年4月,被稱為“AI教母”的斯坦福大學教授李飛飛,帶隊成立World Labs(空間智能)。這是她2018年從谷歌離職重返斯坦福后,第一次直接下場參與的創(chuàng)業(yè)項目。
World Labs是一家專注于打造世界模型進行3D世界的感知、生成和互動的AI初創(chuàng)公司。
在短短3個月的時間里,World Labs就進行了兩輪融資,融資總額超過2.3億美元,估值突破10億美元,投資方包括硅谷知名風投a16z和AI基金Radical Ventures。
李飛飛認為,未來AI的核心在于“空間智能”,即讓AI具備感知、推理并與3D世界交互的能力,這是實現(xiàn)更高級AI應用的關鍵。
在她看來,視覺在人類理解和與世界互動中占據(jù)核心位置,AI發(fā)展應優(yōu)先提升視覺能力,超越語言模型的局限,讓AI從“大語言模型”過渡到“大世界模型”,以應對更復雜的3D環(huán)境感知和交互需求。
也因此,她希望通過 World Labs 推動這一領域的發(fā)展,實現(xiàn)更高層次的空間智能。
World Labs堪稱超級明星團隊,除了李飛飛外,還有李飛飛徒弟,在實時風格轉換和超分辨率領域有突出貢獻的賈斯汀·約翰遜、神經輻射場(NeRF)提出者本·米爾登霍爾以及3D重建專家克里斯托夫·拉斯納。
盡管World Labs在技術研發(fā)和團隊配置上具有領先優(yōu)勢,此次發(fā)布的最新成果也驚艷眾人,但面臨的挑戰(zhàn)也不少。
首先,從技術角度來看,構建一個具有高精度的3D世界理解和生成模型需要大量的數(shù)據(jù)和計算資源,同時還需要解決實時交互的技術難題。
在3D生成賽道,并不是一片藍海,除了World Labs外,英偉達、meta等多家公司也在積極布局物理AI與3D世界的相關技術,市場競爭激烈。
再有,在商業(yè)化路徑上,盡管LWM的潛力巨大,但如何找到合適的商業(yè)模式,尤其是平衡研發(fā)投入與市場回報,是創(chuàng)業(yè)公司面臨的共同難題。
如果找不到盈利模式,能活下去的概率很小,畢竟已經不少AI領域的明星初創(chuàng)公司賣身大廠了。
不過,不得不承認的是,在潮水的變化面前,空間智能,一切才剛剛開始。