在科技界的最新動態(tài)中,群核科技,被譽(yù)為杭州“六小龍”之一的創(chuàng)新企業(yè),在GTC2025全球大會上悄然發(fā)布了一款名為SpatialLM的空間理解模型,引起了國際技術(shù)界的廣泛關(guān)注。
SpatialLM是一款基于大語言模型的創(chuàng)新框架,它能夠從視頻輸入中精準(zhǔn)捕捉并理解對應(yīng)的空間點(diǎn)云數(shù)據(jù)。通過復(fù)雜的推理過程,該模型能夠?qū)c(diǎn)云數(shù)據(jù)進(jìn)行深入的場景描述,并將分析結(jié)果以自然語言的形式直觀呈現(xiàn)。這一突破性的技術(shù),不僅提升了機(jī)器對物理世界的理解能力,還拓寬了人工智能技術(shù)的應(yīng)用邊界。
SpatialLM的工作原理令人印象深刻,其推出后迅速在國際社交媒體和技術(shù)論壇上獲得了熱烈反響。在HuggingFace趨勢榜上,SpatialLM迅速攀升至第二位,與來自杭州的Deepseek和通義千問Qwen2.5-Omni一同占據(jù)了榜單的前三甲,超越了英偉達(dá)和谷歌等科技巨頭的模型。
群核科技的創(chuàng)始人黃曉煌在接受國際知名媒體彭博社采訪時坦言,開源SpatialLM的目的是為了加速具身智能技術(shù)的突破。這一舉動不僅彰顯了群核科技在技術(shù)創(chuàng)新上的自信,也體現(xiàn)了其推動行業(yè)發(fā)展的責(zé)任感。
與傳統(tǒng)的大語言模型相比,SpatialLM在理解物理世界的幾何與空間關(guān)系方面取得了顯著進(jìn)展。它不僅突破了以往模型的局限,還賦予了機(jī)器類似人類的空間認(rèn)知和解析能力。目前,SpatialLM已在HuggingFace、GitHub和魔搭社區(qū)等平臺向全球開發(fā)者開放,為具身智能領(lǐng)域的企業(yè)和科研機(jī)構(gòu)提供了一個強(qiáng)大的基礎(chǔ)訓(xùn)練框架。
SpatialLM在輸入方式上更具通用性。與meta此前發(fā)布的依賴特定設(shè)備的Scene模型不同,SpatialLM能夠接收普通相機(jī)和手機(jī)拍攝的視頻作為輸入,從而大大降低了使用門檻。SpatialLM還使用大語言模型進(jìn)行輸出,能夠生成對3D場景的自然語言描述,并有望在未來支持原生自然語言與場景數(shù)據(jù)的交互。
更重要的是,SpatialLM能夠認(rèn)知和理解物理世界中的空間信息,并進(jìn)行結(jié)構(gòu)化描述。這得益于群核科技在物理空間模擬技術(shù)領(lǐng)域的深厚積累。過去十余年間,群核科技積累了海量的三維數(shù)據(jù)和空間認(rèn)知數(shù)據(jù),這些數(shù)據(jù)為SpatialLM的訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。因此,SpatialLM不僅具備創(chuàng)建物理正確的空間場景的能力,還能夠?yàn)榫呱碇悄芷髽I(yè)提供高效、低門檻的訓(xùn)練解決方案。