杭州群核科技開源SpatialLM，空間理解模型引領(lǐng)具身智能新潮流

發(fā)布時間：2025-03-28 11:54 來源：鈦媒體APP 作者：趙云飛

在科技界的最新動態(tài)中，群核科技，被譽(yù)為杭州“六小龍”之一的創(chuàng)新企業(yè)，在GTC2025全球大會上悄然發(fā)布了一款名為SpatialLM的空間理解模型，引起了國際技術(shù)界的廣泛關(guān)注。

SpatialLM是一款基于大語言模型的創(chuàng)新框架，它能夠從視頻輸入中精準(zhǔn)捕捉并理解對應(yīng)的空間點(diǎn)云數(shù)據(jù)。通過復(fù)雜的推理過程，該模型能夠?qū)c(diǎn)云數(shù)據(jù)進(jìn)行深入的場景描述，并將分析結(jié)果以自然語言的形式直觀呈現(xiàn)。這一突破性的技術(shù)，不僅提升了機(jī)器對物理世界的理解能力，還拓寬了人工智能技術(shù)的應(yīng)用邊界。

SpatialLM的工作原理令人印象深刻，其推出后迅速在國際社交媒體和技術(shù)論壇上獲得了熱烈反響。在HuggingFace趨勢榜上，SpatialLM迅速攀升至第二位，與來自杭州的Deepseek和通義千問Qwen2.5-Omni一同占據(jù)了榜單的前三甲，超越了英偉達(dá)和谷歌等科技巨頭的模型。

群核科技的創(chuàng)始人黃曉煌在接受國際知名媒體彭博社采訪時坦言，開源SpatialLM的目的是為了加速具身智能技術(shù)的突破。這一舉動不僅彰顯了群核科技在技術(shù)創(chuàng)新上的自信，也體現(xiàn)了其推動行業(yè)發(fā)展的責(zé)任感。

與傳統(tǒng)的大語言模型相比，SpatialLM在理解物理世界的幾何與空間關(guān)系方面取得了顯著進(jìn)展。它不僅突破了以往模型的局限，還賦予了機(jī)器類似人類的空間認(rèn)知和解析能力。目前，SpatialLM已在HuggingFace、GitHub和魔搭社區(qū)等平臺向全球開發(fā)者開放，為具身智能領(lǐng)域的企業(yè)和科研機(jī)構(gòu)提供了一個強(qiáng)大的基礎(chǔ)訓(xùn)練框架。

SpatialLM在輸入方式上更具通用性。與meta此前發(fā)布的依賴特定設(shè)備的Scene模型不同，SpatialLM能夠接收普通相機(jī)和手機(jī)拍攝的視頻作為輸入，從而大大降低了使用門檻。SpatialLM還使用大語言模型進(jìn)行輸出，能夠生成對3D場景的自然語言描述，并有望在未來支持原生自然語言與場景數(shù)據(jù)的交互。

更重要的是，SpatialLM能夠認(rèn)知和理解物理世界中的空間信息，并進(jìn)行結(jié)構(gòu)化描述。這得益于群核科技在物理空間模擬技術(shù)領(lǐng)域的深厚積累。過去十余年間，群核科技積累了海量的三維數(shù)據(jù)和空間認(rèn)知數(shù)據(jù)，這些數(shù)據(jù)為SpatialLM的訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。因此，SpatialLM不僅具備創(chuàng)建物理正確的空間場景的能力，還能夠?yàn)榫呱碇悄芷髽I(yè)提供高效、低門檻的訓(xùn)練解決方案。

更多>同類內(nèi)容