10月28日消息,近日,由聲網(wǎng)和 RTE 開發(fā)者社區(qū)聯(lián)合主辦的 RTE2024第十屆實時互聯(lián)網(wǎng)大會在京舉行。聲網(wǎng)創(chuàng)始人兼 CEO 趙斌、Lepton AI 創(chuàng)始人兼 CEO 賈揚清、聲網(wǎng)首席科學(xué)家、CTO 鐘聲分別帶來主題演講。
趙斌分享了聲網(wǎng)十年以來專注實時互動行業(yè)的深刻洞察,以及他對 RTE 在生成式 AI 時代下未來發(fā)展的趨勢判斷。賈揚清則站在 AI 基礎(chǔ)設(shè)施的視角下,分享了他對 AI 應(yīng)用、云、和 GPU 算力云技術(shù)的獨到觀點。鐘聲的主題演講聚焦在對實時 AI 基礎(chǔ)設(shè)施的探討上,并分享了 AI 與 RTE 結(jié)合的前沿技術(shù)實踐。
趙斌認為,這一趨勢主要體現(xiàn)在四個層面:終端、軟件、云和人機界面。在終端上,大模型能力將驅(qū)動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化。在軟件上,所有的軟件都可以、也將會通過大模型重新實現(xiàn),并從 Software with AI 發(fā)展至 AI Native Software 。在云的層面,所有云都需要具備對大模型訓(xùn)練和推理的能力,AI Native Cloud 將成為主流。人機界面的主流交互方式也將從鍵盤、鼠標、觸屏變成自然語言對話界面(LUI)。
隨著生成式 AI 成為下個時代 IT 行業(yè)進化的主題,RTE 也成為了多模態(tài)應(yīng)用和基礎(chǔ)設(shè)施中一個關(guān)鍵的部分。10月初,聲網(wǎng)的兄弟公司 Agora 作為語音 API 合作者,出現(xiàn)在了OpenAI 發(fā)布的 Realtime API 公開測試版中。
在此次大會中,趙斌表示,聲網(wǎng)與 MiniMax 正在打磨中國第一個Realtime API。趙斌也展示了聲網(wǎng)基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中,人與智能體輕松流暢的進行實時語音對話。當(dāng)人類打斷智能體并提出新的疑問時,智能體也能夠非常靈敏的快速反應(yīng),實現(xiàn)了與人類自然流暢的對話。
趙斌也在分享中宣布,聲網(wǎng)正式發(fā)布了 RTE+AI 能力全景圖。在全景圖中,聲網(wǎng)從實時 AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實時多模態(tài)對話式 AI 解決方案、RTE+AI 應(yīng)用場景五個維度,清晰呈現(xiàn)了當(dāng)下 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。生成式 AI 與RTE 結(jié)合帶來的場景創(chuàng)新,將成為下一個十年的主題。
針對 AI 應(yīng)用,賈揚清指出,今天是最容易建設(shè) AI 應(yīng)用的時代,越是簡潔的 AI 模型思路越容易產(chǎn)生優(yōu)秀的效果。AI 能力加持后,應(yīng)用本身的開發(fā)范式也在從數(shù)據(jù)、模型、應(yīng)用構(gòu)建三個維度發(fā)生變化,未來的應(yīng)用開發(fā)將從“以流程為中心” 轉(zhuǎn)化為“以模型為中心”。
除了 AI 應(yīng)用層面,傳統(tǒng)的云架構(gòu)也在大模型、GPU 優(yōu)化等需求的催化下發(fā)生了翻天覆地的變化。賈揚清認為,AI 是云的第三次浪潮,繼 Web 云、數(shù)據(jù)云之后,AI 將成為第三朵云。
企業(yè)在構(gòu)建自己的大模型自主性上,到底該如何決策?賈揚清強調(diào),企業(yè)應(yīng)該將開源和閉源大模型都納入考慮范疇。采用開源模型+定制化的優(yōu)勢不僅僅是具備更強的可定制性,還有更低的成本以及更高的速度,開源+定制化能夠達到比閉源模型更好的效果。
在已經(jīng)到來的 AI 時代,現(xiàn)代化基礎(chǔ)設(shè)施應(yīng)該是什么樣?聲網(wǎng)首席科學(xué)家、CTO鐘聲提到,大量用戶設(shè)備往往會先接入邊緣節(jié)點、并在需要的時候再接入云端,數(shù)據(jù)將在端設(shè)備、邊緣節(jié)點和云之間往返傳遞。AI 時代的數(shù)據(jù)中心會包含以大量異構(gòu)算力組成的超級計算集群(SuperScaler)。但是,停留在僅依賴超級計算集群的系統(tǒng)是遠遠不夠的,萬億參數(shù)、多模態(tài)引入所造成的高昂計算成本、缺乏機制約束的數(shù)據(jù)隱私保護、幾秒鐘的延時都將阻礙大模型的普惠,極大地限制其在很多場景下的應(yīng)用。
鐘聲認為,分布式端邊云結(jié)合的 AI 系統(tǒng)將有效解決這些痛點。這個系統(tǒng)將把計算和傳輸在各節(jié)點做合理地配置,系統(tǒng)會智能地以自適應(yīng)的方式把任務(wù)編排到端與邊上執(zhí)行,非常有效地降低了成本,同時提供了更低延時(低于1秒級的響應(yīng)速度)、更高網(wǎng)絡(luò)抖動容忍度、優(yōu)秀的抗噪聲能力,并且完整的用戶數(shù)據(jù)只會保留在端上。
分享過程中,鐘聲還在大會現(xiàn)場演示了一個由STT、LLM、TTS 、RTC四個模塊組成的端邊結(jié)合實時對話AI智能體。大會現(xiàn)場觀眾規(guī)模超過千人,面臨復(fù)雜的噪聲、回聲、麥克風(fēng)延遲等困難,但智能體與鐘聲的互動仍然表現(xiàn)出了優(yōu)秀的對話能力,在普通5G網(wǎng)絡(luò)環(huán)境下實現(xiàn)了流暢、自然、有趣的雙向?qū)崟r對話,對話模型的極快響應(yīng)速度、及時打斷與被打斷的自然程度、對抗噪聲能力、遵循語音指令做等待能力都非常突出。
最后,Lepton AI 創(chuàng)始人兼 CEO 賈揚清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人&CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎(chǔ)設(shè)施到 AI 商業(yè)化落地的機會與挑戰(zhàn)。