近期,國內(nèi)AI視頻生成領(lǐng)域的創(chuàng)新企業(yè)愛詩科技宣布成功完成A2至A4輪融資,融資總額接近3億元人民幣。本輪融資由螞蟻集團、北京市人工智能產(chǎn)業(yè)投資基金、國科投資以及光源資本共同投資。
隨著2024年步入尾聲,回顧這一年,OpenAI旗下的Sora發(fā)布已近一年。那么,中國的視頻生成創(chuàng)業(yè)公司表現(xiàn)如何呢?面對這一疑問,愛詩科技的創(chuàng)始人王長虎表示,公司已經(jīng)實現(xiàn)了年初設(shè)定的目標。
自Sora預覽版發(fā)布后,王長虎曾預計,愛詩科技將在3至6個月內(nèi)達到Sora當前的水平。12月,Sora正式面世,盡管在產(chǎn)品和交互層面帶來了不少創(chuàng)新功能,但市場反饋顯示,Sora的實際效果并未如預期般驚艷。相比之下,愛詩科技的核心產(chǎn)品PixVerse在中文測試榜單SuperClue中,已經(jīng)位居文生視頻榜單的首位,并且在全球市場中,PixVerse也被列為AI視頻生成應用的第一梯隊產(chǎn)品。
自創(chuàng)業(yè)以來,愛詩科技在兩年內(nèi)取得了顯著的成果。PixVerse于2024年1月上線,首月訪問量即超過120萬。相比之下,硅谷的明星AI視頻生成初創(chuàng)公司Pika,上線后三個月的月訪問量約為200萬。一年后,PixVerse的全球用戶數(shù)已超過1200萬,月活躍用戶數(shù)接近600萬,并且公司已經(jīng)實現(xiàn)了規(guī)?;杖搿?/p>
PixVerse的快速增長得益于其底層視頻模型的多次更新。在2024年,愛詩科技經(jīng)歷了三次重大迭代,包括1月的視頻模型V1和7月的V2模型,后者是國內(nèi)首批發(fā)布的對標Sora等DiT架構(gòu)路線的視頻大模型。在清晰度、一致性、物理規(guī)律以及指令跟隨方面,PixVerse均有了顯著提升。10月底,最新V3模型的上線更是引發(fā)了社交媒體上的熱潮,TikTok、抖音和小紅書等平臺上爆火的“毒液”特效,總曝光量超過億次,多位素人博主使用該特效拍攝的視頻獲得了超百萬的播放量。
王長虎表示,“毒液”特效的爆火與PixVerse的底層模型能力密切相關(guān)。自2024年3月起,愛詩科技推出了全球首個Character2Video(人物一致性)模型,并不斷迭代解決方案。通過在擴散模型(DiT)生成過程中對ID進行精準約束,視頻中的人物形象能夠與背景保持高度一致,提升了用戶體驗。
過去一年中,生成式視頻領(lǐng)域的難點依然集中在一致性、物理規(guī)律等方面,技術(shù)難點尚待突破。王長虎坦言,當前行業(yè)的技術(shù)路線尚未收斂。與此同時,行業(yè)內(nèi)對AI視頻的認知和期待已變得更加理性。例如,Sora發(fā)布時能夠生成長達1分鐘的視頻,但真正將視頻長度拉長后,生成視頻的一致性、清晰度等方面可能不盡如人意。面對不滿意的結(jié)果,用戶頻繁點擊“重新生成”,反而影響了用戶體驗。
因此,當前AI視頻領(lǐng)域的努力方向已從比拼時長轉(zhuǎn)向視頻內(nèi)容的一致性、清晰度、運動幅度等更多維度。王長虎指出,為了保證用戶體驗和可用性,單純追求視頻時長并無太大意義。PixVerse目前支持生成10秒以內(nèi)的高質(zhì)量視頻,清晰度最高可達4K,已達到商用級別。相比之下,去年行業(yè)普遍能夠做到的高質(zhì)量AI視頻停留在5秒內(nèi),且清晰度普遍在1080p以下。
PixVerse還在不斷更新產(chǎn)品及模型。11月,PixVerse發(fā)布的新功能允許用戶上傳視頻,并通過Prompt或選擇特效進行視頻延長生成。12月,PixVerse的下一個模型V3.5版本已進入內(nèi)測階段,生成視頻速度可縮短至30秒以內(nèi),提示詞響應及運動控制能力顯著提升,即將正式上線。
這一趨勢已有跡象可循。王長虎說:“過去一年,我們經(jīng)歷的重要變化之一是用戶從專業(yè)創(chuàng)作者擴展到C端用戶群體?!边@促使愛詩科技在產(chǎn)品功能上不斷降低門檻。在PixVerse中,已內(nèi)置了數(shù)十種特效模板,用戶只需輸入一張圖片即可生成視頻,無需自己輸入或思考如何寫Prompt。
進入2024年,初創(chuàng)公司面臨的另一個重要問題是如何應對巨頭的競爭。AI視頻生成領(lǐng)域已涌現(xiàn)出眾多玩家,包括快手、字節(jié)跳動、阿里巴巴和騰訊等巨頭均在2024年推出了相應的AI視頻模型。對此,王長虎持樂觀態(tài)度。他認為,盡管發(fā)展迅速,但當前視頻生成賽道仍處于GPT-2到GPT-3的階段,尚有許多技術(shù)難點需要突破,這為初創(chuàng)公司提供了機會。此前,愛詩科技的核心團隊以少于競爭對手十倍以上的體量攻克了不少業(yè)界技術(shù)難題。