在北京市大興區(qū),一場(chǎng)聚焦全球化與人工智能的盛會(huì)——2024T-EDGE創(chuàng)新大會(huì)暨鈦媒體財(cái)經(jīng)年會(huì)于12月6日至7日成功舉辦。此次大會(huì)以“全力擁抱全球化,全力投入AI”為主題,匯聚了全球科技和商業(yè)領(lǐng)域的頂尖領(lǐng)袖,共同探索企業(yè)全球化增長(zhǎng)的新格局、新趨勢(shì),以及AI對(duì)全球各行業(yè)產(chǎn)生的深遠(yuǎn)影響。
在影視制作領(lǐng)域,視頻生成一直是一項(xiàng)極具挑戰(zhàn)性的任務(wù),特別是人物的面部、嘴型、表情和肢體動(dòng)作的精準(zhǔn)捕捉。即便是微小的動(dòng)作位移或差異,都可能導(dǎo)致畫面失真。要達(dá)到好萊塢級(jí)別的影視效果,往往需要投入大量的人力和財(cái)力。然而,隨著生成式AI技術(shù)的迅猛發(fā)展,這一難題正在被逐步攻克。
在2023年8月,知名視覺效果工作室和AI技術(shù)初創(chuàng)公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI視效產(chǎn)品LipDub,這款產(chǎn)品專為解決影視配音中口型不同步的問題而設(shè)計(jì)。據(jù)透露,LipDub將有助于好萊塢電影公司和廣告商在提升觀眾收視率和參與度方面實(shí)現(xiàn)質(zhì)的飛躍。
MARZ的AI研究團(tuán)隊(duì)由世界知名的特拉維夫大學(xué)計(jì)算機(jī)科學(xué)系教授Danny Cohen-Or領(lǐng)導(dǎo),他同時(shí)也是ACM研究員和Isaias Nizri視覺計(jì)算主席。Cohen-Or教授與他的長(zhǎng)期合作者、西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amiri共同領(lǐng)導(dǎo)了MARZ的AI研究。他們此前已成功開展了Vanity AI的研究,這是MARZ開發(fā)的第一個(gè)AI解決方案,能夠利用AI技術(shù)對(duì)人物面部皺紋進(jìn)行美妝處理,達(dá)到年輕化的效果。Vanity AI自2023年1月推出以來,已在45部好萊塢作品中得到應(yīng)用。
在12月7日的演講中,LipDub的CEO Jonathan Bronfman詳細(xì)闡述了LipDub的技術(shù)實(shí)現(xiàn)原理,并展示了該技術(shù)在不同行業(yè)和場(chǎng)景中的應(yīng)用解決方案。Bronfman指出,當(dāng)前生成式AI技術(shù)已經(jīng)發(fā)展到文生圖、圖生視頻的階段。對(duì)于營(yíng)銷人員或內(nèi)容創(chuàng)作者而言,借助生成式AI技術(shù),他們幾乎可以在10分鐘內(nèi)將某個(gè)想法轉(zhuǎn)化為視頻,從而快速驗(yàn)證視頻效果。
Bronfman認(rèn)為,視頻內(nèi)容生成的主要挑戰(zhàn)在于速度慢和成本高。然而,隨著視頻內(nèi)容生成效率的提升,用戶現(xiàn)在可以在幾分鐘內(nèi)生成一段視頻,并且同一段視頻素材可以反復(fù)使用。這極大地降低了視頻制作的門檻,使得更多人能夠參與到視頻內(nèi)容的創(chuàng)作中來。
LipDub的口形同步技術(shù)(Lip Sync)采用了三種方案:一是直接對(duì)視頻進(jìn)行翻譯,如將英文演講視頻翻譯成中文,并調(diào)整口型以匹配中文發(fā)音;二是通過定制虛擬形象進(jìn)行對(duì)話調(diào)整,這在廣告場(chǎng)景中尤為有用,因?yàn)槠放圃谌蚋鞯乜赡苡胁煌漠a(chǎn)品名稱表達(dá),但希望使用同一支商業(yè)廣告;三是通過一段語(yǔ)料為角色量身定制對(duì)話,即針對(duì)同一件事物,根據(jù)不同的受眾群體生成不同的個(gè)性化表達(dá)。
Bronfman強(qiáng)調(diào),好萊塢影視畫面的要求不僅僅是口型同步,還需要?jiǎng)討B(tài)且富有飽滿情緒的表演。因此,LipDub在跨語(yǔ)言轉(zhuǎn)換過程中,不僅要確保口型同步,還要能夠恰當(dāng)?shù)赜昧硪环N語(yǔ)言傳遞源語(yǔ)言中所表達(dá)的情感。為了實(shí)現(xiàn)這一目標(biāo),LipDub采用了Language Agnostic模型,以實(shí)現(xiàn)跨語(yǔ)言無(wú)關(guān)特征學(xué)習(xí)。
Bronfman在演講中還透露,MARZ源自Monsters Aliens Robot Zombies的英文縮寫,是一家專門制作視覺特效的工作室,成立于2018年。他們?cè)鵀椤断伻恕?、《驚奇少女》等好萊塢影片和影視劇提供特效,并與迪士尼、奈飛、Amazon Prime等多家流媒體平臺(tái)建立了合作關(guān)系。在2019年,MARZ明確了AI可以加速發(fā)展,為他們提供在成本、時(shí)間和規(guī)模上的競(jìng)爭(zhēng)力。
實(shí)際上,MARZ開發(fā)的第一款A(yù)I產(chǎn)品并不是LipDub,而是2D美妝產(chǎn)品Vanity AI。該產(chǎn)品可以通過創(chuàng)建一張單幀圖片,然后將其他底片插入使其鮮活起來。MARZ團(tuán)隊(duì)一開始就非常擅長(zhǎng)對(duì)人物面部表情的刻畫。在注意到奈飛平臺(tái)上韓劇《魷魚游戲》在歐美地區(qū)爆火但配音口型不匹配的問題后,他們開始思考如何讓口型同步起來,提升觀眾的觀看體驗(yàn)。
經(jīng)過不斷努力,MARZ將口型同步技術(shù)用在了好萊塢電影配音中,并一直引領(lǐng)著這一技術(shù)的發(fā)展。在演講的示例中,可以看到他們將佛蘭芒語(yǔ)的電影翻譯成英文,并使用了LipDub技術(shù)來實(shí)現(xiàn)口型同步。在為好萊塢電影制作過程中,他們還解決了大量技術(shù)難點(diǎn),如擺姿勢(shì)、換鏡頭、換燈光等,以實(shí)現(xiàn)4K高分辨率。
除了好萊塢電影,LipDub還擴(kuò)展到了廣告、在線教育、企業(yè)宣傳片等多個(gè)領(lǐng)域,并專注于對(duì)視頻質(zhì)量有高要求的客戶群體。在在線教育場(chǎng)景中,LipDub營(yíng)造出了一種真實(shí)的聽眾體驗(yàn),讓人感覺就像是說話人自己的語(yǔ)言一樣。
Bronfman還展示了LipDub的兩種應(yīng)用模式:初級(jí)模式和高級(jí)模式。在高級(jí)模式中,開發(fā)人員需要先對(duì)項(xiàng)目進(jìn)行命名并選擇源語(yǔ)言和目標(biāo)語(yǔ)言,然后上傳視頻并添加訓(xùn)練素材。經(jīng)過自動(dòng)檢測(cè)打標(biāo)后,上傳音頻與對(duì)應(yīng)角色進(jìn)行匹配,最終生成視頻。而在初級(jí)模式中,用戶只需上傳視頻并進(jìn)行預(yù)處理后,點(diǎn)擊創(chuàng)建配音并選擇自己的音頻素材或內(nèi)置翻譯功能,即可一鍵生成配音效果。
最后,Bronfman展示了LipDub正在開發(fā)的新功能——替換對(duì)話框(Replace Dialogue)。這一功能類似于文本到語(yǔ)音的轉(zhuǎn)換,但如果輸出的結(jié)果不符合預(yù)期怎么辦?比如用戶想修改一個(gè)單詞,但跨語(yǔ)言轉(zhuǎn)換會(huì)有細(xì)微差別。為了確保能夠恰當(dāng)?shù)赜昧硪环N語(yǔ)言傳遞情感,LipDub正在不斷優(yōu)化這一功能。