重塑視頻會議NVIDIA Vid2Vid Cameo打造逼真的AI人臉說話動態(tài)

2021-06-28 09:23:01 作者：來源：CTI論壇評論：0 　點擊：

　　為了讓你在每次視頻通話中都能完美展現(xiàn)自己，在本周舉行的CVPR（國際計算機視覺與模式識別會議）上，由NVIDIA研究人員Ting-Chun Wang、Arun Mallya和Ming-Yu Liu共同撰寫發(fā)表的Vid2Vid Cameo論文提供了一個全新的解決方案。

　　疫情期間，線上視頻會議成為人們生活與工作溝通的重要方式。但是你是不是會遇到如下尷尬：剛起床，頭發(fā)凌亂、穿著睡衣，但是卻被老板拉上開會。

　　重塑視頻會議 NVIDIA Vid2Vid Cameo打造逼真的AI人臉說話動態(tài)

　　逼真的AI人臉說話動態(tài)

　　Vid2Vid Cameo是用于視頻會議的NVIDIA Maxine SDK背后的深度學習模型之一，它借助生成式對抗網(wǎng)絡（GAN），僅用一張人物2D圖像即可合成逼真的人臉說話視頻。

　　Vid2Vid Cameo只需兩個元素，即可為視頻會議打造逼真的AI人臉說話動態(tài)，這兩個元素分別是一張人物外貌照片和一段視頻流，它們決定了如何對圖像進行動畫處理。

　　要使用該模型，參與者需要在加入視頻通話之前提交一張參照圖像（真實照片或卡通頭像）。在會議期間，AI 模型將捕捉每個人的實時動作，并將其應用于之前上傳的靜態(tài)圖像。

　　也就是說，上傳一張穿著正裝的照片之后，與會人員即使頭發(fā)凌亂、穿著睡衣，也能在通話中以穿著得體工作服裝的形象出現(xiàn)，因為AI可以將用戶的面部動作映射到參照照片上。如果主體向左轉，則技術可以調整視角，以便參與者看上去是直接面對攝像頭。

　　除了可以幫助與會者展現(xiàn)出色狀態(tài)外，這項AI技術還可將視頻會議所需的帶寬降低10倍，從而避免抖動和延遲。它很快將在NVIDIA Video Codec SDK中作為AI Face Codec推出，為開發(fā)者提供經(jīng)過優(yōu)化的預訓練模型，以便在視頻會議和直播中實現(xiàn)視頻、音頻和增強現(xiàn)實效果。

　　更廣的應用空間

　　其實應用于視頻通話只是Vid2Vid Cameo的一個重要應用場景，其還可用于協(xié)助動畫師、照片編輯師和游戲開發(fā)者的工作。開發(fā)者已經(jīng)能采用Maxine AI效果，包括智能除噪、視頻升采樣和人體姿態(tài)估計。SDK支持免費下載，還可與NVIDIA Jarvis平臺搭配用于對話式AI應用，包括轉錄和翻譯。

　　模型基于NVIDIA DGX系統(tǒng)開發(fā)，使用包含18萬個高質量人臉說話視頻的數(shù)據(jù)集進行訓練。相應網(wǎng)絡學會了識別20個關鍵點，這些關鍵點可用于在沒有人工標注的情況下對面部動作進行建模。這些點對特征（包括眼睛、嘴和鼻子）的位置進行編碼。

　　然后，它會從通話主導者的參照圖像中提取這些關鍵點，這些關鍵點可以提前發(fā)送給其他的視頻會議參與者，也可以重新用于之前的會議。這樣一來，視頻會議平臺只需發(fā)送演講者面部關鍵點的移動情況數(shù)據(jù)，無需將某參與者的大量直播視頻流推送給其他人。

　　對于接收者一端，GAN模型會使用此信息，模擬參照圖像的外觀以合成一個視頻。

　　通過僅來回壓縮及發(fā)送頭部位置和關鍵點，而不是完整的視頻流，此技術將視頻會議所需的帶寬降低10倍，從而提供更流暢的用戶體驗。該模型可以進行調整，傳輸不同數(shù)量的關鍵點，以實現(xiàn)在不影響視覺質量的條件下，適應不同的帶寬環(huán)境。

　　此外，還可以自由調整所生成的人臉說話視頻的視角，可以從側邊輪廓或筆直角度，也可以從較低或較高的攝像頭角度來顯示用戶。處理靜態(tài)圖像的照片編輯者也可以使用此功能。

　　NVIDIA研究人員發(fā)現(xiàn)，無論是參照圖像和視頻來自同一個人，還是AI負責將某個人的動作轉移到另一個人的參照圖像，Vid2Vid Cameo均能生成更逼真、更清晰的結果，優(yōu)于先進的模型。

　　后一項功能可將演講者的面部動作，應用于視頻會議中的數(shù)字頭像動畫，甚至可以應用于制作視頻游戲或卡通角色的逼真形象和動作。

　　結語

　　人工智能技術在便利人們生活和工作方面正在發(fā)揮越來越重要的作用，而Vid2Vid Cameo借助NVIDI強大的AI能力，讓視頻會議的體驗更棒，乃至在專業(yè)的圖形和視頻制造中有著巨大的想象空間。

【免責聲明】本文僅代表作者本人觀點，與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立，不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔全部責任。

相關熱詞搜索： NVIDIA 視頻會議

上一篇:埃森哲2021財年第三季度業(yè)績表現(xiàn)持續(xù)強勁，再度上調全年增長預期