全球不只歐美地區正如火如荼的展開AI事業,中國阿里巴巴的AI研究員也開發了名為「EMO」的全新AI系統,全名稱為Emote Portrait Alive。主軸為可以將一張人像照片動態化,並產生逼真影片,讓照片中的對象以極為逼真的方式,無論是說話或唱歌都可以動態擬真。
根據發表在arXiv上的一篇研究論文,EMO系統強調能夠創造流暢且富有表現力的臉部動作和頭部姿勢,並且與所提供的音訊軌道的非常相似,甚至只有細微的差異。這呈現出音訊驅動在擬真人像影片方面的一大進步,且是多年來困擾AI研究員的領域。
論文的主要作者林睿天表示,傳統技術往往無法捕捉到全方位的人類表情和個人面部風格的獨特之處。為了解決這些問題,我們推出了EMO,這是一個新的框架,利用了直接從聲音到影像的合成方法,無需中間的3D模型或臉部定位。(影片連結)
聲音轉影像
EMO系統採用了一種稱為擴散模型的人工智慧技術,這種技術已經顯示出極高的能力,可以產生逼真的合成圖像。研究人員在一個由演講、電影、電視節目和歌唱表演精選而成的超過250小時的說話臉部影片數據集上對模型進行了訓練。
這與以前依賴3D臉部模型或混合形狀來近似臉部動作的方法不同,EMO直接將音律波形轉換為每一幀影像畫面;這使它能夠捕捉到與自然語音相關的微妙運動和特定對象的慣性特徵。
根據論文中描述的實驗,EMO在衡量影片畫質、對象身份和表現力的指標上顯著優於現有的最先進方法。研究人員還進行了一項用戶研究,發現EMO生成的影片比其他系統生成的影片更加自然和情感豐富。
逼真的歌唱影片
除了會話影片外,EMO還可以根據歌聲生成適當的嘴形和與聲音同步的動態肖像,並能根據輸入音軌的長度做成任意持續時間的影片。實驗結果證實,EMO不僅能夠生成令人信服的說話影片,還能以各種風格創造歌唱影片,讓個性化的影音內容可以僅僅從一張照片和一段音頻轉換出來。(影片連結)
然而,在驚奇之餘相信我們也立刻看到了這類影片的道德風險,潛在的危險除了個人的肖像或隱私被冒用之外,這項技術可能被濫用來散撥各種影響政治或經濟趨勢的假消息;例如犯罪分子可以製造讓美國名人川普支持特定國家的說法,或者讓巴菲特支持特地股票以影響投資。
在享受未來科技帶來的便利之餘,未來人們的思辨及判斷力將大幅影響個人評估這類影音的結果,科學家及政府們也在接續研究如何檢測並阻斷虛假影片的技術,而人類的科技發展也因此不斷更迭演進。