K
Knifey17 天前

AI革新:Google VideoPoet文字轉影像,席捲短影音市場!


新的一年才剛到來,AI運算繼文字聊天、圖像生成後又有新的突破!化靜態為動態的影片生成器究竟會在短影音的時代帶來怎樣的影響呢?知名搜尋引擎Google公司先前公開展示了新的影片生成器VideoPoet,這是一個由Google內部31名研究人員設計的新型大型語言模型(LLM),目的在開發未來的各種影片生成工具。

Google Research團隊採用LLM來進行這些任務本身就是一項值得關注的事,不同於ChatGPT產出文字的結果,影片生成需要更複雜的動態擬真及複雜運算。正如他們在先前的提案研究中所寫道:「大多數的現有模型都採用擴散方法,這些方法通常被認為是目前影片生成的最佳解答。這些影片模型通常從預先訓練的圖像模型開始,例如Stable Diffusion,它為單個影格(也就是每一個動態中的單一靜止畫面)生成高保真度的圖像,然後再微調影格模型以改善畫面之間的一致性。」

相比之下,Google Research團隊決定使用LLM,這是一種架構完全不同的AI模型,通常只用於文字和程式碼這類的生產邏輯,除了ChatGPT之外,Claude 2或Llama 2也都是使用這種語言模型為基礎;但是在VideoPoet的成果發表中,他們卻能開發出文字輸出以外的結果,訓練它直接產出影片。

關鍵運算技術

Google團隊透過將VideoPoet的LLM大量進行「預先演練」,針對2.7億個影片和超過10億個來自「公共網域和其他來源」的相關文本和圖像互相比對,並具體轉化這些數據,利用文本嵌入、視覺標記和音頻紀錄的數據化方式,對該AI模型進行這類「有條件式」的反覆訓練。

這項結果令人驚嘆,因為即使與一些目前最廣為人知的影片生成模型(如Runway和Pika)相比也難分軒輊,而前者也是Google的另一項投資,令人振奮的是這兩種成像方式都有不錯的進展。

Google所發表的AI生成影片:Rookie the Raccoon

時間長且高品質的AI影片

Google Research團隊指出,他們的LLM影片生成器方法實際上可能製作出更長、更高品質的影片,克服了擴散式生成AI影片的一些限制和問題,其中影片中的主題運動往往在撥放幾個影格的畫面後就會損壞或出現故障。

兩名團隊成員丹·康德拉丘克(Dan Kondratyuk)和大衛·羅斯(David Ross)在一篇Google Research的部落格文章中寫道:「影片生成的當前瓶頸之一在於產生連貫的大動作時,許多情況下即使是目前領先的幾種模型,它們生成的動作連貫性也是有限制的,或者在產生較大的動作時,會因為畫面移動的幅度出現明顯的瑕疵。」

然而,VideoPoet可以在生成16影格畫面時的提供較大且一致的動態效果,根據研究人員在線上發布的範例,它從一開始就具有更廣泛的效能,包括模擬不同的運鏡視角(如環繞方式看著主角)、不同的視覺背景和畫面風格,甚至生成與指定片段搭配不同的音頻…等等。此外,它還能處理一系列輸入語法,包括文本、圖像和影片,以用作這款AI的參考提示。

透過將所有這些影片生成功能整合到單個LLM中,VideoPoet破除了多種限制,為影片創作提供了無縫接軌的解決方案。實際上,Google Research團隊也蒐集許多觀眾的意見,研究人員展示了由VideoPoet生成的影片以及由擴散模型Source-1、VideoCrafter和Phenaki生成的片段,並將兩個片段並排顯示,多數民眾認為VideoPoet的產出片段表現更好。

勝券在握的短影音市場

正如Google Research部落格文章中總結的那樣:「平均而言,人們選擇了24–35%的VideoPoet範例,認為這個片段比其他競爭模型更好的展現出我們給它下的指令,而競爭模型僅有8–11%的好評。同時,參與其中的評測員也更喜歡VideoPoet的比例也佔41–54%,認為其動作更有趣且吸引人,而其他模型約僅有11–21%。」

Google Research已經將VideoPoet定義為直覺式影片產出的工具,預計未來也將迎合Snap和TikTok等時下流行的短影音市場。Google希望擴展VideoPoet的功能,能夠支援到讓人隨心所欲的地步,從文字輸入到影片音樂和動態畫面一氣呵成,這將帶來非常可觀的發展,同時未來這些影片也可能愈來愈擬真到真假難辨。

目前這個平台還在開發測試中,尚未開放公眾使用,一但這項模型開放給消費者,勢必會產生另一個軒然大波,大數據的累積更會呈現指數型的成長。若結合新的AR、VR眼鏡,恐怕又是另一種全新體驗,新的一年就讓我們繼續關注這項最新科技趨勢吧!

資料來源


圖片
圖片
圖片
圖片
圖片
圖片
(使用 Facebook 留言外掛程式 留言無法滿足本網站參加活動之資格,僅供非會員討論使用)
互動地圖
interactive taiwan map