圖像生成卷膩了，谷歌全面轉(zhuǎn)向文字→視頻生成，兩大利器同時(shí)挑戰(zhàn)分辨率和長度

發(fā)布人：傳感器技術(shù) 時(shí)間：2022-10-13 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

機(jī)器之心報(bào)道

編輯：張倩、杜偉

谷歌、Meta 等科技巨頭又挖了一個(gè)新坑。

在文本轉(zhuǎn)圖像上卷了大半年之后，Meta、谷歌等科技巨頭又將目光投向了一個(gè)新的戰(zhàn)場(chǎng)：文本轉(zhuǎn)視頻。
上周，Meta 公布了一個(gè)能夠生成高質(zhì)量短視頻的工具——Make-A-Video，利用這款工具生成的視頻非常具有想象力。

當(dāng)然，谷歌也不甘示弱。剛剛，該公司 CEO Sundar Pichai 親自安利了他們?cè)谶@一領(lǐng)域的最新成果：兩款文本轉(zhuǎn)視頻工具——Imagen Video 與 Phenaki。前者主打視頻品質(zhì)，后者主要挑戰(zhàn)視頻長度，可以說各有千秋。

下面這個(gè)洗盤子的泰迪熊就是用 Imagen Video 生成的，可以看到，畫面的分辨率和連貫性都有一定的保障。

下面這個(gè)片段是由 Phenaki 生成的，視頻長達(dá) 2.5 分鐘?？梢钥闯?，模型對(duì)于長 prompt 的解析非常出色。

，時(shí)長02:49

這段視頻的prompt為：「First person view of riding a motorcycle through a busy street. First person view of riding a motorcycle through a busy road in the woods. First person view of very slowly riding a motorcycle in the woods. First person view braking in a motorcycle in the woods. Running through the woods. First person view of running through the woods towards a beautiful house. First person view of running towards a large house. Running through houses between the cats. The backyard becomes empty. An elephant walks into the backyard. The backyard becomes empty. A robot walks into the backyard. A robot dances tango. First person view of running between houses with robots. First person view of running between houses; in the horizon, a lighthouse. First person view of flying on the sea over the ships. Zoom towards the ship. Zoom out quickly to show the coastal city. Zoom out quickly from the coastal city.」
Imagen Video：給出文本提示，生成高清視頻
生成式建模在最近的文本到圖像 AI 系統(tǒng)中取得了重大進(jìn)展，比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特別地，擴(kuò)散模型在密度估計(jì)、文本到語音、圖像到圖像、文本到圖像和 3D 合成等多種生成式建模任務(wù)中取得了巨大成功。
谷歌想要做的是從文本生成視頻。以往的視頻生成工作集中于具有自回歸模型的受限數(shù)據(jù)集、具有自回歸先驗(yàn)的潛變量模型以及近來的非自回歸潛變量方法。擴(kuò)散模型也已經(jīng)展示出了出色的中等分辨率視頻生成能力。
在此基礎(chǔ)上，谷歌推出了 Imagen Video，它是一個(gè)基于級(jí)聯(lián)視頻擴(kuò)散模型的文本條件視頻生成系統(tǒng)。給出文本提示，Imagen Video 就可以通過一個(gè)由 frozen T5 文本編碼器、基礎(chǔ)視頻生成模型、級(jí)聯(lián)時(shí)空視頻超分辨率模型組成的系統(tǒng)來生成高清視頻。

論文地址：https://imagen.research.google/video/paper.pdf
在論文中，谷歌詳細(xì)描述了如何將該系統(tǒng)擴(kuò)展為一個(gè)高清文本轉(zhuǎn)視頻模型，包括某些分辨率下選擇全卷積時(shí)空超分辨率模型以及選擇擴(kuò)散模型的 v 參數(shù)化等設(shè)計(jì)決策。谷歌還將以往基于擴(kuò)散的圖像生成研究成果成功遷移到了視頻生成設(shè)置中。
谷歌發(fā)現(xiàn)，Imagen Video 能夠?qū)⒁酝ぷ魃傻?24fps 64 幀 128×128 視頻提升至 128 幀 1280×768 高清視頻。此外，Imagen Video 還具有高度的可控性和世界知識(shí)，能夠生成多樣化藝術(shù)風(fēng)格的視頻和文本動(dòng)畫，還具備了 3D 對(duì)象理解能力。
讓我們?cè)賮硇蕾p一些 Imagen Video 生成的視頻，比如開車的熊貓：

遨游太空的木船：

更多生成視頻請(qǐng)參閱：https://imagen.research.google/video/
方法與實(shí)驗(yàn)
整體而言，谷歌的視頻生成框架是七個(gè)子視頻擴(kuò)散模型的級(jí)聯(lián)，它們相應(yīng)執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率。借助整個(gè)級(jí)聯(lián)，Imagen Video 能夠以每秒 24 幀的速度生成 128 幀 1280×768 的高清視頻（約 1.26 億像素）。
與此同時(shí)，在漸進(jìn)式蒸餾的幫助下，Imagen Video 的每個(gè)子模型中僅使用八個(gè)擴(kuò)散步驟就能生成高質(zhì)量視頻。這將視頻生成時(shí)間加快了大約 18 倍。
下圖 6 展示了 Imagen Video 的整個(gè)級(jí)聯(lián) pipeline，包括 1 個(gè) frozen 文本編碼器、1 個(gè)基礎(chǔ)視頻擴(kuò)散模型以及 3 個(gè)空間超分辨率（SSR）和 3 個(gè)時(shí)間超分辨率（TSR）模型。這七個(gè)視頻擴(kuò)散模型共有 116 億參數(shù)。
在生成過程中，SSR 模型提高了所有輸入幀的空間分辨率，同時(shí) TSR 模型通過在輸入幀之間填充中間幀來提高時(shí)間分辨率。所有模型同時(shí)生成一個(gè)完整的幀塊，這樣 SSR 模型不會(huì)遭受明顯的偽影。

Imagen Video 構(gòu)建在視頻 U-Net 架構(gòu)之上，具體如下圖 7 所示。

在實(shí)驗(yàn)中，Imagen Video 在公開可用的 LAION-400M 圖像文本數(shù)據(jù)集、1400 萬個(gè)視頻文本對(duì)和 6000 萬個(gè)圖像文本對(duì)上進(jìn)行訓(xùn)練。結(jié)果正如上文所述，Imagen Video 不僅能夠生成高清視頻，還具備一些純從數(shù)據(jù)中學(xué)習(xí)的非結(jié)構(gòu)化生成模型所沒有的獨(dú)特功能。
下圖 8 展示了 Imagen Video 能夠生成具有從圖像信息中學(xué)得的藝術(shù)風(fēng)格的視頻，例如梵高繪畫風(fēng)格或水彩畫風(fēng)格的視頻。

下圖 9 展示了 Imagen Video 對(duì) 3D 結(jié)構(gòu)的理解能力，它能夠生成旋轉(zhuǎn)對(duì)象的視頻，同時(shí)物體的大致結(jié)構(gòu)也能保留。

下圖 10 展示了 Imagen Video 能夠可靠地生成各種動(dòng)畫樣式的文本，其中一些使用傳統(tǒng)工具很難來制作。

更多實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。
Phenaki：你講故事我來畫
我們知道，雖然從本質(zhì)上講，視頻就是一系列圖像，但生成一個(gè)連貫的長視頻并沒有那么容易，因?yàn)樵谶@項(xiàng)任務(wù)中，可用的高質(zhì)量數(shù)據(jù)非常少，而且任務(wù)本身的計(jì)算需求又很大。
更麻煩的是，像之前那種用于圖像生成的簡短文本 prompt 通常不足以提供對(duì)視頻的完整描述，視頻需要的是一系列 prompt 或故事。理想情況下，一個(gè)視頻生成模型必須能夠生成任意長度的視頻，并且要能根據(jù)某個(gè)時(shí)刻 t 的 prompt 變化調(diào)節(jié)生成的視頻幀。只有具備這樣的能力，模型生成的作品才能稱之為「視頻」，而不是「移動(dòng)的圖像」，并開啟在藝術(shù)、設(shè)計(jì)和內(nèi)容創(chuàng)作方面的現(xiàn)實(shí)創(chuàng)意應(yīng)用之路。
谷歌等機(jī)構(gòu)的研究人員表示，「據(jù)我們所知，基于故事的條件視頻生成之前從未被探索過，這是第一篇朝著該目標(biāo)邁進(jìn)的早期論文。」

論文鏈接：https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
項(xiàng)目鏈接：https://phenaki.github.io/#interactive

由于沒有基于故事的數(shù)據(jù)集可以拿來學(xué)習(xí)，研究人員沒有辦法簡單地依靠傳統(tǒng)深度學(xué)習(xí)方法（簡單地從數(shù)據(jù)中學(xué)習(xí)）完成這些任務(wù)。因此，他們專門設(shè)計(jì)了一個(gè)模型來完成這項(xiàng)任務(wù)。
這個(gè)新的文本轉(zhuǎn)視頻模型名叫 Phenaki，它使用了「文本轉(zhuǎn)視頻」和「文本轉(zhuǎn)圖像」數(shù)據(jù)聯(lián)合訓(xùn)練。該模型具有以下能力：
1、在開放域 prompt 的條件下生成時(shí)間上連貫的多樣化視頻，即使該 prompt 是一個(gè)新的概念組合（見下圖 3）。生成的視頻可以長達(dá)幾分鐘，即使該模型訓(xùn)練所用的視頻只有 1.4 秒（8 幀 / 秒）

2、根據(jù)一個(gè)故事（即一系列 prompt）生成視頻，如下圖 1 和圖 5 所示：

從以下動(dòng)圖中我們可以看到 Phenaki 生成視頻的連貫性和多樣性：

要實(shí)現(xiàn)這些功能，研究人員無法依賴現(xiàn)有的視頻編碼器，因?yàn)檫@些編碼器要么只能解碼固定大小的視頻，要么獨(dú)立編碼幀。為了解決這個(gè)問題，他們引入了一種新的編碼器 - ****架構(gòu)——C-ViViT。
C-ViViT 可以：

利用視頻中的時(shí)間冗余來提高每幀模型的重構(gòu)質(zhì)量，同時(shí)將視頻 token 的數(shù)量壓縮 40% 或更多；
在給定因果結(jié)構(gòu)的情況下，允許編碼和解碼可變長度視頻。

PHENAKI 模型架構(gòu)
受之前自回歸文本轉(zhuǎn)圖像、文本轉(zhuǎn)視頻研究的啟發(fā)，Phenaki 的設(shè)計(jì)主要包含兩大部分（見下圖 2）：一個(gè)將視頻壓縮為離散嵌入（即 token）的編碼器 - ****模型和一個(gè)將文本嵌入轉(zhuǎn)換為視頻 token 的 transformer 模型。

獲取視頻的壓縮表示是從文本生成視頻的主要挑戰(zhàn)之一。之前的工作要么使用 per-frame 圖像編碼器，如 VQ-GAN，要么使用固定長度視頻編碼器，如 V ideoVQVAE。前者允許生成任意長度的視頻，但在實(shí)際使用中，視頻必須要短，因?yàn)榫幋a器不能及時(shí)壓縮視頻，并且 token 在連續(xù)幀中是高度冗余的。后者在 token 數(shù)量上更加高效，但它不允許生成任意長度的視頻。
在 Phenaki 中，研究者的目標(biāo)是生成可變長度的視頻，同時(shí)盡可能壓縮視頻 token 的數(shù)量，這樣就可以在當(dāng)前的計(jì)算資源限制下使用 Transformer 模型。為此，他們引入了 C-ViViT，這是 ViViT 的一種因果變體，為視頻生成進(jìn)行了額外的架構(gòu)更改，它可以在時(shí)間和空間維度上壓縮視頻，同時(shí)保持時(shí)間上的自回歸。該功能允許生成任意長度的自回歸視頻。
為了得到文本嵌入，Phenaki 還用到了一個(gè)預(yù)訓(xùn)練的語言模型——T5X。
具體細(xì)節(jié)請(qǐng)參見原論文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么

博客專欄

圖像生成卷膩了，谷歌全面轉(zhuǎn)向文字→視頻生成，兩大利器同時(shí)挑戰(zhàn)分辨率和長度

相關(guān)推薦

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

博客專欄

圖像生成卷膩了，谷歌全面轉(zhuǎn)向文字→視頻生成，兩大利器同時(shí)挑戰(zhàn)分辨率和長度

相關(guān)推薦

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

圖像生成卷膩了，谷歌全面轉(zhuǎn)向文字→視頻生成，兩大利器同時(shí)挑戰(zhàn)分辨率和長度