微軟亞洲研究院多模態(tài)模型NüWA：以自然語言創(chuàng)造視覺內(nèi)容

發(fā)布人：MSRAsia 時間：2022-03-17 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：此前我們曾提出了一個問題：從文字腳本生成創(chuàng)意視頻一共分幾步？微軟亞洲研究院的開放領域視頻生成預訓練模型給出了答案：只需一步?，F(xiàn)在，我們追問：除了文字生成視頻之外，還有哪些途徑可以生成視頻？我們能否使用自然語言對視覺內(nèi)容進行編輯？微軟亞洲研究院最新推出的多模態(tài)模型 NüWA，不僅讓視覺內(nèi)容創(chuàng)造多了一條路，甚至還讓 Windows 經(jīng)典桌面有了更多的打開方式。

人類對于信息的感知有五種途徑，包括視覺、聽覺、嗅覺、觸覺和味覺，其中視覺是接受信息的最主要渠道，也是創(chuàng)造力的源泉。在推動人工智能發(fā)展的道路上，計算機視覺已經(jīng)成為一個重要的研究領域，尤其是近幾年視覺創(chuàng)作類應用的頻繁涌現(xiàn)，讓創(chuàng)作變得越來越便捷，越來越多的用戶可以用這些工具制作和分享身邊的美好生活。與此同時，視覺類應用的廣泛使用也促進了計算機視覺領域的研究。

然而，盡管這些工具功能強大，但仍有不足之處：其一，它們需要創(chuàng)作者手動收集和處理視覺素材，導致現(xiàn)有的大規(guī)模視覺數(shù)據(jù)中所包含的視覺知識無法自動地有效利用。其二，這些工具往往是通過圖形界面與創(chuàng)作者交互，并非自然語言指令，因此對于一些用戶來說，具有一定的技術門檻，他們需要擁有豐富的使用經(jīng)驗。在微軟亞洲研究院看來，下一代可視化內(nèi)容創(chuàng)建工具應該能夠利用大數(shù)據(jù)、AI 模型幫助用戶更便捷地進行內(nèi)容創(chuàng)作，并使用自然語言作為更加友好的交互界面。

在這樣的理念下，微軟亞洲研究院在視頻生成預訓練模型的基礎上進行再創(chuàng)新，開發(fā)了多模態(tài)的 NüWA（Neural visUal World creAtion）模型。通過自然語言指令，NüWA 可以實現(xiàn)文本、圖像、視頻之間的生成、轉(zhuǎn)換和編輯，幫助視覺內(nèi)容創(chuàng)作者降低技術門檻，提高創(chuàng)造力。同時，開發(fā)者也可以利用 NüWA 構(gòu)建基于 AI 的視覺內(nèi)容創(chuàng)造平臺。（點擊閱讀原文，查看 NüWA 論文原文）

支持八大視覺生成與編輯任務

NüWA 目前支持八大視覺生成和編輯任務。其中，支持圖像的四類任務包括：文本到圖像，草圖到圖像，圖像補全，圖像編輯；支持視頻的四類任務包括：文本到視頻，視頻草圖到視頻，視頻預測，視頻編輯。

下面，讓我們以 Windows 經(jīng)典桌面為例，試一下 NüWA 的幾個功能。（更多 NüWA 在八大任務中的效果，請見文末。）

給定一張原始圖片：

讓 NüWA 將圖片補全為256x256（圖像補全）：

讓 NüWA 在圖片的紅框位置處添加“一匹在草地上行走的馬”（圖像編輯）：

讓 NüWA 將這張圖片生成為一個能“動”起來的視頻（視頻預測）：

憑“一己之力”完成多項視覺內(nèi)容創(chuàng)造任務

NüWA 模型提出了一種全新的 3D 編碼器-****框架。編碼器可以支持包括文本、圖像、視頻，或者草圖等多種不同的輸入條件，甚至是部分圖片或部分視頻，讓模型補全后續(xù)的視頻幀；****則將這些輸入條件轉(zhuǎn)換為離散的視覺標記，根據(jù)訓練數(shù)據(jù)輸出圖像、視頻內(nèi)容。

在預訓練階段，研究員使用了自回歸模型作為預訓練任務來訓練 NüWA，其中 VQ-GAN 編碼器將圖像和視頻轉(zhuǎn)換為相應的視覺標記，作為預訓練數(shù)據(jù)的一部分。在推理階段，VQ-GAN ****會基于預測的離散視覺標記重建圖像或視頻。

NüWA 還引入了三維稀疏注意力（3D Nearby Attention，3DNA）機制來應對 3D 數(shù)據(jù)的特性，可同時支持編碼器和****的稀疏關注。也就是說，在生成特定圖像的一部分或者一個視頻幀時，NüWA 不僅會看到已經(jīng)生成的歷史信息，還會關注與其條件所對應位置的信息，比如，在由視頻草圖生成視頻的過程中，生成第二幀時，模型就會考慮第二幀草圖對應的位置是什么，然后按照草圖的變化生成滿足草圖變化的視頻，這就是編碼器和****的同時稀疏。而此前的工作通常只是一維或二維的稀疏關注，而且只在編碼器稀疏，或只在****稀疏。通過使用 3DNA 機制，NüWA 的計算復雜度得到了簡化，提升了計算效率。

圖1：NüWA 基于 3D 編碼-解碼架構(gòu)

為了支持文本、圖片、視頻這些多模態(tài)任務的創(chuàng)建，跨越不同領域數(shù)據(jù)的鴻溝，研究員采用了逐步訓練的方式，在預訓練中使用不同類型的訓練數(shù)據(jù)。首先訓練文本-圖片任務和圖片-視頻任務，待任務穩(wěn)定后，再加入文本-視頻的數(shù)據(jù)進行聯(lián)合訓練，而且研究員們還使用了視頻完成任務，根據(jù)給定的部分視頻作為輸入生成后續(xù)視頻，使得 NüWA 擁有強大的零樣本視覺內(nèi)容生成與編輯能力，實現(xiàn)圖像、視頻內(nèi)容的增、刪、改操作，甚至可以對視頻的未來幀進行可控調(diào)整。

微軟亞洲研究院高級研究員段楠表示，“NüWA 是第一個多模態(tài)預訓練模型。我們希望 NüWA 可以實現(xiàn)真實世界的視頻生成，但在訓練過程中模型會產(chǎn)生大量的‘中間變量’，消耗巨大的顯存、計算等資源。因此，NüWA 團隊與系統(tǒng)組的同事們聯(lián)手協(xié)作，為 NüWA 在系統(tǒng)架構(gòu)上設置了多種并行機制，如張量并行、管道并行和數(shù)據(jù)并行，使得我們的跨模態(tài)訓練成為可能。”

NüWA 覆蓋了11個數(shù)據(jù)集和11種評估指標。在文本到圖像生成的弗雷切特起始距離（Frechet Inception Distance, FID）指標上，NüWA 的表現(xiàn)超過了 DALL-E 和 CogView，在視頻生成的 FVD 指標上超越了 CCVS，均取得了當前 SOTA 結(jié)果。其中，測試結(jié)果如下（更多 NüWA 在不同數(shù)據(jù)集和評估指標中的測試結(jié)果，請點擊閱讀原文，查看論文細節(jié)）：

表1：文本到圖像任務測試結(jié)果

NüWA-LIP：讓視覺編輯更精細

NüWA 模型已基本包含了視覺創(chuàng)作的核心流程，可在一定程度上輔助創(chuàng)作者提升效率，但在實際創(chuàng)作中，創(chuàng)作者還有很多多樣且高質(zhì)量的需求。為此，微軟亞洲研究院的研究員們在 NüWA 的基礎之上更新迭代，于近日提出了NüWA-LIP 模型，并且在視覺領域的典型任務——缺陷圖像修復中取得了新突破。

盡管此前也有方法完成了類似的圖像修復，但是模型的創(chuàng)作卻比較隨意，無法符合創(chuàng)作者的意愿，而NüWA LIP 幾乎可以按照給定的自然語言指令修復、補全成人們?nèi)庋劭山邮艿膱D像。下面，讓我們直觀感受一下 NüWA-LIP 神奇的圖像修復效果。

圖2：在圖像編輯任務上，NüWA-LIP 展現(xiàn)出優(yōu)秀的性能

圖2給出了兩個例子。第一個例子是希望模型可以按照“Racers riding four wheelers while a crowd watches”（一群人在看摩托車手騎四輪車）來補全黑色區(qū)域。已有工作 GLIDE 雖然可以補全，但是可以看到邊界處有明顯的白線，并且補全的區(qū)域比較模糊。NüWA 模型使用自回歸的方式從左到右依次掃描生成，邊界處相比于 GLIDE 更加自然。但是由于在補全黑色區(qū)域時看不到右側(cè)的車輪，因此標準的 NüWA 模型存在補全邊界銜接不對的問題。NüWA-LIP 修復了 NüWA 這一不足，它會提前預看整個圖像，并創(chuàng)新地使用無損編碼技術，然后再自回歸地生成，因此可以做到黑色區(qū)域邊界處銜接自然，并且補全區(qū)域也很清晰。

在 FID 指標測試中，通過將修復圖與原始圖對比，NüWA-LIP 在自然語言指示圖像修復的任務上取得了最好分數(shù)。（注：FID 分數(shù)越低表示修復圖像的質(zhì)量越高。）

表2：NüWA-LIP 在圖像編輯任務中的 FID 指標達到10.5

NüWA-Infinity：讓視覺創(chuàng)作趨于 “無限流”

除了圖像修復之外，微軟亞洲研究院在高分辨率、大圖像的橫向延展方面也進行了持續(xù)研究，提出了 NüWA Infinity 模型。顧名思義，NüWA Infinity 可以根據(jù)給定的圖像生成無限連續(xù)的高清“大片”?！耙婚_始 NüWA 能夠生成、編輯的圖像和視頻的分辨率相對較低，一般是256×256分辨率的小圖。我們希望通過模型可以生成更高清的大圖，形成更大的視覺沖擊，滿足不同創(chuàng)作者的實際需求。簡單來說，NüWA Infinity 會根據(jù)圖像的不同層次內(nèi)容掃描每一幀窗口，不斷渲染形成高像素、連續(xù)的大圖，”微軟亞洲研究院研究員吳晨飛介紹說。

想知道 Windows 經(jīng)典桌面的右側(cè)是什么樣么？點擊下圖，NüWA-Infinity 為你“揭開”神秘面紗。（請手機橫屏查看）

段楠補充說，“表面看 NüWA Infinity 解決了之前 NüWA 生成圖片不高清，以及視頻幀數(shù)有限的問題。但其實 NüWA Infinity 從底層形成了一套生成機制，不僅可以對圖片進行延展式的生成，也可以應用于視頻預測創(chuàng)作，而這也是我們接下來要攻克的研究課題?！?/span>

自此，NüWA-LIP 讓機器接受語言指令自動修圖成為了可能，而 NüWA-Infinity 則使得圖像生成質(zhì)量向高清、無限的真實世界邁進了一大步。按照這樣的迭代創(chuàng)新步伐，未來創(chuàng)作者擁有一套趨于“無限流”的視覺創(chuàng)作輔助工具，指日可待。

NüWA 多模態(tài)模型連鎖反應：或?qū)砀唷皻⑹旨墶睉?br />

未來，隨著人工智能技術的發(fā)展，增強現(xiàn)實、虛擬現(xiàn)實等沉浸式的人機交互界面將會得到更廣泛的應用，數(shù)字世界和物理世界的結(jié)合也將越來越緊密。而不同類型的多模態(tài)內(nèi)容則是拉近虛擬空間與現(xiàn)實世界的強力膠，因此，虛擬內(nèi)容的創(chuàng)建、編輯和交互將至關重要。NüWA 提供的視覺內(nèi)容生成和編輯技術，為這些應用提供了無限的想象空間。當多模態(tài)技術成為未來人工智能應用發(fā)展的方向時，多模態(tài)模型將會為學習、廣告、新聞、會議、娛樂、社交網(wǎng)絡、數(shù)字人、腦機交互等領域帶來更多的下一代“殺手級”應用。

相關論文鏈接：

NüWA：https://arxiv.org/abs/2111.12417

NüWA-LIP：https://arxiv.org/abs/2202.05009

附錄：

NüWA 在八大任務中的效果。