AIGC大一統(tǒng)模型來了！CV界泰斗黃煦濤創(chuàng)立團隊提出「全能Diffusion」

發(fā)布人：傳感器技術時間：2022-12-01 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

【新智元導讀】在各種Diffusion「AI大畫家」中學習一番之后，這款全能型Diffusion要完成AIGC界的「大一統(tǒng)」！

Diffusion模型的最新進展在許多生成任務中樹立了一個令人印象深刻的里程碑。諸如DALL·E 2、Imagen和Stable Diffusion（SD）等引人矚目的工作，引起了學術界和工業(yè)界的極大興趣。不過，雖然這些模型表現(xiàn)驚艷，但基本都是專一于某一類任務，比如由給定文本生成圖像，而對于不同類型的任務，則往往需要專門單獨訓練，或重新構建新模型。那么能不能在前人基礎上搞一個「全能型」的Diffusion，實現(xiàn)AIGC模型的大一統(tǒng)呢？有人就在努力沿著這個方向進行探索，并已經取得了進展。這個來自伊利諾伊大學厄巴納-香檳分校、得克薩斯大學奧斯汀分校的聯(lián)合團隊，試圖將現(xiàn)有的單流Diffusion擴展為多流網絡，稱為Versatile Diffusion（VD），這是第一個統(tǒng)一的多流多模態(tài)Diffusion框架，是邁向通用生成性人工智能的一步。

論文地址：https://arxiv.org/abs/2211.08332Versatile Diffusion除了普通的文字生成圖像功能之外，還可以輸入圖像生成類似圖像，輸入圖像生成文字，輸入文字生成相似文字，圖片語義解耦編輯，輸入圖像及文字生成視頻，根據隱空間編輯圖像內容等等。未來的版本還將支持更多的模式，如語音、音樂、視頻和3D。據論文介紹，現(xiàn)已證明VD及其基礎框架具有以下優(yōu)勢：a) 可以以具有競爭力的高質量處理所有子任務。b) 支持新的擴展和應用，如圖形風格和語義的分離、圖像-文本雙引導生成等。c) 通過這些實驗和應用，為生成的輸出提供了更豐富的語義洞察力。

在訓練數(shù)據集方面，VD使用帶有自定義數(shù)據過濾器的Laion2B-en作為主要數(shù)據集。

首次探索

VD的一個令人興奮的發(fā)現(xiàn)是，它可以從語義中增強或減少圖像風格，而無需進一步監(jiān)督。這樣的現(xiàn)象激發(fā)作者去探索一個全新的領域，其中，風格和語義之間的分離可以發(fā)生在具有任意風格和任意內容的圖像上。作者表示，他們是第一個探索：a）在沒有領域規(guī)范的情況下，對自然圖像的語義和風格進行解讀；b）擴散模型潛在空間上的語義和風格分解的團隊。在下圖中，作者首先生成輸入圖像的變體，然后以語義（左邊）或風格（右邊）為重點對其進行操作。

由于VD同時支持圖像到文本和文本到圖像，因此作者團隊第一次嘗試了通過以下步驟從文本提示的角度編輯圖像：a）將圖像轉換成文本，b）編輯文本，c）將文本轉換回圖像。在實驗中作者從圖像中刪除了描述的內容，然后用這種圖像-文本-圖像（I2T2I）范式添加新的內容。與繪畫或其他需要物體位置作為輸入的圖像編輯方法不同，VD的I2T2I不需要掩碼，因為它可以按照指令自動定位和替換物體。不過，I2T2I的輸出圖像與輸入圖像的像素不一致，這是由于圖像到文本的語義提煉和文本到圖像的內容創(chuàng)建造成的。在下圖的展示中，輸入的圖像首先被翻譯成prompt，然后用減法（紅框）和加法（綠框）對prompt進行編輯。最后，編輯后的prompt被翻譯成圖像。

此外，他們也是第一個探索基于給定的文字去生成相似文字的團隊。

網絡框架

具體來說，文中提出的VD框架是一個多流網絡，有各種類型的數(shù)據作為輸入和背景。

VD多流多模態(tài)diffusion框架繼承了LDM/SD的優(yōu)點，具有可解釋的潛在空間、模態(tài)化結構和較低的計算成本。VD可以聯(lián)合訓練多個流，每個流代表一個跨模式的任務。其核心設計是diffuser網絡內的分組、共享和交換協(xié)議，使框架適應所有支持的任務和其他任務。

diffuser分為三組：全局層、數(shù)據層和語境層。全局層是時間嵌入層，數(shù)據層是剩余塊，而語境層是交叉關注。這種分組與層的功能相對應。當處理多個任務時，全局層在所有任務中共享。數(shù)據層和語境層包含多個數(shù)據流。每個數(shù)據流都可以根據當前的數(shù)據和上下文類型進行共享或交換。比如，當處理文本-圖像請求時，diffuser使用圖像數(shù)據層與文本語境層。當處理圖像變異任務時，則使用圖像數(shù)據層與圖像語境層。單個VD流程包含一個VAE、一個diffuser和一個語境編碼器，在一個數(shù)據類型（如圖像）和一個語境類型（如文本）下處理一個任務（如文本轉圖像）。Versatile Diffusion的多流結構如下圖所示：

研究人員基于Versatile Diffusion，進一步提出了一個通用的多流多模態(tài)框架，其中包括VAE、上下文編碼器和包含三層（即全局、數(shù)據和語境層）的diffuser。Diffuser：VD使用已被廣泛采用的交叉關注的UNet作為diffuser網絡的主要架構，將層分為全局層、數(shù)據層和語境層。其中數(shù)據層和語境層有兩個數(shù)據流來支持圖像和文本。對于圖像數(shù)據流，遵循LDM并使用殘差塊（ResBlock），其空間維度逐漸減少，通道數(shù)逐漸增加。對于文本數(shù)據流，利用新的全連接殘差塊（FCResBlock），將768維的文本潛伏向量擴展為320*4的隱藏特征，并遵循類似的通道增加范式，再利用GroupNorms、SiLU和跳過連接，就像普通的ResBlock一樣。

如上圖所示，F(xiàn)CResBlock包含兩組全連接層（FC）、分組歸一化（GN）和sigmoid線性單元（SiLU）。x是輸入文本潛伏代碼，t是輸入時間嵌入，hi是中間特征。對于語境組，圖像和語境流都采用交叉注意力層，其中內容嵌入通過投影層、點積和sigmoids來操作數(shù)據特征。變分自編碼器（VAE）：VD采用此前的潛在擴散模型（Latent Diffusion Model，LDM）的自編碼器-KL作為圖像數(shù)據VAE，采用Optimus作為文本數(shù)據VAE。Optimus由BERT文本編碼器和GPT2文本****組成，可以將句子雙向轉化為768維正態(tài)分布的潛在向量。同時，Optimus還以其可重構和可解釋的文本潛空間顯示出令人滿意的VAE特性。因此選擇Optimus作為文本VAE，因為它非常符合多流多模態(tài)框架的前提條件。語境編碼器（Context Encoder）：VD使用CLIP文本和圖像編碼器作為上下文編碼器。與只使用原始文本嵌入作為語境輸入的LDM和SD不同，VD使用歸一化和投影嵌入，使文本和圖像的CLIP對比損失最小化。實驗表明，上下文類型之間更接近的嵌入空間有助于模型快速收斂，表現(xiàn)更好。類似的結論也可以在DALL·E 2中實現(xiàn)，DALL·E 2用額外的投影層來微調文本到圖像的模型，以最小化文本和圖像嵌入之間的差異，用于圖像變化。

性能表現(xiàn)

作者將早期的單任務模型作為基線模型，并將VD的結果與這些基線進行比較。其中，SDv1.4作為文本到圖像的基線模型，SD-variation用于圖像-變體，而BLIP用于圖像-文本。同時，作者還對不同的VD模型進行了定性比較，其中VDDC和VD-of?cial用于文本到圖像，所有三個模型用于圖像變體。其中SD和VD的圖像樣本是用受控的隨機種子生成的，以便更好地檢查質量。

文本到圖像的性能雖然DALLE 2和Imagen在這些任務上也取得了SOTA，但由于沒有公開的代碼或訓練細節(jié)，因此作者跳過了對它們的比較。結果顯示，多流程結構和多任務訓練可以幫助VD捕獲上下文語義并更精確地生成輸出，并出色地完成了所有的子任務。

圖像-變體的性能此外，由VD生成的圖像標注還包含了一些創(chuàng)造性的詞語。相比起來，BLIP的生成就很短，缺乏對細節(jié)的描述。

圖像到文本的性能

效果展示

文生圖

圖像變體

以語義為重點的圖像變體

雙引導

總結

作者介紹了Versatile Diffusion（VD），一個多流的多模態(tài)diffusion網絡，在一個統(tǒng)一的模型中解決了文本、圖像和變化。在VD的基礎上，作者進一步介紹了一個通用的多流多模態(tài)框架，其中可以涉及新的任務和領域。

通過實驗，作者發(fā)現(xiàn)VD在所有支持的任務上都能產生高質量的輸出，其中VD的文本到圖像和圖像到變體的結果能更好地捕捉上下文中的語義，VD的圖像到文本的結果具有創(chuàng)造性和說明性。
鑒于VD的多流多模態(tài)屬性，作者引入了新穎的擴展和應用，可能會使從事這項技術的下游用戶進一步受益。

團隊介紹

伊利諾伊大學厄巴納-香檳分校的IFP團隊是由黃煦濤教授在80年代創(chuàng)立的，起初是貝克曼高級科學和技術研究所的圖像形成和處理小組。

多年來，IFP一直致力于圖像以外的研究和創(chuàng)新，包括圖像和視頻編碼、多模態(tài)人機交互、多媒體注釋和搜索、計算機視覺和模式識別、機器學習、大數(shù)據、深度學習和高性能計算。目前IFP的研究方向是通過協(xié)同結合大數(shù)據、深度學習和高性能計算來解決多模態(tài)信息處理的問題。此外，IFP在人工智能領域的頂級會議上獲得了多篇最佳論文，并在許多國際競賽中獲勝，包括首屆NIST TrecVID、首屆ImageNet挑戰(zhàn)賽和首屆人工智能城市挑戰(zhàn)賽。有趣的是，自黃教授1960年代開始在麻省理工學院任教以來，IFP小組的「成員」甚至包括朋友、學生、學生的學生、學生的學生，甚至是學生的學生的學生。

來源：新智元

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。