CVPR 2023 | 多個擴(kuò)散模型相互合作，新方法實現(xiàn)多模態(tài)人臉生成與編輯

發(fā)布人：機(jī)器之心時間：2023-05-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文提出了一種簡單有效的方法來實現(xiàn)不同擴(kuò)散模型之間的合作。

近一兩年，擴(kuò)散模型 (diffusion models) 展現(xiàn)出了強(qiáng)大的生成能力。不同種類的擴(kuò)散模型性能各異 —— text-to-image 模型可以根據(jù)文字生成圖片，mask-to-image 模型可以從分割圖生成圖片，除此之外還有更多種類的擴(kuò)散模型，例如生成視頻、3D、motion 等等。
假如有一種方法讓這些 pre-trained 的擴(kuò)散模型合作起來，發(fā)揮各自的專長，那么我們就可以得到一個多功能的生成框架。比如當(dāng) text-to-image 模型與 mask-to-image 模型合作時，我們就可以同時接受 text 和 mask 輸入，生成與 text 和 mask 一致的圖片了。
CVPR 2023 的 Collaborative Diffusion 提供了一種簡單有效的方法來實現(xiàn)不同擴(kuò)散模型之間的合作。

論文: https://arxiv.org/abs/2304.10530
代碼: https://github.com/ziqihuangg/Collaborative-Diffusion
網(wǎng)頁: https://ziqihuangg.github.io/projects/collaborative-diffusion.html
視頻: https://www.youtube.com/watch?v=inLK4c8sNhc

我們先看看不同擴(kuò)散模型合作生成圖片的效果：

當(dāng) text-to-image 和 mask-to-image 通過 Collaborative Diffusion 合作時，生成的圖片可以達(dá)到和輸入的 text 以及 mask 高度一致。

給定不同的多模態(tài)輸入組合，Collaborative Diffusion 可以生成高質(zhì)量的圖片，而且圖片與多模態(tài)控制條件高度一致。即便多模態(tài)輸入是相對少見的組合，例如留長頭發(fā)的男生，和留寸頭的女生，Collaborative Diffusion 依舊可以勝任。
那不同的擴(kuò)散模型究竟怎樣實現(xiàn)合作呢？
首先，我們知道，擴(kuò)散模型在生成圖片的過程中，會從高斯噪聲開始，逐步去噪，最終得到自然圖像。

圖片來源：CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications
基于擴(kuò)散模型迭代去噪的性質(zhì)，我們的 Collaborative Diffusion 在去噪的每一步都會動態(tài)地預(yù)測不同的擴(kuò)散模型如何有效合作，各取所長。Collaborative Diffusion 的基本框架如下圖所示。

我們在每一步去噪時，用 Dynamic Diffusers 動態(tài)地預(yù)測每個擴(kuò)散模型對整體預(yù)測結(jié)果帶來的影響（也就是 Influence Functions）。Influence Functions 會選擇性地增強(qiáng)或者減少某個擴(kuò)散模型的貢獻(xiàn)，從而讓各位合作者（也就是擴(kuò)散模型）發(fā)揮專長，實現(xiàn)合作共贏。
值得注意的是，預(yù)測得到的 Influence Functions 在時間和空間上都是適應(yīng)性變化的。下圖展示了 mask-to-image 和 text-to-image 模型合作時，在不同時間和空間位置的 Influence Functions 強(qiáng)度。

從上圖中我們可以觀察到，在時間上，決定 mask-to-image 模型影響的 Influence Functions 在去噪初期很強(qiáng)（第一行左邊），到后期逐漸變?nèi)酰ǖ谝恍杏疫叄?，這是因為擴(kuò)散模型在去噪初期會首先形成圖片內(nèi)容的布局，到后期才會逐漸生成紋路和細(xì)節(jié)；而在多模態(tài)控制人臉生成時，圖片的布局信息主要是由 mask 提供的，因此 mask 分支的 Influence Functions 會隨著時間由強(qiáng)變?nèi)?。與之相對應(yīng)地 text-to-image 模型的 Influence Functions（第二行）會隨著時間由弱到強(qiáng)，因為 text 提供的多數(shù)信息是與細(xì)節(jié)紋路相關(guān)的，例如胡子的濃密程度，頭發(fā)顏色，以及與年齡相關(guān)的皮膚皺紋，而擴(kuò)散模型的去噪過程也是在后期才會逐步確定圖片的紋理以及細(xì)節(jié)。
與此同時，在空間上，mask-to-image 模型的 Influence 在面部區(qū)域分界處更強(qiáng)，例如面部輪廓和頭發(fā)的外邊緣，因為這些地方對整體面部布局是至關(guān)重要的。text-to-image 模型的 Influence 則在面中，尤其是臉頰和胡子所在的區(qū)域較強(qiáng)，因為這些區(qū)域的紋理需要 text 提供的年齡，胡子等信息來填充。
Collaborative Diffusion 的通用性
Collaborative Diffusion 是一個通用框架，它不僅適用于圖片生成，還可以讓 text-based editing 和 mask-based editing 方法合作起來。我們利用在生成任務(wù)上訓(xùn)練的 Dynamic Diffusers 來預(yù)測 Influence Functions，并將其直接用到 editing 中。如下圖所示：

完整的實驗細(xì)節(jié)和實驗結(jié)果，以及更多圖片結(jié)果，請參考論文。
總結(jié)
(1) 我們提出了 Collaborative Diffusion，一種簡單有效的方法來實現(xiàn)不同擴(kuò)散模型之間的合作。(2) 我們充分利用擴(kuò)散模型的迭代去噪性質(zhì)，設(shè)計了 Dynamic Diffuser 來預(yù)測在時間和空間上均有適應(yīng)性的 Influence Functions 來控制不同的擴(kuò)散模型如何合作。(3) 我們實現(xiàn)了高質(zhì)量的多模態(tài)控制的人臉生成和編輯。(4) Collaborative Diffusion 是一個通用的框架，不僅適用于圖片生成，還適用于圖片編輯，以及未來更多的基于擴(kuò)散模型的其他任務(wù)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

CVPR 2023 | 多個擴(kuò)散模型相互合作，新方法實現(xiàn)多模態(tài)人臉生成與編輯

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

CVPR 2023 | 多個擴(kuò)散模型相互合作，新方法實現(xiàn)多模態(tài)人臉生成與編輯

相關(guān)推薦

技術(shù)專區(qū)

CVPR 2023 | 多個擴(kuò)散模型相互合作，新方法實現(xiàn)多模態(tài)人臉生成與編輯