博客專欄

EEPW首頁 > 博客 > ICLR 2021 | 協(xié)同調(diào)制生成對抗網(wǎng)絡(luò),輕松幫你實現(xiàn)任意大區(qū)域圖像填充

ICLR 2021 | 協(xié)同調(diào)制生成對抗網(wǎng)絡(luò),輕松幫你實現(xiàn)任意大區(qū)域圖像填充

發(fā)布人:MSRAsia 時間:2021-05-07 來源:工程師 發(fā)布文章

編者按:圖像填充是深度學(xué)習(xí)領(lǐng)域內(nèi)的一個熱點任務(wù)。盡管現(xiàn)有方法對于小規(guī)模、稀疏區(qū)域的填充可以取得不錯的效果,但對于大規(guī)模的缺失區(qū)域始終無能為力。為解決這一問題,微軟亞洲研究院提出了協(xié)同調(diào)制生成式對抗網(wǎng)絡(luò)——一種通用的方法,跨越了條件與無條件圖像生成領(lǐng)域之間的鴻溝。這一方法不但能夠高質(zhì)量、多樣地填充圖像任意規(guī)模的缺失區(qū)域,同時也能被應(yīng)用于更廣泛的圖像轉(zhuǎn)換任務(wù)。此外,考慮到圖像填充領(lǐng)域內(nèi)缺乏良好的指標(biāo),研究員們還提出了配對/無配對感知器辨別分?jǐn)?shù)(P-IDS/U-IDS)以更加魯棒、直觀、合理地衡量模型性能。該相關(guān)工作已被 ICLR 2021 接受為 Spotlight Presentation。

如何對殘缺圖像進(jìn)行修復(fù)?傳統(tǒng)方法需要使用修圖軟件中的畫筆、圖章、加深減淡……等工具,如果有美觀/美顏的需求,還得請“專家”上手。近日,微軟亞洲研究院的研究員們在 ICLR 2021 大會上發(fā)表了一項工作:“Large Scale Image Completion via Co-Modulated Generative Adversarial Networks”(通過協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)進(jìn)行大規(guī)模圖像填充),能夠?qū)崿F(xiàn)一鍵修圖。

讓我們先來看看它的修復(fù)“手藝”吧!

下面這兩張圖片,左圖是原圖,右圖是修復(fù)過的圖像。與左圖相比,右圖中的裂縫是不是沒有了?

1.png

不僅如此,遮擋物也能修復(fù)!將左邊的原圖經(jīng)過處理后,右圖呈現(xiàn)出的景物更加完整。

2.png

殘缺的圖片也可以自動補全啦!原來破敗的房子,處理之后,煥然一新。

3.png

現(xiàn)在這項研究成果已經(jīng)可以在線體驗啦!點擊閱讀原文,即可上手嘗試。

技術(shù)思想:圖像生成能力

事實上,圖像填充是深度學(xué)習(xí)領(lǐng)域內(nèi)的一個熱點任務(wù)。盡管現(xiàn)有方法對于小規(guī)模、稀疏區(qū)域的填充可以取得不錯的效果,但對于大規(guī)模的缺失區(qū)域始終無能為力。為解決這一問題,微軟亞洲研究院的研究員們提出了協(xié)同調(diào)制生成式對抗網(wǎng)絡(luò),其研究主要思想是:解決大規(guī)模圖像填充的關(guān)鍵在于需要充分的圖像生成能力。

考慮一個極端情況——如果一張圖像絕大部分的面積被遮擋,那么這一情況下圖像填充的難度就幾乎等價于無條件的圖像生成。由此可以推斷,充足的圖像生成能力將能夠極大地助力大區(qū)域的圖像填充。

當(dāng)前,越來越多基于條件生成對抗網(wǎng)絡(luò)(conditional GAN)的圖像填充方法被提出。因為這一任務(wù)極具挑戰(zhàn)性,大量研究者都在針對這一具體任務(wù)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),如利用中間表征信息(邊緣、結(jié)構(gòu)等)來構(gòu)建多階段的生成網(wǎng)絡(luò)。但即便如此,這些方法在面對大規(guī)模的缺失區(qū)域時仍然無法生成合理的、與已知部分協(xié)調(diào)的圖像內(nèi)容。而利用圖像的生成能力則能夠在一定程度上解決這個挑戰(zhàn)。

技術(shù)核心:協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)

目前,以 StyleGAN、BigGAN 為代表的無條件生成對抗網(wǎng)絡(luò)借助調(diào)制(modulation)的方法(如圖1 (a)),可以在無條件圖像生成任務(wù)(如隨機(jī)生成人臉)中取得非常好的結(jié)果。然而,在以圖像為條件的生成任務(wù)(如圖像填充)中,大多數(shù)工作仍然無法突破普通圖像條件生成器(圖1 (b))帶來的瓶頸。即便有些工作嘗試?yán)幂斎雸D片進(jìn)行條件調(diào)制(圖1 (c)),但這種完全依賴于條件輸入、缺乏隨機(jī)性的生成器結(jié)構(gòu)導(dǎo)致其無法泛化到需要弱條件生成能力的任務(wù)上,尤其是大區(qū)域的圖像填充。

4.png

圖1:不同生成式網(wǎng)絡(luò)架構(gòu)對比——(a) 無條件調(diào)制生成器,(b) 普通圖像條件生成器,(c) 有條件調(diào)制生成器,(d) 協(xié)同調(diào)制生成器。

因此,微軟亞洲研究院的研究員們提出了協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)(如圖1 (d)),協(xié)同地將條件輸入與隨機(jī)潛矢量經(jīng)過映射網(wǎng)絡(luò)產(chǎn)生的風(fēng)格表征對每個卷積層進(jìn)行調(diào)制,從而跨越了條件與無條件圖像生成領(lǐng)域之間的鴻溝,輕松實現(xiàn)任意大區(qū)域的圖像填充(見圖2、圖3),并能夠應(yīng)用于更一般的圖像轉(zhuǎn)換(image-to-image translation)任務(wù)中(圖4)。

5.png

圖2:從小規(guī)模(左)到大規(guī)模(右)的缺失區(qū)域,協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)始終可以創(chuàng)作出高質(zhì)量、多樣的填充內(nèi)容。

6.png

圖3:不同圖像填充方法之間的比較。協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)的填充結(jié)果(右一)顯著優(yōu)于其它經(jīng)典方法,即使面對大面積且不規(guī)則的缺失區(qū)域,它的效果依舊出色。

7.png

圖4:協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)應(yīng)用于圖像轉(zhuǎn)換任務(wù)。在 Edges2Handbags 數(shù)據(jù)集上,協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)表現(xiàn)出嚴(yán)格優(yōu)于其它經(jīng)典方法的圖像質(zhì)量(FID)與圖像多樣性(LPIPS)之間的權(quán)衡曲線。

技術(shù)評價:配對/無配對感知器辨別分?jǐn)?shù)

研究員們還注意到圖像填充領(lǐng)域內(nèi)缺乏良好的評價指標(biāo)。此前的研究多采用像素級相似度指標(biāo)(如 l_1、l_2、SSIM、PSNR 等)或直接采用圖像生成領(lǐng)域內(nèi)如 FID、KID 等的指標(biāo)。前者更加青睞模糊的生成圖像,而后者則完全忽略了圖像的配對關(guān)系(原圖像—填充后圖像)。

因此,研究員們提出了新的配對/無配對感知器辨別分?jǐn)?shù)(P-IDS/U-IDS),通過計算生成圖像與真實圖像在感知器特征空間中的線性可分程度,反映了生成圖像的保真度。實驗驗證了該指標(biāo)的魯棒性、直觀性、與合理性:

1)P-IDS/U-IDS 在少量數(shù)據(jù)的情況下能夠快速收斂(如圖5);

2)P-IDS 能夠敏銳地捕捉圖像的微小差距(如圖6);

3)P-IDS 與人類偏好有著高相關(guān)度——FID 與人類偏好的負(fù)相關(guān)度為0.765,而 P-IDS 的正相關(guān)度高達(dá)0.870。

8.png

圖5:相較于 FID,P-IDS/U-IDS 在數(shù)據(jù)量少的情況下收斂迅速。

9.png

圖6:P-IDS 能夠捕捉圖像的細(xì)微差距。在 512×512 大小的圖像中,一定數(shù)量(橫軸)的像素被刪除并進(jìn)行了最近鄰插值。

協(xié)同調(diào)制填補了條件與無條件圖像生成之間的空缺,可輕松實現(xiàn)任意大區(qū)域的圖像補全,還可以被拓展至更廣泛的圖像轉(zhuǎn)換任務(wù)。同時,配對/無配對感知器辨別分?jǐn)?shù)(P-IDS/U-IDS)評價指標(biāo)的諸多良好性能也使其在領(lǐng)域內(nèi)有著極高的潛力。研究員們希望協(xié)同調(diào)制生成對抗網(wǎng)絡(luò)架構(gòu)能夠成為領(lǐng)域內(nèi)的基準(zhǔn)方法,繼續(xù)推動這一領(lǐng)域的前進(jìn)。

論文:Large Scale Image Completion via Co-Modulated Generative Adversarial Networks

論文鏈接:https://arxiv.org/pdf/2103.10428

GitHub:https://github.com/zsyzzsoft/co-mod-gan

Demo:http://comodgan.ml/

本文作者:趙晟宇、崔仁、盛翊倫、董玥、梁霄、張益肇、許燕

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉