特拉維夫大學(xué)把StyleGAN進行了大匯總,全面了解SOTA方法、架構(gòu)新進展
一文了解 StyleGAN 架構(gòu)、方法和應(yīng)用的最新進展。
GAN 生成高分辨率圖像的能力正在徹底改變圖像合成和處理領(lǐng)域。2019 年 Karras 等人提出 StyleGAN ,該技術(shù)走到了圖像合成的最前沿,被公認為是最先進的高質(zhì)量圖像生成器。我們先來看下 StyleGAN 的合成效果:
StyleGAN 不受監(jiān)督,但它的潛在空間卻表現(xiàn)的令人驚訝。事實證明,StyleGAN 性能非常好,甚至支持線性潛在算法。例如,它支持在一組潛在代碼中添加一個表示年齡的向量,使圖像中人物年齡看起來更年長。研究證明,StyleGAN 不但可以線性的排列潛在空間,也可以以一種解耦(disentangled)的方式,其遍歷方向僅改變特定的圖像屬性,而不影響其他屬性。這些屬性包括全局、與領(lǐng)域無關(guān)的方面(例如視角),但也包括特定領(lǐng)域的屬性,例如人臉的表情或性別、汽車顏色、狗品種等(參見圖 1 和圖 2)。
在本文中,來自特拉維夫大學(xué)的多位研究者撰文描述了 StyleGAN 目前取得的成功,并分析了其存在的嚴重缺陷。該研究首先討論網(wǎng)絡(luò)架構(gòu)本身,并分析了 StyleGAN 自出現(xiàn)以來在先進生成模型中所起的作用。之后,該研究討論了訓(xùn)練 StyleGAN 所需的資源,并列出減少、復(fù)用和回收這些資源的一些研究。
論文地址:https://arxiv.org/pdf/2202.14020.pdf
StyleGAN 架構(gòu)、方法和應(yīng)用中的最新技術(shù)
本文共分為 8 個小節(jié):在 2 節(jié)中,該研究將描述了 StyleGAN 的架構(gòu)是如何構(gòu)建的,并試圖理解為什么這種架構(gòu)會引發(fā)如此尖端的新興技術(shù),以及如何改進架構(gòu)以滿足特定需求。
第 3 節(jié)討論了 StyleGAN 的潛在空間,展示了研究者如何找到線性編輯方向并將其用于強大的語義編輯。傳統(tǒng)上一般的 GAN,特別是 StyleGAN,可用于簡單地生成不同風(fēng)格的圖像。這些可以作為下游訓(xùn)練的一種數(shù)據(jù)增強形式(參見第 6 節(jié))。然而,研究已經(jīng)表明 GAN 傾向于平滑地排列其潛在空間,即潛在空間中的接近區(qū)域描繪出相似的圖像。
第 4 節(jié)主要討論了 StyleGAN 逆映射(inversion)。為了在 StyleGAN 域中表達給定的真實圖像,研究者提出了許多不同的方法,所有這些方法都深入分析和利用了生成器架構(gòu)。一些研究者提出了潛在代碼優(yōu)化,應(yīng)用數(shù)據(jù)驅(qū)動推理等不同方法,或者尋求適當(dāng)?shù)妮斎敕N子向量,還有一些研究在推理路徑的其他點與 StyleGAN 交互,從而大大提高了網(wǎng)絡(luò)表達能力。StyleGAN 潛在空間的良好行為性質(zhì)在遠離其良好采樣分布的區(qū)域中會減少。這在實踐中意味著給定真實圖像,其重建質(zhì)量(或失真)是以可編輯性為代價的。在這種重建 - 可編輯性權(quán)衡中找到不同的期望點是本節(jié)主要討論點。
將圖像編碼到 StyleGAN 潛在空間比圖像逆映射本身具有更多優(yōu)點。在許多應(yīng)用程序中,被編碼的圖像不是所需的潛在代碼應(yīng)該表示的圖像。這種編碼允許各種圖像到圖像的轉(zhuǎn)換方法。在第 4 節(jié)中,該研究介紹并討論了這種有監(jiān)督和無監(jiān)督的方法。
在第 6 節(jié)中,該研究展示了 StyleGAN 生成能力,并討論了 StyleGAN 可以利用的判別能力,這包括可解釋性、回歸、分割等方面的應(yīng)用。
在大多數(shù)工作和應(yīng)用中,預(yù)訓(xùn)練 StyleGAN 生成器保持固定。然而,在第 7 節(jié)中,該研究展示了微調(diào) StyleGAN 生成器并修改其權(quán)重以彌合訓(xùn)練域(域內(nèi))或目標(biāo)域之間的差距的最新工作。每個部分都針對新手以及經(jīng)驗豐富的研究者,并總結(jié)了最成熟和最有前途的方法,以及如何使用它們。
下面我們將介紹論文中部分章節(jié)內(nèi)容。
StyleGAN 架構(gòu)的發(fā)展
StyleGAN1。基于風(fēng)格的生成器架構(gòu),或簡稱 StyleGAN,最初由 Karras 等人在 2019 年提出。StyleGAN 架構(gòu)的核心是風(fēng)格調(diào)制層(style modulation layers),StyleGAN 的名字就是從這里得來的, 其能夠生成高質(zhì)量的圖像數(shù)據(jù)并且做到了高層特征可控。
StyleGAN2。隨著 StyleGAN 廣泛使用,模型固有的缺點暴露出來,例如偽影問題。此外,研究者還觀察到一種紋理粘附效應(yīng),即生成圖像的某些屬性,如牙齒或眼睛,會顯示出強烈的空間偏差,即使通過潛在空間插值也難以解決。在后續(xù)工作中,Karras 等人的研究可以識別偽影來源,并重新設(shè)計算法以改進網(wǎng)絡(luò),StyleGAN2 著重處理 StyleGAN 偽影問題,能夠生成質(zhì)量更好的圖像數(shù)據(jù)。
StyleGAN3。起初,StyleGAN2 似乎解決了紋理粘連問題。然而,研究者通過細致的分析發(fā)現(xiàn),StyleGAN2 雖然已經(jīng)解決了嘴巴或眼睛等大尺寸物體,但在檢查頭發(fā)或胡須等更精細的細節(jié)時仍然存在問題。為了解決這個問題,Karras 等人尋找空間信息可能泄漏到卷積操作中的各種來源,目的是完全恢復(fù)網(wǎng)絡(luò)的平移不變性。StyleGAN3 的新穎架構(gòu) [Karras et al. 2021] 帶來了顯著的改進,使得插值更加平滑。
StyleGAN3 對生成細節(jié)的把控令人驚嘆,它從根本上解決了 StyleGAN2 圖像坐標(biāo)與特征粘連的問題,實現(xiàn)了真正的圖像平移、旋轉(zhuǎn)等不變性,大幅提高了圖像合成質(zhì)量。
當(dāng)然,訓(xùn)練模型離不開數(shù)據(jù),當(dāng)代機器學(xué)習(xí)一個公開秘密是,許多模型在標(biāo)準基準上表現(xiàn)出色,但無法推廣到實驗室外,StyleGAN 也不例外。在 StyleGAN 中,學(xué)習(xí)域似乎需要嚴格的結(jié)構(gòu),而數(shù)據(jù)域應(yīng)該是凸的,即在每兩個點之間應(yīng)該有有效的樣本進行插值 。在最近的研究中,Sauer 等人證明,通過擴展模型可以克服數(shù)據(jù)面臨的挑戰(zhàn),但 StyleGAN 獨特的潛在空間屬性是否能通過這種修改持續(xù)存在仍是一個懸而未決的問題。將來,我們可能會看到更多解決顯式數(shù)據(jù)問題的工作,即嘗試將 StyleGAN 應(yīng)用于其他類型數(shù)據(jù)的工作,或者通過在訓(xùn)練期間刪除或添加示例以使數(shù)據(jù)的 landscape 更加平滑,或者用更直接地方式處理數(shù)據(jù)中的多模態(tài),或者通過將更精細的注意力機制整合到架構(gòu)中。
與普通的 GAN 不同,StyleGAN 有不止一個固有的潛在空間。此外,為了增加 StyleGAN 的表現(xiàn)力,通常會使用這些空間的擴展,如圖 6。
潛在空間編輯
也許 GAN 學(xué)習(xí)最令人興奮的方面是潛在空間排列方式。傳統(tǒng)上,一般的 GAN,特別是 StyleGAN,可以用來簡單地生成各種各樣的同類圖像。這些可以作為下游訓(xùn)練數(shù)據(jù)增強的一種形式 (見第 6 節(jié))。然而,已有研究表明,GAN 傾向于平滑地排列其潛在空間,即潛在空間中的封閉區(qū)域描繪相似的圖像。
事實證明,在潛在空間中遍歷也可以得到所需的語義變化。這些變化包括視點、照明條件和特定于領(lǐng)域的屬性(如人臉的表情、汽車的顏色或建筑物的寬度)的變化。當(dāng)然,最理想的編輯是解耦編輯,即那些改變一個屬性而不影響其他屬性的編輯。這樣強大的編輯工具的應(yīng)用是無止境的,從自動添加微笑到面部圖像,通過室內(nèi)設(shè)計探索,快速的汽車設(shè)計。
StyleGAN 在結(jié)構(gòu)良好的數(shù)據(jù)上運行得最好,當(dāng)對這些數(shù)據(jù)進行訓(xùn)練時,StyleGAN 以一種無監(jiān)督的方式構(gòu)建了一個高度解耦的潛在空間,僅僅憑借歸納偏差。在本研究中,編輯藝術(shù)是多樣化的,呈現(xiàn)出從不同領(lǐng)域借來的創(chuàng)造性方法。
應(yīng)用程序
雖然 GAN 具有很強的生成能力,尤其是 StyleGAN,但人們可能會問,使用 GAN 可以解決哪些非生成任務(wù)。在其最基本的形式中,GAN 生成大量圖像的能力,基本上都是從相同的目標(biāo)分布重新采樣的,可用于下游訓(xùn)練任務(wù)的數(shù)據(jù)豐富和增強。事實上,早期研究提出使用 GAN 作為增強工具來生成更多的訓(xùn)練數(shù)。
利用 GAN 的編輯能力,Chai 等人通過在測試時增強輸入圖像,提出了一種用于圖像分類的集成方法。輸入被投影到預(yù)訓(xùn)練生成器的潛在空間中,并對其應(yīng)用風(fēng)格混合等編輯操作,生成不同的視圖。之后生成的圖像輸入分類網(wǎng)絡(luò),模型的最終預(yù)測基于對所有圖像的網(wǎng)絡(luò)預(yù)測的集合。與深度學(xué)習(xí)中的傳統(tǒng)集成不同,其中多個模型的預(yù)測被組合以產(chǎn)生最終結(jié)果,該方法建議使用同一圖像的不同視圖(同時保留其身份)并在測試時集成分類器對圖像的預(yù)測。
為了以新的方式利用 StyleGAN 的語義理解,Peebles 等人提出了一種新的框架來處理密集視覺對齊的任務(wù)。如圖 11c 所示。一旦兩種操作收斂到一個視點,就可以使用 STN 來對齊真實圖像。
另一個關(guān)鍵方面是避免扭曲圖像的未編輯部分,通常稱為保留原始身份。例如,對人臉微笑的編輯不應(yīng)改變發(fā)型等屬性。一些研究專注于面部圖像,其中可以使用面部識別網(wǎng)絡(luò)評估身份。
另一個問題是圖像質(zhì)量。StyleGAN 的主要優(yōu)勢之一是高質(zhì)量的視覺效果,編輯方法應(yīng)該致力于保持這種效果。然而,編輯可能會導(dǎo)致編輯后的數(shù)據(jù)與真實數(shù)據(jù)之間存在較大的偏差,從而導(dǎo)致評估不準確。如果可能,可以使用分類器或回歸模型來平衡圖像集合與某些屬性之間的關(guān)系。Zhu 等人提出了評估插值質(zhì)量方法,他們建議,即使對于插值圖像,良好的可編輯性也應(yīng)該保留 StyleGAN 的高質(zhì)量,他們使用 FID 度量。最后,一些研究利用用戶研究來評估編輯質(zhì)量,盡管這種方法對編輯過程有深刻的理解,但它會消耗大量資源并且容易受到不必要的操作。直到今天,對于潛在的操作質(zhì)量,還沒有被廣泛接受的評估指標(biāo)。
更多細節(jié),請查看原論文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。