有手就行?把大象P轉身只需拖動鼠標,華人一作DragGAN爆火(1)
如果甲方想把大象 P 轉身,你只需要拖動 GAN 就好了。
在圖像生成領域,以 Stable Diffusion 為代表的擴散模型已然成為當前占據(jù)主導地位的范式。但擴散模型依賴于迭代推理,這是一把雙刃劍,因為迭代方法可以實現(xiàn)具有簡單目標的穩(wěn)定訓練,但推理過程需要高昂的計算成本。
在 Stable Diffusion 之前,生成對抗網(wǎng)絡(GAN)是圖像生成模型中常用的基礎架構。相比于擴散模型,GAN 通過單個前向傳遞生成圖像,因此本質上是更高效的。但由于訓練過程的不穩(wěn)定性,擴展 GAN 需要仔細調整網(wǎng)絡架構和訓練因素。因此,GAN 方法很難擴展到非常復雜的數(shù)據(jù)集上,在實際應用方面,擴散模型比 GAN 方法更易于控制,這是 GAN 式微的原因之一。
當前,GAN 主要是通過手動注釋訓練數(shù)據(jù)或先驗 3D 模型來保證其可控性,這通常缺乏靈活性、精確性和通用性。然而,一些研究者看重 GAN 在圖像生成上的高效性,做出了許多改進 GAN 的嘗試。
最近,來自馬克斯?普朗克計算機科學研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN,能夠讓用戶以交互的方式「拖動」圖像的任何點精確到達目標點。
論文鏈接:https://arxiv.org/abs/2305.10973
項目主頁:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
這種全新的控制方法非常靈活、強大且簡單,有手就行,只需在圖像上「拖動」想改變的位置點(操縱點),就能合成你想要的圖像。
例如,讓獅子「轉頭」并「開口」:
還能輕松讓小貓 wink:
再比如,你可以通過拖動操縱點,讓單手插兜的模特把手拿出來、改變站立姿勢、短袖改長袖??瓷先ゾ拖袷峭粋€模特重新拍攝了新照片:
如果你也接到了「把大象轉個身」的 P 圖需求,不妨試試:
整個圖像變換的過程就主打一個「簡單靈活」,圖像想怎么變就怎么變,因此有網(wǎng)友預言:「PS 似乎要過時了」。
也有人覺得,這個方法也可能會成為未來 PS 的一部分。
總之,觀感就是一句話:「看到這個,我腦袋都炸了?!?/span>
當大家都以為 GAN 這個方向從此消沉的時候,總會出現(xiàn)讓我們眼前一亮的作品:
這篇神奇的論文,已經(jīng)入選了 SIGGRAPH 2023。研究者表示,代碼將于六月開源。
那么,DragGAN 是如何做到強大又靈活的?我們來看一下該研究的技術方法。
方法概述
該研究提出的 DragGAN 主要由兩個部分組成,包括:
基于特征的運動監(jiān)督,驅動圖像中的操縱點向目標位置移動;
一種借助判別型 GAN 特征的操縱點跟蹤方法,以控制點的位置。
DragGAN 能夠通過精確控制像素的位置對圖像進行改變,可處理的圖像類型包括動物、汽車、人類、風景等,涵蓋大量物體姿態(tài)、形狀、表情和布局,并且用戶的操作方法簡單通用。
GAN 有一個很大的優(yōu)勢是特征空間具有足夠的判別力,可以實現(xiàn)運動監(jiān)督(motion supervision)和精確的點跟蹤。具體來說,運動監(jiān)督是通過優(yōu)化潛在代碼的移位特征 patch 損失來實現(xiàn)的。每個優(yōu)化步驟都會導致操縱點更接近目標,然后通過特征空間中的最近鄰搜索來執(zhí)行點跟蹤。重復此優(yōu)化過程,直到操縱點達到目標。
DragGAN 還允許用戶有選擇地繪制感興趣的區(qū)域以執(zhí)行特定于區(qū)域的編輯。由于 DragGAN 不依賴任何額外的網(wǎng)絡,因此它實現(xiàn)了高效的操作,大多數(shù)情況下在單個 RTX 3090 GPU 上只需要幾秒鐘就可以完成圖像處理。這讓 DragGAN 能夠進行實時的交互式編輯,用戶可以對圖像進行多次變換更改,直到獲得所需輸出。
如下圖所示,DragGAN 可以有效地將用戶定義的操縱點移動到目標點,在許多目標類別中實現(xiàn)不同的操縱效果。與傳統(tǒng)的形變方法不同的是,本文的變形是在 GAN 學習的圖像流形上進行的,它傾向于遵從底層的目標結構,而不是簡單地應用扭曲。例如,該方法可以生成原本看不見的內(nèi)容,如獅子嘴里的牙齒,并且可以按照物體的剛性進行變形,如馬腿的彎曲。
研究者還開發(fā)了一個 GUI,供用戶通過簡單地點擊圖像來交互地進行操作。
此外,通過與 GAN 反轉技術相結合,本文方法還可以作為一個用于真實圖像編輯的工具。
一個非常實用的用途是,即使合影中某些同學的表情管理不過關,你也可以為 Ta 換上自信的笑容:
順便提一句,這張照片正是本篇論文的一作潘新鋼,2021 年在香港中文大學多媒體實驗室獲得博士學位,師從湯曉鷗教授。目前是馬克斯普朗克信息學研究所博士后,并將從 2023 年 6 月開始擔任南洋理工大學計算機科學與工程學院 MMLab 的任助理教授。
這項工作旨在為 GAN 開發(fā)一種交互式的圖像操作方法,用戶只需要點擊圖像來定義一些對(操縱點,目標點),并驅動操縱點到達其對應的目標點。
這項研究基于 StyleGAN2,基本架構如下:
在 StyleGAN2 架構中,一個 512 維的潛在代碼
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。