博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 有手就行?把大象P轉(zhuǎn)身只需拖動(dòng)鼠標(biāo),華人一作DragGAN爆火(2)

有手就行?把大象P轉(zhuǎn)身只需拖動(dòng)鼠標(biāo),華人一作DragGAN爆火(2)

發(fā)布人:機(jī)器之心 時(shí)間:2023-05-20 來(lái)源:工程師 發(fā)布文章

實(shí)驗(yàn)


為了展示 DragGAN 在圖像處理方面的強(qiáng)大能力,該研究展開(kāi)了定性實(shí)驗(yàn)、定量實(shí)驗(yàn)和消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明 DragGAN 在圖像處理和點(diǎn)跟蹤任務(wù)中均優(yōu)于已有方法。


定性評(píng)估


圖 4 是本文方法和 UserControllableLT 之間的定性比較,展示了幾個(gè)不同物體類(lèi)別和用戶(hù)輸入的圖像操縱結(jié)果。本文方法能夠準(zhǔn)確地移動(dòng)操縱點(diǎn)以到達(dá)目標(biāo)點(diǎn),實(shí)現(xiàn)了多樣化和自然的操縱效果,如改變動(dòng)物的姿勢(shì)、汽車(chē)形狀和景觀布局。相比之下,UserControllableLT 不能忠實(shí)地將操縱點(diǎn)移動(dòng)到目標(biāo)點(diǎn)上,往往會(huì)導(dǎo)致圖像中出現(xiàn)不想要的變化。


圖片

如圖 10 所示,它也不能像本文方法那樣保持未遮蓋區(qū)域固定不變。


圖片


圖 6 提供了與 PIPs 和 RAFT 之間的比較,本文方法準(zhǔn)確地跟蹤了獅子鼻子上方的操縱點(diǎn),從而成功地將它拖到了目標(biāo)位置。


圖片


真實(shí)圖像編輯。使用 GAN inversion 技術(shù),將真實(shí)圖像嵌入 StyleGAN 的潛空間,本文方法也可以用來(lái)操作真實(shí)圖像。


圖 5 顯示了一個(gè)例子,將 PTI inversion 應(yīng)用于真實(shí)圖像,然后進(jìn)行一系列的操作來(lái)編輯圖像中人臉的姿勢(shì)、頭發(fā)、形狀和表情:


圖片

圖 13 展示了更多的真實(shí)圖像編輯案例:


圖片

定量評(píng)估

研究者在兩種設(shè)置中下對(duì)該方法進(jìn)行了定量評(píng)估,包括人臉標(biāo)記點(diǎn)操作和成對(duì)圖像重建。


人臉標(biāo)記點(diǎn)操作。如表 1 所示,在不同的點(diǎn)數(shù)下,本文方法明顯優(yōu)于 UserControllableLT。特別是,本文方法保留了更好的圖像質(zhì)量,正如表中的 FID 得分所示。


圖片

這種對(duì)比在圖 7 中可以明顯看出來(lái),本文方法打開(kāi)了嘴巴并調(diào)整下巴的形狀以匹配目標(biāo)臉,而 UserControllableLT 未能做到這一點(diǎn)。


圖片


成對(duì)圖像重建。如表 2 所示,本文方法在不同的目標(biāo)類(lèi)別中優(yōu)于所有基線(xiàn)。


圖片


消融實(shí)驗(yàn)


研究者研究了在運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤中使用某種特征的效果,并報(bào)告了使用不同特征的人臉標(biāo)記點(diǎn)操作的性能(MD)。如表 3 所示,在運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤中,StyleGAN 的第 6 個(gè) block 之后的特征圖表現(xiàn)最好,顯示了分辨率和辨別力之間的最佳平衡。


圖片


表 4 中提供了

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉