博客專欄

EEPW首頁 > 博客 > 在花了兩小時(shí)體驗(yàn)英偉達(dá)升級版“神奇畫布”后,整個(gè)人都凌亂了

在花了兩小時(shí)體驗(yàn)英偉達(dá)升級版“神奇畫布”后,整個(gè)人都凌亂了

發(fā)布人:硅星人 時(shí)間:2021-12-01 來源:工程師 發(fā)布文章

一次嘗試用AI變藝術(shù)家的翻車記。

——

文|Juny   編輯|Lianzi


猶記得兩年前,英偉達(dá)首次推出了旗下全新的交互應(yīng)用GauGAN,能夠通過人工智能技術(shù)把小學(xué)生水平的簡筆畫瞬間轉(zhuǎn)換成絕美風(fēng)景圖。 比如用幾堆色塊,一條豎杠就能生成疑是銀河落九天的美景。隨手畫個(gè)圈,就能實(shí)時(shí)生成一汪水潭,倒映出綠樹和天空四時(shí)不同的顏色。 
 GauGAN1.0 的簡筆畫轉(zhuǎn)換效果,圖片來自英偉達(dá)官網(wǎng) 一時(shí)間,GauGAN名聲大噪,大家都對這種神奇的技術(shù)嘖嘖稱奇,稱GauGAN為當(dāng)代“神筆馬良”之筆,感嘆著只有小學(xué)生繪畫水平的自己終于也可以做藝術(shù)家了。 就在幾天前,英偉達(dá)宣布更新GauGAN的2.0版本,在此前涂鴉畫的基礎(chǔ)上,增加了文本識別功能。簡單來說,就是現(xiàn)在你連畫都不用畫了,直接把你腦海中想象的畫面用文字輸入,系統(tǒng)就能為你立馬生成圖像,幫把你模糊的設(shè)想變成現(xiàn)實(shí)。 硅星人一聽,立馬就來了興趣。這牛啊,這不意味著人工智能學(xué)會了讀心術(shù),讓你腦子里的奇思妙想一秒變成藝術(shù)大作嗎?于是,趁著感恩節(jié)假期,硅星人決定親自上手這個(gè)“神奇畫布”,看看究竟能跟AI合作出什么作品出來。 經(jīng)過2個(gè)小時(shí)的倒騰之后,此次硅星人體驗(yàn)的心路歷程可以用“哇!-咦?-呃……-哦”來形容。那么,究竟是怎么回事呢? |只需一句話,還你一幅大作 GauGAN是一款比較類似于Photoshop的圖片類軟件。它的特點(diǎn)是基于生成對抗網(wǎng)絡(luò) (GAN)技術(shù)而開發(fā),能夠根據(jù)用戶需求自動(dòng)生成個(gè)性化的高質(zhì)量圖片。 英偉達(dá)開發(fā)GauGAN的目的,是想為未來的設(shè)計(jì)師、游戲開發(fā)者等各類型群體提供創(chuàng)建虛擬世界的強(qiáng)大工具,讓人們能很快地將自己的靈感轉(zhuǎn)化為原型并能便捷的修改它。此前,GauGAN 1.0 實(shí)現(xiàn)了讓簡筆涂鴉秒變大片,而這次GauGAN 2.0則能讓文本一秒變大片。 那么,此次的GauGAN 2.0的文本轉(zhuǎn)化功能有多強(qiáng)大呢?舉個(gè)例子,當(dāng)你輸入“海浪打在巖石上”這句話時(shí),畫布上的圖片會隨著你輸入的文本而實(shí)時(shí)變動(dòng),先出現(xiàn)平靜的海,再出現(xiàn)巖石,最后精準(zhǔn)呈現(xiàn)海浪拍巖石的畫面。 
當(dāng)你輸入“Sunshine in a tall tree forest”,系統(tǒng)會根據(jù)你逐漸細(xì)化的形容來實(shí)時(shí)更改圖片,最后呈現(xiàn)一幅陽光透過森林的圖片。
 


當(dāng)然,除了通過文本生成之外,GauGAN 2.0同樣也支持1.0版本的使用涂鴉、和導(dǎo)入圖片生成的方式,而且還支持幾種方式的混合使用。
 在通過文字生成了圖片之后,你可以進(jìn)一步使用涂鴉功能對細(xì)節(jié)進(jìn)行調(diào)整。比如你先用文本生成了一張沙漠里的太陽的圖片,你想將其衍生呈現(xiàn)出《星球大戰(zhàn)》里沙漠里升起兩個(gè)太陽的場景,那么,你只需要在已生成圖片的基礎(chǔ)上再畫一個(gè)小圓圈,圖片里就會升起兩個(gè)太陽。 
再比如,你先導(dǎo)入一張海邊風(fēng)景的圖片,然后使用快速擦除的功能擦去不想要的部分。接著,你再輸入文本“極光”,AI就會自動(dòng)給你加上特效,一張由你創(chuàng)作的極光大片就此產(chǎn)生。
 英偉達(dá)表示,GauGAN 2.0背后的AI模型使用了NVIDIA Selene 超級計(jì)算機(jī)對超過1000萬張高質(zhì)量風(fēng)景圖像進(jìn)行了訓(xùn)練,從而讓AI理解單詞以及單詞之間的聯(lián)系,并進(jìn)一步將自然語言描述成風(fēng)景圖像。
 同時(shí)GauGAN還是是多模式軟件,也就是說,即便是你和別人輸入了同樣的涂鴉或文本,軟件中內(nèi)置的隨機(jī)數(shù)也能確保你們最終的生成的作品是不同的。因此,每個(gè)人所產(chǎn)出的圖片都是獨(dú)一無二的。 |GauGAN 2 “魔法”之初體驗(yàn) 雖然英偉達(dá)把GauGAN 2的能力宣傳得如此神奇,但本著對科學(xué)負(fù)責(zé)任的態(tài)度,硅星人還是決定要親自上手“驗(yàn)驗(yàn)貨”。 此次英偉達(dá)免費(fèi)為大眾開放了一個(gè)GauGAN 2的體驗(yàn)平臺。整個(gè)平臺的構(gòu)成很簡單:左邊是繪畫區(qū),右邊是圖片生成區(qū),上方是文本輸入欄和繪畫工具欄。打開該平臺后,會有一個(gè)簡單的使用指南,教你如何使用文本和繪畫工具生成和修飾圖片。 
一開始,硅星人的體驗(yàn)還是非常順利的,一度為AI創(chuàng)作出來的效果而驚嘆。 硅星人首先嘗試使用了簡筆涂鴉轉(zhuǎn)換圖片的功能。目前GauGAN系統(tǒng)內(nèi)提供了建筑、土地、景觀和植物四大類別的涂鴉選擇,每個(gè)大類下設(shè)置了一些子類。 硅星人以先“海山礁石”為主題來做了一幅畫,分別選擇了“?!?、“石頭”的選項(xiàng),然后在畫布上涂鴉畫了一通。 點(diǎn)擊生成后,左側(cè)就立馬出現(xiàn)了一幅跟畫布上格局一樣的風(fēng)景畫,同時(shí)還生成了落日、星空等不同種類的天空背景選項(xiàng)。接著,硅星人在天上畫了一塊云,在海上畫了一顆樹。左側(cè)就立馬生成了令人驚嘆的云彩效果和一顆棕櫚樹。  接著,硅星人嘗試在文本區(qū)域分別嘗試輸入了Rainy的天氣描述,令人驚喜的是,整個(gè)畫面也會瞬間變成陰雨天。  在體驗(yàn)了涂鴉功能后,硅星人也單獨(dú)嘗試了此次重點(diǎn)更新的文本輸入功能。 在輸入“Endless tall mountains in a sunny day(晴天下連綿的高山)”之后,左側(cè)立刻就生成了符合文本描述的景象。

自此,硅星人的整個(gè)體驗(yàn)都處于“哇”的狀態(tài)。但就在硅星人準(zhǔn)備將GauGAN稱之為魔法之時(shí),隨著更多的嘗試,畫風(fēng)開始逐漸走偏。 |AI也有翻車的時(shí)候 在按照英偉達(dá)給出的范例、測試了最簡單的轉(zhuǎn)換之后,硅星人嘗試按照自己的想法,輸入比描述性短句更加復(fù)雜的文本。而這時(shí),返回的作品就開始凌亂了。 當(dāng)硅星人在文本框輸入“一座坐落在寧靜湖邊的房子(A house near the peaceful lake)”時(shí),系統(tǒng)并沒有返回正常的湖泊或者房子的圖像,而是呈現(xiàn)了一些非常抽象的圖。這是啥?黑暗城堡、長在天上的樹,還是云端的戰(zhàn)艦?怎么看都跟湖邊小屋沒啥關(guān)系。 此外,硅星人還發(fā)現(xiàn),目前GauGAN 2的文本識別好像是只局限在建筑、土地、景觀和植物這四大類之中。比如,當(dāng)我們輸入“一頓感恩節(jié)火雞大餐(A thanksgiving turkey dinner)”時(shí),系統(tǒng)返回的圖像仿佛是什么外星來物,跟火雞、甚至晚餐根本都不沾邊。
 
輸入單詞“沙發(fā)(Sofa)”時(shí),返回來的圖是這樣的。如果有人看懂了這跟沙發(fā)之間的關(guān)系,麻煩留言解釋一下。
 
輸入單詞“圣誕樹(Christmas  tree)”時(shí),返回的圖片是這樣的。感覺不像是圣誕樹,倒有點(diǎn)中國春節(jié)燈會的感覺。
 
而除了文本轉(zhuǎn)換,涂鴉模式也在接下來的體驗(yàn)中屢屢翻車。比如硅星人想畫一個(gè)“小河邊一座房子,房旁立著一顆樹”的情景,在使用各種類別的畫筆在畫布上畫出布局之后,生成的圖像里就沒有小河,畫風(fēng)也非常詭異,完全跟想要呈現(xiàn)的寧靜畫面大相徑庭。 
想畫“兩山之間一座橋”的情景,返回的畫風(fēng)也是十分灰暗。雖然硅星人也承認(rèn)自己是靈魂畫手,但也沒有必要這么“靈魂”吧?  而在多次嘗試和摸索后,硅星人終于總結(jié)出了一個(gè)用GauGAN 2返回正常畫作的規(guī)律。
首先,在文本生成部分,輸入的文本最好都跟自然景觀相關(guān),且形容詞越簡單越好,像大海、湖泊、山、巖石、樹這些關(guān)鍵詞都能比較準(zhǔn)確返回結(jié)果。
在涂鴉部分,盡量不要給畫布留白,比如在畫河流或湖泊時(shí),周邊也要畫上土地或者草地,在涂鴉時(shí)也要盡量精細(xì),這樣系統(tǒng)會更容易理解你想要的感覺。 這背后的原因則是因?yàn)槟壳坝糜谟?xùn)練GauGAN 2的圖像大部分都是風(fēng)景類的,導(dǎo)致模型結(jié)果存在偏差。此前,英偉達(dá)也公開表示,GauGAN 2模型有超過 1 億的參數(shù),但目前訓(xùn)練時(shí)間還處于初始階段。訓(xùn)練圖像幾乎都來自專有的風(fēng)景圖像數(shù)據(jù)集,因此系統(tǒng)識別目前也只專注于風(fēng)景。 雖然GauGAN 2仍然還在Demo階段,硅星人自己的作品也都大部分翻車了。但硅星人也發(fā)現(xiàn)很多大神已經(jīng)使用GauGAN 2創(chuàng)作出了很多有趣的作品。 


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。

pwm相關(guān)文章:pwm原理




關(guān)鍵詞: 英偉達(dá)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉