OpenAI 的 DALL-E AI 圖像生成器現(xiàn)在也可以編輯圖片了

發(fā)布人：傳感器技術(shù) 時(shí)間：2022-04-26 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

DALL-E 2 結(jié)果為“泰迪熊將閃閃發(fā)光的化學(xué)物質(zhì)混合為瘋狂的科學(xué)家，蒸汽朋克”。

人工智能研究小組 OpenAI創(chuàng)建了一個(gè)新版本的 DALL-E，它的文本到圖像生成程序。DALL-E 2 具有原始系統(tǒng)的高分辨率和低延遲版本，可生成描繪用戶描述的圖片。它還包括新功能，例如編輯現(xiàn)有圖像。與之前的 OpenAI 工作一樣，該工具并未直接向公眾發(fā)布。但研究人員可以在線注冊(cè)以預(yù)覽該系統(tǒng)，OpenAI 希望以后可以將其用于第三方應(yīng)用程序。最初的 DALL-E 是藝術(shù)家“薩爾瓦多·達(dá)利”和機(jī)器人“WALL-E”的組合，于2021 年 1 月首次亮相。這是對(duì)人工智能視覺表達(dá)概念能力的有限但引人入勝的測(cè)試，從對(duì)法蘭絨襯衫人體模型的平凡描繪到“烏龜制成的長(zhǎng)頸鹿”或蘿卜遛狗的插圖。當(dāng)時(shí)，OpenAI 表示將繼續(xù)在該系統(tǒng)的基礎(chǔ)上進(jìn)行構(gòu)建，同時(shí)檢查潛在的危險(xiǎn)，例如圖像生成偏差或錯(cuò)誤信息的產(chǎn)生。它試圖使用技術(shù)保障和新的內(nèi)容策略來解決這些問題，同時(shí)減少其計(jì)算負(fù)載并推動(dòng)模型的基本功能。

“戴貝雷帽和黑色高領(lǐng)毛衣的柴犬狗”的 DALL-E 2 結(jié)果。DALL-E 2 的一項(xiàng)新功能是修復(fù)，它在更精細(xì)的級(jí)別上應(yīng)用了 DALL-E 的文本到圖像功能。用戶可以從現(xiàn)有圖片開始，選擇一個(gè)區(qū)域，然后告訴模型進(jìn)行編輯。例如，您可以將客廳墻上的一幅畫擋住，然后用另一幅畫替換它，或者在咖啡桌上添加一瓶鮮花。該模型可以填充（或移除）對(duì)象，同時(shí)考慮房間中陰影方向等細(xì)節(jié)。另一個(gè)功能，變體，有點(diǎn)像不存在的圖片的圖像搜索工具。用戶可以上傳起始圖像，然后創(chuàng)建一系列與其類似的變體。他們還可以混合兩個(gè)圖像，生成具有兩者元素的圖片。生成的圖像為 1,024 x 1,024 像素，比原始模型提供的 256 x 256 像素有了飛躍。 DALL-E 2 建立在 CLIP 之上，這是 OpenAI 去年也宣布的計(jì)算機(jī)視覺系統(tǒng)。OpenAI 研究科學(xué)家 Prafulla Dhariwal 說：“DALL-E 1 只是從語言中提取了我們的 GPT-3 方法并將其應(yīng)用于生成圖像：我們將圖像壓縮成一系列單詞，我們剛剛學(xué)會(huì)了預(yù)測(cè)接下來會(huì)發(fā)生什么?！?/span>許多文本 AI 應(yīng)用程序使用的 GPT 模型. 但單詞匹配并不一定能捕捉到人類認(rèn)為最重要的品質(zhì)，而且預(yù)測(cè)過程限制了圖像的真實(shí)性。CLIP 旨在以人類的方式查看圖像并總結(jié)其內(nèi)容，OpenAI 在此過程中迭代以創(chuàng)建“unCLIP”——一個(gè)從描述開始并朝著圖像前進(jìn)的倒置版本。DALL-E 2 使用稱為擴(kuò)散的過程生成圖像，Dhariwal 將其描述為從“點(diǎn)袋”開始，然后以越來越多的細(xì)節(jié)填充圖案。

房間的現(xiàn)有圖像，在一個(gè)角落添加了火烈鳥。有趣的是，關(guān)于 unCLIP 的一篇論文草稿說它部分抵制了 CLIP 的一個(gè)非常有趣的弱點(diǎn)：人們可以通過用一個(gè)表示其他東西的詞（如 iPod ）。作者說，變體工具“仍然很有可能生成蘋果圖片”，即使使用的是 CLIP 無法識(shí)別為史密斯奶奶的錯(cuò)誤標(biāo)簽圖片。相反，“盡管該標(biāo)題的相對(duì)預(yù)測(cè)概率非常高，但該模型從未生成 iPod 的圖片。”DALL-E 的完整模型從未公開發(fā)布，但其他開發(fā)人員在過去一年中已經(jīng)磨練了自己的工具來模仿它的一些功能。最受歡迎的主流應(yīng)用程序之一是 Wombo 的 Dream 移動(dòng)應(yīng)用程序，它可以生成用戶以各種藝術(shù)風(fēng)格描述的任何圖片。OpenAI 今天沒有發(fā)布任何新模型，但開發(fā)人員可以使用其技術(shù)發(fā)現(xiàn)來更新他們自己的工作。

DALL-E 2 結(jié)果為“一碗看起來像怪物的湯，用羊毛編織而成?！?/span>OpenAI 已經(jīng)實(shí)施了一些內(nèi)置的保護(hù)措施。該模型是根據(jù)剔除一些令人反感的材料的數(shù)據(jù)進(jìn)行訓(xùn)練的，理想情況下會(huì)限制其產(chǎn)生令人反感的內(nèi)容的能力。有一個(gè)水印表明該作品的 AI 生成性質(zhì)，盡管理論上它可以被裁剪掉。作為一種先發(fā)制人的反濫用功能，該模型也無法根據(jù)名稱生成任何可識(shí)別的面孔——即使要求像蒙娜麗莎這樣的東西，顯然也會(huì)從繪畫中返回真實(shí)面孔的變體。DALL-E 2 將由經(jīng)過審查的合作伙伴進(jìn)行測(cè)試，但有一些警告。禁止用戶上傳或生成“非 G 級(jí)”和“可能造成傷害”的圖像，包括任何涉及仇恨符號(hào)、裸露、淫穢手勢(shì)或“與正在進(jìn)行的重大地緣政治事件相關(guān)的重大陰謀或事件”的內(nèi)容。他們還必須披露人工智能在生成圖像中的作用，并且他們不能通過應(yīng)用程序或網(wǎng)站將生成的圖像提供給其他人——所以你最初不會(huì)看到像 Dream 這樣的由 DALL-E 驅(qū)動(dòng)的版本。但 OpenAI 希望稍后將其添加到該組織的 API 工具集中，使其能夠?yàn)榈谌綉?yīng)用程序提供動(dòng)力。Dhariwal 說：“我們希望在這里繼續(xù)進(jìn)行分階段的過程，這樣我們就可以從獲得的反饋中不斷評(píng)估如何安全地發(fā)布這項(xiàng)技術(shù)?！?/span>

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

OpenAI 的 DALL-E AI 圖像生成器現(xiàn)在也可以編輯圖片了

相關(guān)推薦

技術(shù)專區(qū)