OpenAI 發(fā)布 DALL·E 進(jìn)化版，這只蒸汽朋克時(shí)代的小熊有點(diǎn)酷！

發(fā)布人：CV研究院時(shí)間：2022-04-14 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

整理 | 禾木木

出品 | AI科技大本營（ID:rgznai100）

2021年1月6日 OpenAI 發(fā)布了新模型 DALL·E ，AI 根據(jù)一段話就可直接生成圖像。一年后進(jìn)化 2.0 版本的“它”來了 —— DALL·E 2。

DALL·E 2 在生成用戶描述的圖像時(shí)具有更高的分辨率和更低的延遲。新版本還增添了一些新的功能，比如對原始圖像進(jìn)行編輯。

與之前的OpenAI工作一樣，新工具沒有直接向公眾發(fā)布。但研究人員可以在線注冊預(yù)覽該系統(tǒng)，OpenAI希望以后能將其用于第三方應(yīng)用。

試玩 Waitlist 地址：

https://labs.openai.com/waitlist

OpenAI 研究科學(xué)家 Prafulla Dhariwal 表示，「這個(gè)神經(jīng)網(wǎng)絡(luò)真是太神奇了，根據(jù)文本描述就能生成對應(yīng)圖像。」

DALL·E 2 功能展示

那 DALL·E 2 具體生成的圖像是什么樣呢？和 DALL·E 1代有哪些明顯的區(qū)別呢？

DALL·E 2 生成的“柴犬戴著貝雷帽穿著黑色高領(lǐng)毛衣”圖像：

DALL·E 2 可以根據(jù)自然語言字幕對現(xiàn)有圖像進(jìn)行編輯。用戶可以從現(xiàn)有圖片開始，選擇一個(gè)區(qū)域，然后告訴模型對其進(jìn)行編輯。并且可以在考慮陰影、反射和紋理的同時(shí)添加和刪除元素。

如下圖所示，左邊是原始圖像，右邊是 DALL·E 2 編輯后的圖像。兩張圖對比后，我們發(fā)現(xiàn)左圖中有數(shù)字 1、2、3，點(diǎn)擊相應(yīng)的位置，下圖選擇在 1 處添加火烈鳥。

DALL·E 2 可以根據(jù)原圖像進(jìn)行二次創(chuàng)作，創(chuàng)造出不同的變體：

DALL·E 2 相對一代以 4 倍的分辨率生成更逼真、更準(zhǔn)確的圖像。

DALL·E 2 的一項(xiàng)新功能是修復(fù)，在 DALL·E 1 的基礎(chǔ)上，將文本到圖像生成應(yīng)用在圖像更精細(xì)度的級別上。用戶可以從現(xiàn)有的圖片開始，選擇一個(gè)區(qū)域，讓模型對圖像進(jìn)行編輯，例如，你可以在客廳的墻上畫一幅畫，然后用另一幅畫代替它，又或者在咖啡桌上放一瓶花。該模型可以填充 (或刪除) 對象，同時(shí)考慮房間中陰影的方向等細(xì)節(jié)。

DALL·E 2 的另一個(gè)功能是生成圖像不同變體，用戶上傳一張圖像，然后模型創(chuàng)建出一系列類似的變體。

此外，DALL·E 2 還可以混合兩張圖片，生成包含這兩種元素的圖片。其生成的圖像為 1024 x 1024 像素，大大超過了 256 x 256 像素。

如何實(shí)現(xiàn)新技能？

DALL·E 2 是建立在 CLIP 之上，這是許多文本 AI 應(yīng)用程序使用的 GPT 模型。但單詞匹配并不一定能符合人們的預(yù)期，而且預(yù)測過程限制了圖像的真實(shí)性。

CLIP 是原版 DALL·E 功能實(shí)現(xiàn)的基礎(chǔ)，是一個(gè)負(fù)責(zé)給圖像重排序的模型，旨在以人類的方式查看圖像并總結(jié)其內(nèi)容，OpenAI 迭代創(chuàng)建了一個(gè) CLIP 的倒置版本——「unCLIP」，它能從描述生成圖像，而 DALL·E 2 使用稱為擴(kuò)散（diffusion）的過程生成圖像。擴(kuò)散模型的特點(diǎn)在于，在犧牲多樣性的前提下，能大大提升生成圖像的逼真度。

OpenAI 的研究人員設(shè)計(jì)方案：