DALL-E 2 結(jié)果為“泰迪熊將閃閃發(fā)光的化學物質(zhì)混合為瘋狂的科學家,蒸汽朋克”。 人工智能研究小組 OpenAI創(chuàng)建了一個新版本的 DALL-E,它的文本到圖像生成程序。DALL-E 2 具有原始系統(tǒng)的高分辨率和低延遲版本,可生成描繪用戶描述的圖片。它還包括新功能,例如編輯現(xiàn)有圖像。與之前的 OpenAI 工作一樣,該工具并未直接向公眾發(fā)布。但研究人員可以在線注冊以預覽該系統(tǒng),OpenAI 希望以后可以將其用于第三方應用程序。最初的 DALL-E 是藝術(shù)家“薩爾瓦多·達利”和機器人“WALL-E”的組合,于2021 年 1 月首次亮相。這是對人工智能視覺表達概念能力的有限但引人入勝的測試,從對法蘭絨襯衫人體模型的平凡描繪到“烏龜制成的長頸鹿”或蘿卜遛狗的插圖。當時,OpenAI 表示將繼續(xù)在該系統(tǒng)的基礎上進行構(gòu)建,同時檢查潛在的危險,例如圖像生成偏差或錯誤信息的產(chǎn)生。它試圖使用技術(shù)保障和新的內(nèi)容策略來解決這些問題,同時減少其計算負載并推動模型的基本功能。“戴貝雷帽和黑色高領毛衣的柴犬狗”的 DALL-E 2 結(jié)果。DALL-E 2 的一項新功能是修復,它在更精細的級別上應用了 DALL-E 的文本到圖像功能。用戶可以從現(xiàn)有圖片開始,選擇一個區(qū)域,然后告訴模型進行編輯。例如,您可以將客廳墻上的一幅畫擋住,然后用另一幅畫替換它,或者在咖啡桌上添加一瓶鮮花。該模型可以填充(或移除)對象,同時考慮房間中陰影方向等細節(jié)。另一個功能,變體,有點像不存在的圖片的圖像搜索工具。用戶可以上傳起始圖像,然后創(chuàng)建一系列與其類似的變體。他們還可以混合兩個圖像,生成具有兩者元素的圖片。生成的圖像為 1,024 x 1,024 像素,比原始模型提供的 256 x 256 像素有了飛躍。 DALL-E 2 建立在 CLIP 之上,這是 OpenAI 去年也宣布的計算機視覺系統(tǒng)。OpenAI 研究科學家 Prafulla Dhariwal 說:“DALL-E 1 只是從語言中提取了我們的 GPT-3 方法并將其應用于生成圖像:我們將圖像壓縮成一系列單詞,我們剛剛學會了預測接下來會發(fā)生什么?!?/span>許多文本 AI 應用程序使用的 GPT 模型. 但單詞匹配并不一定能捕捉到人類認為最重要的品質(zhì),而且預測過程限制了圖像的真實性。CLIP 旨在以人類的方式查看圖像并總結(jié)其內(nèi)容,OpenAI 在此過程中迭代以創(chuàng)建“unCLIP”——一個從描述開始并朝著圖像前進的倒置版本。DALL-E 2 使用稱為擴散的過程生成圖像,Dhariwal 將其描述為從“點袋”開始,然后以越來越多的細節(jié)填充圖案。房間的現(xiàn)有圖像,在一個角落添加了火烈鳥。有趣的是,關(guān)于 unCLIP 的一篇論文草稿說它部分抵制了 CLIP 的一個非常有趣的弱點:人們可以通過用一個表示其他東西的詞(如 iPod )。作者說,變體工具“仍然很有可能生成蘋果圖片”,即使使用的是 CLIP 無法識別為史密斯奶奶的錯誤標簽圖片。相反,“盡管該標題的相對預測概率非常高,但該模型從未生成 iPod 的圖片。”DALL-E 的完整模型從未公開發(fā)布,但其他開發(fā)人員在過去一年中已經(jīng)磨練了自己的工具來模仿它的一些功能。最受歡迎的主流應用程序之一是 Wombo 的 Dream 移動應用程序,它可以生成用戶以各種藝術(shù)風格描述的任何圖片。OpenAI 今天沒有發(fā)布任何新模型,但開發(fā)人員可以使用其技術(shù)發(fā)現(xiàn)來更新他們自己的工作。DALL-E 2 結(jié)果為“一碗看起來像怪物的湯,用羊毛編織而成?!?/span>OpenAI 已經(jīng)實施了一些內(nèi)置的保護措施。該模型是根據(jù)剔除一些令人反感的材料的數(shù)據(jù)進行訓練的,理想情況下會限制其產(chǎn)生令人反感的內(nèi)容的能力。有一個水印表明該作品的 AI 生成性質(zhì),盡管理論上它可以被裁剪掉。作為一種先發(fā)制人的反濫用功能,該模型也無法根據(jù)名稱生成任何可識別的面孔——即使要求像蒙娜麗莎這樣的東西,顯然也會從繪畫中返回真實面孔的變體。DALL-E 2 將由經(jīng)過審查的合作伙伴進行測試,但有一些警告。禁止用戶上傳或生成“非 G 級”和“可能造成傷害”的圖像,包括任何涉及仇恨符號、裸露、淫穢手勢或“與正在進行的重大地緣政治事件相關(guān)的重大陰謀或事件”的內(nèi)容。他們還必須披露人工智能在生成圖像中的作用,并且他們不能通過應用程序或網(wǎng)站將生成的圖像提供給其他人——所以你最初不會看到像 Dream 這樣的由 DALL-E 驅(qū)動的版本。但 OpenAI 希望稍后將其添加到該組織的 API 工具集中,使其能夠為第三方應用程序提供動力。Dhariwal 說:“我們希望在這里繼續(xù)進行分階段的過程,這樣我們就可以從獲得的反饋中不斷評估如何安全地發(fā)布這項技術(shù)?!?/span>
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。