人類對AI最大的誤解，來自AI擴圖

發(fā)布人：傳感器技術(shù) 時間：2023-12-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

發(fā)布文章

" 是時候展示真正的技術(shù)了。

-----------------------
編輯|Moon來源|青投創(chuàng)新

這幾天，在各大媒體榜單中，你一定看到過“AI擴圖”的話題。

為什么會火？

可以說，AI擴圖的火爆程度和搞笑程度不相上下。

先上一張傳播度很高的AI擴圖“佳作”：

這位博主憑借這一條視頻單條視頻點贊量171.7萬，轉(zhuǎn)發(fā)量213.2萬，評論區(qū)有23.2萬互動量。

許多網(wǎng)友紛紛效仿，在評論區(qū)留下自己通過AI擴圖后的離譜照片，有些評論都能達(dá)到幾萬到幾十萬的點贊。

當(dāng)然，明星和影視劇成了AI擴圖搞笑創(chuàng)作的“重災(zāi)區(qū)”，有這樣：

這樣的：

還有這樣的：

AI擴圖仿佛打開了一扇新世界的大門，讓普通人和AI也能輕松發(fā)生交集，只是可能會讓人類產(chǎn)生“AI很弱”的錯覺罷了。

其實，專業(yè)選手是十分驚艷的。

AI擴圖的頂流們

AI擴圖，就是基于AI算法的智能識別，它可以根據(jù)圖像的上下文和紋理預(yù)測和生成圖片缺失的部分，為原始圖片帶來更大的畫幅和更廣的視角。
其實AI擴圖這個功能早在幾個月就已經(jīng)挺火了，最早是5月份Adobe Photoshop上線智能擴圖功能，只需輸入文字提示，AI即可擴圖生成我們想象中的場景。
那個時候就已經(jīng)有人用Photoshop生成惡搞影視劇照，表情包，可謂是小火了一把。

但，作為AI擴圖圈的大哥大，Adobe Firefly可不是用來搞笑的。

它需要用戶使用畫筆進行添加或減去圖片內(nèi)容，進行局部重繪。隨后，就可以輸入新的描述詞進行再創(chuàng)作。

10月左右，Adobe Firefly進行了一次重大更新，這次更新之后，Adobe直接將其命名為Firefly 2。
在Firefly 2功能下，無論是圖片渲染程度、分辨率、還是圖像模型等，均有了質(zhì)的提升，特別是在渲染人體時，皮膚紋理、發(fā)絲等微小細(xì)節(jié)也均被照顧到。
從官方發(fā)布的圖片來看，相較于Firefly 1，F(xiàn)irefly 2明顯更為真實，細(xì)節(jié)之處也經(jīng)得起推敲。

（圖：Firefly 1&2對比）

值得一提的是，Adobe向Photoshop Beta用戶免費開放公測的AI功能——Generative Expand，其核心功能就是擴展。

如果對生成的圖片不滿意，還可以通過修改描述進行無限生成，直到滿意為止。
據(jù)悉，單次圖片生成的時間約在1分鐘左右，再加上圖片生成后的精致效果，側(cè)面展現(xiàn)了其強大的算力水平。

Adobe的成功，讓其他AI巨頭也蠢蠢欲動。
7月份MidJourney正式對外更新了“平移擴圖”功能，可以實現(xiàn)圖片進行前后“擴圖 1.5 倍”或“擴圖 2 倍”，相對之前固定式的生成式功能顯得更加人性化。
說起MidJourney的擴圖功能，簡直想象力拉滿。
我們先來看下這兩個畫面：

你能想象它們是出自同一張圖片嗎？
除此之外，還有更震撼的效果。，時長00:42這就是Midjourney在它最新5.2版本中帶來的Zoom Out功能。

效果一出，不少網(wǎng)友在驚嘆“太瘋狂”之余，也在猜測著它“擴”了多少次，有網(wǎng)友大膽地給出了預(yù)估：50次?。?/strong>

更多網(wǎng)友則是紛紛自己開始搞花活，不到一個小時，直接出一部大片：

，時長00:30
如此來看，MidJourney的擴圖功能還是相當(dāng)可以的。

此外，還有我們前幾天介紹過的——Pika1.0。其可以完成視頻的擴展。

不得不說專業(yè)選手果然是不一樣的。
02
AI擴圖另類出圈

但說實話，像MidJourney、Adobe Photoshop這種專業(yè)軟件的擴圖功能對于普通人來說，還是有一定門檻的，實用性并不高。
隨后，為了滿足普通用戶的需求，國產(chǎn)AI繪畫工具相仿上線AI擴圖功能，比如美圖、海藝AI、觸手AI以及抖音等等。
拿抖音來說，AI擴圖功能一上線，就因其用戶體量大，使用門檻低，無需提示詞，和平臺流量扶持，迅速火爆出圈，基本達(dá)到全民皆可玩透的境界。
抖音熱榜甚至達(dá)到幾千萬人在看的程度。
于是，才有了文章開頭的局面，AI擴圖正在成為全民娛樂的工具。
似乎……這個邏輯，確實不是人能想出來的??！
大哥應(yīng)該很迷茫。
真的很想撬開AI的腦袋，看看它到底在想什么？！

不過，作為一款娛樂工具，可以給它們打個滿分，畢竟它為很多博主帶來了不少的粉絲和流量。

03
真正的AI擴圖技術(shù)

針對AI擴圖，其實不管是Midjourney、Photoshop、DALL-E 2還是Stable Diffusion，其背后原理也有些相似之處。

像DALL-E、Stable Diffusion、Photoshop的Generative Fill等都用到了一種叫做Outpainting的技術(shù)。

Outpainting是一種圖像處理技術(shù)，與Inpainting（圖像內(nèi)部填充）相反，可以根據(jù)現(xiàn)有圖像的內(nèi)容、風(fēng)格和上下文，合成與原始圖像相協(xié)調(diào)的新內(nèi)容，從而擴展圖像的視覺范圍。

Outpainting通常依賴于深度學(xué)習(xí)模型，有基于內(nèi)容擴散的、基于GAN的、基于語義理解的等。

此外，AI擴圖不僅是增加像素的數(shù)量，更重要的是增加圖像分辨率的過程。

例如，CNN是AI擴圖中常用的神經(jīng)網(wǎng)絡(luò)，通過學(xué)習(xí)大量的低分辨率和高分辨率圖像對，來理解圖像特征，學(xué)習(xí)如何從低分辨率重建高分辨率圖像。

超分辨率技術(shù)使得模型能夠填補低分辨率圖像中缺失的像素，從而生成更高分辨率的圖像。

在擴圖過程中為了保證圖像細(xì)節(jié)還要注意細(xì)節(jié)增強、噪聲抑制等。

雖然目前AI擴圖技術(shù)有了很大進展，但實時處理能力還有待提升，通常來說更高質(zhì)量的圖像擴展需要更多的計算時間。

現(xiàn)有的很多AI擴圖工具生成速度已經(jīng)有了不小的提高，不過成品的質(zhì)量是否符合邏輯，這個概率還是比較隨機的。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

人類對AI最大的誤解，來自AI擴圖

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

人類對AI最大的誤解，來自AI擴圖

相關(guān)推薦

技術(shù)專區(qū)

人類對AI最大的誤解，來自AI擴圖