被ChatGPT帶飛的AIGC，能為垂直產(chǎn)業(yè)做些什么？（1）

發(fā)布人：CV研究院時間：2023-02-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文從 AIGC 技術(shù) -> 產(chǎn)品 -> 業(yè)務(wù)應(yīng)用和價值實(shí)現(xiàn)環(huán)節(jié)探討其發(fā)展路徑，并以產(chǎn)業(yè)實(shí)例探討 AIGC 如何才能在產(chǎn)業(yè)領(lǐng)域?qū)崿F(xiàn)閉環(huán)和價值落地。

轉(zhuǎn)自《機(jī)器之心》

去年以來出現(xiàn)了 AIGC 熱潮，引發(fā)了 AIGC 及其應(yīng)用話題的爆發(fā)性增長，不少人感慨強(qiáng)人工智能的時代已經(jīng)離我們不那么遙遠(yuǎn)了。但是在熱潮的另一面，我們看到真正能落地的場景依然是鳳毛麟角，目前比較成功的應(yīng)用主要集中在個人消費(fèi)領(lǐng)域，而 AIGC 在產(chǎn)業(yè)中的應(yīng)用大多仍然處于探索階段。紅杉資本在 22 年 9 月就對 AIGC 做出了以下預(yù)判：文字類 AI 生成將在 2023 年進(jìn)入黃金時期，圖片類 AI 生成黃金時期將在 2025 年左右抵達(dá)，3D 和視頻類 AI 生成在 2023 年可能正處于草稿階段，進(jìn)入黃金時期或許在 2030 年。不可否認(rèn)，文字與圖片的 AI 生成確實(shí)走在了前面，而 3D 模型、視頻和游戲生成仍在研發(fā)階段。

紅杉資本針對 AIGC 相關(guān)產(chǎn)品成熟預(yù)測

若考慮到 AIGC 產(chǎn)業(yè)應(yīng)用，如在制造業(yè)、建筑業(yè)等巨型垂直實(shí)體領(lǐng)域中，AIGC 的 C/Content 內(nèi)容將不能僅停留在圖片和文字的領(lǐng)域，而是需要進(jìn)入信息更為豐富的三維領(lǐng)域。接下來，我們將從 AIGC 技術(shù) -> 產(chǎn)品 -> 業(yè)務(wù)應(yīng)用和價值實(shí)現(xiàn)環(huán)節(jié)探討其發(fā)展路徑，并以產(chǎn)業(yè)實(shí)例探討 AIGC 如何才能在產(chǎn)業(yè)領(lǐng)域?qū)崿F(xiàn)閉環(huán)和價值落地。

1.AIGC 技術(shù)：從文字到圖片

從大家對 ChatGPT 越來越多的測試中可以看到，ChatGPT 不僅能對語義進(jìn)行解析和結(jié)構(gòu)化，還能在此基礎(chǔ)上用 NLP 自然語言處理做數(shù)據(jù)分析。

ChatGPT 對內(nèi)容進(jìn)行結(jié)構(gòu)化處理和數(shù)據(jù)分析 - 佳格數(shù)據(jù)提供

事實(shí)上，以 Stable Diffusion 為首的一眾 AI 畫圖框架或者平臺，在去年更早的時候已經(jīng)引起了轟動。雖然圖片相對文字來說看上去信息含量要更為復(fù)雜，但是其技術(shù)成熟卻要比以 GPT 為首的文字生成來的更早一些，我們有必要從主流的開源框架 Stable Diffusion 為例，回顧一下這些圖片 AIGC 框架是如何工作的。

Stable Diffusion 生成的圖片，已經(jīng)有了比擬人類畫家的能力

Stable Diffusion 主要有三個組成部分，每一個部分都有自己的神經(jīng)網(wǎng)絡(luò)。

1、CLIP 用于文字編碼器：以文字作為輸出的語義信息組成一個 77*768 的矩陣，CLIP 訓(xùn)練 AI 同時進(jìn)行自然語言理解和計算機(jī)視覺分析。CLIP 可以決定圖像和文字提示的對應(yīng)程度，比如逐步把建筑的圖像和 “建筑” 這個詞完全匹配起來，而其能力訓(xùn)練是通過全球 40 多億張帶文字描述的圖片實(shí)現(xiàn)的。

CLIP 的訓(xùn)練集

2、UNET 及調(diào)度程序：這就是大名鼎鼎的擴(kuò)散模型主程序（來自 CompVis 和 Runway 團(tuán)隊(duì)于 2021 年 12 月提出的 “潛在擴(kuò)散模型”（LDM / Latent Diffusion Model）），用于對噪聲進(jìn)行預(yù)測實(shí)現(xiàn)反向去噪的過程，進(jìn)而實(shí)現(xiàn)圖片在信息空間中的生成。如圖片所示，染料擴(kuò)散的過程就像從圖片逐漸變成噪點(diǎn)的過程，而當(dāng)研究人員對圖片增加隨機(jī)噪點(diǎn)讓 AI 反向?qū)W習(xí)整體過程，而后就擁有了一套從信息空間噪點(diǎn)圖反向生成圖片的模型。

Diffusion 模型反向去噪過程

用通俗的例子解釋，如果在清水里隨機(jī)滴入一些染料，隨著時間推移會得到如下圖一樣絢麗的形狀。那么有沒有一種方法，能夠根據(jù)某一個特定時間特定的狀態(tài)，反向推出初始的染料用量、順序、滴入水缸的初始狀態(tài)等信息呢？顯然，如果不借用 AI 的方式幾乎無法實(shí)現(xiàn)。

不同的染料滴入水中擴(kuò)散出不同的形狀

3、信息空間到真實(shí)圖片空間的****：即把信息空間中的矩陣信息轉(zhuǎn)換為肉眼可見的 RGB 圖片。想象一下我們與人交流的過程，聽到的聲音信號轉(zhuǎn)換為大腦能理解的文字信號存儲在腦中，這個過程稱之為編碼。如果嘗試把文字信號通過某種語言表達(dá)出來，這個過程可以稱為解碼 —— 這里的表達(dá)方式可以是任意的語言，每種語言對應(yīng)不同的****，解碼只是一種表達(dá)方式，本質(zhì)還是基于人類腦海中對于某件事情的描述與理解。

StableDiffusion 從輸入到輸出全流程解讀

正是有了這幾個關(guān)鍵技術(shù)步驟的串聯(lián)，Stable Diffusion 成功創(chuàng)建了一個無所不能的 AI 作圖機(jī)器人，不僅能理解語義，將其轉(zhuǎn)化為信息空間的信息流，還能夠在信息空間中通過模擬降噪創(chuàng)作，通過****還原成肉眼可見的圖片，這一充滿科幻色彩的過程放在 AI 不存在的世界來看，堪稱神跡。

2.AIGC 技術(shù)：從圖片到 3D 模型

圖片生成已經(jīng)取得了突破性的效果，但如果這些成果能夠進(jìn)一步優(yōu)化應(yīng)用到更多領(lǐng)域，將有可能實(shí)現(xiàn)更大價值。我們也看到一些細(xì)分領(lǐng)域中的探索成果，比如經(jīng)由對場景的理解，通過不同的數(shù)據(jù)集加入和調(diào)參，可以實(shí)現(xiàn)對圖片生成更好的控制，而不僅是通過文字的不斷試錯來獲得更優(yōu)結(jié)果。

2.1 設(shè)計意向圖生成

2019 年初，用 GANs 生成的「這個 XX 不存在」系列在海外獲得大量關(guān)注，在國內(nèi)我們也看到企業(yè)推出了在細(xì)分領(lǐng)域的成果。而該團(tuán)隊(duì)也于 22 年 8 月實(shí)驗(yàn)性的在手機(jī)端推出了「AI 創(chuàng)意庫」，只需要輸入一句話，對話機(jī)器人就能在一分鐘內(nèi)快速理解語義，生成多張效果細(xì)膩貼近建筑概念方案的意向圖。在此之上，更是可以通過輸入一張已有的圖片，修改部分描述的關(guān)鍵字，「AI 創(chuàng)意庫」即可生成一系列的衍生圖片，輔助設(shè)計師在日常創(chuàng)作中尋找靈感。

小庫科技「這個建筑不存在」，GANs 模型生成建筑意象圖及迭代過程

左圖：小庫「AI 創(chuàng)意庫」生成，觸發(fā)語句 Louis Kahn 風(fēng)格，依山傍水的小型博物館；右圖：小庫「AI 創(chuàng)意庫」生成，基于左圖 Louis Kahn 風(fēng)格圖片，完成風(fēng)格切換至 Le Corbusier

為了使得「AI 創(chuàng)意庫」的效果更優(yōu)，團(tuán)隊(duì)做了一些新的探索：由于已有的算法和模型更多聚集在通用互聯(lián)網(wǎng)素材上，建筑相關(guān)的圖片、形容及風(fēng)格的數(shù)據(jù)儲備在專業(yè)程度顯然是不夠的。這里采取了一種針對建筑相關(guān)詞匯的特殊標(biāo)識，組成一個微調(diào)的先驗(yàn)數(shù)據(jù)集并將該數(shù)據(jù)集融合訓(xùn)練，實(shí)現(xiàn)模型增強(qiáng)。通過建筑專業(yè)領(lǐng)域增強(qiáng)的新模型，形成了面向建筑行業(yè)專屬的 AI 創(chuàng)意庫，針對建筑類描述短句，測試集優(yōu)品率相比原有模型提升了 13.6% 之多。

Google Dreambooth Fine-Tuning 算法示意

舉個例子，當(dāng)輸入一張博物館圖片及一個詞匯 "Zaha Hadid（過世的全球著名女建筑師）" 的時候，模型能夠理解需要將博物館的建筑風(fēng)格或特征往 Zaha Hadid 的作品靠攏，而不是在博物館中增加一個 Zaha Hadid 的人物或畫像，抑或是在 AI 世界里創(chuàng)作一個 Zaha Hadid 的卡通畫像 —— 這往往是通用模型會返回的結(jié)果之一。

經(jīng)過微調(diào)后的建筑模型，小庫「AI 創(chuàng)意庫」能充分理解 “Zaha Hadid” 這個特殊詞匯隱含意思

2.2 3D 模型生成

二維的圖片雖然精彩，但在產(chǎn)業(yè)應(yīng)用中暫時還只是停留在 “意向圖庫” 的作用，未來如果要成為可以精準(zhǔn)表達(dá)設(shè)計的成果，需要向 3D 和更高信息維度去邁進(jìn)。

在 2020 年 AIGC 沒有現(xiàn)在這么成熟的時候，上述團(tuán)隊(duì)就在探索如何用 AI 生成 3D 模型，并在同濟(jì)大學(xué) DigitalFUTURES 工作坊教學(xué)中，公開了其在研發(fā)中的從圖形生成圖像進(jìn)一步生成模型的算法，能看到當(dāng)時的模型效果并不太理想，有價值的是實(shí)現(xiàn)了圖形 - 圖像 - 模型的聯(lián)動。

2020 同濟(jì)大學(xué) DigitalFUTURES 工作坊小庫教學(xué)團(tuán)隊(duì)成果，手繪圖形生成圖像進(jìn)而生成模型

第二年在同濟(jì)大學(xué) DigitalFUTURES 工作坊教學(xué)中，該團(tuán)隊(duì)發(fā)布了一種通過 GANs 學(xué)習(xí)衛(wèi)星圖與真實(shí)三維模型之間關(guān)系，將衛(wèi)星圖生成為真實(shí)三維模型的算法。該算法通過對衛(wèi)星圖上不同的圖層元素進(jìn)行特征學(xué)習(xí)，能大致復(fù)原出衛(wèi)星圖所對應(yīng)的主要物體三維拉伸形體，預(yù)測不同物體投影所對應(yīng)的原物體高度。當(dāng)然，這種方法還存在一定的缺陷，只能在衛(wèi)星圖場景中使用，難以積累其他場景中同類圖片與三維形體之間的關(guān)系；其次是還原的三維形體只能粗略預(yù)測高度，其他細(xì)節(jié)需要通過算法重新生成，與真實(shí)的三維模型存在較大誤差，只能用于項(xiàng)目早期研判使用，應(yīng)用場景有限。

城市三維模型分層特征提取訓(xùn)練示意圖

2021 同濟(jì)大學(xué) DigitalFUTURES 工作坊小庫教學(xué)團(tuán)隊(duì)成果，基于 GANS 的衛(wèi)星圖重建三維模型

得益于 AIGC 算法的爆發(fā)、3D 生成算法的日益成熟，我們也看到垂直類 AI 企業(yè)開始吸收更多先進(jìn)的技術(shù)與思路改善其模型，并在 3D-AIGC 的路線上有了一些新的嘗試方向。例如 OPENAI 推出了 Point-E 框架，該框架可以將任意二維圖片通過算法預(yù)測為點(diǎn)云，進(jìn)而通過點(diǎn)云去預(yù)測三維物件。

PointE 框架全過程示意圖

但是模型生成的質(zhì)量依然有一定的局限，而模型的不可用主要體現(xiàn)在以下三個方面：

1. 三維形體還原難：首先二維圖像數(shù)據(jù)比三維模型數(shù)據(jù)出現(xiàn)早，同時可獲取的二維圖像數(shù)據(jù)目前也比后者多，因此前者可作為訓(xùn)練素材的量級更多，較少的三維模型訓(xùn)練素材的泛化能力有限，難以還原最初的三維形體；

2. 材質(zhì)整體缺失：對于三維模型來說最重要的一環(huán)是材質(zhì)的填充與選擇，然而對于AI生成來說，從圖片直接推敲其材質(zhì)的方法尚未成熟，同樣材質(zhì)在不同的形狀、環(huán)境、光源下的表現(xiàn)都有所不同，而當(dāng)這些變量都集中在一張圖片中時，材質(zhì)重建幾乎不可能實(shí)現(xiàn)；

3. 生成的模型精度不達(dá)標(biāo)：通過點(diǎn)云推敲的模型，通常是依賴于點(diǎn)云的密度重建物體表面 Mesh，如果點(diǎn)云過少物體會嚴(yán)重失真，甚至無法重建模型。

小庫團(tuán)隊(duì)測試 Point- E 模型，左邊建筑圖片生成點(diǎn)云進(jìn)而模擬出右邊三維模型，遺憾得到的只是一堆無意義的點(diǎn)云模型，Point-E 暫時還無法理解一個建筑物的圖片

當(dāng)然我們能理解當(dāng)前的技術(shù)瓶頸，如果把目標(biāo)定的稍微低一點(diǎn)，選擇從三維建模軟件中生成的簡單形體、做二維的截圖在 point-e 模型中重建，會意外地發(fā)現(xiàn)其效果比以上測試更佳，但也仍局限在 “初步草稿” 的范疇。這與訓(xùn)練集有很大的關(guān)聯(lián)性，通過三維建模軟件生成各個視角的二維視圖是該模型最易獲取訓(xùn)練數(shù)據(jù)的方法之一。