從NN神經(jīng)網(wǎng)絡(luò)理解隱空間

作者：高煥堂(銘傳大學(xué)、長庚大學(xué)教授) 時(shí)間：2023-03-24 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

本文引用地址：http://m.butianyuan.cn/article/202303/444884.htm

1 復(fù)習(xí)：AIGC創(chuàng)作力來源——隱空間

在2023 年1 月刊連載中，我們?cè)?jīng)說明在AIGC領(lǐng)域里，最近幾個(gè)很紅的圖像模型，例如DALLE、Imagen 和Midjourney 等，它們都是基于一種機(jī)制：擴(kuò)散(Diffusion)。經(jīng)由模型訓(xùn)練，操作隱空間(Latent space) 的向量，加上隨機(jī)輸入中合成新的數(shù)據(jù)，呈現(xiàn)出令人驚奇的創(chuàng)作，推動(dòng)了AI 組合的創(chuàng)新或創(chuàng)作。這意味著，關(guān)于AI 的生成或創(chuàng)作，大多會(huì)涉及隱空間的操作。

現(xiàn)在先從一個(gè)基本問題出發(fā)，這個(gè)問題是：為什么AI會(huì)創(chuàng)作呢？由于當(dāng)今的AI是基于ML( 機(jī)器學(xué)習(xí))，它會(huì)向人類學(xué)習(xí)。繼續(xù)探索下去，它向人類學(xué)習(xí)什么呢？學(xué)習(xí)人類的做事和創(chuàng)物的經(jīng)驗(yàn)直覺。經(jīng)驗(yàn)直覺的邏輯是不清晰的，無法經(jīng)由編程來寫成代碼。那我們?cè)撊绾伟讶祟惖闹庇X智慧弄進(jìn)機(jī)器(AI) 呢？

答案是：從人類的作品( 如繪畫、音樂、文學(xué)作品、食譜、游戲、對(duì)話、網(wǎng)絡(luò)文章) 中學(xué)習(xí)作品的形式、風(fēng)格、情緒等。這些作品被放到網(wǎng)絡(luò)上，皆成為大數(shù)據(jù)(Big Data)。于是，我們就拿這些大數(shù)據(jù)來給AI 學(xué)習(xí)，謂之訓(xùn)練(Training)。

AI 從人類作品中學(xué)習(xí)到人類專家( 創(chuàng)作者) 的招式(Patterns) 和風(fēng)格(Style)。如同金庸武俠小說中的楊過、小龍女向大俠們學(xué)習(xí)了許多武功招式。經(jīng)年累月，楊過和小龍女學(xué)而時(shí)習(xí)之，逐漸地在內(nèi)心深處沉淀出招式背后的精華神韻，謂之無招秘境。

一樣地，AI 經(jīng)過幾十天學(xué)習(xí)大量作品的創(chuàng)作招式和風(fēng)格，逐漸地在AI 模型內(nèi)部的秘境中沉淀出招式背后的精華神韻，這個(gè)AI 中的無招秘境，謂之隱藏空間(Latent Space)，又簡稱隱空間。

武俠中說：無中生有，從無招中生出千變?nèi)f化，無招勝有招。一樣地，AI 也能從其無招秘境中的精華神韻，生出千變?nèi)f化的新招式，也就是新作品、新內(nèi)容(Content)。這種新創(chuàng)作新內(nèi)容，就謂之AIGC(AI Generated Content)。

除了上述的AI 創(chuàng)作力來自隱空間之外，隱空間也將會(huì)是管理大量繁雜模型的利器。例如，可以預(yù)測到了2030年之際，AI 模型將更為百花齊放，繁雜多樣，就會(huì)導(dǎo)致難以管理，使得管理成本急速升高。

就如同20 世紀(jì)八九十年代，經(jīng)濟(jì)生產(chǎn)全球化，碼頭上貨物形形色色，繁雜多樣，非常難管理，導(dǎo)致管理成本急速升高。于是集裝箱(Container) 這個(gè)角色就應(yīng)運(yùn)而生，大貨輪也出來了，陸地上拖車業(yè)也大發(fā)利市了。同樣地，到了2030 年，AI 模型的集裝箱角色就很可能會(huì)出來。

我認(rèn)為，AI 的隱空間即將成為AI 的集裝箱。而且在未來數(shù)年內(nèi)，凡是力求掌握潛藏空間，致力于開發(fā)控制軟件系統(tǒng)，來有效管理AI 貨柜( 即潛藏空間) 者，將成為AIGC 時(shí)代的大贏家。

2 從NN模型深刻理解隱空間

首先從最簡易的單層NN(Neural network) 模型出發(fā)。這種簡單模型只含有一層權(quán)重(Weight)，茲以圖1 這樣的NN 圖形為例。

圖1

這個(gè)模型從X 空間對(duì)映到Z 空間。其含有兩層(Layer) 神經(jīng)元：左邊的X 神經(jīng)元是輸入(Input) 層，而右邊的Z 神經(jīng)元，是輸出(Output) 層。然而只有一層權(quán)重，所以通稱為：單層NN 模型。接著，就可以繼續(xù)擴(kuò)大為兩層NN 模型，如圖2 所示。

圖2

這個(gè)NN模型里包含兩層權(quán)重，所以稱為：兩層NN模型。這個(gè)中間層，又通稱為：隱藏(Hidden) 層。它就是構(gòu)成隱空間的核心機(jī)制。

3 觀摩：以求職AI為例

大家常常聽說求職法則是：錢多、事少、離家近。我們?nèi)绾伟堰@個(gè)簡單法則納入NN 模型里，讓它就學(xué)會(huì)這項(xiàng)法則呢。此時(shí)，人們透過T 值來表達(dá)他( 她) 心中的規(guī)則。

例如有人的求職法則是：“錢多”比“事少”更重要，“事少”比“離家近”更重要。當(dāng)然，有人比較在意“錢多”，也有人認(rèn)為“離家近”更重要。人人心中的規(guī)則可能各不相同，各自可修改這表格里的數(shù)據(jù)，表達(dá)自己特別的規(guī)則，如表1。

表1 三種條件的關(guān)聯(lián)性

從這些數(shù)據(jù)可以看出來，這位人士心中的偏好是：“錢多”比“事少”更重要，“事少”比“離家近”更重要。只要給NN 模型一些訓(xùn)練，它就能認(rèn)知到這位人士心中的規(guī)則了。雖然它聽不懂人類的語言，也不需要寫Python語言告訴它；只需要提供數(shù)據(jù)給它學(xué)習(xí)就可以了。

這個(gè)NN模型里的隱藏層，并沒有使用Sigmoid()激活函數(shù)。一樣地，只要按下這個(gè)< 兩層一起學(xué)習(xí)>按鈕，ML就會(huì)尋找出隱藏層的權(quán)重WH和BH，同時(shí)也尋找出輸出層的權(quán)重W和B如表2。

表2 輸出權(quán)重訓(xùn)練邏輯示意

然后將輸入層X空間，對(duì)映到隱藏層H空間，再對(duì)映到輸出層的Z空間。于是得出H和Z預(yù)測值。例如，將X=[1, 1, 0] 經(jīng)由兩層權(quán)重的計(jì)算流程如圖3所示。

圖3

最后計(jì)算出Z 值為：0.99。這就是典型的兩層NN模型了。在訓(xùn)練的過程中，每一回合都會(huì)修正輸出層的權(quán)重，也會(huì)修正隱藏層的權(quán)重。所以這兩層權(quán)重是同步成長的。

4 多層的NN模型

剛才的范例是兩層NN 模型，它只含有一個(gè)隱藏層(Hidden Layer)。有些情境下，常常1 個(gè)NN 模型里，需要含有更多個(gè)隱藏層，這種模型就通稱< 多層NN 模型>，或稱為< 深度NN 模型>。

例如，可以繼續(xù)擴(kuò)大上述的NN 模型，讓它含有兩隱藏層，茲以NN 圖形表示如圖4 所示。

圖4

在訓(xùn)練及預(yù)測過程中，將輸入層X空間，對(duì)映到隱藏層H₁空間，再對(duì)映到隱藏層H₂空間，再對(duì)映到輸出層的Z空間。在隱藏層H₁和H₂里，仍然使用X *W+B=Y 公式來表達(dá)其對(duì)映關(guān)系；而在輸出層則使用X*W+B=Y 和 Sigmoid(Y) =Z公式來表達(dá)其對(duì)映關(guān)系。并計(jì)算出在Z空間里的預(yù)測值，如圖5。

圖5

此外，在許多情境里，常常需要建立更多個(gè)隱藏層，例如著名的ResNet 模型就多達(dá)數(shù)十個(gè)隱藏層，也是常見的多層深度NN 模型。而基于這種模型的機(jī)器學(xué)習(xí)，就通稱為：深度學(xué)習(xí)(Deep Learning)。

5 結(jié)束語

以上介紹過了隱藏層(Hidden Layer) 的觀念，位于這隱藏層的空間，就簡稱為：H 空間。其正式名稱是：隱空間(Latent Space)。例如，在兩層NN 模型里，其中的隱藏層(H 空間) 就是：隱空間。茲再復(fù)習(xí)一下，隱空間相當(dāng)于金庸小說里武林大俠的< 無招> 境界。唯有高度掌握< 無招> 才能解釋千變?nèi)f化的招術(shù)。君不見，在AIGC領(lǐng)域里，AE、GAN和Diffusion等新潮技術(shù)，都是潛藏空間威力的表現(xiàn)。

（本文來源于《電子產(chǎn)品世界》雜志2023年3月期）

新聞中心

從NN神經(jīng)網(wǎng)絡(luò)理解隱空間

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)