人工智能推動(dòng)神經(jīng)網(wǎng)絡(luò)技術(shù)開發(fā)熱潮

作者：時(shí)間：2023-03-05 來源：CTIMES

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

神經(jīng)網(wǎng)絡(luò)幾乎成了人工智能的代名詞，正在被應(yīng)用于各種領(lǐng)域，包括影像識別、語音識別、自然語言處理、自動(dòng)駕駛、訊號分析、大數(shù)據(jù)分析和游戲。
這是一個(gè)瞬息萬變的世界，每年都有新的神經(jīng)網(wǎng)絡(luò)模型被更新，大量的開放原始碼到處流傳，專用人工智能芯片開發(fā)企業(yè)更是如雨后春筍般涌現(xiàn)。
因此全球研究人員正透過模仿人類大腦組織方式，積極開發(fā)類神經(jīng)網(wǎng)絡(luò)技術(shù)，雖然一直有突破性的進(jìn)展，但是現(xiàn)階段的神經(jīng)網(wǎng)絡(luò)，還是缺乏實(shí)時(shí)變化的靈活性，以及難以快速適應(yīng)陌生的狀況，使得神經(jīng)網(wǎng)絡(luò)技術(shù)普及實(shí)用化的進(jìn)程還是相當(dāng)遙遠(yuǎn)。

根據(jù)不同應(yīng)用開發(fā)出的神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)是模仿人類神經(jīng)細(xì)胞網(wǎng)絡(luò)的模型，由輸入層、中間層(隱藏層)和輸出層的神經(jīng)元，以及連接它們的突觸組成。而機(jī)器學(xué)習(xí)就是在大量數(shù)據(jù)的基礎(chǔ)上，自動(dòng)構(gòu)建連接和它們的權(quán)重。
深度學(xué)習(xí)是指，使用具有多個(gè)中間層的神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)。深度學(xué)習(xí)使計(jì)算機(jī)能夠提取自己的特征量，作為發(fā)現(xiàn)模式和規(guī)則時(shí)應(yīng)該注意些什么，同時(shí)也能進(jìn)行識別和其他作業(yè)，因此促進(jìn)了人工智能熱潮。

模型根據(jù)應(yīng)用的不同，又分為影像識別的深度神經(jīng)網(wǎng)絡(luò)（DNN）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）、語音識別的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和自然語言處理的Transformer。模型可以在不同的應(yīng)用中進(jìn)行整合，也可為每個(gè)應(yīng)用開發(fā)出新模型。

深度神經(jīng)網(wǎng)絡(luò)（DNN）
DNN的隱藏層由一個(gè)卷積層和一個(gè)池化層組成。卷積層利用過濾上一層附近的節(jié)點(diǎn)，而可得到一個(gè)特征圖。池化層進(jìn)一步縮小卷積層輸出的特征圖，得到新的特征圖，同時(shí)可在保持影像特性的同時(shí)，可以極大地壓縮影像中的信息量。例如，在2012年ILSVRC影像識別比賽中，以壓倒性的優(yōu)勢獲勝，采用八層結(jié)構(gòu)的AlexNet就引發(fā)了深度學(xué)習(xí)的熱潮，隨后經(jīng)過改進(jìn)而來的ResNet，其層數(shù)就達(dá)到了152層。因此，透過導(dǎo)入簡化處理塊的Residual模塊，即使是在高層數(shù)的結(jié)構(gòu)下，也能達(dá)到高效學(xué)習(xí)。

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）
具有自我回饋的遞歸網(wǎng)絡(luò)RNN，是一個(gè)適合處理包括語音波形、視訊和文本文件(字符串)等等時(shí)間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。例如神經(jīng)網(wǎng)絡(luò)中為了處理如語音等，可變長時(shí)間序列數(shù)據(jù)，將隱藏層的值再次回饋輸入到隱藏層。當(dāng)存取很久以前的數(shù)據(jù)，或出現(xiàn)運(yùn)算量爆炸等問題時(shí)，可透過應(yīng)用于自然語言處理的LSTM(長短時(shí)記憶)來解決。

Transformer
在自然語言處理方面，既不是透過RNN，也不是CNN，而是據(jù)由深度學(xué)習(xí)的Transformer取得了重大進(jìn)展：這是一個(gè)只使用Attention(表示要注意句子中哪些單詞的分?jǐn)?shù))的Encoder-Decoder模型，也可透過并行化來減少學(xué)習(xí)時(shí)間。在后續(xù)的技術(shù)改進(jìn)下也相繼開發(fā)出的BERT、GPT-2、T5等，甚至已超過了人類的語言處理能力。
而Conformer是一個(gè)結(jié)合CNN的模型，可被應(yīng)用于語音識別，其能力已經(jīng)超過RNN的最高準(zhǔn)確性。Conformer結(jié)合了善于提取長時(shí)空依賴關(guān)系的Transformer，和善于提取局部關(guān)系的CNN。此外，一個(gè)新的影像識別模型-Vision Transformer也被開發(fā)出來，在進(jìn)行影像識別時(shí)，所需要的運(yùn)算資源比CNN少更少。

大型數(shù)據(jù)處理業(yè)者相爭投入開發(fā)AI芯片
神經(jīng)網(wǎng)絡(luò)中的訊號處理，相當(dāng)于將神經(jīng)元乘以權(quán)重的數(shù)值加在一起，再透過高速運(yùn)算乘積之和的操作來模仿大腦行為(高速積和加速器)。最近的主流配置是盡可能多鋪設(shè)必要數(shù)量的圖磚(Tile)來進(jìn)行AI運(yùn)算，例如，一個(gè)圖磚被用于終端傳感器控制，4-16個(gè)圖磚用于中等規(guī)模的邊緣處理，64個(gè)或更多圖磚用于數(shù)據(jù)中心等服務(wù)器。
人工智能芯片的功能大致可分為推理和學(xué)習(xí)。兩者都需要相同的高速乘積運(yùn)算，但與推理相比，學(xué)習(xí)需要進(jìn)行大量的乘積和運(yùn)算，因此各大數(shù)據(jù)處理業(yè)者正積極投入這方面的研發(fā)，例如，Google目前正積極開發(fā)TPU來作為本身數(shù)據(jù)中心的AI芯片。第一代(2017年)有8位定點(diǎn)操作，只能用于推理，但第二代有16位浮點(diǎn)運(yùn)算，則可以應(yīng)用在學(xué)習(xí)。接下來第三代的性能則是120Tops @ 250W，最新的第四代載板設(shè)計(jì)了4顆TPU，且采用液體冷卻，指令周期更是上一代的2.7倍。這些電路板被安裝在一個(gè)個(gè)機(jī)柜內(nèi)，然后通過高速傳輸線相互連接。
用于推理的人工智能芯片要求體積小、功耗低和實(shí)時(shí)處理。例如，Gyrfalco銷售一種形狀像USB隨身碟的AI棒。采用的AI芯片是一款具有矩陣處理引擎，利用PIM(內(nèi)存中處理器)技術(shù)來進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的計(jì)算處理，這個(gè)架構(gòu)可降低與內(nèi)存和計(jì)算電路之間的數(shù)據(jù)存取的功耗，芯片內(nèi)部有大約28000個(gè)節(jié)點(diǎn)和10M bytes的內(nèi)存，據(jù)稱能夠?qū)⑼ㄓ媚Ｐ退璧乃行阅芏寄苷系叫酒小?br/>
NTT與東大合作開發(fā)新型類腦學(xué)習(xí)算法
對于深度神經(jīng)網(wǎng)絡(luò)的運(yùn)算，日本NTT與東京大學(xué)合作下，開發(fā)了一種不需要準(zhǔn)確掌握物理系統(tǒng)信息，適用于物理神經(jīng)網(wǎng)絡(luò)的新算法-「擴(kuò)展DFA(Detrended Fluctuation Analysis)」。
圖一A是這種算法的概況和結(jié)果的定位，這是基于深入研究了一種名為直接回饋排列法的學(xué)習(xí)算法，是將反向傳播算法(Back Propagation；BP)修改為在大腦信息處理更容易實(shí)現(xiàn)的形式，并將其擴(kuò)展到可在物理神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)。
這個(gè)方法是將神經(jīng)網(wǎng)絡(luò)最后一層的輸出與所需輸出訊號(誤差訊號)之間的差值，透過隨機(jī)元素的矩陣的線性變換來更新學(xué)習(xí)參數(shù)。運(yùn)算過程不需要測量物理系統(tǒng)的狀態(tài)，也不需要像BP法需要利用微分響應(yīng)的物理模擬進(jìn)行近似運(yùn)算。
此外，這個(gè)運(yùn)算可以在包括光路等物理系統(tǒng)上執(zhí)行，除了可以在物理系統(tǒng)上有效地運(yùn)算推理，還可以進(jìn)行學(xué)習(xí)。這種新的學(xué)習(xí)方法不僅適用于物理實(shí)現(xiàn)中實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型，也適用于各種機(jī)器學(xué)習(xí)模型，包括實(shí)際用于機(jī)器翻譯和其他應(yīng)用的高級深度神經(jīng)網(wǎng)絡(luò)模型。
因此NTT與東京大學(xué)構(gòu)建了一個(gè)光學(xué)神經(jīng)網(wǎng)絡(luò)(圖一 B)，證明了以前難以進(jìn)行的光學(xué)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，可以利用光學(xué)計(jì)算輔助推理和學(xué)習(xí)運(yùn)算的可行性。這一成果將解決人工智能的計(jì)算時(shí)，功耗和計(jì)算時(shí)間增加的問題。

圖片.png

圖一 : 物理系統(tǒng)的計(jì)算被納入學(xué)習(xí)部分來提高效率；以及實(shí)際設(shè)備應(yīng)用的光學(xué)神經(jīng)網(wǎng)絡(luò)。(source：日本NTT；作者整理)

適用于物理神經(jīng)網(wǎng)絡(luò)的擴(kuò)展DFA法
DFA法是受到大腦信息處理的啟發(fā)，因而進(jìn)一步擴(kuò)展為適合在物理神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)的形式。如圖二A所示，傳統(tǒng)的DFA法是透過隨機(jī)矩陣對最后一層的誤差，進(jìn)行線性變換來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)；盡管比BP法更適用于物理神經(jīng)網(wǎng)絡(luò)，但仍然需要計(jì)算物理神經(jīng)網(wǎng)絡(luò)時(shí)，使用的非線性變換及其導(dǎo)數(shù)。
而NTT與東大擴(kuò)展了DFA法技術(shù)，使這部分可以由一個(gè)任意的非線性函數(shù)代替。這完全省去了對物理系統(tǒng)的狀態(tài)測量、基于微分響應(yīng)的物理模擬的近似值，以及基于這些近似值的順序反向傳播演算。學(xué)習(xí)過程已被大幅度簡化，實(shí)現(xiàn)了用物理神經(jīng)網(wǎng)絡(luò)幾乎不可能的學(xué)習(xí)。此外在對各種深度學(xué)習(xí)模型的適用性應(yīng)用于各種深度學(xué)習(xí)模型時(shí)，也可以適用于廣泛的深度神經(jīng)網(wǎng)絡(luò)模型，包括從實(shí)際用于影像識別，和其他應(yīng)用的高級模型（圖二B）。

圖片.png

圖二 : A現(xiàn)有和新開發(fā)的學(xué)習(xí)方法概述；B各種模型的基準(zhǔn)檢驗(yàn)結(jié)果。（source：日本NTT；作者整理）

圖三A是使用構(gòu)建系統(tǒng)對圖像處理基準(zhǔn)任務(wù)性能的比較結(jié)果，光學(xué)神經(jīng)網(wǎng)絡(luò)可達(dá)到最高性能。圖三B則是顯示了每單位影像的學(xué)習(xí)時(shí)間對神經(jīng)元數(shù)量的依賴性。在小規(guī)模網(wǎng)絡(luò)模型的情況下，速率決定了信息傳輸?shù)焦鈱W(xué)硬件的處理時(shí)間，因此效果不如光學(xué)計(jì)算的計(jì)算加速效果大。
但是隨著神經(jīng)元數(shù)量的增加，可以發(fā)現(xiàn)光學(xué)神經(jīng)網(wǎng)絡(luò)計(jì)算在指令周期上比傳統(tǒng)的數(shù)字電子計(jì)算更有優(yōu)勢。此外，由于人工智能運(yùn)算的功耗，是由效率和計(jì)算時(shí)間的積和所決定的，因此加速計(jì)算有助于降低功耗。

圖片.png

圖三 : A使用光學(xué)神經(jīng)網(wǎng)絡(luò)進(jìn)行影像辨識測試(手寫字符辨識、衣服影像辨識；B 每單位影像的運(yùn)算時(shí)間對神經(jīng)元數(shù)量的依賴性。(source：日本NTT；作者整理)

靈感來自于線蟲的液體神經(jīng)網(wǎng)絡(luò)技術(shù)
2020年，由麻省理工學(xué)院Ramin Hasani和Matthias Lechner所領(lǐng)導(dǎo)的一個(gè)研究小組，推出了一種液體神經(jīng)網(wǎng)絡(luò)(Liquid Neural Network)的新形態(tài)神經(jīng)網(wǎng)絡(luò)，其靈感來自微小的線蟲。這項(xiàng)技術(shù)是以模仿具有細(xì)長的線狀身體的「線性動(dòng)物」為參考基礎(chǔ)，來開發(fā)出神經(jīng)網(wǎng)絡(luò)技術(shù)，達(dá)到前所未有的速度和靈活性，來實(shí)現(xiàn)「質(zhì)」的跨越性進(jìn)步，足以在某些應(yīng)用中取代傳統(tǒng)網(wǎng)絡(luò)。
據(jù)加州大學(xué)伯克利分校的機(jī)器人工程師Ken Goldberg表示，根據(jù)實(shí)驗(yàn)結(jié)果顯示，比起需要透過隨時(shí)間變化，來進(jìn)行建立模型的「連續(xù)時(shí)間神經(jīng)網(wǎng)絡(luò)」，這款「液體神經(jīng)網(wǎng)絡(luò)技術(shù)」，要來得更快、更準(zhǔn)確（圖四）。

圖片.png

圖四 : 麻省理工學(xué)院Ramin Hasani和Matthias Lechner開發(fā)出新形態(tài)的液體神經(jīng)網(wǎng)絡(luò)。（source：麻省理工學(xué)院Ramin Hasani博士）

Hasani和Lechner在思考如何能建立出一個(gè)夠靈活，且能快速適應(yīng)新狀況的反應(yīng)性神經(jīng)網(wǎng)絡(luò)時(shí)，發(fā)現(xiàn)線蟲是一個(gè)非理想可參考的生物體。線蟲是少數(shù)具有完全反射的神經(jīng)系統(tǒng)的生物之一，可以透過一個(gè)大約1mm長的神經(jīng)系統(tǒng)，來完成一系列復(fù)雜的行為，包括遷移、覓食、睡眠、交配，甚至從經(jīng)驗(yàn)中不斷的學(xué)習(xí)，而且在現(xiàn)實(shí)世界中，線蟲無論在任何環(huán)境或狀況下都具有相當(dāng)優(yōu)秀的適應(yīng)能力。
液體神經(jīng)網(wǎng)絡(luò)技術(shù)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)有很大的不同，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只提供特定時(shí)刻的結(jié)果。而液體神經(jīng)網(wǎng)絡(luò)技術(shù)是一種非常特別的神經(jīng)網(wǎng)絡(luò)架構(gòu)，可以將神經(jīng)元都是聯(lián)系在一起，并且透過彼此之間具有相互依賴的特性，來描述系統(tǒng)于任何特定時(shí)間下的狀態(tài)。
此外，在處理突觸的方式上也有所不同，突觸是人工神經(jīng)元之間的連接。在標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)中，突觸連接的強(qiáng)度，可以用單一的數(shù)值來表示「權(quán)重(weight)」。而另一方面，在液體神經(jīng)網(wǎng)絡(luò)中，神經(jīng)元之間的訊號交換是透過「非線性」函數(shù)控制的隨機(jī)過程，這意味著不會(huì)傳回與輸入成比例的響應(yīng)（圖五）。

圖片.png

圖五 : MIT的研究人員基于蠕蟲的啟發(fā)，發(fā)現(xiàn)了一種更靈活的機(jī)器學(xué)習(xí)方法-液體神經(jīng)網(wǎng)絡(luò)，可以實(shí)時(shí)轉(zhuǎn)換其底層算法，達(dá)到前所未有的速度和適應(yīng)性。（source：Quanta Magazine）

只需利用基本運(yùn)算獲得精確的近似解
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法是利用在訓(xùn)練期間調(diào)整「權(quán)重」的最佳值，但在面對大量數(shù)據(jù)的環(huán)境下，液體神經(jīng)網(wǎng)絡(luò)的適應(yīng)性會(huì)來得更強(qiáng)。因?yàn)橐后w神經(jīng)網(wǎng)絡(luò)可以根據(jù)觀察到的輸入改變基礎(chǔ)程序。例如在對自動(dòng)駕駛汽車操作進(jìn)行測試時(shí)，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只能定期分析來自汽車攝影機(jī)的視覺數(shù)據(jù)，雖然液體神經(jīng)網(wǎng)絡(luò)僅由19個(gè)神經(jīng)元和253個(gè)突觸所組成，按機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)來說這個(gè)能力根本是非常薄弱，但事實(shí)上，該模型是允許對例如蜿蜒的道路等，復(fù)雜的道路進(jìn)行更頻繁的采樣，因此液體神經(jīng)網(wǎng)絡(luò)能比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)，表現(xiàn)出更高的反應(yīng)能力。
不過，在突觸和神經(jīng)元的非線性方程式，通常需要計(jì)算機(jī)多次運(yùn)算才能得出解決方案。因此這也是液體神經(jīng)網(wǎng)絡(luò)的死穴，因?yàn)橐后w神經(jīng)網(wǎng)絡(luò)的突觸和神經(jīng)元的軟件，由于是單獨(dú)進(jìn)行計(jì)算，再加上所使用的突觸和神經(jīng)元數(shù)量不多，因此運(yùn)行速度非常慢。不過，這樣的困境也被克服了。
在2022年11月新發(fā)表的一篇論文中表示，研究團(tuán)隊(duì)提出了一種新網(wǎng)絡(luò)架構(gòu)，不必透過復(fù)雜困難的運(yùn)算來解決非線性方程式。這個(gè)架構(gòu)是只需要利用基本運(yùn)算，就可以獲得近乎精確的近似解，大幅度的減少運(yùn)算時(shí)間和能量，以及明顯地提高了處理速度。
目前這個(gè)小組正用一架無人機(jī)測試最新的液體神經(jīng)網(wǎng)絡(luò)，最初的測試是在森林中進(jìn)行的，但希望將來能移到城市環(huán)境中，看看在面對新的環(huán)境條件時(shí)自我調(diào)適能力。

結(jié)語：過度投入將導(dǎo)致泡沫熱潮
神經(jīng)運(yùn)算是人工智能熱潮的基礎(chǔ)技術(shù)，在許多業(yè)者和機(jī)構(gòu)的投入下，從材料到設(shè)備、硬件、軟件到應(yīng)用，都呈現(xiàn)迅速地發(fā)展的態(tài)勢。此外，還有全方位的開放架構(gòu)，進(jìn)入門坎相當(dāng)?shù)?，尤其是從?yīng)用的角度來看，也有相當(dāng)多的開發(fā)工具可使用。
以目前來看，但最大的障礙可能是收集所需要的大量學(xué)習(xí)數(shù)據(jù)，例如在某些領(lǐng)域，由于隱私和其他問題，數(shù)據(jù)收集是非常困難的。
另外，有些應(yīng)用領(lǐng)域更是缺乏關(guān)于缺陷和故障的數(shù)據(jù)，如預(yù)測性故障和故障分析。由于神經(jīng)運(yùn)算是一個(gè)以歸納方式給出答案的系統(tǒng)，因此有些人會(huì)抱怨，這和訴諸理性的演繹法不同。
然而，無論如何神經(jīng)運(yùn)算已經(jīng)開始啟動(dòng)了，也呈現(xiàn)出非要達(dá)到目標(biāo)的勢頭。為了解決上述問題，仍然需要技術(shù)的創(chuàng)新，可以說所有的技術(shù)領(lǐng)域都有商業(yè)機(jī)會(huì)。因此更要冷靜地分析形勢，不要被繁榮的景象所引誘，而又出現(xiàn)另一個(gè)泡沫熱潮。