「超深度學(xué)習(xí)」創(chuàng)造新一代人工智能的核心理論

作者：顧澤蒼時(shí)間：2019-02-19 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　　作者：株式會(huì)社阿波羅日本首席科學(xué)家顧澤蒼(中國籍)

本文引用地址：http://m.butianyuan.cn/article/201902/397690.htm

新一代人工智能超深度學(xué)習(xí)( Super Deep Learning SDL)的創(chuàng)新發(fā)展歷程是：早在1991年到1993年，伴隨著大規(guī)集成電路極速發(fā)展的時(shí)期，大規(guī)集成電路的最小面積，最短配線長度，同時(shí)還要考慮電氣特性的多目的最佳化解的獲得，成為當(dāng)時(shí)科學(xué)技術(shù)領(lǐng)域中最為關(guān)注的課題。在那個(gè)時(shí)代，由美國學(xué)界提出的導(dǎo)入“熵”的理論解決最佳化組合問題，這一理論一時(shí)也被世界期待。但是，這個(gè)算法同目前深度學(xué)習(xí)相仿，計(jì)算復(fù)雜度極高。即使一個(gè)最簡單的電路的計(jì)算，要花費(fèi)若干天。面對(duì)被世界推崇的理論，我們大膽的提出了“模糊事件概率測度”理論，通過用模糊事件概率測度判斷組合結(jié)果的價(jià)值，獲得了可以快速進(jìn)行大規(guī)模集成電路的最短配線長，最小面積以及電氣特性的多目的組合最佳化的解的方法。

　　其實(shí)，當(dāng)今的深度學(xué)習(xí)中的“訓(xùn)練”，由于神經(jīng)網(wǎng)絡(luò)之間不像大規(guī)模集成電路具有模塊之間的連接關(guān)系，也不像圍棋具有規(guī)則，可以建立棋子之間的連接關(guān)系，作為不具有連接關(guān)系的神經(jīng)網(wǎng)絡(luò)從組合理論看，就是需要窮舉法才可以獲得最佳訓(xùn)練結(jié)果，黑箱問題的出現(xiàn)，其原因就是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練沒有獲得最佳解所造成的。

　　1994年到1999年，由于已經(jīng)知道傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的致命問題，為了同當(dāng)時(shí)的神經(jīng)網(wǎng)絡(luò)對(duì)抗，我們創(chuàng)建了“概率尺度自組織”的無監(jiān)督機(jī)器學(xué)習(xí)理論。在長期的聲音識(shí)別，手寫文字識(shí)別，圖像識(shí)別等模式識(shí)別領(lǐng)域中進(jìn)行了大量的應(yīng)用，證明了概率尺度自組織機(jī)器學(xué)習(xí)理論的特殊的應(yīng)用效果。

　　2000年到2014年，國際上個(gè)人信息法的制定，成為社會(huì)關(guān)注的焦點(diǎn)。由于當(dāng)時(shí)個(gè)人信息的67%是通過紙介質(zhì)文檔流失的，為此我們?cè)趪H上提出了新的代碼符號(hào)信息記錄的方法，由此“具有隱形結(jié)構(gòu)的第三代條碼網(wǎng)屏編碼誕生了，可以在A4的一張紙上埋入一本小說的信息倍受業(yè)界的關(guān)注。在這十幾年中針對(duì)Google眼鏡，我們還提出了，可以把任何圖像直接通過概率尺度自組織的機(jī)器學(xué)習(xí)的手法，變換成不到十個(gè)字節(jié)的10³⁶的代碼，就可以把任何圖像作為網(wǎng)絡(luò)入口，引導(dǎo)從網(wǎng)絡(luò)上下載各種文件，即ITC(Image To Code)理論，顛覆了當(dāng)今流行的AR技術(shù)。在這期間，我們還提出了“可以統(tǒng)一歐幾里德空間與概率空間的距離公式。

　　2014年到2016年我們將概率尺度自組織同神經(jīng)網(wǎng)絡(luò)理論結(jié)合，提出了分散機(jī)器學(xué)習(xí)的”超深度學(xué)習(xí)“理論，為人工智能的全面普及應(yīng)用給予了理論支持。我們是經(jīng)歷過上一個(gè)人工智能的研究的人，對(duì)于當(dāng)今火熱的AI熱潮，親身感到上一個(gè)人工智能的特點(diǎn)是知識(shí)庫，其突出的成果是日本成功的實(shí)現(xiàn)了有軌電車的自動(dòng)駕駛，由此在控制理論上產(chǎn)生了模糊控制的新理論。本次人工智能的特點(diǎn)就是機(jī)器學(xué)習(xí)，相信本次人工智能高潮的代表性成果一定是自動(dòng)駕駛汽車。因?yàn)闄C(jī)器學(xué)習(xí)可以把人的知識(shí)以概率分布的形式進(jìn)行記述，大大的簡化了知識(shí)庫的形式，面對(duì)復(fù)雜的自動(dòng)駕駛汽車，機(jī)器學(xué)習(xí)可以將人的知識(shí)變成機(jī)器的智慧，使復(fù)雜的控制簡化。知識(shí)庫只能記述宏觀知識(shí)，機(jī)器學(xué)習(xí)在自動(dòng)駕駛汽車中不僅可以高效率的學(xué)習(xí)人的宏觀知識(shí)，還可以學(xué)習(xí)微觀知識(shí)，一個(gè)以機(jī)器學(xué)習(xí)理論為核心的“機(jī)智獲得”的新的自動(dòng)控制理論將展現(xiàn)在我們面前。

　　下面我們重點(diǎn)討論深度學(xué)習(xí)所遺留下的問題所在：

　　2016年初，AlphaGo連續(xù)打敗人類棋手，推崇深度學(xué)習(xí)的熱不斷的升溫。這說明，深度學(xué)習(xí)是在實(shí)際應(yīng)用中被看好的，應(yīng)該肯定走機(jī)器學(xué)習(xí)這條路是時(shí)代發(fā)展的必由之路，必然會(huì)給我們帶來意想不到的應(yīng)用效果，但是，也應(yīng)該清醒的看到深度學(xué)習(xí)目前有很多關(guān)鍵問題不能解決。雖然深度學(xué)習(xí)在圖像識(shí)別，聲音識(shí)別上確實(shí)具有一定的應(yīng)用效果，但是，在產(chǎn)業(yè)界的應(yīng)用，特別是在控制上的應(yīng)用還存在著很大的問題。

　　必須要指出的是：深度學(xué)習(xí)的訓(xùn)練結(jié)果，是將目標(biāo)函數(shù)信息通過訓(xùn)練承載到海量的屬于歐幾里德空間的參數(shù)上，即深度學(xué)習(xí)是函數(shù)映射模型，將概率空間的目標(biāo)函數(shù)映射到歐幾里得空間，其結(jié)果需要將概率空間的某一類數(shù)據(jù)的所有可能出現(xiàn)的結(jié)果，用人工標(biāo)注后進(jìn)行接近無限次的訓(xùn)練。例如，一個(gè)語音識(shí)別的數(shù)據(jù)就需要2400萬美元的人工標(biāo)注費(fèi)用，這是深度學(xué)習(xí)難于普及的致命問題。

　　由于深度學(xué)習(xí)所構(gòu)造的神經(jīng)網(wǎng)絡(luò)，與大腦的機(jī)理又是風(fēng)馬牛不相干的，因此也不能看到在神經(jīng)元的方面會(huì)起到什么作用。得到的結(jié)論是：通過這樣的方式所產(chǎn)生的訓(xùn)練效果，與所投入的硬件開銷不成比例。例如AlphaGo所需要的硬件開銷是1000個(gè)CPU，200個(gè)GPU，還需要20萬W的電力消耗。這樣的硬件開銷如何普及?況且AlphaGo的設(shè)計(jì)者也指出深度學(xué)習(xí)在整個(gè)系統(tǒng)中的作用只占30%是次要地位。其實(shí)深度學(xué)習(xí)在如AlphaGo這種組合理論的應(yīng)用中，是否可以起到作用，目前沒有令人信服的理論依據(jù)。

　　圖1 深度學(xué)習(xí)需要搞清的幾個(gè)問題

　　深度學(xué)習(xí)還有需要搞清如圖1所示的目前解釋不了的問題。

　　首先需要搞清為什么層數(shù)越多訓(xùn)練結(jié)果的圖像越清晰?開始我們?cè)J(rèn)為是承載目標(biāo)函數(shù)的信息的參數(shù)數(shù)量的提高使記錄的信息的信息量的提高，但是從數(shù)學(xué)上我們可以證明在同等節(jié)點(diǎn)的層與層的訓(xùn)練中，必定可以找到一組參數(shù)可使輸入信息完全等于輸出信息。這就說明深度學(xué)習(xí)的層數(shù)越多圖像越清晰與訓(xùn)練的參數(shù)數(shù)量無關(guān)，這就剩下一個(gè)可以信服的原因，深度學(xué)習(xí)每一層所訓(xùn)練的結(jié)果實(shí)際獲得的是一組局域最佳解，神經(jīng)網(wǎng)絡(luò)可以用一個(gè)傳遞的函數(shù)模型來描述，可以認(rèn)為每一層訓(xùn)練后的解是比上一層更接近整體最佳解，所以參數(shù)越接近整體最佳解神經(jīng)網(wǎng)絡(luò)的傳輸率越高圖像就越清晰。因此用這個(gè)現(xiàn)象來解釋深度學(xué)習(xí)中間層越多應(yīng)用效果越好不是一個(gè)嚴(yán)謹(jǐn)?shù)目茖W(xué)性的解釋方法。所以包括發(fā)明人Hinton在內(nèi)并沒有人能在數(shù)學(xué)上證明深度學(xué)習(xí)具有突破性應(yīng)用效果的真實(shí)機(jī)理。

　　那么，深度學(xué)習(xí)的黑箱問題是怎么回事?這里所謂的黑箱問題是涉及兩個(gè)方面的問題?一個(gè)是深度學(xué)習(xí)的不可分析性，出現(xiàn)問題不能依據(jù)一定的理論進(jìn)行分析，這是因?yàn)樯疃葘W(xué)習(xí)屬于函數(shù)映射模型，映射結(jié)果很難反向推理。對(duì)于深度學(xué)習(xí)模型的原理實(shí)際上是很清楚的，至于人們把“深度學(xué)習(xí)”的應(yīng)用效果好的機(jī)理作為“天知”，我們?cè)诤竺鏁?huì)專題討論。

　　深度學(xué)習(xí)出現(xiàn)黑箱問題的主要原因：其實(shí)深度學(xué)習(xí)所訓(xùn)練的機(jī)理就是在一個(gè)海量的數(shù)據(jù)空間里進(jìn)行組合，黑箱問題就在于在海量數(shù)據(jù)空間里進(jìn)行窮舉時(shí)，會(huì)出現(xiàn)無窮的局域最佳解，其局域最佳解的分布曲線通過數(shù)學(xué)方法無法計(jì)算出，人為的實(shí)驗(yàn)也是目前圖靈機(jī)所做不到的，因此在訓(xùn)練中很可能會(huì)出現(xiàn)一個(gè)參數(shù)稍微改變輸出結(jié)果會(huì)突然崩潰，或者是所訓(xùn)練的結(jié)果并不是按照我們想象的結(jié)果進(jìn)行展開。在組合空間中所獲得的局域最佳解出現(xiàn)在某一個(gè)情況下突然出現(xiàn)令人費(fèi)解的狀態(tài)是正常的，我們?cè)谕ㄟ^規(guī)則解決最佳組合的NP問題中經(jīng)常會(huì)出這種現(xiàn)象，往往是通過程序的規(guī)則的不斷堆積來實(shí)現(xiàn)，對(duì)于深度學(xué)習(xí)要通過重新改變參數(shù)，尋求另一個(gè)局域最佳解的方法來解決。所以只要是知道深度學(xué)習(xí)的訓(xùn)練是數(shù)據(jù)最佳化組合的過程的特點(diǎn)，就不難理解深度學(xué)習(xí)的黑箱問題。特別是作為概率空間的目標(biāo)函數(shù)的隨機(jī)性會(huì)引發(fā)黑箱問題的發(fā)生。再有就是在“深度學(xué)習(xí)”的層與層之間節(jié)點(diǎn)的連接中，為了獲得非線性的分類結(jié)果，導(dǎo)入了激勵(lì)函數(shù)(Activation Function)。這也是引發(fā)黑箱問題發(fā)生的重要隱患。

　　下面的問題就是在模式識(shí)別的應(yīng)用上，是特征向量的質(zhì)量重要，還是通過學(xué)習(xí)進(jìn)行分類重要?回答很簡單沒有好的特征向量的質(zhì)量再好的深度學(xué)習(xí)也是無濟(jì)于事的，在許多文章中都把深度學(xué)習(xí)可以直接抽取特征量作為深度學(xué)習(xí)的一大特點(diǎn)。其實(shí)深度學(xué)習(xí)在特征映射的方法上簡直是極其傳統(tǒng)的處理方法，而且并沒有考慮圖像信息并不只是灰度信息，所以深度學(xué)習(xí)在模式識(shí)別上的應(yīng)用特點(diǎn)只能停留在大量的學(xué)習(xí)的作用上，下一代的機(jī)器學(xué)習(xí)模型在特征向量抽取質(zhì)量上努力，也一定會(huì)產(chǎn)生更好的突出效果。

　　最后需要搞清的一個(gè)重要問題：深度學(xué)習(xí)的應(yīng)用效果好的機(jī)理是什么?為使我們所提出的模型可以超越“深度學(xué)習(xí)”，我們對(duì)“深度學(xué)習(xí)”的應(yīng)用效果好的機(jī)理做了一些研究，發(fā)現(xiàn)將目標(biāo)函數(shù)映射到大數(shù)據(jù)集上后，數(shù)據(jù)分類中的有效距離被擴(kuò)大了，比如人臉識(shí)別，被認(rèn)為是導(dǎo)入深度學(xué)習(xí)后應(yīng)用效果最明顯的案例，人臉的位置的特征信息充其量不過幾百個(gè)，傳統(tǒng)的模式識(shí)別的效果所以不如深度學(xué)習(xí)，這是因?yàn)閮蓚€(gè)最接近的特征向量的總體距離與概率分布的范圍之間的差是固定的，但是如果把人臉位置圖像信息通過深度學(xué)習(xí)的函數(shù)映射，大數(shù)據(jù)集可以“放大”幾百個(gè)人臉位置特征向量所構(gòu)成的距離，由于“深度學(xué)習(xí)”模型每增加一個(gè)中間層，復(fù)雜度為O(nn)就是一個(gè)指數(shù)性的提高，所以數(shù)據(jù)集的規(guī)模不可能無限增加，因此我們所提出的的新的模型的復(fù)雜度O(n2)如果是接近線性的，就一定可以實(shí)現(xiàn)超越深度學(xué)習(xí)的數(shù)據(jù)集規(guī)模的特征數(shù)據(jù)集，就一定可以在應(yīng)用上超越“深度學(xué)習(xí)”的效果。

　　在“深度學(xué)習(xí)”被神化的高潮中，欺騙了絕大多數(shù)業(yè)界的專家們的一個(gè)問題是：深度學(xué)習(xí)所采用如圖2所示的對(duì)損失函數(shù)的SGD評(píng)價(jià)方法，所得到的的訓(xùn)練結(jié)果是組合理論中的一個(gè)局域的最佳解，這一點(diǎn)深度學(xué)習(xí)的研究者在當(dāng)時(shí)并不理解，其實(shí)這么一個(gè)高次的組合空間不可能只有一個(gè)局域的最佳解。

　　圖2 隨機(jī)梯度下降法SDG示意圖

　　其實(shí)如圖3所示，深度學(xué)習(xí)的訓(xùn)練存在著復(fù)數(shù)個(gè)局域最佳解的事實(shí)，20多年前已經(jīng)被一些例如Hopfild等的早期人工智能科學(xué)家所認(rèn)識(shí)，力圖用組合理論的最短路徑訪問的方法進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，

　　圖3 Hopfild的聯(lián)想記憶與最佳組合理論示意圖

　　遺憾的是神經(jīng)網(wǎng)絡(luò)的組合空間規(guī)模之大，屬于圖靈機(jī)不可解的NP問題，所以這些科學(xué)家的努力沒能成功，可是清楚的告訴我們后人傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是走不下去的。

新聞中心

「超深度學(xué)習(xí)」創(chuàng)造新一代人工智能的核心理論

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)