「超深度學習」創(chuàng)造新一代人工智能的核心理論
作者:株式會社阿波羅日本 首席科學家顧澤蒼(中國籍)
本文引用地址:http://m.butianyuan.cn/article/201902/397690.htm新一代人工智能超深度學習( Super Deep Learning SDL)的創(chuàng)新發(fā)展歷程是:早在1991年到1993年,伴隨著大規(guī)集成電路極速發(fā)展的時期,大規(guī)集成電路的最小面積,最短配線長度,同時還要考慮電氣特性的多目的最佳化解的獲得,成為當時科學技術領域中最為關注的課題。在那個時代,由美國學界提出的導入“熵”的理論解決最佳化組合問題,這一理論一時也被世界期待。但是,這個算法同目前深度學習相仿,計算復雜度極高。即使一個最簡單的電路的計算,要花費若干天。面對被世界推崇的理論,我們大膽的提出了“模糊事件概率測度”理論,通過用模糊事件概率測度判斷組合結果的價值,獲得了可以快速進行大規(guī)模集成電路的最短配線長,最小面積以及電氣特性的多目的組合最佳化的解的方法。
其實,當今的深度學習中的“訓練”,由于神經(jīng)網(wǎng)絡之間不像大規(guī)模集成電路具有模塊之間的連接關系,也不像圍棋具有規(guī)則,可以建立棋子之間的連接關系,作為不具有連接關系的神經(jīng)網(wǎng)絡從組合理論看,就是需要窮舉法才可以獲得最佳訓練結果,黑箱問題的出現(xiàn),其原因就是神經(jīng)網(wǎng)絡的訓練沒有獲得最佳解所造成的。
1994年到1999年,由于已經(jīng)知道傳統(tǒng)的神經(jīng)網(wǎng)絡的致命問題,為了同當時的神經(jīng)網(wǎng)絡對抗,我們創(chuàng)建了“概率尺度自組織”的無監(jiān)督機器學習理論。在長期的聲音識別,手寫文字識別,圖像識別等模式識別領域中進行了大量的應用,證明了概率尺度自組織機器學習理論的特殊的應用效果。
2000年到2014年,國際上個人信息法的制定,成為社會關注的焦點。由于當時個人信息的67%是通過紙介質(zhì)文檔流失的,為此我們在國際上提出了新的代碼符號信息記錄的方法,由此“具有隱形結構的第三代條碼網(wǎng)屏編碼誕生了,可以在A4的一張紙上埋入一本小說的信息倍受業(yè)界的關注。在這十幾年中針對Google眼鏡,我們還提出了,可以把任何圖像直接通過概率尺度自組織的機器學習的手法,變換成不到十個字節(jié)的1036的代碼,就可以把任何圖像作為網(wǎng)絡入口,引導從網(wǎng)絡上下載各種文件,即ITC(Image To Code)理論,顛覆了當今流行的AR技術。在這期間,我們還提出了“可以統(tǒng)一歐幾里德空間與概率空間的距離公式。
2014年到2016年我們將概率尺度自組織同神經(jīng)網(wǎng)絡理論結合,提出了分散機器學習的”超深度學習“理論,為人工智能的全面普及應用給予了理論支持。我們是經(jīng)歷過上一個人工智能的研究的人,對于當今火熱的AI熱潮,親身感到上一個人工智能的特點是知識庫,其突出的成果是日本成功的實現(xiàn)了有軌電車的自動駕駛,由此在控制理論上產(chǎn)生了模糊控制的新理論。本次人工智能的特點就是機器學習,相信本次人工智能高潮的代表性成果一定是自動駕駛汽車。因為機器學習可以把人的知識以概率分布的形式進行記述,大大的簡化了知識庫的形式,面對復雜的自動駕駛汽車,機器學習可以將人的知識變成機器的智慧,使復雜的控制簡化。知識庫只能記述宏觀知識,機器學習在自動駕駛汽車中不僅可以高效率的學習人的宏觀知識,還可以學習微觀知識,一個以機器學習理論為核心的“機智獲得”的新的自動控制理論將展現(xiàn)在我們面前。
下面我們重點討論深度學習所遺留下的問題所在:
2016年初,AlphaGo連續(xù)打敗人類棋手,推崇深度學習的熱不斷的升溫。這說明,深度學習是在實際應用中被看好的,應該肯定走機器學習這條路是時代發(fā)展的必由之路,必然會給我們帶來意想不到的應用效果,但是,也應該清醒的看到深度學習目前有很多關鍵問題不能解決。雖然深度學習在圖像識別,聲音識別上確實具有一定的應用效果,但是,在產(chǎn)業(yè)界的應用,特別是在控制上的應用還存在著很大的問題。
必須要指出的是:深度學習的訓練結果,是將目標函數(shù)信息通過訓練承載到海量的屬于歐幾里德空間的參數(shù)上,即深度學習是函數(shù)映射模型,將概率空間的目標函數(shù)映射到歐幾里得空間,其結果需要將概率空間的某一類數(shù)據(jù)的所有可能出現(xiàn)的結果,用人工標注后進行接近無限次的訓練。例如,一個語音識別的數(shù)據(jù)就需要2400萬美元的人工標注費用,這是深度學習難于普及的致命問題。
由于深度學習所構造的神經(jīng)網(wǎng)絡,與大腦的機理又是風馬牛不相干的,因此也不能看到在神經(jīng)元的方面會起到什么作用。得到的結論是:通過這樣的方式所產(chǎn)生的訓練效果,與所投入的硬件開銷不成比例。例如AlphaGo所需要的硬件開銷是1000個CPU,200個GPU,還需要20萬W的電力消耗。這樣的硬件開銷如何普及?況且AlphaGo的設計者也指出深度學習在整個系統(tǒng)中的作用只占30%是次要地位。其實深度學習在如AlphaGo這種組合理論的應用中,是否可以起到作用,目前沒有令人信服的理論依據(jù)。
圖1 深度學習需要搞清的幾個問題
深度學習還有需要搞清如圖1所示的目前解釋不了的問題。
首先需要搞清為什么層數(shù)越多訓練結果的圖像越清晰?開始我們曾認為是承載目標函數(shù)的信息的參數(shù)數(shù)量的提高使記錄的信息的信息量的提高,但是從數(shù)學上我們可以證明在同等節(jié)點的層與層的訓練中,必定可以找到一組參數(shù)可使輸入信息完全等于輸出信息。這就說明深度學習的層數(shù)越多圖像越清晰與訓練的參數(shù)數(shù)量無關,這就剩下一個可以信服的原因,深度學習每一層所訓練的結果實際獲得的是一組局域最佳解,神經(jīng)網(wǎng)絡可以用一個傳遞的函數(shù)模型來描述,可以認為每一層訓練后的解是比上一層更接近整體最佳解,所以參數(shù)越接近整體最佳解神經(jīng)網(wǎng)絡的傳輸率越高圖像就越清晰。因此用這個現(xiàn)象來解釋深度學習中間層越多應用效果越好不是一個嚴謹?shù)目茖W性的解釋方法。所以包括發(fā)明人Hinton在內(nèi)并沒有人能在數(shù)學上證明深度學習具有突破性應用效果的真實機理。
那么,深度學習的黑箱問題是怎么回事?這里所謂的黑箱問題是涉及兩個方面的問題?一個是深度學習的不可分析性,出現(xiàn)問題不能依據(jù)一定的理論進行分析,這是因為深度學習屬于函數(shù)映射模型,映射結果很難反向推理。對于深度學習模型的原理實際上是很清楚的,至于人們把“深度學習”的應用效果好的機理作為“天知”,我們在后面會專題討論。
深度學習出現(xiàn)黑箱問題的主要原因:其實深度學習所訓練的機理就是在一個海量的數(shù)據(jù)空間里進行組合,黑箱問題就在于在海量數(shù)據(jù)空間里進行窮舉時,會出現(xiàn)無窮的局域最佳解,其局域最佳解的分布曲線通過數(shù)學方法無法計算出,人為的實驗也是目前圖靈機所做不到的,因此在訓練中很可能會出現(xiàn)一個參數(shù)稍微改變輸出結果會突然崩潰,或者是所訓練的結果并不是按照我們想象的結果進行展開。在組合空間中所獲得的局域最佳解出現(xiàn)在某一個情況下突然出現(xiàn)令人費解的狀態(tài)是正常的,我們在通過規(guī)則解決最佳組合的NP問題中經(jīng)常會出這種現(xiàn)象,往往是通過程序的規(guī)則的不斷堆積來實現(xiàn),對于深度學習要通過重新改變參數(shù),尋求另一個局域最佳解的方法來解決。所以只要是知道深度學習的訓練是數(shù)據(jù)最佳化組合的過程的特點,就不難理解深度學習的黑箱問題。特別是作為概率空間的目標函數(shù)的隨機性會引發(fā)黑箱問題的發(fā)生。再有就是在“深度學習”的層與層之間節(jié)點的連接中,為了獲得非線性的分類結果,導入了激勵函數(shù)(Activation Function)。這也是引發(fā)黑箱問題發(fā)生的重要隱患。
下面的問題就是在模式識別的應用上,是特征向量的質(zhì)量重要,還是通過學習進行分類重要?回答很簡單沒有好的特征向量的質(zhì)量再好的深度學習也是無濟于事的,在許多文章中都把深度學習可以直接抽取特征量作為深度學習的一大特點。其實深度學習在特征映射的方法上簡直是極其傳統(tǒng)的處理方法,而且并沒有考慮圖像信息并不只是灰度信息,所以深度學習在模式識別上的應用特點只能停留在大量的學習的作用上,下一代的機器學習模型在特征向量抽取質(zhì)量上努力,也一定會產(chǎn)生更好的突出效果。
最后需要搞清的一個重要問題:深度學習的應用效果好的機理是什么?為使我們所提出的模型可以超越“深度學習”,我們對“深度學習”的應用效果好的機理做了一些研究,發(fā)現(xiàn)將目標函數(shù)映射到大數(shù)據(jù)集上后,數(shù)據(jù)分類中的有效距離被擴大了,比如人臉識別,被認為是導入深度學習后應用效果最明顯的案例,人臉的位置的特征信息充其量不過幾百個,傳統(tǒng)的模式識別的效果所以不如深度學習,這是因為兩個最接近的特征向量的總體距離與概率分布的范圍之間的差是固定的,但是如果把人臉位置圖像信息通過深度學習的函數(shù)映射,大數(shù)據(jù)集可以“放大”幾百個人臉位置特征向量所構成的距離,由于“深度學習”模型每增加一個中間層,復雜度為O(nn)就是一個指數(shù)性的提高,所以數(shù)據(jù)集的規(guī)模不可能無限增加,因此我們所提出的的新的模型的復雜度O(n2)如果是接近線性的,就一定可以實現(xiàn)超越深度學習的數(shù)據(jù)集規(guī)模的特征數(shù)據(jù)集,就一定可以在應用上超越“深度學習”的效果。
在“深度學習”被神化的高潮中,欺騙了絕大多數(shù)業(yè)界的專家們的一個問題是:深度學習所采用如圖2所示的對損失函數(shù)的SGD評價方法,所得到的的訓練結果是組合理論中的一個局域的最佳解,這一點深度學習的研究者在當時并不理解,其實這么一個高次的組合空間不可能只有一個局域的最佳解。
圖2 隨機梯度下降法SDG示意圖
其實如圖3所示,深度學習的訓練存在著復數(shù)個局域最佳解的事實,20多年前已經(jīng)被一些例如Hopfild等的早期人工智能科學家所認識,力圖用組合理論的最短路徑訪問的方法進行神經(jīng)網(wǎng)絡的訓練,
圖3 Hopfild的聯(lián)想記憶與最佳組合理論示意圖
遺憾的是神經(jīng)網(wǎng)絡的組合空間規(guī)模之大,屬于圖靈機不可解的NP問題,所以這些科學家的努力沒能成功,可是清楚的告訴我們后人傳統(tǒng)的神經(jīng)網(wǎng)絡是走不下去的。
評論