“三巨頭”聯(lián)合發(fā)布萬字長文,深度學(xué)習(xí)將通往何方?
人工神經(jīng)網(wǎng)絡(luò)的研究源于以下觀察:人類智能來自于高度并行的、相對簡單的非線性神經(jīng)元網(wǎng)絡(luò),這些神經(jīng)元通過調(diào)整其連接的強(qiáng)度來學(xué)習(xí)知識。
這一觀察引發(fā)出一個(gè)核心計(jì)算問題:這種一般類型的網(wǎng)絡(luò)如何學(xué)習(xí)識別物體或理解語言等困難任務(wù)所需的復(fù)雜內(nèi)部表示呢?深度學(xué)習(xí)試圖通過深度表征向量和最優(yōu)化損失函數(shù)得到的權(quán)重鏈接來回答這個(gè)問題。
非常令人驚訝的是,這種概念上簡單的方法在使用大量計(jì)算資源和大型訓(xùn)練集時(shí)被實(shí)驗(yàn)證明是如此有效,而且似乎一個(gè)關(guān)鍵因素是深度,即淺層網(wǎng)絡(luò)無法正常工作。
本文,我們將回顧近年來深度學(xué)習(xí)的基本概念和一些突破性成就,描述深度學(xué)習(xí)的起源,以及討論一些未來的挑戰(zhàn)。
這些挑戰(zhàn)包括在很少或沒有外部監(jiān)督的情況下進(jìn)行學(xué)習(xí),處理來自與訓(xùn)練樣本不同分布的測試樣本,以及使用深度學(xué)習(xí)方法,用于那些人類通過一系列步驟有意識地解決的任務(wù) —— 即 Kahneman 稱之為 system 2 而非 system 1 的任務(wù),例如對象識別或即時(shí)自然語言理解。system 1 的任務(wù)往往更輕松。
從手工設(shè)計(jì)的編碼到分布式向量表示
人工智能有兩種截然不同的范式。簡而言之,邏輯啟發(fā)范式將順序推理視為智能的本質(zhì),旨在使用手工設(shè)計(jì)的推理規(guī)則在計(jì)算機(jī)中實(shí)現(xiàn)推理,這些規(guī)則對手工設(shè)計(jì)的將知識形式化的符號表達(dá)式進(jìn)行操作。
受大腦啟發(fā)的范式將從數(shù)據(jù)中學(xué)習(xí)表征視為智能的本質(zhì),旨在通過手動設(shè)計(jì)或演化規(guī)則來實(shí)現(xiàn)學(xué)習(xí),以修改人工神經(jīng)網(wǎng)絡(luò)中的連接強(qiáng)度。
在邏輯啟發(fā)范式中,符號沒有有意義的內(nèi)部結(jié)構(gòu):它的意義在于它與其他符號的關(guān)系,這些關(guān)系可以用一組符號表達(dá)式或關(guān)系圖來表示。
相比之下,在類腦范式中,用于交流的外部符號被轉(zhuǎn)換為神經(jīng)活動的內(nèi)部向量,這些向量具有豐富的相似結(jié)構(gòu)?;顒酉蛄靠捎糜谕ㄟ^為每個(gè)符號學(xué)習(xí)適當(dāng)?shù)幕顒酉蛄坎W(xué)習(xí)允許填充與符號串缺失元素對應(yīng)的活動向量的非線性變換來對一組符號串中固有的結(jié)構(gòu)進(jìn)行建模。
Rumelhart 等人首先證明了這一點(diǎn)。最近一個(gè)非常令人印象深刻的系統(tǒng)是 BERT,它利用自注意力來動態(tài)連接單元組。
使用神經(jīng)活動向量來表示概念和權(quán)重矩陣來捕捉概念之間的關(guān)系的主要優(yōu)點(diǎn)是,這會產(chǎn)生自動的泛化能力。如果星期二和星期四由非常相似的向量表示,它們將對神經(jīng)活動的其他向量產(chǎn)生非常相似的因果影響。
這有助于類比推理,并表明直接、直觀的類比推理是我們的主要推理模式,而邏輯順序推理 (logical sequential reasoning) 則是較晚的發(fā)展,我們將對此進(jìn)行討論。
深度學(xué)習(xí)的興起
2000 年代初期,深度學(xué)習(xí)領(lǐng)域通過引入一些新技術(shù)使訓(xùn)練更深的網(wǎng)絡(luò)變得容易,從而重新激發(fā)了神經(jīng)網(wǎng)絡(luò)的研究。
GPU 和大型數(shù)據(jù)集是深度學(xué)習(xí)的關(guān)鍵推動因素,并且通過開發(fā)具有自動區(qū)分功能的開源、靈活的軟件平臺(例如 Theano、Torch、Caffe、TensorFlow、和 PyTorch)大大增強(qiáng)了深度學(xué)習(xí)的發(fā)展,這使得訓(xùn)練復(fù)雜的深度網(wǎng)絡(luò)和重用最新模型及其構(gòu)建塊變得容易。而且,更多層的組合允許更復(fù)雜的非線性,并在感知任務(wù)中取得了令人驚訝的好結(jié)果。
1)為什么是深度?:盡管更深層次的神經(jīng)網(wǎng)絡(luò)可能是更強(qiáng)大的直覺早于現(xiàn)代深度學(xué)習(xí)技術(shù),這是架構(gòu)和訓(xùn)練程序方面的一系列進(jìn)步,但是,為什么更深的網(wǎng)絡(luò)可以更好地概括我們對建模感興趣的輸入輸出關(guān)系類型?
重要的是,要認(rèn)識到這不僅僅是具有更多參數(shù)的問題,因?yàn)樯疃染W(wǎng)絡(luò)通常比具有相同參數(shù)數(shù)量的淺層網(wǎng)絡(luò)具有更好的泛化能力。
最流行的計(jì)算機(jī)視覺卷積網(wǎng)絡(luò)架構(gòu)是 ResNet 系列,其中最常見的代表 ResNet-50 有 50 層。本文未提及但結(jié)果證明非常有用的其他成分包括圖像變形、dropout 和批量歸一化。
我們相信深度網(wǎng)絡(luò)之所以出色,是因?yàn)樗鼈兝昧艘环N特定形式的組合性,其中一層中的特征以多種不同的方式組合,以在下一層創(chuàng)建更多抽象特征。對于像感知這樣的任務(wù),這種組合性非常有效,并且有強(qiáng)有力的證據(jù)表明這種組合性質(zhì)被生物感知系統(tǒng)所利用。
2)無監(jiān)督預(yù)訓(xùn)練:當(dāng)標(biāo)記訓(xùn)練示例的數(shù)量與執(zhí)行任務(wù)所需的神經(jīng)網(wǎng)絡(luò)的復(fù)雜性相比較小時(shí),開始使用一些其他信息源來創(chuàng)建特征檢測器層然后微調(diào)這些特征檢測器是有意義的。在遷移學(xué)習(xí)中,信息來源是另一個(gè)具有大量標(biāo)簽的監(jiān)督學(xué)習(xí)任務(wù)。但也可以通過堆疊自動編碼器來創(chuàng)建多層特征檢測器,而無需使用任何標(biāo)簽。
首先,我們學(xué)習(xí)了一層特征檢測器,其輸出激活向量允許重建輸入。然后學(xué)習(xí)第二層特征檢測器,其激活向量允許重建第一層特征檢測器的激活。
在以這種方式學(xué)習(xí)了幾個(gè)隱藏層之后,嘗試從最后一個(gè)隱藏層中的活動預(yù)測標(biāo)簽,并通過所有層反向傳播錯(cuò)誤,以便微調(diào)最初建立的特征檢測器,而不使用標(biāo)簽中的寶貴信息。預(yù)訓(xùn)練可以很好地提取與最終分類無關(guān)的各種結(jié)構(gòu),但是,在計(jì)算便宜且標(biāo)記數(shù)據(jù)昂貴的情況下,只要預(yù)訓(xùn)練將輸入轉(zhuǎn)換為表示使分類更容易。
除了提高泛化能力之外,無監(jiān)督預(yù)訓(xùn)練還以一種很容易通過反向傳播微調(diào)深度神經(jīng)網(wǎng)絡(luò)的方式初始化權(quán)重。
預(yù)訓(xùn)練對優(yōu)化的影響在歷史上對于克服深度網(wǎng)絡(luò)難以訓(xùn)練的公認(rèn)觀點(diǎn)很重要,但現(xiàn)在人們使用修正線性單元(見下一節(jié))和殘差連接,它的相關(guān)性要小得多。然而, 預(yù)訓(xùn)練對泛化的影響已被證明是非常重要的。它可以通過利用大量未標(biāo)記的數(shù)據(jù)來訓(xùn)練非常大的模型,例如在自然語言處理中,有大量的語料庫可用。預(yù)訓(xùn)練和微調(diào)的一般原則已成為深度學(xué)習(xí)工具箱中的一個(gè)重要工具,例如,遷移學(xué)習(xí)和元學(xué)習(xí)。
3)ReLU 的成功之謎:深度網(wǎng)絡(luò)的早期成功涉及使用 sigmoid 非線性函數(shù)或雙曲正切激活函數(shù)對隱含層進(jìn)行無監(jiān)督預(yù)訓(xùn)練。
長期以來,神經(jīng)科學(xué)線性 ReLU 函數(shù)是生物神經(jīng)網(wǎng)絡(luò)中的正確激活,并且 ReLU 已經(jīng)在 RBM 的某些變體和卷積神經(jīng)網(wǎng)絡(luò)中使用,并取得了不錯(cuò)的效果。ReLU 使學(xué)習(xí)變得容易,這是一個(gè)出乎意料的驚喜,通過反向傳播和隨機(jī)梯度下降來訓(xùn)練深度網(wǎng)絡(luò),而無需逐層預(yù)訓(xùn)練。這是技術(shù)進(jìn)步之一,使深度學(xué)習(xí)能夠勝過先前的對象識別方法。
4)語音和物體識別方面的突破:聲學(xué)模型將聲波的表示轉(zhuǎn)換為音素片段的概率分布。
Robinson 使用晶片機(jī)和 Morgan 等人使用 DSP 芯片的嘗試已經(jīng)表明,如果有足夠的處理能力,神經(jīng)網(wǎng)絡(luò)可以與最先進(jìn)的聲學(xué)建模技術(shù)相媲美。2009 年,兩名使用 Nvidia GPU 的研究生表明,預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在 TIMIT 數(shù)據(jù)集上的表現(xiàn)略優(yōu)于 SOTA。
這一結(jié)果重新點(diǎn)燃了神經(jīng)網(wǎng)絡(luò)中幾個(gè)主要語音小組的興趣。2010 年,基本上相同的深度網(wǎng)絡(luò)被證明在不需要依賴說話者的訓(xùn)練的情況下在大詞匯語音識別方面擊敗了 SOTA。
到 2012 年,谷歌設(shè)計(jì)了一個(gè)生產(chǎn)版本,顯著改善了 Android 上的語音搜索。這是深度學(xué)習(xí)顛覆性力量的早期證明。
大約在同一時(shí)間,深度學(xué)習(xí)在 2012 年 ImageNet 競賽中取得了戲劇性的勝利,在識別自然圖像中一千種不同類別的物體時(shí),錯(cuò)誤率幾乎減半。這場勝利的關(guān)鍵是李飛飛的主要努力和她的合作者為訓(xùn)練集收集了超過一百萬張帶標(biāo)簽的圖像,并且 Alex Krizhevsky 非常有效地使用了多個(gè) GPU。
當(dāng)前的硬件(包括 GPU)鼓勵(lì)在多次使用該權(quán)重時(shí)分?jǐn)倧膬?nèi)存中獲取權(quán)重的成本。使用每個(gè)權(quán)重一次的純在線隨機(jī)梯度下降會更快收斂,并且未來的硬件可能只是就地使用權(quán)重而不是從內(nèi)存中獲取它們。
深度卷積神經(jīng)網(wǎng)絡(luò)包含一些新穎性,例如使用 ReLU 使學(xué)習(xí)更快,使用 dropout 防止過擬合,但它基本上只是 Yann LeCun 和他的那種前饋卷積神經(jīng)網(wǎng)絡(luò)。計(jì)算機(jī)視覺社區(qū)對這一突破的反應(yīng)令人欽佩。
鑒于卷積神經(jīng)網(wǎng)絡(luò)優(yōu)越性的無可爭議的證據(jù),社區(qū)迅速放棄了以前的手工設(shè)計(jì)方法,轉(zhuǎn)而使用深度學(xué)習(xí)。
近期進(jìn)展
在這里,我們有選擇地討論深度學(xué)習(xí)的一些最新進(jìn)展。不過我們在此暫且忽略了許多重要的主題,例如深度強(qiáng)化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)和元學(xué)習(xí)。
1)軟注意力機(jī)制和 transformer 架構(gòu):深度學(xué)習(xí)的一個(gè)重****展,尤其是在順序處理方面,是乘法交互的使用,特別是在軟注意力的形式中。這是對神經(jīng)網(wǎng)絡(luò)工具箱的變革性補(bǔ)充,因?yàn)樗鼘⑸窠?jīng)網(wǎng)絡(luò)從純粹的矢量轉(zhuǎn)換機(jī)器轉(zhuǎn)變?yōu)榭梢詣討B(tài)選擇對哪些輸入進(jìn)行操作的架構(gòu),并且可以將信息存儲在可區(qū)分的關(guān)聯(lián)存儲器中。這種架構(gòu)的一個(gè)關(guān)鍵特性是它們可以有效地對包括集合和圖在內(nèi)的不同類型的數(shù)據(jù)結(jié)構(gòu)進(jìn)行操作。
隱藏層可以使用軟注意力來動態(tài)選擇它們將組合來自前一層的哪些向量來計(jì)算它們的輸出。這可以使輸出獨(dú)立于輸入的呈現(xiàn)順序或使用不同輸入之間的關(guān)系。
Transformer 架構(gòu)已經(jīng)成為許多應(yīng)用中的主導(dǎo)架構(gòu),它堆疊了許多層 “self-attention” 模塊。
層中的每個(gè)模塊使用標(biāo)量積來計(jì)算其查詢向量與該層中其他模塊的關(guān)鍵向量之間的匹配。匹配項(xiàng)被歸一化為總和為 1,然后使用產(chǎn)生的標(biāo)量系數(shù)來形成前一層中其他模塊產(chǎn)生的值向量的凸組合。結(jié)果向量形成下一計(jì)算階段的模塊的輸入。模塊可以是多頭的,以便每個(gè)模塊計(jì)算幾個(gè)不同的查詢、鍵和值向量,從而使每個(gè)模塊有可能有幾個(gè)不同的輸入,每個(gè)輸入都以不同的方式從前一階段的模塊中選擇。
在此操作中,模塊的順序和數(shù)量無關(guān)緊要,因此可以對向量集進(jìn)行操作,而不是像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中那樣對單個(gè)向量進(jìn)行操作。例如,語言翻譯系統(tǒng)在輸出句子中生成一個(gè)單詞時(shí),可以選擇關(guān)注輸入句子中對應(yīng)的一組單詞,而與其在文本中的位置無關(guān)。雖然乘法門控是諸如坐標(biāo)變換和循環(huán)網(wǎng)絡(luò)的強(qiáng)大形式之類的舊思想,但其最近的形式使其成為主流。
我們相信深度網(wǎng)絡(luò)之所以出色,是因?yàn)樗鼈兝昧艘环N特定形式的組合性,其中一層中的特征以多種不同的方式組合,以在下一層創(chuàng)建更多抽象特征。
Transformer 帶來了顯著的性能改進(jìn),徹底改變了自然語言處理,現(xiàn)在它們在工業(yè)中得到了大量使用。這些系統(tǒng)都以自我監(jiān)督的方式進(jìn)行了預(yù)訓(xùn)練,以預(yù)測一段文本中的缺失詞。
也許更令人驚訝的是,Transformer 已成功地用于符號求解積分方程和微分方程。最近一個(gè)非常有前景的趨勢是在卷積網(wǎng)絡(luò)上使用 Transformer,以最先進(jìn)的性能在圖像中進(jìn)行對象檢測和定位。Transformerransformer 以可微分的方式執(zhí)行后處理和基于對象的推理,使系統(tǒng)能夠接受端到端的訓(xùn)練。
2)無監(jiān)督和自監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)雖然在各種任務(wù)中取得成功,但通常需要大量人工標(biāo)記的數(shù)據(jù)。同樣,當(dāng)強(qiáng)化學(xué)習(xí)僅基于獎(jiǎng)勵(lì)時(shí),它需要非常大量的交互。這些學(xué)習(xí)方法往往會產(chǎn)生特定于任務(wù)的專業(yè)系統(tǒng),這些系統(tǒng)通常在他們接受過訓(xùn)練的狹窄領(lǐng)域之外是脆弱的。減少學(xué)習(xí)任務(wù)所需的人工標(biāo)記樣本數(shù)量或與世界的交互并提高域外魯棒性對于低資源語言翻譯、醫(yī)學(xué)圖像分析、自動駕駛和內(nèi)容過濾。
人類和動物似乎能夠以獨(dú)立于任務(wù)的方式學(xué)習(xí)大量關(guān)于世界的背景知識,主要是通過觀察。這些知識鞏固了常識,讓人類只需幾個(gè)小時(shí)的練習(xí)就可以學(xué)習(xí)復(fù)雜的任務(wù),例如駕駛。人工智能未來的一個(gè)關(guān)鍵問題是,人類如何僅從觀察中學(xué)到這么多?
在監(jiān)督學(xué)習(xí)中,N 個(gè)類別之一的標(biāo)簽平均最多傳達(dá) log2 (N) 位關(guān)于世界的信息。在無模型強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)同樣僅傳達(dá)少量信息。相比之下,音頻、圖像和視頻是高帶寬模式,隱含地傳達(dá)了有關(guān)世界結(jié)構(gòu)的大量信息。這激發(fā)了一種稱為自監(jiān)督學(xué)習(xí)的預(yù)測或重建形式,它通過預(yù)測數(shù)據(jù)的掩蔽或損壞部分來訓(xùn)練 “填補(bǔ)空白”。自監(jiān)督學(xué)習(xí)在訓(xùn)練 Transformer 提取向量方面非常成功,這些向量捕獲了單詞或單詞片段的上下文相關(guān)含義,并且這些向量非常適合下游任務(wù)。
對于文本,Transformer 被訓(xùn)練從一組離散的可能性中預(yù)測丟失的單詞。但是在視頻等高維連續(xù)域中,特定視頻片段的合理延續(xù)集龐大而復(fù)雜,正確表示合理延續(xù)的分布本質(zhì)上是一個(gè)未解決的問題。
3)對比學(xué)習(xí):解決此問題的一種方法是通過潛在變量模型,該模型為視頻示例和可能的延續(xù)分配能量。
給定輸入視頻 X 和合理的延續(xù) Y,我們希望模型通過使用能量函數(shù) E (X, Y) 來指示 Y 是否與 X 兼容,該函數(shù)在 X 和 Y 兼容時(shí)取低值,否則取高值。
E (X, Y) 可以由深度神經(jīng)網(wǎng)絡(luò)計(jì)算,對于給定的 X,以對比的方式訓(xùn)練,為與 X 兼容的值 Y 提供低能量(例如 (X, Y) 對),以及與 X 不兼容的 Y 的其他值的高能量。對于給定的 X,推理包括找到一個(gè)使 E (X, Y) 最小化的 Y 或者可能從 Y 中采樣具有較低的 E (X, Y) 值。這種基于能量的方法來表示 Y 依賴于 X 的方式,這使得建模多樣化、多模態(tài)的合理延續(xù)集成為可能。
對比學(xué)習(xí)的關(guān)鍵難點(diǎn)是選擇好的 “負(fù)” 樣本:合適的點(diǎn) Y,其能量會被推高。當(dāng)可能的反例集合不是太大時(shí),我們可以將它們?nèi)靠紤]。這就是 softmax 的作用,因此在這種情況下,對比學(xué)習(xí)簡化為對有限離散符號集的標(biāo)準(zhǔn)監(jiān)督或自監(jiān)督學(xué)習(xí)。但是在實(shí)值高維空間中,Y 的預(yù)測與 Y 有很大不同,為了改進(jìn)模型,我們需要關(guān)注那些本應(yīng)具有高能量但當(dāng)前能量較低的 Y。
早期選擇負(fù)樣本的方法基于蒙特卡羅方法,例如受限玻爾茲曼機(jī)的對比散度和噪聲對比估計(jì)。
GAN 優(yōu)化起來有些棘手,但事實(shí)證明,對抗性訓(xùn)練思想極其豐富,在圖像合成方面產(chǎn)生了令人印象深刻的結(jié)果,并在內(nèi)容創(chuàng)建和領(lǐng)域適應(yīng)以及領(lǐng)域或風(fēng)格轉(zhuǎn)移方面開辟了許多新應(yīng)用。
4)對比學(xué)習(xí)的表示一致性:對比學(xué)習(xí)提供了一種無需重建或生成像素即可發(fā)現(xiàn)好的特征向量的方法。
這個(gè)想法是學(xué)習(xí)一個(gè)前饋神經(jīng)網(wǎng)絡(luò),當(dāng)給定相同圖像的兩個(gè)不同裁剪或同一對象的兩個(gè)不同視圖時(shí),該網(wǎng)絡(luò)會產(chǎn)生非常相似的輸出向量,但來自不同圖像或不同對象視圖的裁剪的輸出向量不同。兩個(gè)輸出向量之間的平方距離可以被視為一種能量,小值說明兼容,大值說明不兼容。
最近的一系列使用卷積網(wǎng)絡(luò)提取一致表示的論文在視覺特征學(xué)習(xí)中產(chǎn)生了有希望的結(jié)果。
正對由同一圖像的不同版本組成,這些版本通過裁剪、縮放、旋轉(zhuǎn)、顏色偏移、模糊等方式扭曲。負(fù)對是不同圖像的類似失真版本,它們可以通過稱為硬負(fù)挖掘的過程從數(shù)據(jù)集中巧妙地挑選出來,或者可能只是小批量中其他圖像的所有失真版本。網(wǎng)絡(luò)較高層之一的隱藏活動向量隨后用作以監(jiān)督方式訓(xùn)練的線性分類器的輸入。這種連體網(wǎng)絡(luò)方法在標(biāo)準(zhǔn)圖像識別基準(zhǔn)上取得了出色的結(jié)果。
最近,兩種 Siamese 網(wǎng)絡(luò)方法設(shè)法避免了對對比樣本的需求。第一個(gè)稱為 SwAV,量化一個(gè)網(wǎng)絡(luò)的輸出以訓(xùn)練另一個(gè)網(wǎng)絡(luò),第二個(gè)稱為 BYOL,平滑兩個(gè)網(wǎng)絡(luò)之一的權(quán)重軌跡,這顯然足以防止崩潰。
5)變分自動編碼器:最近流行的一種自監(jiān)督學(xué)習(xí)方法是變分自動編碼器 (VAE)。它由將圖像映射到潛在代碼空間的編碼器網(wǎng)絡(luò)和從潛在代碼生成圖像的****網(wǎng)絡(luò)組成。VAE 通過在將高斯噪聲傳遞到****之前將高斯噪聲添加到編碼器的輸出來限制潛在代碼的信息容量。這類似于將小的嘈雜球體打包成具有最小半徑的較大球體。
信息容量受限于包含球體內(nèi)部有多少噪聲球體。嘈雜的球體相互排斥,因?yàn)榱己玫闹貥?gòu)誤差需要對應(yīng)于不同樣本的代碼之間有小的重疊。
在數(shù)學(xué)上,該系統(tǒng)最小化了通過在噪聲分布上對潛在代碼進(jìn)行邊緣化而獲得的自由能。然而,相對于參數(shù)最小化該自由能是棘手的,并且必須依賴來自統(tǒng)計(jì)物理學(xué)的變分近似方法來最小化自由能的上限。
深度學(xué)習(xí)的未來
深度學(xué)習(xí)系統(tǒng)的性能通??梢酝ㄟ^簡單的擴(kuò)展來而得到顯著提高。有了更多的數(shù)據(jù)和更多的計(jì)算,它們通常會更好地工作。具有 1750 億個(gè)參數(shù)的語言模型 GPT-3(與人腦中的突觸數(shù)量相比仍然很小)生成的文本,明顯優(yōu)于只有 15 億個(gè)參數(shù)的 GPT-2。
隨著聊天機(jī)器人 Meena 和 BlenderBot 變得越來越大,它們也在不斷改進(jìn)。
現(xiàn)在正在為擴(kuò)大規(guī)模付出巨大的努力,可以大大改進(jìn)現(xiàn)有系統(tǒng),但當(dāng)前深度學(xué)習(xí)存在一些根本性的缺陷,無法僅僅通過擴(kuò)大規(guī)模來克服。
我們將人類學(xué)習(xí)能力與當(dāng)前的人工智能進(jìn)行比較,提出了幾個(gè)改進(jìn)方向:
監(jiān)督學(xué)習(xí)需要太多標(biāo)記數(shù)據(jù),而無模型強(qiáng)化學(xué)習(xí)需要太多試驗(yàn)。人類似乎能夠以少得多的經(jīng)驗(yàn)很好地概括。
當(dāng)前的系統(tǒng)對分布變化的魯棒性不如人類,人類可以通過很少的例子快速適應(yīng)這種變化。
當(dāng)前的深度學(xué)習(xí)在感知任務(wù)和通常所謂的 system 1 任務(wù)方面最為成功。將深度學(xué)習(xí)用于需要經(jīng)過深思熟慮步驟序列的 system 2 任務(wù),是一個(gè)仍處于起步階段的令人興奮的領(lǐng)域。
1)需要改進(jìn)的點(diǎn):從早期開始,機(jī)器學(xué)習(xí)的理論家就關(guān)注 IID 假設(shè),即測試用例應(yīng)該來自與訓(xùn)練示例相同的分布。
不幸的是,這在現(xiàn)實(shí)世界中并不是一個(gè)現(xiàn)實(shí)的假設(shè):只需考慮由于各種代理改變世界的行為引起的非平穩(wěn)性,或者學(xué)習(xí)代理的逐漸擴(kuò)大的思維視野,總是有更多的東西需要學(xué)習(xí)和發(fā)現(xiàn)。實(shí)際上,當(dāng)今最好的 AI 系統(tǒng)在從實(shí)驗(yàn)室到現(xiàn)場時(shí)的性能往往會受到影響。
我們希望在面對分布變化(稱為分布外泛化)時(shí)實(shí)現(xiàn)更大的魯棒性,這是在面對新任務(wù)時(shí)降低樣本復(fù)雜性(良好泛化所需的示例數(shù)量)的更普遍目標(biāo)的一個(gè)特例 —— 如在遷移學(xué)習(xí)和終身學(xué)習(xí)中 —— 或者只是改變分布或世界狀態(tài)與獎(jiǎng)勵(lì)之間的關(guān)系。當(dāng)前的監(jiān)督學(xué)習(xí)系統(tǒng)需要比人類更多的例子(當(dāng)必須學(xué)習(xí)一項(xiàng)新任務(wù)時(shí)),而無模型強(qiáng)化學(xué)習(xí)的情況更糟,因?yàn)槊總€(gè)獎(jiǎng)勵(lì)試驗(yàn)提供的關(guān)于任務(wù)的信息比每個(gè)標(biāo)記的例子少。
人類可以以一種不同于普通 IID 泛化的方式進(jìn)行泛化:我們可以正確解釋現(xiàn)有概念的新組合,即使這些組合在我們的訓(xùn)練分布下極不可能,只要它們尊重我們已經(jīng)學(xué)到的高級句法和語義模式。最近的研究幫助我們闡明了不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)在這種系統(tǒng)化泛化能力方面的表現(xiàn)。如何設(shè)計(jì)具有這些能力的未來機(jī)器學(xué)習(xí)系統(tǒng),以更好地泛化或更快地適應(yīng)樣本外分布?
2)從同質(zhì)層到代表實(shí)體的神經(jīng)元組:來自神經(jīng)科學(xué)的證據(jù)表明,相鄰的神經(jīng)元組(形成所謂的超列)緊密相連,可能代表一種更高級別的向量值單元,不僅能夠發(fā)送標(biāo)量,而且能夠發(fā)送一組協(xié)調(diào)值。這個(gè)想法是膠囊架構(gòu)的核心,也是軟注意力機(jī)制的使用所固有的,其中集合中的每個(gè)元素都與一個(gè)向量相關(guān)聯(lián),從中可以讀取一個(gè)鍵向量和一個(gè)值向量(有時(shí)也是查詢向量)??紤]這些向量級單元的一種方法是表示對象的檢測及其屬性(如在膠囊中的姿勢信息)。
計(jì)算機(jī)視覺領(lǐng)域的最新論文正在探索卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,其中層次結(jié)構(gòu)的頂層代表在輸入圖像中檢測到的一組候選對象,并且對這些候選對象的操作是使用類似轉(zhuǎn)換器的架構(gòu)來執(zhí)行的。為對象及其部分分配內(nèi)在參考框架并通過使用部分之間的幾何關(guān)系來識別對象的神經(jīng)網(wǎng)絡(luò)應(yīng)該更不易受到定向?qū)剐怨舻挠绊懀笳咭蕾囉谌藗兪褂玫男畔⑴c神經(jīng)網(wǎng)絡(luò)使用的信息之間的巨大差異。網(wǎng)絡(luò)來識別物體。
3)多時(shí)間尺度:大多數(shù)神經(jīng)網(wǎng)絡(luò)只有兩個(gè)時(shí)間尺度:權(quán)重在許多示例中適應(yīng)緩慢,活動適應(yīng)隨著每個(gè)新輸入而迅速變化。添加快速適應(yīng)和快速衰減的 “快速權(quán)重” 的疊加會引入有趣的新計(jì)算能力。特別是,它創(chuàng)建了一個(gè)高容量的短期記憶,允許神經(jīng)網(wǎng)絡(luò)執(zhí)行真正的遞歸,其中相同的神經(jīng)元可以在遞歸調(diào)用中重復(fù)使用,因?yàn)樗鼈冊诟呒墑e調(diào)用中的活動向量可以在以后重建 使用快速權(quán)重中的信息。在學(xué)習(xí)學(xué)習(xí)或元學(xué)習(xí)中也會出現(xiàn)多種適應(yīng)時(shí)間尺度。
4)更高層次的認(rèn)知:在考慮新的挑戰(zhàn)時(shí),例如在交通規(guī)則異常的城市中駕駛,甚至想象在月球上駕駛車輛時(shí),我們可以利用我們已經(jīng)掌握的知識和通用技能,并以新的方式動態(tài)地重新組合它們。這種成體系的形式,允許人類在未知環(huán)境中進(jìn)行相當(dāng)好的泛化。通過練習(xí)、微調(diào)和編譯這些新技能進(jìn)一步改進(jìn),也可以不再需要有意識的關(guān)注了。
我們?nèi)绾瓮ㄟ^重用已知的知識來使神經(jīng)網(wǎng)絡(luò)能夠快速適應(yīng)新環(huán)境,從而避免干擾已知技能?在這個(gè)方向上的初步探索包括 Transformers 和 Recurrent Independent Mechanisms。
似乎人類的(system 1)處理能力允許我們在計(jì)劃或推理時(shí)猜測未來的潛在益處或害處。這提出了 system 1 網(wǎng)絡(luò)如何指導(dǎo)更高(system 2)級別的搜索和規(guī)劃的問題,也許和 AlphaGo 的蒙特卡洛樹搜索的價(jià)值函數(shù)如出一轍。
機(jī)器學(xué)習(xí)研究依賴于歸納偏差或先驗(yàn),以鼓勵(lì)在與某些世界假設(shè)兼容的方向上進(jìn)行學(xué)習(xí)。system 2 處理的性質(zhì)和認(rèn)知神經(jīng)科學(xué)理論表明了幾種這樣的歸納偏差和架構(gòu),它們可用于設(shè)計(jì)新穎的深度學(xué)習(xí)系統(tǒng)。我們?nèi)绾卧O(shè)計(jì)包含這種歸納偏差的深度學(xué)習(xí)架構(gòu)和訓(xùn)練框架?
人類幼兒執(zhí)行因果發(fā)現(xiàn)的能力表明,這可能是人類大腦的一個(gè)基本屬性,最近的工作表明,在干預(yù)變化下優(yōu)化分布外泛化可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)以發(fā)現(xiàn)因果依賴性或因果變量 。我們應(yīng)該如何構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò),以便它們能夠捕捉到世界的這些潛在因果屬性?
這些開放性問題所建議的方向與 20 世紀(jì)的符號人工智能研究有何關(guān)聯(lián)?顯然,符號 AI 方法旨在實(shí)現(xiàn) system 2 的能力,例如推理,能夠?qū)⒅R分解為可以在一系列計(jì)算步驟中輕松重新組合的部分,以及能夠操作抽象變量、類型和實(shí)例。
我們希望設(shè)計(jì)出這樣一種神經(jīng)網(wǎng)絡(luò):它保留了深度學(xué)習(xí)的優(yōu)勢,可以在處理實(shí)值向量的同時(shí),實(shí)現(xiàn)使用可微計(jì)算和基于梯度的、自適應(yīng)的高效大規(guī)模學(xué)習(xí),高級 / 低級感知、處理不確定數(shù)據(jù)和使用分布式表示。
原文:
Deep Learning for AI ,Communications of the ACM, July 2021, Vol. 64 No. 7, Pages 58-6
Reference:
https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
作者:
Yoshua Bengio, Yann Lecun, Geoffrey Hinton
譯者:LZM
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。