博客專欄

EEPW首頁(yè) > 博客 > 不盲追大模型與堆算力!沈向洋、曹穎與馬毅提出理解 AI 的兩個(gè)基本原理:簡(jiǎn)約性與自一致性

不盲追大模型與堆算力!沈向洋、曹穎與馬毅提出理解 AI 的兩個(gè)基本原理:簡(jiǎn)約性與自一致性

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2022-07-23 來(lái)源:工程師 發(fā)布文章
作者丨馬毅、曹穎、沈向洋

來(lái)源丨AI科技評(píng)論編輯丨極市平臺(tái)

導(dǎo)讀

 

本文聚焦人工智能領(lǐng)域三位知名華人科學(xué)家新發(fā)表的論文,介紹了一個(gè)用判別模型和生成模型組成的完整的閉環(huán)系統(tǒng),達(dá)到更高效更穩(wěn)定的自主學(xué)習(xí)。 

近兩年,“大力(算力)出奇跡”的大模型成為人工智能領(lǐng)域多數(shù)研究者的追求趨勢(shì)。然而,其背后巨大的計(jì)算成本與資源耗費(fèi)問(wèn)題也弊端漸顯,一部分科學(xué)家開始對(duì)大模型投以嚴(yán)肅的目光,并積極尋求解決之道。新的研究表明,要實(shí)現(xiàn) AI 模型的優(yōu)秀性能,并不一定要依靠堆算力與堆規(guī)模。深度學(xué)習(xí)火熱十年,不得不說(shuō),其機(jī)遇與瓶頸在這十年的研究與實(shí)踐中已吸引了大量的目光與討論。其中,瓶頸維度,最引人注意的莫過(guò)于深度學(xué)習(xí)的黑盒子特性(缺乏可解釋性)與“大力出奇跡”(模型參數(shù)越來(lái)越大,算力需求越來(lái)越大,計(jì)算成本也越來(lái)越高)。此外,還有模型的穩(wěn)定性不足、安全漏洞等等問(wèn)題。而本質(zhì)上,這些問(wèn)題部分是由深度神經(jīng)網(wǎng)絡(luò)的“開環(huán)”系統(tǒng)性質(zhì)所引起。要破除深度學(xué)習(xí)的 B 面“魔咒”,單靠擴(kuò)大模型規(guī)模與堆算力或許遠(yuǎn)遠(yuǎn)不夠,而是要追根溯源,從構(gòu)成人工智能系統(tǒng)的基本原理,從一個(gè)新的視角(如閉環(huán))理解“智能”。7月12日,人工智能領(lǐng)域的三位知名華人科學(xué)家馬毅、曹穎與沈向洋便聯(lián)名在arXiv上發(fā)表了一篇文章,“On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence”,提出了一個(gè)理解深度網(wǎng)絡(luò)的新框架:壓縮閉環(huán)轉(zhuǎn)錄(compressive closed-loop transcription)。這個(gè)框架包含兩個(gè)原理:簡(jiǎn)約性(parsimony)與自洽性/自一致性(self-consistency),分別對(duì)應(yīng) AI 模型學(xué)習(xí)過(guò)程中的“學(xué)習(xí)什么”與“如何學(xué)習(xí)”,被認(rèn)為是構(gòu)成人工/自然智能的兩大基礎(chǔ),在國(guó)內(nèi)外的人工智能研究領(lǐng)域引起了廣泛關(guān)注。圖片論文鏈接:https://arxiv.org/pdf/2207.04630.pdf三位科學(xué)家認(rèn)為,真正的智能必須具備兩個(gè)特征,一是可解釋性,二是可計(jì)算性。然而,在過(guò)去十年,人工智能的進(jìn)步主要基于使用“蠻力”訓(xùn)練模型的深度學(xué)習(xí)方法,在這種情況下,雖然 AI 模型也能獲得功能模塊來(lái)進(jìn)行感知與決策,但學(xué)習(xí)到的特征表示往往是隱式的,難以解釋。此外,單靠堆算力來(lái)訓(xùn)練模型,也使得 AI 模型的規(guī)模不斷增大,計(jì)算成本不斷增加,且在落地應(yīng)用中出現(xiàn)了許多問(wèn)題,如神經(jīng)崩潰導(dǎo)致學(xué)習(xí)到的表征缺少多樣性,模式崩潰導(dǎo)致訓(xùn)練缺乏穩(wěn)定性,模型對(duì)適應(yīng)性和對(duì)災(zāi)難性遺忘的敏感性不佳等等。三位科學(xué)家認(rèn)為,之所以出現(xiàn)上述問(wèn)題,是因?yàn)楫?dāng)前的深度網(wǎng)絡(luò)中,用于分類的判別模型和用于采樣或重放的生成模型的訓(xùn)練在大部分情況下是分開的。此類模型通常是開環(huán)系統(tǒng),需要通過(guò)監(jiān)督或自監(jiān)督進(jìn)行端到端的訓(xùn)練。而維納等人早就發(fā)現(xiàn),這樣的開環(huán)系統(tǒng)不能自動(dòng)糾正預(yù)測(cè)中的錯(cuò)誤,也不能適應(yīng)環(huán)境的變化。因此,他們主張?jiān)诳刂葡到y(tǒng)中引入“閉環(huán)反饋”,讓系統(tǒng)能夠?qū)W習(xí)自行糾正錯(cuò)誤。在這次的研究中,他們也發(fā)現(xiàn):用判別模型和生成模型組成一個(gè)完整的閉環(huán)系統(tǒng),系統(tǒng)就可以自主學(xué)習(xí)(無(wú)需外部監(jiān)督),并且更高效,穩(wěn)定,適應(yīng)性也強(qiáng)。圖片圖注:左右到右分別為沈向洋(港中深校長(zhǎng)講席教授,美國(guó)國(guó)家工程院外籍院士,原微軟全球執(zhí)行副總裁)、曹穎(美國(guó)國(guó)家科學(xué)院院士,加州大學(xué)伯克利分校教授)與馬毅(加州大學(xué)伯克利分校教授)。

1
智能的兩個(gè)原理:簡(jiǎn)約性與自洽性在這篇工作中,三位科學(xué)家提出了解釋人工智能構(gòu)成的兩個(gè)基本原理,分別是簡(jiǎn)約性與自洽性(也稱為“自一致性”),并以視覺圖像數(shù)據(jù)建模為例,從簡(jiǎn)約性和自洽性的第一原理推導(dǎo)出了壓縮閉環(huán)轉(zhuǎn)錄框架。

簡(jiǎn)約性

所謂簡(jiǎn)約性,就是“學(xué)習(xí)什么”。智能的簡(jiǎn)約性原理,要求系統(tǒng)通過(guò)計(jì)算有效的方式來(lái)獲得緊湊和結(jié)構(gòu)化的表示。也就是說(shuō),智能系統(tǒng)可以使用任何描述世界的結(jié)構(gòu)化模型,只要它們能夠簡(jiǎn)單有效地模擬現(xiàn)實(shí)感官數(shù)據(jù)中的有用結(jié)構(gòu)。系統(tǒng)應(yīng)該能夠準(zhǔn)確有效地評(píng)估學(xué)習(xí)模型的好壞,并且使用的衡量標(biāo)準(zhǔn)是基礎(chǔ)、通用、易于計(jì)算和優(yōu)化的。以視覺數(shù)據(jù)建模為例,簡(jiǎn)約原理試圖找到一個(gè)(非線性)變換 f 來(lái)實(shí)現(xiàn)以下目標(biāo):

  • 壓縮:將高維感官數(shù)據(jù) x 映射到低維表示 z;

  • 線性化:將分布在非線性子流形上的每一類對(duì)象映射到線性子空間;

  • 劃痕(scarification):將不同的類映射到具有獨(dú)立或最大不連貫基礎(chǔ)的子空間。

也就是將可能位于高維空間中的一系列低維子流形上的真實(shí)世界數(shù)據(jù)分別轉(zhuǎn)換為獨(dú)立的低維線性子空間系列。這種模型稱為“線性判別表示”(linear discriminative representation,LDR),壓縮過(guò)程如圖 2 所示:圖片圖 2:尋求線性和判別表示,將通常分布在許多非線性低維子流形上的高維感官數(shù)據(jù)映射到與子流形具有相同維度的獨(dú)立線性子空間集。在 LDR 模型系列中,存在衡量簡(jiǎn)約性的內(nèi)在度量。也就是說(shuō),給定一個(gè) LDR,我們可以計(jì)算所有子空間上的所有特征所跨越的總“體積”以及每個(gè)類別的特征所跨越的“體積”之和。然后,這兩個(gè)體積之間的比率給出了一個(gè)自然的衡量標(biāo)準(zhǔn),表明 LDR 模型有多好(往往越大越好)。根據(jù)信息論,分布的體積可以通過(guò)其速率失真來(lái)衡量。馬毅團(tuán)隊(duì)在2022年的一個(gè)工作“ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction”表明,如果使用高斯的率失真函數(shù)并選擇一個(gè)通用的深度網(wǎng)絡(luò)(比如 ResNet)來(lái)對(duì)映射 f(x, θ) 進(jìn)行建模,通過(guò)最大限度地降低編碼率。圖片圖 5:非線性映射 f 的構(gòu)建塊。圖左:ReduNet 的一層,作為投影梯度上升的一次迭代,它精確地由擴(kuò)展或壓縮線性算子、非線性 softmax、跳過(guò)連接和歸一化組成。圖中和圖右:分別是一層 ResNet 和 ResNeXt。敏銳的讀者可能已經(jīng)認(rèn)識(shí)到,這樣的圖表與 ResNet(圖 5 中間)等流行的“久經(jīng)考驗(yàn)”的深層網(wǎng)絡(luò)非常相似,包括 ResNeXt 中的平行列(圖 5 右)和專家混合(MoE)。從展開優(yōu)化方案的角度來(lái)看,這為一類深度神經(jīng)網(wǎng)絡(luò)提供了有力的解釋。甚至在現(xiàn)代深度網(wǎng)絡(luò)興起之前,用于尋求稀疏性的迭代優(yōu)化方案,例如 ISTA 或 FISTA 就已被解釋為可學(xué)習(xí)的深度網(wǎng)絡(luò)。通過(guò)實(shí)驗(yàn),他們證明,壓縮可以誕生一種有建設(shè)性的方式來(lái)推導(dǎo)深度神經(jīng)網(wǎng)絡(luò),包括它的架構(gòu)和參數(shù),作為一個(gè)完全可解釋的白盒:它的層對(duì)促進(jìn)簡(jiǎn)約的原理性目標(biāo)進(jìn)行迭代和增量?jī)?yōu)化。因此,對(duì)于如此獲得的深度網(wǎng)絡(luò),ReduNets,從數(shù)據(jù) X 作為輸入開始,每一層的算子和參數(shù)都以完全向前展開的方式構(gòu)造和初始化。這與深度學(xué)習(xí)中的流行做法非常不同:從一個(gè)隨機(jī)構(gòu)建和初始化的網(wǎng)絡(luò)開始,然后通過(guò)反向傳播進(jìn)行全局調(diào)整。人們普遍認(rèn)為,由于需要對(duì)稱突觸和復(fù)雜的反饋形式,大腦不太可能利用反向傳播作為其學(xué)習(xí)機(jī)制。在這里,前向展開優(yōu)化只依賴于可以硬連線的相鄰層之間的操作,因此更容易實(shí)現(xiàn)和利用。一旦我們意識(shí)到深度網(wǎng)絡(luò)本身的作用是進(jìn)行(基于梯度的)迭代優(yōu)化以壓縮、線性化和稀疏化數(shù)據(jù),那么就很容易理解過(guò)去十年人工神經(jīng)網(wǎng)絡(luò)的“進(jìn)化”,尤其有助于解釋為什么只有少數(shù) AI 系統(tǒng)通過(guò)人工選擇過(guò)程脫穎而出:從 MLP 到 CNN 到 ResNet 到 Transformer。相比之下,網(wǎng)絡(luò)結(jié)構(gòu)的隨機(jī)搜索,例如神經(jīng)架構(gòu)搜索,并沒有產(chǎn)生能夠有效執(zhí)行一般任務(wù)的網(wǎng)絡(luò)架構(gòu)。他們猜想,成功的架構(gòu)在模擬數(shù)據(jù)壓縮的迭代優(yōu)化方案方面變得越來(lái)越有效和靈活。前面提到的 ReduNet 和 ResNet/ResNeXt 之間的相似性可以例證。當(dāng)然,還有許多其他例子。

自洽性

自洽性是關(guān)于“如何學(xué)習(xí)”,即自主智能系統(tǒng)通過(guò)最小化被觀察者和再生者之間的內(nèi)部差異來(lái)尋求最自洽的模型來(lái)觀察外部世界。僅憑借簡(jiǎn)約原理并不能確保學(xué)習(xí)模型能夠捕獲感知外部世界數(shù)據(jù)中的所有重要信息。例如,通過(guò)最小化交叉熵將每個(gè)類映射到一維“one-hot”向量,可以被視為一種簡(jiǎn)約的形式。它可能會(huì)學(xué)習(xí)到一個(gè)好的分類器,但學(xué)習(xí)到的特征會(huì)崩潰為單例,稱為“神經(jīng)崩潰”。如此學(xué)習(xí)來(lái)的特征不包含足夠的信息來(lái)重新生成原始數(shù)據(jù)。即使我們考慮更一般的 LDR 模型類別,單獨(dú)的降速目標(biāo)也不會(huì)自動(dòng)確定環(huán)境特征空間的正確維度。如果特征空間維度太低,學(xué)習(xí)到的模型會(huì)欠擬合數(shù)據(jù);如果太高,模型可能會(huì)過(guò)擬合。在他們看來(lái),感知的目標(biāo)是學(xué)習(xí)一切可預(yù)測(cè)的感知內(nèi)容。智能系統(tǒng)應(yīng)該能夠從壓縮表示中重新生成觀察到的數(shù)據(jù)的分布,生成后,無(wú)論它盡再大的努力,它自身也無(wú)法區(qū)分這個(gè)分布。論文強(qiáng)調(diào),自洽和簡(jiǎn)約這兩個(gè)原理是高度互補(bǔ)的,應(yīng)該始終一起使用。僅靠自洽不能確保壓縮或效率方面的增益。在數(shù)學(xué)和計(jì)算上,使用過(guò)度參數(shù)化的模型擬合任何訓(xùn)練數(shù)據(jù)或通過(guò)在具有相同維度的域之間建立一對(duì)一映射來(lái)確保一致性,而不需要學(xué)習(xí)數(shù)據(jù)分布中的內(nèi)在結(jié)構(gòu)是很容易的。只有通過(guò)壓縮,智能系統(tǒng)才能被迫在高維感知數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在的低維結(jié)構(gòu),并以最緊湊的方式在特征空間中轉(zhuǎn)換和表示這些結(jié)構(gòu),以便將來(lái)使用。此外,只有通過(guò)壓縮,我們才能容易地理解過(guò)度參數(shù)化的原因,比如,像 DNN 通常通過(guò)數(shù)百個(gè)通道進(jìn)行特征提升,如果其純粹目的是在高維特征空間中進(jìn)行壓縮,則不會(huì)導(dǎo)致過(guò)度擬合:提升有助于減少數(shù)據(jù)中的非線性,從而使其更容易壓縮和線性化。后續(xù)層的作用是執(zhí)行壓縮(和線性化),通常層數(shù)越多,壓縮效果越好。在壓縮到諸如 LDR 之類的結(jié)構(gòu)化表示的特殊情況下,論文將一類自動(dòng)編碼(具體見原論文)稱為“轉(zhuǎn)錄”(transcription)。這里的難點(diǎn)在于如何使目標(biāo)在計(jì)算上易于處理,從而在物理上可以實(shí)現(xiàn)。速率降低 ΔR 給出了退化分布之間的明確首要距離度量。但它僅適用于子空間或高斯的混合,而不適用于一般分布!而我們只能期望內(nèi)部結(jié)構(gòu)化表示 z 的分布是子空間或高斯的混合,而不是原始數(shù)據(jù) x。這導(dǎo)致了一個(gè)關(guān)于學(xué)習(xí)“自洽”表示的相當(dāng)深刻的問(wèn)題:為了驗(yàn)證外部世界的內(nèi)部模型是否正確,自主系統(tǒng)真的需要測(cè)量數(shù)據(jù)空間中的差異嗎?答案是否定的。關(guān)鍵是要意識(shí)到,要比較 x 和 x^,智能體只需要通過(guò)相同的映射 f 比較它們各自的內(nèi)部特征 z = f(x) 和 z^ = f(x^),來(lái)使 z 緊湊和結(jié)構(gòu)化。圖片測(cè)量 z 空間中的分布差異實(shí)際上是定義明確且有效的:可以說(shuō),在自然智能中,學(xué)習(xí)內(nèi)部測(cè)量差異是有獨(dú)立自主系統(tǒng)的大腦唯一可以做的事情。這有效地生成了一個(gè)“閉環(huán)”反饋系統(tǒng),整個(gè)過(guò)程如圖 6 所示。圖片圖 6:非線性數(shù)據(jù)子流形到 LDR 的壓縮閉環(huán)轉(zhuǎn)錄(通過(guò)在內(nèi)部比較和最小化 z 和 z^ 的差異)。這導(dǎo)致了編碼器/傳感器 f 和****/控制器 g 之間的自然追逃博弈,使解碼的 x^(藍(lán)色虛線)的分布追逐并匹配觀察到的數(shù)據(jù) x(黑色實(shí)線)的分布。人們可以將單獨(dú)學(xué)習(xí) DNN 分類器 f 或生成器 g 的流行做法解釋為學(xué)習(xí)閉環(huán)系統(tǒng)的開放式部分(圖 6)。這種目前流行的做法與開環(huán)控制非常相似,控制領(lǐng)域早已知道它存在問(wèn)題且成本高昂:訓(xùn)練這樣的部分需要對(duì)期望的輸出(如類標(biāo)簽)進(jìn)行監(jiān)督;如果數(shù)據(jù)分布、系統(tǒng)參數(shù)或任務(wù)發(fā)生變化,這種開環(huán)系統(tǒng)的部署本質(zhì)上是缺少穩(wěn)定性、魯棒性或自適應(yīng)性的。例如,在有監(jiān)督的環(huán)境中訓(xùn)練的深度分類網(wǎng)絡(luò),如果重新訓(xùn)練來(lái)處理具有新數(shù)據(jù)類別的新任務(wù),通常會(huì)出現(xiàn)災(zāi)難性的遺忘。相比之下,閉環(huán)系統(tǒng)本質(zhì)上更加穩(wěn)定和自適應(yīng)。事實(shí)上,Hinton 等人在1995年就已經(jīng)提出了這一點(diǎn)。判別和生成部分需要分別作為完整學(xué)習(xí)過(guò)程的“喚醒”和“睡眠”階段結(jié)合起來(lái)。然而,僅僅閉環(huán)是不夠的。論文主張任何智能體都需要一種內(nèi)部博弈機(jī)制,以便能夠通過(guò)自我批評(píng)進(jìn)行自我學(xué)習(xí)!這當(dāng)中遵循的是博弈作為一種普遍有效的學(xué)習(xí)方式的概念:反復(fù)應(yīng)用當(dāng)前模型或策略來(lái)對(duì)抗對(duì)抗性批評(píng),從而根據(jù)通過(guò)閉環(huán)收到的反饋不斷改進(jìn)模型或策略!在這樣的框架內(nèi),編碼器 f 承擔(dān)雙重角色:除了通過(guò)最大化速率降低 ΔR(Z) 來(lái)學(xué)習(xí)數(shù)據(jù) x 的表示 z(如 2.1 節(jié)中所做的那樣),它還應(yīng)該作為反饋“傳感器”,主動(dòng)檢測(cè)數(shù)據(jù) x 和生成的 x^ 之間的差異。**** g 也承擔(dān)雙重角色:它是控制器,與 f 所檢測(cè)到的 x 和 x? 之間的差異聯(lián)系起來(lái);同時(shí)又是****,嘗試將整體的編碼率最小化來(lái)實(shí)現(xiàn)目標(biāo)(讓步于給定的準(zhǔn)確度)。因此,最優(yōu)的“簡(jiǎn)約”和“自洽”表示元組 (z, f, g) 可以解釋為 f(θ) 和 g(η) 之間的零和博弈的平衡點(diǎn),而不是基于組合速率降低的效用:圖片以上討論是兩個(gè)原理在有監(jiān)督情況下的表現(xiàn)。但論文強(qiáng)調(diào),他們所提出的壓縮閉環(huán)轉(zhuǎn)錄框架能夠通過(guò)自我監(jiān)督和自我批評(píng)來(lái)進(jìn)行自我學(xué)習(xí)!此外,由于速率降低已經(jīng)為學(xué)習(xí)結(jié)構(gòu)找到顯式(子空間類型)表示,使得過(guò)去的知識(shí)在學(xué)習(xí)新任務(wù)/數(shù)據(jù)時(shí)更容易保留,可以作為保持自一致性的先驗(yàn)(記憶) 。最近的實(shí)證研究表明,這可以產(chǎn)生第一個(gè)具有固定內(nèi)存的自包含神經(jīng)系統(tǒng),可以在不遭受災(zāi)難性遺忘的情況下逐步學(xué)習(xí)良好的 LDR 表示。對(duì)于這樣一個(gè)閉環(huán)系統(tǒng),遺忘(如果有的話)是相當(dāng)優(yōu)雅的。此外,當(dāng)再次將舊類別的圖像提供給系統(tǒng)進(jìn)行審查時(shí),可以進(jìn)一步鞏固學(xué)習(xí)到的表示——這一特征與人類記憶的特征非常相似。從某種意義上說(shuō),這種受約束的閉環(huán)公式基本上確保了視覺記憶的形成可以是貝葉斯和自適應(yīng)的——假設(shè)這些特征對(duì)大腦來(lái)說(shuō)是理想的話。如圖 8 所示,如此學(xué)習(xí)的自動(dòng)編碼不僅表現(xiàn)出良好的樣本一致性,而且學(xué)習(xí)到的特征還表現(xiàn)出清晰且有意義的局部低維(?。┙Y(jié)構(gòu)。圖片圖 8:圖左:在 CIFAR-10 數(shù)據(jù)集(有 10 個(gè)類別的 50,000 張圖像)的無(wú)監(jiān)督設(shè)置中學(xué)習(xí)的自動(dòng)編碼的 x 與相應(yīng)解碼的 x^ 之間的比較。圖右:10 個(gè)類別的無(wú)監(jiān)督學(xué)習(xí)特征的 t-SNE,以及幾個(gè)鄰域及其相關(guān)圖像的可視化。注意可視化特征中的局部?。ń咏痪S)結(jié)構(gòu),從數(shù)百維的特征空間投影。更令人驚訝的是,即使在訓(xùn)練期間沒有提供任何類信息,子空間或特征相關(guān)的塊對(duì)角結(jié)構(gòu)也開始出現(xiàn)在為類學(xué)習(xí)的特征中(圖 9)!因此,所學(xué)特征的結(jié)構(gòu)類似于在靈長(zhǎng)類動(dòng)物大腦中觀察到的類別選擇區(qū)域。圖片圖 9:通過(guò)閉環(huán)轉(zhuǎn)錄,屬于 10 個(gè)類別 (CIFAR-10) 的 50,000 張圖像的無(wú)監(jiān)督學(xué)習(xí)特征之間的相關(guān)性。與類一致的塊對(duì)角結(jié)構(gòu)在沒有任何監(jiān)督的情況下出現(xiàn)。

2
通用學(xué)習(xí)引擎:3D 視覺與圖形結(jié)合論文總結(jié),簡(jiǎn)約性和自洽性揭示了深度網(wǎng)絡(luò)的角色是成為外部觀察和內(nèi)部表征之間非線性映射的模型。此外,論文強(qiáng)調(diào),閉環(huán)壓縮結(jié)構(gòu)在自然界中無(wú)處不在,適用于所有智能生物,這一點(diǎn)可以見于大腦(壓縮感覺信息)、脊髓回路(壓縮肌肉運(yùn)動(dòng))、DNA(壓縮蛋白質(zhì)的功能信息)等等生物示例。因此,他們認(rèn)為, 壓縮閉環(huán)轉(zhuǎn)錄可能是所有智能行為背后的通用學(xué)習(xí)引擎。它使智能生物和系統(tǒng)能夠從看似復(fù)雜和無(wú)組織的輸入中發(fā)現(xiàn)和提煉低維結(jié)構(gòu),并將它們轉(zhuǎn)換為緊湊和有組織的內(nèi)部結(jié)構(gòu),以便記憶和利用。為了說(shuō)明這個(gè)框架的通用性,論文研究了另外兩個(gè)任務(wù):3D 感知和決策(LeCun 認(rèn)為這是自主智能系統(tǒng)的兩個(gè)關(guān)鍵模塊)。本文整理,僅介紹 3D 感知中計(jì)算機(jī)視覺與計(jì)算機(jī)圖形學(xué)的閉環(huán)。David Marr 在其頗具影響力的著作《視覺》一書中提出的 3D 視覺經(jīng)典范式提倡“分而治之”的方法,將 3D 感知任務(wù)劃分為幾個(gè)模塊化過(guò)程:從低級(jí) 2D 處理(如邊緣檢測(cè)、輪廓草圖)、中級(jí) 2.5D 解析(如分組、分割、圖形和地面),以及高級(jí) 3D 重建(如姿勢(shì)、形狀)和識(shí)別(如對(duì)象),而相反,壓縮閉環(huán)轉(zhuǎn)錄框架提倡“聯(lián)合構(gòu)建”思想。感知是壓縮閉環(huán)轉(zhuǎn)錄?更準(zhǔn)確地說(shuō),世界上物體的形狀、外觀甚至動(dòng)態(tài)的 3D 表示應(yīng)該是我們的大腦內(nèi)部開發(fā)的最緊湊和結(jié)構(gòu)化的表示,以相應(yīng)地解釋所有感知到的視覺觀察。如果是這樣,那么這兩個(gè)原理表明緊湊和結(jié)構(gòu)化的 3D 表示就是要尋找的內(nèi)部模型。這意味著我們可以并且應(yīng)該在一個(gè)閉環(huán)計(jì)算框架內(nèi)統(tǒng)一計(jì)算機(jī)視覺和計(jì)算機(jī)圖形,如下圖所示:圖片圖10:計(jì)算機(jī)視覺和圖形之間的閉環(huán)關(guān)系,用于視覺輸入的緊湊和結(jié)構(gòu)化 3D 模型計(jì)算機(jī)視覺通常被解釋為為所有 2D 視覺輸入重建和識(shí)別內(nèi)部 3D 模型的前向過(guò)程,而計(jì)算機(jī)圖形學(xué)表示其對(duì)內(nèi)部 3D 模型進(jìn)行渲染和動(dòng)畫處理的逆過(guò)程。將這兩個(gè)過(guò)程直接組合成一個(gè)閉環(huán)系統(tǒng)可能會(huì)帶來(lái)巨大的計(jì)算和實(shí)踐好處:幾何形狀、視覺外觀和動(dòng)力學(xué)中的所有豐富結(jié)構(gòu)(例如稀疏性和平滑度)可以一起用于統(tǒng)一的 3D 模型, 最緊湊,且與所有視覺輸入一致。計(jì)算機(jī)視覺中的識(shí)別技術(shù)可以幫助計(jì)算機(jī)圖形學(xué)在形狀和外觀空間中構(gòu)建緊湊模型,并為創(chuàng)建逼真的 3D 內(nèi)容提供新的方法。另一方面,計(jì)算機(jī)圖形學(xué)中的 3D 建模和仿真技術(shù)可以預(yù)測(cè)、學(xué)習(xí)和驗(yàn)證計(jì)算機(jī)視覺算法分析的真實(shí)對(duì)象和場(chǎng)景的屬性和行為。視覺和圖形社區(qū)長(zhǎng)期以來(lái)一直在實(shí)踐“綜合分析”的方法。外觀和形狀的統(tǒng)一表示?基于圖像的渲染,其中,通過(guò)從一組給定圖像中學(xué)習(xí)來(lái)生成新視圖,可以被視為早期嘗試用簡(jiǎn)約和自洽的原理縮小視覺和圖形之間的差距。特別是,全光采樣表明,可以用所需的最少圖像數(shù)量(簡(jiǎn)約性)來(lái)實(shí)現(xiàn)抗鋸齒圖像(自洽性)。

3
更廣泛的智能

智能的神經(jīng)科學(xué)

人們會(huì)期望基本的智能原理對(duì)大腦的設(shè)計(jì)產(chǎn)生重大影響。簡(jiǎn)約和自洽原理為靈長(zhǎng)類視覺系統(tǒng)的幾個(gè)實(shí)驗(yàn)觀察提供了新的思路。更重要的是,它們揭示了未來(lái)實(shí)驗(yàn)中要尋找的目標(biāo)。作者團(tuán)隊(duì)已經(jīng)證明,僅尋求內(nèi)部簡(jiǎn)約和預(yù)測(cè)性表示就足以實(shí)現(xiàn)“自監(jiān)督”,允許結(jié)構(gòu)自動(dòng)出現(xiàn)在通過(guò)壓縮閉環(huán)轉(zhuǎn)錄學(xué)習(xí)的最終表示中。例如,圖 9 顯示無(wú)監(jiān)督數(shù)據(jù)轉(zhuǎn)錄學(xué)習(xí)自動(dòng)區(qū)分不同類別的特征,為在大腦中觀察到的類別選擇性表示提供了解釋。這些特征也為靈長(zhǎng)類大腦中稀疏編碼和子空間編碼的廣泛觀察提供了合理的解釋。此外,除了視覺數(shù)據(jù)建模,最近的神經(jīng)科學(xué)研究表明,大腦中出現(xiàn)的其他結(jié)構(gòu)化表示(例如“位置細(xì)胞”)也可能是以最壓縮的方式編碼空間信息的結(jié)果。可以說(shuō),最大編碼率降低 (MCR2) 原理在精神上類似于認(rèn)知科學(xué)中的“自由能最小化原理”(free energy minimization principle),后者試圖通過(guò)能量最小化為貝葉斯推理提供框架。但與自由能的一般概念不同,速率降低在計(jì)算上易于處理且可直接優(yōu)化,因?yàn)樗梢砸苑忾]的形式表示。此外,這兩個(gè)原理的相互作用表明,正確模型(類)的自主學(xué)習(xí)應(yīng)該通過(guò)對(duì)這種效用的閉環(huán)最大化博弈來(lái)完成,而不是單獨(dú)進(jìn)行最小化。因此,他們相信,壓縮閉環(huán)轉(zhuǎn)錄框架為如何實(shí)際實(shí)施貝葉斯推理提供了一個(gè)新的視角。這個(gè)框架也被他們認(rèn)為闡明了大腦使用的整體學(xué)習(xí)架構(gòu),可以通過(guò)展開優(yōu)化方案來(lái)構(gòu)建前饋段,且不需要通過(guò)反向傳播從隨機(jī)網(wǎng)絡(luò)中學(xué)習(xí)。此外,框架存在一個(gè)互補(bǔ)的生成部分,可以形成一個(gè)閉環(huán)反饋系統(tǒng)來(lái)指導(dǎo)學(xué)習(xí)。最后,框架揭示了許多對(duì)“預(yù)測(cè)編碼”大腦機(jī)制感興趣的神經(jīng)科學(xué)家所尋求的難以捉摸的“預(yù)測(cè)錯(cuò)誤”信號(hào),這是一種與壓縮閉環(huán)轉(zhuǎn)錄產(chǎn)生共振的計(jì)算方案:為了讓計(jì)算更容易,應(yīng)在表示的最后階段測(cè)量傳入和生成的觀測(cè)值之間的差異。

邁向更高層次的智能

馬毅等人的工作認(rèn)為,壓縮閉環(huán)轉(zhuǎn)錄與Hinton等人在1995年提出的框架相比,在計(jì)算上更易于處理和可擴(kuò)展。而且,循環(huán)的學(xué)習(xí)非線性編碼/解碼映射(通常表現(xiàn)為深度網(wǎng)絡(luò)),本質(zhì)上在外部無(wú)組織的原始感官數(shù)據(jù)(如視覺、聽覺等)和內(nèi)部緊湊和結(jié)構(gòu)化表示之間提供了一個(gè)重要的“接口”。不過(guò),他們也指出,這兩個(gè)原理并不一定能解釋智能的所有方面。高級(jí)語(yǔ)義、符號(hào)或邏輯推理的出現(xiàn)和發(fā)展背后的計(jì)算機(jī)制仍然難以捉摸。直到今天,關(guān)于這種高級(jí)符號(hào)智能是可以從持續(xù)學(xué)習(xí)中產(chǎn)生還是必須進(jìn)行硬編碼,仍然存在爭(zhēng)議。在三位科學(xué)家看來(lái),諸如子空間之類的結(jié)構(gòu)化內(nèi)部表示是高級(jí)語(yǔ)義或符號(hào)概念出現(xiàn)的必要中間步驟——每個(gè)子空間對(duì)應(yīng)一個(gè)離散的(對(duì)象)類別。如此抽象的離散概念之間的其他統(tǒng)計(jì)、因果或邏輯關(guān)系可以進(jìn)一步簡(jiǎn)化建模為緊湊和結(jié)構(gòu)化(比如稀疏)圖,每個(gè)節(jié)點(diǎn)代表一個(gè)子空間/類別??梢酝ㄟ^(guò)自動(dòng)編碼來(lái)學(xué)習(xí)圖形以確保自一致性。他們推測(cè),只有在個(gè)體智能體學(xué)習(xí)的緊湊和結(jié)構(gòu)化表示之上,高級(jí)智能(具有可共享的符號(hào)知識(shí))的出現(xiàn)和發(fā)展才有可能。因此,他們建議,應(yīng)該通過(guò)智能系統(tǒng)之間有效的信息交流或知識(shí)遷移來(lái)探索高級(jí)智能出現(xiàn)的新原理(如果高級(jí)智能存在的話)。此外,更高級(jí)別的智能應(yīng)該與我們?cè)诒疚闹刑岢龅膬蓚€(gè)原理有兩個(gè)共同點(diǎn):

  • 可解釋性:所有原理都應(yīng)該有助于將智能的計(jì)算機(jī)制揭示為白盒,包括可測(cè)量的目標(biāo)、相關(guān)的計(jì)算架構(gòu)和學(xué)習(xí)表示的結(jié)構(gòu)。

  • 可計(jì)算性:任何新的智能原理都必須在計(jì)算上易于處理和可擴(kuò)展,可以通過(guò)計(jì)算機(jī)或自然物理實(shí)現(xiàn),并最終得到科學(xué)證據(jù)的證實(shí)。

只有具備可解釋和可計(jì)算性,我們才能無(wú)需依賴當(dāng)前昂貴且耗時(shí)的“試錯(cuò)”方法來(lái)推進(jìn)人工智能的進(jìn)步,能夠描述完成這些任務(wù)所需的最少數(shù)據(jù)和計(jì)算資源,而不是簡(jiǎn)單地提倡“越大越好”的蠻力方法。智慧不應(yīng)該是最足智多謀的人的特權(quán),在一套正確的原則下,任何人都應(yīng)該能夠設(shè)計(jì)和構(gòu)建下一代智能系統(tǒng),無(wú)論大小,其自主性、能力和效率最終都可以模仿甚至超過(guò)動(dòng)物和人類。本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉