強(qiáng)化學(xué)習(xí)之父：AI研究70年教訓(xùn)深刻未來(lái)探索要靠智能體自己

作者：時(shí)間：2019-03-21 來(lái)源：億歐網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

編者按：近日，強(qiáng)化學(xué)習(xí)之父、加拿大計(jì)算機(jī)科學(xué)家Richard S. Sutton在其個(gè)人網(wǎng)站上發(fā)文，指出了過(guò)去70年來(lái)AI研究方面的苦澀教訓(xùn)：我們過(guò)于依靠人類(lèi)知識(shí)了。Sutton認(rèn)為，過(guò)去70年來(lái)，AI研究走過(guò)的最大彎路，就是過(guò)于重視人類(lèi)既有經(jīng)驗(yàn)和知識(shí)，研究人員在訓(xùn)練AI模型時(shí)，往往想將人類(lèi)知識(shí)灌輸給智能體，而不是讓智能體自己去探索。這實(shí)際上只是個(gè)記錄的過(guò)程，并未實(shí)現(xiàn)真正的學(xué)習(xí)。

　　近日，強(qiáng)化學(xué)習(xí)之父、加拿大計(jì)算機(jī)科學(xué)家Richard S. Sutton在其個(gè)人網(wǎng)站上發(fā)文，指出了過(guò)去70年來(lái)AI研究方面的苦澀教訓(xùn)：我們過(guò)于依靠人類(lèi)知識(shí)了。

本文引用地址：http://m.butianyuan.cn/article/201903/398706.htm

　　Sutton認(rèn)為，過(guò)去70年來(lái)，AI研究走過(guò)的最大彎路，就是過(guò)于重視人類(lèi)既有經(jīng)驗(yàn)和知識(shí)，研究人員在訓(xùn)練AI模型時(shí)，往往想將人類(lèi)知識(shí)灌輸給智能體，而不是讓智能體自己去探索。這實(shí)際上只是個(gè)記錄的過(guò)程，并未實(shí)現(xiàn)真正的學(xué)習(xí)。

　　事實(shí)證明，這種基于人類(lèi)知識(shí)的所謂”以人為本“的方法，并未收到很好的效果，尤其是在可用計(jì)算力迅猛增長(zhǎng)的大背景下，在國(guó)際象棋、圍棋、計(jì)算機(jī)視覺(jué)等熱門(mén)領(lǐng)域，智能體本身已經(jīng)可以自己完成”規(guī)?；阉骱蛯W(xué)習(xí)“，取得的效果要遠(yuǎn)好于傳統(tǒng)方法。

　　Sutton由此認(rèn)為，過(guò)去的教訓(xùn)必須總結(jié)，未來(lái)的研究中，應(yīng)該讓AI智能體能夠像我們一樣自己去發(fā)現(xiàn)，而不是將我們發(fā)現(xiàn)的東西記下來(lái)，因?yàn)楹笳咧粫?huì)讓我們更難以了解發(fā)現(xiàn)的過(guò)程究竟是怎樣的。

　　以下為文章原文：

　　在過(guò)去70年中，人工智能研究中得出的一個(gè)最大教訓(xùn)是，通用化的方法最終往往是最有效的，而且能夠大幅提升性能。造成這個(gè)結(jié)果的最終原因是摩爾定律，或者說(shuō)，是摩爾定律總結(jié)出的計(jì)算力隨時(shí)間的變化趨勢(shì)。

　　大多數(shù)人工智能研究都有個(gè)假設(shè)前提，即智能體的可用計(jì)算力是一個(gè)不變的常量，也就是說(shuō)，提升性能的方法可能就只有利用人類(lèi)自己的知識(shí)了。但是，如果項(xiàng)目周期比一般情況較長(zhǎng)時(shí)，一定會(huì)有豐富的計(jì)算力可以投入使用。從短期來(lái)看，研究人員可以利用自己掌握的相關(guān)領(lǐng)域的人類(lèi)知識(shí)來(lái)?yè)Q取性能提升，但從長(zhǎng)遠(yuǎn)來(lái)看，唯一重要的還是計(jì)算力。

　　我們完全沒(méi)有必要讓這兩者相互對(duì)立起來(lái)，但實(shí)際上，它們往往就是相互對(duì)立的。項(xiàng)目時(shí)間有限，把時(shí)間花在計(jì)算力上，就不能花在人類(lèi)知識(shí)的利用上。研究人員在心理上往往會(huì)偏向某一種方式。人類(lèi)知識(shí)方法往往使解決問(wèn)題的方法變得復(fù)雜化，與利用利用計(jì)算力得出的通用化方法相比，適應(yīng)性上不如前者。

　　不少AI研究人員用了很長(zhǎng)時(shí)間才明白這個(gè)教訓(xùn)，所以我覺(jué)得這個(gè)問(wèn)題值得單獨(dú)拿出來(lái)講一講。

　　過(guò)去70年AI研究的深刻教訓(xùn)：靠人類(lèi)知識(shí)，遠(yuǎn)不如靠智能體自己

　　1997年，IBM的計(jì)算機(jī)“深藍(lán)”擊敗了世界冠軍卡斯帕羅夫，“深藍(lán)”的開(kāi)發(fā)就是基于大規(guī)模的深度搜索。而當(dāng)時(shí)，大多數(shù)計(jì)算機(jī)象棋研究人員采用的方法，都是利用人類(lèi)對(duì)國(guó)際象棋特殊結(jié)構(gòu)的理解。

　　當(dāng)一個(gè)簡(jiǎn)單的、基于搜索的方法在專(zhuān)門(mén)的軟硬件上顯示出強(qiáng)大性能時(shí)，彼時(shí)基于人類(lèi)知識(shí)的國(guó)際象棋研究人員沮喪地表示，這次“野蠻搜索“可能壓倒了人類(lèi)的經(jīng)驗(yàn)和知識(shí)，取得了勝利，但這無(wú)論如何不是人們下棋的方式。這些研究人員一直希望基于“人類(lèi)知識(shí)”的方法能夠獲勝，因?yàn)闆](méi)有實(shí)現(xiàn)這一點(diǎn)，他們的失望溢于言表。

　　計(jì)算機(jī)圍棋中也出現(xiàn)了類(lèi)似的研究模式，不過(guò)比國(guó)際象棋遲來(lái)了20年。研究人員希望通過(guò)人類(lèi)知識(shí)或棋局的獨(dú)有特征，來(lái)避開(kāi)大規(guī)模搜索，但所有這些努力都證明是用錯(cuò)了地方，而且，在搜索大規(guī)模應(yīng)用之后，這種錯(cuò)誤顯得更加明顯了。

　　同樣重要的是，通過(guò)智能體的自我學(xué)習(xí)來(lái)學(xué)習(xí)價(jià)值功能。像大規(guī)模搜索一樣，AI需要通過(guò)自對(duì)弈和通用學(xué)習(xí)來(lái)提升性能，實(shí)現(xiàn)大規(guī)模的計(jì)算應(yīng)用。

　　搜索和學(xué)習(xí)是在AI研究中利用計(jì)算力的兩種最重要的技術(shù)。在計(jì)算機(jī)圍棋中，研究人員最初的方向也是利用人類(lèi)知識(shí)，搜索用的比較少，很長(zhǎng)時(shí)間以后，才通過(guò)搜索和學(xué)習(xí)獲得了更大的成功。

　　在語(yǔ)音識(shí)別方面，早期的研究利用了一系列基于人類(lèi)知識(shí)的專(zhuān)門(mén)方法：詞匯、音素、人類(lèi)聲道知識(shí)等。而比較新的方法更偏向統(tǒng)計(jì)性，并且計(jì)算量更大，基于隱馬爾可夫模型(HMM)。與國(guó)際象棋和圍棋一樣，在語(yǔ)音識(shí)別領(lǐng)域，同樣是統(tǒng)計(jì)方法戰(zhàn)勝了基于人類(lèi)知識(shí)的方法。這導(dǎo)致所有NLP研究在近幾十年內(nèi)發(fā)生了重大變化，統(tǒng)計(jì)和計(jì)算在這一領(lǐng)域占據(jù)了主導(dǎo)地位。最近的語(yǔ)音識(shí)別領(lǐng)域中，深度學(xué)習(xí)的興起是這個(gè)趨勢(shì)的最新體現(xiàn)。

　　深度學(xué)習(xí)方法對(duì)人類(lèi)知識(shí)的依賴(lài)更少，應(yīng)用了更多的計(jì)算，以及對(duì)大量訓(xùn)練集的學(xué)習(xí)，生成性能更高語(yǔ)音識(shí)別系統(tǒng)。和棋類(lèi)對(duì)弈一樣，研究人員一開(kāi)始總是想讓系統(tǒng)按照人類(lèi)的思維的方式運(yùn)作，試圖將人類(lèi)知識(shí)放輸入系統(tǒng)，但事實(shí)證明，最終是適得其反，而且極大地浪費(fèi)了研究人員的時(shí)間。隨著計(jì)算力的迅速增長(zhǎng)，研究人員也找到了能夠高效利用計(jì)算力的方式。

　　在計(jì)算機(jī)視覺(jué)領(lǐng)域也是如此，早期研究將“視覺(jué)”設(shè)想為搜索的邊緣或廣義圓柱體。但今天這一切都被拋棄了?，F(xiàn)代深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)僅使用卷積和某些不變性的概念，并且表現(xiàn)得更好。

　　這是一個(gè)很大的教訓(xùn)。我們?nèi)匀粵](méi)有完全理解這個(gè)領(lǐng)域，因?yàn)槲覀儠?huì)繼續(xù)犯下同樣的錯(cuò)誤。要看到這一點(diǎn)，并從中總結(jié)教訓(xùn)，即建立我們認(rèn)為理解自身思考方式的體系，從長(zhǎng)遠(yuǎn)來(lái)看解決不了問(wèn)題，AI研究從重“人類(lèi)知識(shí)”到重“計(jì)算和搜索”的演進(jìn)過(guò)程，已經(jīng)證明了這一點(diǎn)。

　　回顧過(guò)去，我們可以總結(jié)出下面幾點(diǎn)認(rèn)識(shí)：

　　1)AI研究人員經(jīng)常想要將知識(shí)傳給智能體

　　2)這個(gè)方式在短期內(nèi)總是會(huì)有效，研究人員本人可以獲得滿(mǎn)意結(jié)果。

　　3)從長(zhǎng)遠(yuǎn)來(lái)看，這種方式對(duì)未來(lái)的性能提升沒(méi)有幫助，甚至有阻礙作用。

　　4)AI的突破性進(jìn)展最終要通過(guò)基于搜索和學(xué)習(xí)進(jìn)行規(guī)?；?jì)算的方法來(lái)實(shí)現(xiàn)。

　　對(duì)于AI研究而言，最終的成功可能反而會(huì)充滿(mǎn)了苦澀，很多人往往理解不了，因?yàn)樗鼞?zhàn)勝的是“以人為本”的老方法。

　　要讓智能體自己去搜索和發(fā)現(xiàn)，而不是靠人類(lèi)

　　通用方法具備強(qiáng)大功能，即使可用計(jì)算力已經(jīng)非常強(qiáng)大，我們?nèi)匀豢梢酝ㄟ^(guò)增加計(jì)算力來(lái)擴(kuò)展的方法。而基于計(jì)算力的搜索和學(xué)習(xí)可以按照這一方向任意擴(kuò)展下去。

　　第二個(gè)教訓(xùn)是，人類(lèi)思維的實(shí)際內(nèi)容的復(fù)雜程度是無(wú)可比擬的，我們不應(yīng)該在嘗試尋找關(guān)于思維內(nèi)容的簡(jiǎn)單方法，如對(duì)空間、對(duì)象，多智能體或?qū)ΨQ(chēng)性的思維內(nèi)容的簡(jiǎn)單方法。

　　所有這些在本質(zhì)上都是復(fù)雜的外部世界的一部分，它們的復(fù)雜性是無(wú)窮無(wú)盡的，我們應(yīng)該集中精力構(gòu)建可以找到并捕獲這種任意復(fù)雜性的”元方法“。構(gòu)建這種“元方法”的關(guān)鍵在于，智能體能夠找到很好的近似結(jié)果，但是具體執(zhí)行搜索、進(jìn)行發(fā)現(xiàn)的應(yīng)該是智能體自己，而不是我們。我們希望AI智能體能夠像我們一樣自己去發(fā)現(xiàn)，而不是將我們發(fā)現(xiàn)的東西記下來(lái)，因?yàn)楹笳咧粫?huì)讓我們更難以了解發(fā)現(xiàn)的過(guò)程究竟是怎樣的。

　　作者簡(jiǎn)介：

　　Richard S Sutton是加拿大計(jì)算機(jī)科學(xué)家，阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)教授和iCORE主席。他被認(rèn)為是現(xiàn)代計(jì)算強(qiáng)化學(xué)習(xí)的創(chuàng)始人之一，在時(shí)間差異學(xué)習(xí)和政策梯度方法方面，對(duì)該領(lǐng)域做出了重要貢獻(xiàn)。

新聞中心

強(qiáng)化學(xué)習(xí)之父：AI研究70年教訓(xùn)深刻未來(lái)探索要靠智能體自己

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

新聞中心

強(qiáng)化學(xué)習(xí)之父：AI研究70年教訓(xùn)深刻 未來(lái)探索要靠智能體自己

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

強(qiáng)化學(xué)習(xí)之父：AI研究70年教訓(xùn)深刻未來(lái)探索要靠智能體自己