公開反駁!數(shù)據(jù)科學(xué)家直指DeepMind,“強(qiáng)化學(xué)習(xí)無法實(shí)現(xiàn)通用人工智能”
以下文章來源于學(xué)術(shù)頭條 ,作者學(xué)術(shù)頭條
今年 6 月,DeepMind 首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授 David Silver 及其合作者在一篇題為 “ Reward is enough ” 的論文中指出,人工智能及其相關(guān)能力不是通過制定和解決復(fù)雜問題而產(chǎn)生的,而是通過堅(jiān)持一個(gè)簡單而強(qiáng)大的原則:獎(jiǎng)勵(lì)最大化。
Silver 等人認(rèn)為,簡單的獎(jiǎng)勵(lì)是豐富環(huán)境中的代理人開發(fā)多屬性智能的全部需要,而這種多屬性智能正是實(shí)現(xiàn)通用人工智能所需的全部。
但很顯然,并不是所有人都同意這一觀點(diǎn)。
近日,數(shù)據(jù)科學(xué)家 Herbert Roitblat 就針對(duì) DeepMind 團(tuán)隊(duì)提出的這一觀點(diǎn)提出了反駁意見。在他看來,雖然 Silver 等人的說法聽起來像是一個(gè)大膽的主張,但事實(shí)上卻很模糊,甚至幾乎毫無意義。
值得一提的是,Roitblat 也是 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書的作者。
產(chǎn)生智能的前提存在誤導(dǎo)
據(jù)了解,第一個(gè)試圖證明單一學(xué)習(xí)機(jī)制就足夠的重要項(xiàng)目是 B.F. Skinner 的行為主義版本,以他的 Verbal Behavior 一書為代表。這本書受到了美國哲學(xué)家 Noam Chomsky(1959 年)的嚴(yán)厲批評(píng),Chomsky 稱 Skinner 試圖解釋人類的語言產(chǎn)生是 “戲劇表演科學(xué)” 的例子;第二個(gè)主要建議是由 Rumelhart 和 McClelland(1986年)提出的側(cè)重于英語動(dòng)詞過去式學(xué)習(xí)的建議,但遭到了 Lachter 和 Bever(1988年)的嚴(yán)厲批評(píng),認(rèn)為他們通過選擇的特定方式來表示他們的聯(lián)結(jié)主義系統(tǒng)正在學(xué)習(xí)轉(zhuǎn)換的單詞的音位特性,其中包含使系統(tǒng)成功的特定信息。
圖 | 以行為主義研究而聞名的美國心理學(xué)家 Burrhus Frederic Skinner(來源:Wikipedia)
之所以前面的這兩次嘗試都失敗了,是因?yàn)樗麄兦诖_認(rèn)偏見。正如 Silver 等人所做的那樣,他們報(bào)告了與假設(shè)相一致的數(shù)據(jù),而沒有考慮可能的替代性解釋,他們將模棱兩可的數(shù)據(jù)解釋為支持性的。這三個(gè)項(xiàng)目都沒有考慮到他們模型中的隱性假設(shè),如果沒有這些隱含的 TRICS(Lachter 和 Bever 對(duì) "其關(guān)鍵假設(shè)的表征" 的稱呼),這些系統(tǒng)中就不會(huì)存在“智能”。
Silver 等人更進(jìn)一步,還提出它足以達(dá)到智能,特別是足以解釋通用人工智能。Silver 等人的論點(diǎn)可以歸納為以下三個(gè)命題:
獎(jiǎng)勵(lì)最大化足以產(chǎn)生智能。“獎(jiǎng)勵(lì)最大化的通用目標(biāo)足以驅(qū)動(dòng)表現(xiàn)出自然和人工智能中所研究的大多數(shù)(如果不是全部)能力的行為?!?/p>
智力是實(shí)現(xiàn)目標(biāo)的能力。“智力可以被理解為實(shí)現(xiàn)目標(biāo)的靈活能力。”
成功是通過最大化獎(jiǎng)勵(lì)來衡量的。“因此,成功是通過最大化獎(jiǎng)勵(lì)來衡量的?!?/p>
簡而言之,他們提出智能的定義是使獎(jiǎng)勵(lì)最大化的能力,同時(shí)他們用獎(jiǎng)勵(lì)的最大化來解釋智力的出現(xiàn)。繼 17 世紀(jì)作家莫里哀(Molière)之后,一些哲學(xué)家將這種論證稱為 virtus dormativa(一種誘導(dǎo)睡眠的美德)。當(dāng)被要求解釋為什么鴉片會(huì)導(dǎo)致睡眠時(shí),莫里哀在 Imaginary Invalid 中的單身漢(bachelor)回答說,它有安眠的屬性(一種誘導(dǎo)睡眠的美德)。當(dāng)然,這只是對(duì)正在尋求解釋的屬性的命名。獎(jiǎng)勵(lì)最大化在 Silver 的假設(shè)中起著類似的作用。實(shí)現(xiàn)目標(biāo)既是智能的過程,也解釋了智能的過程。
圖 | “Reward is enough” 的假設(shè),假定智力及其相關(guān)能力可以被理解為在其環(huán)境中行動(dòng)的主體促進(jìn)獎(jiǎng)勵(lì)的最大化(來源:ScienceDirect)
之所以 Chomsky 批評(píng) Skinner 的方法,是因?yàn)樵摲椒僭O(shè)任何表現(xiàn)出來的行為都必須有一些獎(jiǎng)勵(lì)。如果有人看著一幅畫說 "荷蘭語",Skinner 的分析假設(shè)是,這幅畫的某些特征一定會(huì)因?yàn)椤昂商m語”的表達(dá)而受到獎(jiǎng)勵(lì)。但是,Chomsky 認(rèn)為,這個(gè)人可以說任何其他的東西,包括 "彎曲的"、"可怕的"或 "讓我們吃點(diǎn)午餐"。Skinner 無法指出導(dǎo)致這些言論的具體特征,也不能提供任何證據(jù)來證明該言論在該特征存在的情況下曾被獎(jiǎng)勵(lì)過。
引用一位 18 世紀(jì)法國作家 Voltaire 的話說,他的博士 Pangloss 在 Candide 中曾這樣說:"請(qǐng)注意,鼻子的形成是為了承受眼鏡,因此我們有了眼鏡。" 一定有一個(gè)問題可以通過任何特征來解決,在這種情況下,他聲稱鼻子的形成只是為了讓眼鏡可以被托起。Pangloss 還表示:"可以證明......事物不可能不是本來的樣子;因?yàn)橐磺卸际菫榱艘粋€(gè)目的而創(chuàng)造的,一切都必然是為了最好的目的。"
智能的誘發(fā)存在多種影響因素
Silver 等人在論文中寫道:“當(dāng)與智能相關(guān)的能力作為獎(jiǎng)勵(lì)最大化的單一目標(biāo)的解決方案出現(xiàn)時(shí),這實(shí)際上可能提供了一個(gè)更深入的理解,因?yàn)樗忉屃藶槭裁催@種能力會(huì)出現(xiàn)。相反,當(dāng)每一種能力被理解為其自身專門目標(biāo)的解決方案時(shí),為了關(guān)注該能力的作用,為什么的問題就被繞開了。”
而 Roitblat 的觀點(diǎn)是:對(duì) Silver 等人來說,這個(gè)目的就是一個(gè)解決問題的方法,而智能的學(xué)習(xí)正是為了這個(gè)目的,但我們不一定知道這個(gè)目的是什么,也不知道是什么環(huán)境特征誘發(fā)了它,但一定有什么東西。
Gould 和 Lewontin (1979) 很好地利用 Pangloss 博士批評(píng)他們所謂的進(jìn)化生物學(xué)中的 “適應(yīng)主義者( adaptationist )” 或“過分樂觀者( Panglossian )”范式。適應(yīng)主義的核心原則是,任何特征都必須有一個(gè)適應(yīng)性的解釋。
他們指出,威尼斯圣馬可大教堂的高裝飾拱門(兩個(gè)拱門相交處近似三角形形狀)是一個(gè)建筑特征,源于選擇設(shè)計(jì)四個(gè)拱門的大教堂,而不是建筑設(shè)計(jì)的驅(qū)動(dòng)力。拱門的選擇決定了壁爐的位置,而不是壁爐的位置決定拱門。一旦建筑師選擇了拱門,拱肩是必要的,而且可以進(jìn)行裝飾。Gould 和 Lewontin 說:“每個(gè)扇形拱頂都必須有一系列沿拱頂中線的開放空間,即扇形兩側(cè)在支柱之間相交的地方。由于這些空間必須存在,所以它們經(jīng)常被用來達(dá)到巧妙的裝飾效果。”
圖 | 威尼斯圣馬可大教堂的拱肩(來源:Michael Vadon under Creative Commons license)
Gould 和 Lewontin 給出了另一個(gè)例子,對(duì)阿茲臺(tái)克人祭祀同類相食的適應(yīng)性解釋。阿茲特克人從事活人祭祀。從適應(yīng)主義的角度解釋是,祭祀制度是解決肉類長期短缺問題的方法。受害者的四肢經(jīng)常被社區(qū)中的某些地位高的成員吃掉。這種 “解釋” 認(rèn)為,構(gòu)成這一精心設(shè)計(jì)的儀式性謀殺的神話、象征和傳統(tǒng)系統(tǒng)是對(duì)肉的需求的結(jié)果,而事實(shí)可能恰恰相反。每一位新國王都必須超越他的上一任,為更多的人獻(xiàn)上越來越精致的祭品。這種做法似乎使阿茲特克帝國的經(jīng)濟(jì)資源日益緊張。其他蛋白質(zhì)來源很容易獲得,只有某些已經(jīng)擁有足夠食物的特權(quán)人士才會(huì)吃犧牲的受害者的某些部分。如果目標(biāo)是讓饑餓的人吃到肉,那么人們會(huì)期望他們能夠更有效地利用受害者,并更廣泛地傳播食物來源。對(duì)肉的需求不太可能成為人類犧牲的原因;相反,它似乎是其他文化習(xí)俗的結(jié)果,這些習(xí)俗實(shí)際上對(duì)阿茲特克文明的生存不適應(yīng)。
引用 Silver 等人迄今為止的論點(diǎn),如果目標(biāo)是成為富人,那么只要積累大量的金錢就足夠了。用積累金錢就可以用成為富人的目標(biāo)來解釋,成為富人的定義是積累了大量的金錢。強(qiáng)化學(xué)習(xí)沒有解釋一個(gè)人如何去積累金錢或?yàn)槭裁催@應(yīng)該是一個(gè)目標(biāo)。他們認(rèn)為,這些都是由環(huán)境決定的。
Silver 等人認(rèn)為,如果一個(gè)智能體可以不斷調(diào)整其行為以提高其累積獎(jiǎng)勵(lì),那么其環(huán)境反復(fù)要求的任何能力最終都必須在智能體的行為中產(chǎn)生。
在Silver 等人在自然智能和通用人工智能之間進(jìn)行了類比,并指出 “動(dòng)物的經(jīng)驗(yàn)流足夠豐富和多樣的,它可能需要一種靈活的能力來實(shí)現(xiàn)各種各樣的子目標(biāo)(例如覓食、戰(zhàn)斗或逃跑),以便成功地最大化其整體獎(jiǎng)勵(lì)(例如饑餓或繁殖)。類似地,如果一個(gè)人工智能代理的經(jīng)驗(yàn)流足夠豐富,那么許多目標(biāo)(例如電池壽命或生存)可能隱含地需要實(shí)現(xiàn)同樣廣泛的子目標(biāo)的能力,因此獎(jiǎng)勵(lì)的最大化應(yīng)該足以產(chǎn)生一種通用的人工智能?!?/p>
Roitblat 反駁道,只靠獎(jiǎng)勵(lì)本身其實(shí)是不夠的,至少環(huán)境也發(fā)揮了作用。但適應(yīng)的內(nèi)容遠(yuǎn)不止這些。適應(yīng)需要一個(gè)變異性的來源,從中可以選擇出某些特征。進(jìn)化生物學(xué)中這種變異的主要來源是突變和重組。任何生物體的繁殖都涉及到將基因從父母那里復(fù)制到孩子身上。復(fù)制的過程并不完美,并且會(huì)出現(xiàn)錯(cuò)誤。其中許多錯(cuò)誤是致命的,但也有一些不是,然后可用于自然選擇。在有性繁殖的物種中,每一個(gè)親本都貢獻(xiàn)了其基因的一個(gè)副本(以及任何潛在的錯(cuò)誤),這兩個(gè)副本允許通過重組產(chǎn)生額外的變異性,一些來自一個(gè)親本的基因,一些來自另一個(gè)親本的基因傳遞給下一代。
圖 | 英國生物學(xué)家 Dawkins(來源:Flickr)
獎(jiǎng)勵(lì)是選擇。僅此而已,這是不夠的。正如 Dawkins 所指出的,進(jìn)化獎(jiǎng)勵(lì)是將特定基因傳遞給下一代。獎(jiǎng)勵(lì)是在基因?qū)用妫皇窃谏矬w或物種層面。任何能增加基因從一代傳給下一代的機(jī)會(huì)的東西,都是對(duì)這種獎(jiǎng)賞的調(diào)解,但請(qǐng)注意,基因本身并沒有能力成為智能。
除了獎(jiǎng)勵(lì)和環(huán)境,其他因素也在進(jìn)化和強(qiáng)化學(xué)習(xí)中發(fā)揮著作用。獎(jiǎng)勵(lì)只能從現(xiàn)有的原材料中進(jìn)行選擇。如果我們將一只老鼠扔進(jìn)一個(gè)洞穴,它就不會(huì)像蝙蝠一樣學(xué)會(huì)飛行和使用聲納。積累足夠的突變需要多代甚至數(shù)百萬年的時(shí)間,即便如此,也不能保證它能進(jìn)化出與蝙蝠一樣的解決洞穴問題的方法。強(qiáng)化學(xué)習(xí)是一個(gè)純粹的選擇性過程。強(qiáng)化學(xué)習(xí)是提高行動(dòng)概率的過程,這些行動(dòng)共同構(gòu)成了處理某種環(huán)境的政策。這些行動(dòng)必須已經(jīng)存在,才能被選中。至少就目前而言,這些行動(dòng)是由進(jìn)化中的基因和人工智能中的程序設(shè)計(jì)師提供的。
針對(duì)這一問題,Silver 等人在論文中也提到,在不同的環(huán)境中實(shí)現(xiàn)不同的獎(jiǎng)勵(lì)最大化可能會(huì)導(dǎo)致不同的、強(qiáng)大的智能形式,每一種智能都會(huì)表現(xiàn)出自己令人印象深刻的、但又無法比擬的一系列能力。一個(gè)好的獎(jiǎng)勵(lì)最大化的代理將利用其環(huán)境中存在的任何元素,但某種形式的智能的出現(xiàn)并不以它們的具體內(nèi)容為前提。
理論與現(xiàn)實(shí)的結(jié)合
正如 Lachter 和 Bever 所指出的那樣,學(xué)習(xí)并不像 Silver 等人所聲稱的那樣從 "白板"( Tabula rasa )開始,而是從一組代表性的承諾開始。Skinner 的大部分理論都基于動(dòng)物的強(qiáng)化學(xué)習(xí),尤其是鴿子和老鼠。他和許多其他研究人員在嚴(yán)酷的環(huán)境中研究了它們。
對(duì)于老鼠來說,那是一個(gè)房間,里面有一個(gè)供老鼠按壓的杠桿和一個(gè)提供獎(jiǎng)勵(lì)的喂食器。老鼠除了在短距離內(nèi)徘徊并接觸杠桿外,沒有什么其他可以做的。鴿子也在一個(gè)包含啄食鍵(通常是墻上的一個(gè)有機(jī)玻璃圈,可以被照亮)和一個(gè)提供獎(jiǎng)勵(lì)的谷物喂食器的環(huán)境中接受了類似的測(cè)試。在這兩種情況下,動(dòng)物都有一種預(yù)先存在的偏見,即以行為學(xué)家希望的方式作出反應(yīng)。事實(shí)證明,即使沒有獎(jiǎng)勵(lì),老鼠也會(huì)接觸杠桿,鴿子也會(huì)在黑暗的盒子里啄食發(fā)光的鑰匙。這種以理想方式做出反應(yīng)的傾向使得訓(xùn)練動(dòng)物變得容易,研究者可以不費(fèi)吹灰之力地研究獎(jiǎng)勵(lì)模式的影響。但多年后人們才發(fā)現(xiàn),選擇杠桿或啄食鑰匙并不只是一種任意的便利,而是一種未被承認(rèn)的 "幸運(yùn)選擇"。
當(dāng) Rumelhart 和 McClelland 建立他們的過去式學(xué)習(xí)者時(shí),同樣未被承認(rèn)的幸運(yùn)選擇發(fā)生了。他們選擇的表征恰好反映了他們希望他們的神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)的信息。這不是單純依靠一般學(xué)習(xí)機(jī)制的 “白板”。Silver 等人在題為 “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play” 的論文中指出,在開發(fā) AlphaZero 時(shí)也很 "幸運(yùn)",他們?cè)诒疚闹刑岬搅诉@一點(diǎn)。他們?cè)谔岢鲞@一主張的同時(shí),對(duì) AlphaZero 進(jìn)行了更詳細(xì)的說明。
他們的結(jié)果表明,一個(gè)通用的強(qiáng)化學(xué)習(xí)算法可以在沒有特定領(lǐng)域的人類知識(shí)或數(shù)據(jù)的情況下學(xué)習(xí)“白板”,同一算法在多個(gè)領(lǐng)域的成功學(xué)習(xí)證明了這一點(diǎn),在多個(gè)具有挑戰(zhàn)性的游戲中表現(xiàn)出了超人的表現(xiàn)。
他們還指出,AlphaZero 用深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和通用樹形搜索算法取代了傳統(tǒng)游戲程序中使用的手工知識(shí)和特定領(lǐng)域的增強(qiáng)功能。
他們不包括明確的針對(duì)游戲的計(jì)算指令,但確實(shí)包括了人類對(duì)解決問題的重大貢獻(xiàn)。例如,他們的模型包括一個(gè) "神經(jīng)網(wǎng)絡(luò) fθ(s),[它]將棋盤位置 s 作為輸入,并輸出一個(gè)移動(dòng)概率矢量"。換句話說,他們并不期望計(jì)算機(jī)知道它在玩游戲,或者游戲是通過輪流進(jìn)行的,或者它不能只是把圍棋棋子堆成一堆或把棋盤扔在地上。他們還提供了許多其他的約束條件,例如,讓機(jī)器與自己對(duì)弈。他們使用的樹狀表示法曾經(jīng)是代表游戲玩法的巨大創(chuàng)新。樹的分支對(duì)應(yīng)于可能的移動(dòng)范圍,沒有其他操作是可能的。計(jì)算機(jī)還被提供了一種使用蒙特卡洛樹形搜索算法搜索樹的方法,并且提供了游戲的規(guī)則。
那么,AlphaZero 遠(yuǎn)不是一個(gè)“白紙黑字”,它被賦予了大量的先驗(yàn)知識(shí),這大大限制了它可以學(xué)習(xí)的可能范圍。因此,即使在學(xué)習(xí)圍棋的背景下,也不清楚 "獎(jiǎng)勵(lì)是足夠的"意味著什么。要使獎(jiǎng)勵(lì)足夠,它就必須在沒有這些限制的情況下發(fā)揮作用。此外,目前還不清楚,即使是一個(gè)一般的游戲系統(tǒng),是否也能算作在不太受約束的環(huán)境中進(jìn)行一般學(xué)習(xí)的一個(gè)例子。
AlphaZero 對(duì)計(jì)算智能作出了重大貢獻(xiàn),但它的貢獻(xiàn)主要設(shè)計(jì)它的人類智能,識(shí)別其運(yùn)行的約束,并將玩游戲的問題減少到定向樹搜索。此外,它的約束條件甚至不適用于所有游戲,而只適用于有限類型的游戲。它只能玩某些類型的棋盤游戲,這些棋盤游戲的特征是樹搜索,學(xué)習(xí)者可以將棋盤位置作為輸入并輸出一個(gè)概率向量。沒有證據(jù)表明它甚至可以學(xué)習(xí)另一種棋盤游戲,比如大富翁,甚至 Parchisi。
在沒有約束的情況下,獎(jiǎng)勵(lì)并不能解釋任何東西。AlphaZero 不是所有種類學(xué)習(xí)的模型,當(dāng)然也不是通用智能的模型。
Silver 等人將一般智能視為一個(gè)定量問題。"通用智能,即人類和其他動(dòng)物所擁有的那種智能,可以被定義為在不同背景下靈活地實(shí)現(xiàn)各種目標(biāo)的能力。"
需要多大的靈活性?多大范圍的目標(biāo)?如果我們有一臺(tái)電腦,可以交替地下圍棋、跳棋和國際象棋,這仍然不構(gòu)成通用智能。即使我們?cè)黾恿肆硪环N游戲,即象棋,我們?nèi)匀粨碛型耆嗤挠?jì)算機(jī),它仍然可以通過找到一個(gè)模型來工作,該模型“以棋盤位置 s 作為輸入并輸出移動(dòng)概率向量”。計(jì)算機(jī)完全沒有能力接受任何其他的 "想法" 或解決任何無法以這種特定方式表示的任何問題。
通用人工智能中的 "通用" 不是以它可以解決不同問題的數(shù)量為特征,而是以解決多種類型問題的能力為特征。一個(gè)通用智能代理必須能夠自主地制定自己的表述,它必須創(chuàng)造自己的方法來解決問題,選擇自己的目標(biāo)、表征、方法等等。到目前為止,這都是人類設(shè)計(jì)師的職權(quán)范圍,他們將問題簡化為計(jì)算機(jī)可以通過調(diào)整模型參數(shù)解決的形式。除非我們能夠消除對(duì)人類構(gòu)建問題的依賴,否則我們無法實(shí)現(xiàn)通用智能。強(qiáng)化學(xué)習(xí),作為一個(gè)選擇性的過程,無法做到這一點(diǎn)。
正如行為主義和認(rèn)知主義之間的對(duì)抗,以及反向傳播是否足以學(xué)習(xí)語言學(xué)的過去式轉(zhuǎn)換的問題一樣,這些簡單的學(xué)習(xí)機(jī)制只有在我們忽略了其他往往未被承認(rèn)的限制因素所帶來的沉重負(fù)擔(dān)時(shí)才顯得充分。獎(jiǎng)勵(lì)在可用的替代方案中進(jìn)行選擇,但它們無法創(chuàng)造這些替代物。只要我們不仔細(xì)觀察這些現(xiàn)象,只要我們假設(shè)一定有某種獎(jiǎng)勵(lì)能強(qiáng)化某種行動(dòng),行為主義的獎(jiǎng)勵(lì)就能發(fā)揮作用。善于事后“解釋”任何觀察到的行為,但在實(shí)驗(yàn)室之外,它們無助于預(yù)測(cè)哪些行動(dòng)即將發(fā)生。這些現(xiàn)象與獎(jiǎng)勵(lì)是一致的,但如果認(rèn)為它們是由獎(jiǎng)勵(lì)引起的,那就錯(cuò)了。
Roitblat 在 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書中解釋了為什么所有當(dāng)前包括強(qiáng)化學(xué)習(xí)在內(nèi)的人工智能算法,都需要仔細(xì)制定人類創(chuàng)建的問題和表示。他表示,一旦建立了模型及其內(nèi)在表示,優(yōu)化或強(qiáng)化就可以指導(dǎo)其進(jìn)化,但這并不意味著強(qiáng)化就足夠了。同樣,Roitblat 補(bǔ)充說,該論文沒有就如何定義強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)、動(dòng)作和其他元素提出任何建議。與 Silver 等人的說法相反,他認(rèn)為獎(jiǎng)勵(lì)是不夠的。
參考資料:
https://venturebeat.com/2021/07/10/building-artificial-intelligence-reward-is-not-enough/
https://www.sciencedirect.com/science/article/pii/S0004370221000862
https://mp.weixin.qq.com/s/5M1kuNp9z83yJkjKTE9m3g
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。