“全能棋王”AlphaZero 背后的真正啟示：直覺是如何戰(zhàn)勝邏輯的

作者：時間：2017-12-18 來源：DeepTech

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：AlphaZero 革命性的啟示：復(fù)雜的邏輯思想可以通過直覺機(jī)器來完成。

　　現(xiàn)代文明和科技已經(jīng)使得我們的直覺不斷退化。絕大多數(shù)人都沒有意識到直覺的價值甚至沒有意識到它的存在。作為復(fù)雜計算的基礎(chǔ)，直覺是一種很容易被忽視的非常規(guī)方法。這種非常規(guī)性使得許多研究人員忽視它的潛力。

本文引用地址：http://m.butianyuan.cn/article/201712/373152.htm

　　我在人工智能領(lǐng)域所做的工作圍繞“先進(jìn)的認(rèn)知機(jī)器將使用直覺作為其智力基礎(chǔ)”這一想法。我們?nèi)祟惖乃枷霝橐话慊闹橇μ峁┝顺渥愕淖C據(jù)。人類本質(zhì)上是直覺機(jī)器，而我們理性(和自覺)的自我只是基于直覺的機(jī)器之上的一個模擬。這與笛卡爾的名言“我思故我在”形成鮮明的對比，意味著我們的理性思維就是把我們與其他所有生物區(qū)分開的東西。

　　我們因此在認(rèn)知上有了偏見，要求技術(shù)和方法由邏輯機(jī)器驅(qū)動。這就是 Good Old Fashioned AI (GOFAI) 在過去幾十年間失敗的原因，它從一開始就試圖通過邏輯范式來解決智力問題。

　　一個關(guān)于直覺的機(jī)器的反直覺的預(yù)想就是“邏輯思維如何從直覺機(jī)器中產(chǎn)生呢?”自 2012 年以來，我們已經(jīng)見證了深度學(xué)習(xí)技術(shù)令以難以置信的進(jìn)步。深度學(xué)習(xí)網(wǎng)絡(luò)就是直覺機(jī)器。深度學(xué)習(xí)網(wǎng)絡(luò)通過歸納來進(jìn)行推理或者作出預(yù)測。深度學(xué)習(xí)系統(tǒng)已經(jīng)能夠執(zhí)行通常保留給生物大腦的任務(wù)了。已知對于傳統(tǒng)計算來說難以進(jìn)行的任務(wù)，例如面部和語音識別，可以由這些機(jī)器以超越人類的水平執(zhí)行。

　　然而，深度學(xué)習(xí)網(wǎng)絡(luò)無法執(zhí)行長除法等邏輯任務(wù)。人們不應(yīng)該指望能夠教導(dǎo)一個動物(比如你的寵物狗)加減，更不用說乘法。然而，人類的大腦卻可以執(zhí)行各類這樣的邏輯問題。我們不得不問，洞穴人能做乘法嗎?我們是天生就具備先進(jìn)的邏輯認(rèn)知能力，還是說那是我們作為先進(jìn)文明的結(jié)果而學(xué)到的能力?

　　要實現(xiàn)更一般化的人工智能需要跨越的巨大鴻溝就是所謂的“語義鴻溝”。我們要如何將深度學(xué)習(xí)(低階語義)系統(tǒng)與邏輯(高階語義)系統(tǒng)的能力融合在一起?

　　人類思維能夠發(fā)揮邏輯推理的偉大功績。如果我們的思維機(jī)器都是基于直覺的，那么它是如何做到這一點的呢?我要在這里假設(shè)我們沒有任何天生的邏輯裝置。在我們已經(jīng)存在于這個星球上的短時間內(nèi)，現(xiàn)代智人不大可能發(fā)展出這種認(rèn)知機(jī)制。因此，為了消除語義鴻溝，我們需要使用只基于直覺的機(jī)制來彌合。這意味著我們不需要將邏輯組件與直覺組件進(jìn)行融合。我們所需要一切的就只是直覺組件。

　　因此我們需要充分的證據(jù)來證明，復(fù)雜的邏輯思想可以通過直覺機(jī)器來完成。

　　這才是 AlphaZero 革命性的啟示。AlphaZero 是 DeepMinds Go play 程序的最新版本。我之前介紹過 AlphaGoZero 如何可以從零開始掌握圍棋的玩法(不需要人類的經(jīng)驗)。西方人從來沒有玩過圍棋的游戲，根本就不理解它。所以 DeepMind 的 AlphaGoZero 成就的相關(guān)性已經(jīng)被消除了。我們不明白這個成就的重要性。然而，圍棋一直被認(rèn)為是一個直覺游戲。所以一個基于直覺的機(jī)器掌握了這項游戲并不令人驚訝。

　　什么?DeepMind 的新化身(AlphaZero)卻能做的就是玩國際象棋?這對很多人來說仍沒有什么令人驚訝的，自 1996 年 IBM 的 DeepBlue 擊敗卡斯帕羅夫以來，這個游戲就被“解決”了。對于外行來說，AlphaZero 只花了幾個小時就能從頭開始掌握國際象棋游戲也沒什么值得注意的。甚至 AlphaZero 在 100 場比賽中能夠摧毀最好的國際象棋程序 Stockfish 也并不值得注意。

　　真正了不起的是 AlphaZero 在消解更合乎邏輯的對手方面所起的作用。為了讓你理解，我會引用一些象棋社區(qū)的評價。

　　它接近“類型 B”，按照克勞德·香農(nóng)和艾倫·圖靈的夢想，用類似于人類的方法來下棋，而不是蠻橫的力量。

　　—?Gary Kasparov.

　　我總是在想，如果有一個超級先進(jìn)的物種降落在地球上并向我們展示他們?nèi)绾蜗缕?，那將是怎樣的情況。現(xiàn)在我覺得我知道了。

　　—?Peter Heine Nielsen

　　它的棋路不像人類，但也不像程序。它以第三種方式，可以說是外星人的方式下棋。

　　?—?Demis Hassabis(DeepMind 創(chuàng)始人，國際象棋愛好者)

　　對于那些了解國際象棋的玩家來說，最好的辦法就是觀看 AlphaZero 和 Stockfish 的實戰(zhàn)。你會看到的是一個基于直覺的系統(tǒng)如何拆解基于邏輯的對手。以下是游戲及專家評論：

　　AlphaZero 國際象棋的走法非常不同。為了獲得優(yōu)勢超過對手的位置，它愿意犧牲一些棋子。它正在發(fā)揮一種國際象棋柔道，利用對手的對短期利益的熱切渴望來對抗它。它將對手置于國際象棋中稱為“被迫強(qiáng)制”的地位，無論如何走動都只會導(dǎo)致更糟糕的結(jié)果。

　　國際象棋的游戲似乎更具整體性，所有棋子都以高度協(xié)調(diào)的方式移動。AlphaGo zero 所進(jìn)行的游戲最大限度地發(fā)揮了它的創(chuàng)造力，而它的邏輯對手無法超脫短期收益。它不僅在用一種不可想象的方式來玩國際象棋，而且這種方式將被置于令所有人驚嘆的位置上。

　　關(guān)于 AlphaZero 的論文在最近結(jié)束的 NIPS 2017 大會上發(fā)表。那是一篇很短的論文，主體部分只有 7 頁長。它提供了廣泛的關(guān)于如何評估棋盤上的落子位置和決定下一步走法的有趣的細(xì)節(jié)。

　　和 Stockfish 每秒搜索 7 千萬位置相比，AlphaZero 每秒只搜索 8 萬個位置。

　　直覺機(jī)器使用的評估比邏輯對手少 1,000 倍。

　　你在這里與 AlphaZero 共同見證的是對我關(guān)于直覺機(jī)器和他們執(zhí)行邏輯推理的能力的原始論證的驗證。這是被鏈接的語義鴻溝。這是一個極其艱巨的通用人工智能的里程碑正在以創(chuàng)紀(jì)錄的速度被超越。我想 AI 界的任何人都期望這樣的進(jìn)展能夠迅速地實現(xiàn)?，F(xiàn)在這樣的事情已經(jīng)發(fā)生了，人工智能的風(fēng)景將被永遠(yuǎn)改變。

新聞中心

“全能棋王”AlphaZero 背后的真正啟示：直覺是如何戰(zhàn)勝邏輯的

評論

相關(guān)推薦

技術(shù)專區(qū)