人類如何向AlphaGo學(xué)習(xí)出人頭地?　

作者：高煥堂時(shí)間：2018-04-26 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

作者高煥堂 臺(tái)灣VR產(chǎn)業(yè)聯(lián)盟主席、廈門VR/AR榮譽(yù)會(huì)長(zhǎng)兼總顧問(wèn)

本文引用地址：http://m.butianyuan.cn/article/201804/379049.htm

　　在當(dāng)今AI潮流下，企業(yè)和年輕人，如何出人頭地呢? AI機(jī)器人AlphaGo打敗天下無(wú)敵手，已經(jīng)出人頭地了。人們何不向AlphaGo(及AlphaGo Zero)學(xué)習(xí)呢?

　　因?yàn)锳lphaGo懂得如何征服自己面對(duì)的巨大不確定性棋局，因而超越了人類頂尖高手。學(xué)習(xí)AlphaGo如何探索機(jī)會(huì)之后，創(chuàng)客就懂得了如何面對(duì)AI的不確定市場(chǎng)。企業(yè)就像AlphaGo一樣，可以超越頂尖的人類競(jìng)爭(zhēng)對(duì)手，出人頭地了。

　　傳統(tǒng)上，人類的學(xué)習(xí)偏重于“利用”所學(xué)的知識(shí)，去發(fā)揮所長(zhǎng)，解決問(wèn)題。如果人類(如創(chuàng)客)能從AI強(qiáng)化學(xué)習(xí)得到啟示，強(qiáng)化探索能力，則人人能探索更多可能，得到更多機(jī)會(huì)，如圖1所示。

　　在高度不確定性的環(huán)境里，唯有懂得降低風(fēng)險(xiǎn)，才敢大膽探索、提高勝率。一旦你選擇了創(chuàng)客/創(chuàng)業(yè)之路，若能向它學(xué)會(huì)探索機(jī)會(huì)的方法，將會(huì)協(xié)助你在創(chuàng)業(yè)路途上心想事成，鴻圖大展。

1 強(qiáng)化學(xué)習(xí)：探索和利用之間找到平衡

　　強(qiáng)化學(xué)習(xí)(Reinforcement Learning)的算法又稱為近似動(dòng)態(tài)規(guī)劃(approximate dynamic programming，簡(jiǎn)稱ADP)。它在探索(在未知的領(lǐng)域)和利用(現(xiàn)有知識(shí))之間找到平衡。探索就是嘗試以前從未想過(guò)或做過(guò)的事情，以求獲得更高的報(bào)酬。利用就是做當(dāng)前條件下能產(chǎn)生最大回報(bào)的事情。

人類如何-1.jpg

　　例如，假設(shè)在你家的附近有十個(gè)餐館，到目前為止，你只在其中的八家餐館吃過(guò)飯，了解了這八家餐館中哪家是最好吃的。如果有一天，你的女朋友來(lái)看你，你想請(qǐng)她去最棒的餐館晚餐。請(qǐng)問(wèn)您會(huì)如何選擇餐館呢?在這個(gè)例子里，利用就意味著你帶她去所知道的八家中最好吃餐館;而探索則是帶她去你從沒(méi)吃過(guò)的第九家或第十家餐館晚餐。

　　如果你選擇八家中最好吃的餐館，那么，也許第九家或第十家比這八家都好吃呢?反之，如果你選擇第九家或第十家，也許這兩家也可能比那八家都難吃。

　　那么，你該如何選擇呢?這就是“探索-利用”困境。強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)，一個(gè)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法必然要包括探索和利用，強(qiáng)化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)。

　　谷歌的專家們(即人類老師)已經(jīng)把這種“探索和利用”平衡的技巧(算法)教給了AlphaGo(機(jī)器學(xué)生)，讓AlphaGo(及AlphaGo Zero)超越了人類的圍棋頂尖高手。

　　傳統(tǒng)的人類學(xué)習(xí)是學(xué)以致用(利用所學(xué))為依歸，由于常常受限于現(xiàn)有知識(shí)，無(wú)論是人類或機(jī)器學(xué)生都只能得到區(qū)域最優(yōu)，如圖2所示。

　　因此，無(wú)論是機(jī)器學(xué)生或人類學(xué)生，一旦具有強(qiáng)化學(xué)習(xí)能力，都能大大提升其探索未知機(jī)會(huì)的能力，有信心去探索更大的狀態(tài)空間，從而得到全局最優(yōu)，讓學(xué)生們成為AI時(shí)代的大贏家，人人能探索更多可能，也捕捉到更多好機(jī)會(huì)。

2 懂得避風(fēng)險(xiǎn)，才敢大膽探索、才有熱情創(chuàng)新

　　大膽探索的同時(shí)，必須要有效降低風(fēng)險(xiǎn)。這是AI時(shí)代人類可以向機(jī)器學(xué)習(xí)的重要一課。AI強(qiáng)化學(xué)習(xí)已經(jīng)把這種“探索-利用”最佳平衡的算法效益發(fā)揮出來(lái)，然而需要搭配一種降低風(fēng)險(xiǎn)的策略。AlphaGo的目標(biāo)總是將獲勝機(jī)率最大化放在第一位，它會(huì)透過(guò)尋找確定的搜索途徑實(shí)現(xiàn)最低風(fēng)險(xiǎn)的獲勝機(jī)會(huì)。例如，AlphaGo的行為會(huì)傾向?yàn)榱巳俣艞壐嘹A子數(shù)，只為了降低不能取勝的風(fēng)險(xiǎn)。

人類如何-2.jpg

　　AlphaGo的蒙地卡羅算法給出的是搜索之后的勝率評(píng)估，然后AI會(huì)根據(jù)這個(gè)勝率來(lái)選擇落子點(diǎn)。懂得避免風(fēng)險(xiǎn)，才敢大膽探索、熱情創(chuàng)新。因而，AlphaGo能在高度不確定性的圍棋棋局中超越人類高手。俗語(yǔ)說(shuō)，商場(chǎng)如戰(zhàn)場(chǎng)，它們都跟圍棋競(jìng)賽一樣具有高度的不確定性。因而人們(如企業(yè)家)可以從AlphaGo學(xué)會(huì)如何在商場(chǎng)上，善于面對(duì)如圍棋棋局中高度不確定性的市場(chǎng)環(huán)境，超越其他競(jìng)爭(zhēng)者!

3 與不確定性共舞(Living with uncertainty)

　　向AlphaGo學(xué)習(xí)，有助于提升人們(如學(xué)生)的避風(fēng)險(xiǎn)能力和信心，以便更具備創(chuàng)新精神。就如同，下述這句名言：

　　“When you focus on problems，you’ll have more problems. When you focus on possibilities，you’ll have more opportunities.”(當(dāng)你專注于問(wèn)題時(shí)，您就會(huì)有更多的問(wèn)題;當(dāng)您專注于可能性時(shí)，您就會(huì)有更多的機(jī)會(huì)。)

　　當(dāng)人們一直專注于問(wèn)題時(shí)，是基于過(guò)去經(jīng)驗(yàn)，評(píng)估具有現(xiàn)實(shí)條件支撐，力求化解問(wèn)題或避免問(wèn)題發(fā)生的或然性(probability)，在心中逐漸萌生具有高度的明確感。這種通過(guò)或然性思維而得到地明確感稱為或然性明確感。

　　大家都知道，當(dāng)面對(duì)不確定情況時(shí)，人們總是需要明確感才會(huì)安心。大多數(shù)人習(xí)慣于或然性思維，一直專注于問(wèn)題，力求化解問(wèn)題或避免問(wèn)題發(fā)生的或然性。于是，在心中逐漸萌生具有高度安心的明確感

　　這種或然性思維得到的明確感稱為或然性明確感，但是，常常會(huì)基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過(guò)濾掉機(jī)率小的可能方案，而失去許多機(jī)會(huì)。

　　可能性明確感試圖涵蓋未來(lái)各種可能的機(jī)會(huì)，避免基于經(jīng)驗(yàn)和現(xiàn)實(shí)而過(guò)濾掉或機(jī)率小的可能方案。然后，逐步探索經(jīng)驗(yàn)和現(xiàn)實(shí)進(jìn)行否證而去蕪存菁，逐漸提升心中的明確感。即面對(duì)復(fù)雜和新的未知世界，培養(yǎng)先容納內(nèi)心的不確定性，規(guī)劃方案并采取行動(dòng)試驗(yàn)(試錯(cuò))，逐漸提升明確性和信心。

　　可能性意味著或然性很小的事件，有人稱之為“黑天鵝”。它的出現(xiàn)，初期并不起眼，經(jīng)過(guò)一段時(shí)間，逐漸產(chǎn)生乘數(shù)效果的巨大效應(yīng)。為什么會(huì)是“當(dāng)你專注于可能性時(shí)，你就會(huì)有更多的機(jī)會(huì)”呢? 因?yàn)樯鲜龅囊欢螘r(shí)間是一項(xiàng)寶貴的資產(chǎn)，例如，張榮發(fā)先生也是洞悉到物流集裝箱(黑天鵝)而獲得寶貴時(shí)間，并且預(yù)做準(zhǔn)備，因而獲得更多機(jī)會(huì)。而后來(lái)才進(jìn)入的競(jìng)爭(zhēng)者，就因缺乏時(shí)間資源而失去競(jìng)爭(zhēng)力。

　　大多數(shù)人習(xí)慣于或然性思維者，他們常常成為失去寶貴時(shí)間的后知后覺(jué)者，因?yàn)樗麄儠?huì)覺(jué)得黑天鵝，還沒(méi)普及流行，尚未成氣候。這種面對(duì)不確定，逐步提升心中的明確感，通稱為與不確定性共舞。人們總是需要明確感才會(huì)安心?；蛉恍悦鞔_感與可能性明確感，其目的是一致的：滿足內(nèi)心所需的明確感。只是手段不同而已。

　　例如，一只小獅子肚子餓了，依據(jù)成功經(jīng)驗(yàn)奮力去追兔子，只是捕獲的兔子日漸減少(可能兔子變敏感了)，有些困惑(明確感降低)。這只小獅子的媽媽就教他：肚子餓了，就閉上眼睛睡大覺(jué)，不要亂跑。小獅子滿腦困惑，不確定感急速上升，非常不安。但母命難違，只好勉強(qiáng)為之，果然耳朵變靈敏了，清晰地聽(tīng)見(jiàn)兔子聲音越來(lái)越近，然后猛然奔出一抓，輕易捕獲，飽餐一頓，繼續(xù)睡大覺(jué)。

　　君不見(jiàn)，身為野獸之王的雄獅、母獅，常常看似想睡覺(jué)的表情，真是“總裁獅子心”呀! 小獅子專注于問(wèn)題(如肚子餓了)，卻引來(lái)更多的問(wèn)題(如追累了，走不動(dòng)，引來(lái)生命危險(xiǎn))。媽媽教小獅子不要圍繞問(wèn)題，而專注于可能性(如原來(lái)以為兔子不可能自動(dòng)送上門)，反而發(fā)現(xiàn)更多的機(jī)會(huì)(如更容易填飽肚子的新途徑)。

4 結(jié)論

　　從AlphaGo下圍棋可以發(fā)現(xiàn)，在面對(duì)高度不確定性的環(huán)境時(shí)，它懂得專注于可能性，探索更多機(jī)會(huì)，獲得全局最優(yōu)而出人頭地。人類可以從AlphaGo學(xué)習(xí)到與不確定性共舞的能力，就會(huì)如同小獅子一般，探索到更多贏家之道。

　　參考文獻(xiàn)：

　　[1] 高煥堂. VR內(nèi)容、素材及其行業(yè)應(yīng)用[J].電子產(chǎn)品世界, 2016(11):88.

　　[2]王瑩.人工智能的進(jìn)展及發(fā)展建議[J].電子產(chǎn)品世界, 2017(2-3):23-26.

　　[3]王瑩,王金旺.異構(gòu)計(jì)算帶來(lái)AI視覺(jué)新突破[J].電子產(chǎn)品世界, 2017(7):28-29.

　　本文來(lái)源于《電子產(chǎn)品世界》2018年第5期第76頁(yè)，歡迎您寫論文時(shí)引用，并注明出處。

新聞中心

人類如何向AlphaGo學(xué)習(xí)出人頭地?

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)