麻將AI算法能用于投資預(yù)測(cè)?微軟揭秘如何研發(fā)
去年,時(shí)任微軟全球執(zhí)行副總裁沈向洋在2019世界人工智能大會(huì)上宣布,微軟亞洲研究院開(kāi)發(fā)出了世界上最強(qiáng)的“麻將AI”——Suphx,并在國(guó)際知名專業(yè)麻將平臺(tái)“天鳳”上榮升十段,其實(shí)力超越該平臺(tái)公開(kāi)房間頂級(jí)人類選手的平均水平。
本文引用地址:http://m.butianyuan.cn/article/202007/415461.htm游戲是人工智能算法研究的重要試驗(yàn)田,其環(huán)境的復(fù)雜性和信息的不確定性是機(jī)器學(xué)習(xí)的最佳訓(xùn)練場(chǎng)。
那么麻將AI到底有哪些難點(diǎn)?Suphx在游戲AI領(lǐng)域的跨越性突破具體是如何實(shí)現(xiàn)的?麻將AI落地的最終目的又是什么?在2020世界人工智能大會(huì)上,《每日經(jīng)濟(jì)新聞》記者嘗試從微軟亞洲研究院方面找到答案。
用麻將AI破譯非完美信息博弈
微軟亞洲研究院副院長(zhǎng)潘天佑向記者表示:“大家都知道下圍棋的AlphaGo,牌類游戲相對(duì)棋類來(lái)說(shuō)更為困難,而牌類游戲中最復(fù)雜的就是中國(guó)人的麻將,麻將中蘊(yùn)含太多不確定因素,但我們的研究員就接受了這樣的挑戰(zhàn)。”
微軟亞洲研究院副院長(zhǎng)劉鐵巖和他的團(tuán)隊(duì)是麻將AI算法的開(kāi)創(chuàng)者。
“想要訓(xùn)練AI,把麻將真正打好是一件很困難的事情。”劉鐵巖表示,象棋和圍棋雖然看起來(lái)很難,但其實(shí)都是完美信息博弈,也就是說(shuō)對(duì)手的所有信息我們都一覽無(wú)余。這種情況下,AI可以通過(guò)它強(qiáng)大的計(jì)算力來(lái)枚舉各種可能性,從而找到制勝的策略。
而麻將則完全不同,充滿了隨機(jī)性和不確定性。首先玩家只知道自己手里的13張牌和之前打出去的牌,卻無(wú)法知道別人的手牌和沒(méi)有翻出來(lái)的底牌。牌局中存在著大量不可知的隱藏信息,因此麻將屬于非完美信息博弈。
“海量不可見(jiàn)的隱藏信息使得AI很難挖掘出從已知牌面到最優(yōu)策略之間的邏輯鏈路,在非完美信息博弈中,麻將屬于非常復(fù)雜的類型。”劉鐵巖舉了一個(gè)例子,麻將牌有136張,在開(kāi)局時(shí)的排列組合是6人德州撲克的10的90次方倍;開(kāi)局后一個(gè)玩家的手牌確定了,但他看不到其他三個(gè)玩家的手牌,這些隱藏信息有高達(dá)10的48次方種可能。
巨大的狀態(tài)空間和隱藏信息及其帶來(lái)的不確定性使AI模型很難使用傳統(tǒng)的蒙特卡羅數(shù)搜索算法。劉鐵巖表示,但從另一角度而言,一旦成功可能會(huì)讓AI具備前輩們沒(méi)有的新智能。
“微軟亞洲研究院的研究員是一群好奇心很強(qiáng)的人,在這種好奇心的驅(qū)動(dòng)下,我們不斷探索未知,尋求答案,因此決定通過(guò)麻將AI來(lái)破解非完美信息博弈。”微軟亞洲研究院首席研究員秦濤表示,團(tuán)隊(duì)采用的是基于強(qiáng)化學(xué)習(xí)的自我博弈技術(shù),使得AI能夠自我學(xué)習(xí),自我提高。
目的是解決高度復(fù)雜的現(xiàn)實(shí)問(wèn)題
棋盤(pán)游戲是人類智能的體現(xiàn),游戲AI成為機(jī)器智能尋找突破的陣地。在過(guò)去的30年里,AI在象棋、圍棋等游戲中都逐步戰(zhàn)勝了人類。但AI真的已經(jīng)如此聰明了嗎?
秦濤說(shuō):“可能大家不太相信,其實(shí)我們這幫研究員都是麻將菜鳥(niǎo)。但是我們也能訓(xùn)練出非常厲害的麻將AI?!?/p>
在訓(xùn)練過(guò)程中,劉鐵巖團(tuán)隊(duì)利用隱藏的信息,從“上帝視角”對(duì)Suphx進(jìn)行了線下指導(dǎo)?!罢且?yàn)橛刑嗟碾[藏信息,所以我們引入了一個(gè)‘上帝視角’,它知道所有的完美信息,可以利用這個(gè)完美信息下的最優(yōu)打法來(lái)指導(dǎo)Suphx的學(xué)習(xí)過(guò)程。另一方面,完美信息也可以告訴AI,一個(gè)牌局的輸贏是因?yàn)榇虻煤?,還是因?yàn)榕泼娴倪\(yùn)氣好,這樣可以提供更有效的學(xué)習(xí)方向?!?/p>
經(jīng)過(guò)一段時(shí)間的線下訓(xùn)練,Suphx可以在專業(yè)麻將平臺(tái)與人類玩家進(jìn)行線上實(shí)戰(zhàn),實(shí)戰(zhàn)中因?yàn)槭峙坪偷着魄ё內(nèi)f化,因此Suphx也需要隨機(jī)應(yīng)變。于是,劉鐵巖團(tuán)隊(duì)又提出了動(dòng)態(tài)自適應(yīng)技術(shù),使得Suphx能夠在牌局中隨時(shí)調(diào)整策略,決定何時(shí)進(jìn)攻何時(shí)防守,提高勝算。
在微軟亞洲研究院看來(lái),麻將AI不是為了在麻將桌上打敗人類,而是讓人類從另一個(gè)角度來(lái)看待世界,比如解決問(wèn)題的全新思路,增強(qiáng)人類智能。就像AI在打麻將時(shí),面對(duì)著巨大的不可知信息,我們的生活也會(huì)在隨時(shí)出現(xiàn)突發(fā)情況或黑天鵝事件。從這個(gè)意義上講,麻將比任何棋牌都要更加接近真實(shí)世界。
潘天佑表示,“這種機(jī)器學(xué)習(xí)的技術(shù)可以應(yīng)用在更多現(xiàn)實(shí)場(chǎng)景中,例如我們將先知教練的算法應(yīng)用在AI投資領(lǐng)域,場(chǎng)景上和麻將也是有類似之處的,都具有相當(dāng)豐富的隱藏信息”。
“我們希望AI在非完美信息博弈領(lǐng)域的突破,有助于解決高度復(fù)雜的現(xiàn)實(shí)問(wèn)題,幫助人類應(yīng)對(duì)更多更大的挑戰(zhàn)?!眲㈣F巖說(shuō)道。
評(píng)論