博客專欄

EEPW首頁(yè) > 博客 > ICML 2022 | 游戲AI學(xué)會(huì)見(jiàn)招拆招,騰訊AI Lab提出「對(duì)手建?!顾惴蚣蹽SCU

ICML 2022 | 游戲AI學(xué)會(huì)見(jiàn)招拆招,騰訊AI Lab提出「對(duì)手建?!顾惴蚣蹽SCU

發(fā)布人:機(jī)器之心 時(shí)間:2022-07-21 來(lái)源:工程師 發(fā)布文章

騰訊 AI Lab「絕藝」團(tuán)隊(duì)提出了一套「對(duì)手建?!顾惴蚣?,在游戲場(chǎng)景中可針對(duì)當(dāng)前對(duì)手動(dòng)態(tài)智能切換策略。


當(dāng)前業(yè)內(nèi)知名的競(jìng)技游戲 AI,在與人對(duì)抗過(guò)程中往往采取固定的策略,這可能會(huì)帶來(lái)兩方面的性能損耗:[1] 如果這個(gè) “固定” 策略有漏洞并且一旦被人發(fā)現(xiàn),那么這個(gè)漏洞就可以被一直復(fù)現(xiàn)。換句話說(shuō),采取固定策略的 AI 容易被人“套路”。[2] 采取固定策略的 AI 不能針對(duì)不同對(duì)手采取不同策略來(lái)獲取更高的收益。例如,在二人石頭 - 剪刀 - 布游戲中,如 AI 能針對(duì)有出剪刀傾向的對(duì)手多出石頭,針對(duì)有出石頭傾向的對(duì)手多出布,那么理論上 AI 能有更高的性能上限。


對(duì)此,騰訊 AI Lab「絕藝」團(tuán)隊(duì)提出了一套 “對(duì)手建?!?算法框架,在游戲場(chǎng)景中可針對(duì)當(dāng)前對(duì)手動(dòng)態(tài)智能切換策略,實(shí)現(xiàn)“見(jiàn)招拆招”。該方法在理論上和實(shí)際針對(duì)不同對(duì)手的實(shí)驗(yàn)中都能取得更高的收益,相關(guān)工作已被機(jī)器學(xué)習(xí)頂會(huì) ICML 2022 收錄。


圖片


論文鏈接:https://proceedings.mlr.press/v162/fu22b.html


這項(xiàng)工作的核心在于如何在多智能體系統(tǒng)中對(duì)其他智能體不可觀察的隱變量(例如策略,喜好,目標(biāo),等)進(jìn)行建模,推測(cè),并在此基礎(chǔ)上調(diào)整自己的決策。因此,該項(xiàng)工作對(duì)其他相關(guān)領(lǐng)域也有一定的借鑒意義,如人機(jī)協(xié)作,智能交通,金融分析等。尤其在人機(jī)協(xié)作環(huán)境中,如果 AI 能高效地推測(cè)人的習(xí)慣、喜好和目標(biāo),將大幅提升協(xié)作效率。


該項(xiàng)目團(tuán)隊(duì)主要從事棋牌類 AI「絕藝」相關(guān)研究?!附^藝」自 2016 年面世后,已四次奪得世界頂級(jí)圍棋賽事冠軍,包括 UEC 杯、AI 龍星戰(zhàn)、騰訊世界人工智能圍棋大賽、世界智能圍棋公開(kāi)賽等,并自 2018 年起無(wú)償擔(dān)任中國(guó)國(guó)家圍棋隊(duì)訓(xùn)練專用 AI。之前,團(tuán)隊(duì)在 1v1 麻將場(chǎng)景提出全新策略優(yōu)化算法 ACH,已被 ICLR 2022 接收。


方法簡(jiǎn)介


結(jié)合 Bandit 思想,本文作者提出一種新的對(duì)手建??蚣埽篏reedy when Sure and Conservative when Uncertain(GSCU)。GSCU 總體構(gòu)思在于:當(dāng)針對(duì)對(duì)手能獲得更高收益時(shí),那么 AI 就采用一個(gè)實(shí)時(shí)計(jì)算的 “激進(jìn)” 策略(Greedy Policy)來(lái)針對(duì)對(duì)手;反之,AI 采用一個(gè)離線計(jì)算好的,最壞情況最好的,“保守”策略(Conservative Policy)。如下圖所示,GSCU 包含兩個(gè)離線訓(xùn)練模塊,和一個(gè)在線測(cè)試模塊。


離線訓(xùn)練模塊一:對(duì)手策略 embedding 學(xué)習(xí)。該模塊嘗試學(xué)習(xí)一個(gè) variational embedding 空間來(lái)表征任何一個(gè)可能的對(duì)手策略。該方法具體采用 Conditional Variational Autoencoder (CVAE)的架構(gòu):


圖片


就像經(jīng)典詞向量方法 Word2Vec 可以提升后續(xù)各種 NLP 任務(wù)的效率, 我們的策略 embedding 學(xué)習(xí)方法 Policy2Emb 也有望提升所有需要對(duì) policy 做表征的相關(guān)任務(wù)。


圖片

本文策略 embedding 學(xué)習(xí)方法 Policy2Emb 與經(jīng)典詞向量方法 Word2Vec 的一個(gè)對(duì)照


離線訓(xùn)練模塊二:Conditional Reinforcement Learning (RL)。該模塊嘗試學(xué)習(xí)一個(gè) conditional 策略,對(duì)于給定的一個(gè)對(duì)手策略的 embedding z,可以得到一個(gè)針對(duì)該對(duì)手的策略:


圖片


在線測(cè)試模塊:在線對(duì)手策略 embedding 估計(jì),保守 & 激進(jìn)策略切換。該模塊一方面嘗試在線估計(jì)當(dāng)前對(duì)手的策略 embedding,另一方面基于 bandit 算法 EXP3 在固定的 “保守” 策略和實(shí)時(shí)計(jì)算的 “激進(jìn)” 策略兩者之間動(dòng)態(tài)切換:


圖片


同時(shí),我們可以證明:[1] “激進(jìn)”策略的對(duì)戰(zhàn)效果有下限保證; [2] 相比不做對(duì)手建模(也就是采用一個(gè) “固定” 策略),我們的對(duì)手建模方法 GSCU 不帶來(lái)負(fù)作用,并有很大可能帶來(lái)正收益。


圖片

圖片


實(shí)驗(yàn)結(jié)果


在對(duì)比主流方法的基礎(chǔ)上,GSCU 在經(jīng)典****游戲 Kuhn poker 和 particle 環(huán)境 Predator Prey 上驗(yàn)證了其優(yōu)越性:


圖片

不同方法應(yīng)對(duì)不同未知對(duì)手的平均性能和最差性能對(duì)比


策略 embedding 學(xué)習(xí)算法 Policy2Emb 的實(shí)驗(yàn)結(jié)果:


圖片

Policy2Emb 得到的策略 embedding 空間(左)和 Kuhn poker 真實(shí)的策略參數(shù)空間(右)


GSCU 中 conditional RL 的學(xué)習(xí)效果:


圖片

基于 Policy2Emb 學(xué)習(xí)到的對(duì)手策略 embedding,conditional RL 學(xué)習(xí)到的針對(duì)性策略可以高效應(yīng)對(duì)不同的對(duì)手


GSCU 的在線對(duì)手策略 embedding 估計(jì)效果:


圖片

基于 Policy2Emb 學(xué)習(xí)到的 probabilistic decoder,GSCU 在策略 embedding 空間做 Bayesian inference 可以更好地估計(jì)對(duì)手策略。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉