ICML 2022 | 游戲AI學(xué)會(huì)見(jiàn)招拆招，騰訊AI Lab提出「對(duì)手建?！顾惴蚣蹽SCU

發(fā)布人：機(jī)器之心時(shí)間：2022-07-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

騰訊 AI Lab「絕藝」團(tuán)隊(duì)提出了一套「對(duì)手建?！顾惴蚣?，在游戲場(chǎng)景中可針對(duì)當(dāng)前對(duì)手動(dòng)態(tài)智能切換策略。

當(dāng)前業(yè)內(nèi)知名的競(jìng)技游戲 AI，在與人對(duì)抗過(guò)程中往往采取固定的策略，這可能會(huì)帶來(lái)兩方面的性能損耗：[1] 如果這個(gè) “固定” 策略有漏洞并且一旦被人發(fā)現(xiàn)，那么這個(gè)漏洞就可以被一直復(fù)現(xiàn)。換句話說(shuō)，采取固定策略的 AI 容易被人“套路”。[2] 采取固定策略的 AI 不能針對(duì)不同對(duì)手采取不同策略來(lái)獲取更高的收益。例如，在二人石頭 - 剪刀 - 布游戲中，如 AI 能針對(duì)有出剪刀傾向的對(duì)手多出石頭，針對(duì)有出石頭傾向的對(duì)手多出布，那么理論上 AI 能有更高的性能上限。

對(duì)此，騰訊 AI Lab「絕藝」團(tuán)隊(duì)提出了一套 “對(duì)手建?！?算法框架，在游戲場(chǎng)景中可針對(duì)當(dāng)前對(duì)手動(dòng)態(tài)智能切換策略，實(shí)現(xiàn)“見(jiàn)招拆招”。該方法在理論上和實(shí)際針對(duì)不同對(duì)手的實(shí)驗(yàn)中都能取得更高的收益，相關(guān)工作已被機(jī)器學(xué)習(xí)頂會(huì) ICML 2022 收錄。

論文鏈接：https://proceedings.mlr.press/v162/fu22b.html

這項(xiàng)工作的核心在于如何在多智能體系統(tǒng)中對(duì)其他智能體不可觀察的隱變量（例如策略，喜好，目標(biāo)，等）進(jìn)行建模，推測(cè)，并在此基礎(chǔ)上調(diào)整自己的決策。因此，該項(xiàng)工作對(duì)其他相關(guān)領(lǐng)域也有一定的借鑒意義，如人機(jī)協(xié)作，智能交通，金融分析等。尤其在人機(jī)協(xié)作環(huán)境中，如果 AI 能高效地推測(cè)人的習(xí)慣、喜好和目標(biāo)，將大幅提升協(xié)作效率。

該項(xiàng)目團(tuán)隊(duì)主要從事棋牌類 AI「絕藝」相關(guān)研究?！附^藝」自 2016 年面世后，已四次奪得世界頂級(jí)圍棋賽事冠軍，包括 UEC 杯、AI 龍星戰(zhàn)、騰訊世界人工智能圍棋大賽、世界智能圍棋公開(kāi)賽等，并自 2018 年起無(wú)償擔(dān)任中國(guó)國(guó)家圍棋隊(duì)訓(xùn)練專用 AI。之前，團(tuán)隊(duì)在 1v1 麻將場(chǎng)景提出全新策略優(yōu)化算法 ACH，已被 ICLR 2022 接收。

方法簡(jiǎn)介

結(jié)合 Bandit 思想，本文作者提出一種新的對(duì)手建?？蚣埽篏reedy when Sure and Conservative when Uncertain（GSCU）。GSCU 總體構(gòu)思在于：當(dāng)針對(duì)對(duì)手能獲得更高收益時(shí)，那么 AI 就采用一個(gè)實(shí)時(shí)計(jì)算的 “激進(jìn)” 策略（Greedy Policy）來(lái)針對(duì)對(duì)手；反之，AI 采用一個(gè)離線計(jì)算好的，最壞情況最好的，“保守”策略（Conservative Policy）。如下圖所示，GSCU 包含兩個(gè)離線訓(xùn)練模塊，和一個(gè)在線測(cè)試模塊。

離線訓(xùn)練模塊一：對(duì)手策略 embedding 學(xué)習(xí)。該模塊嘗試學(xué)習(xí)一個(gè) variational embedding 空間來(lái)表征任何一個(gè)可能的對(duì)手策略。該方法具體采用 Conditional Variational Autoencoder （CVAE）的架構(gòu)：

就像經(jīng)典詞向量方法 Word2Vec 可以提升后續(xù)各種 NLP 任務(wù)的效率，我們的策略 embedding 學(xué)習(xí)方法 Policy2Emb 也有望提升所有需要對(duì) policy 做表征的相關(guān)任務(wù)。

本文策略 embedding 學(xué)習(xí)方法 Policy2Emb 與經(jīng)典詞向量方法 Word2Vec 的一個(gè)對(duì)照

離線訓(xùn)練模塊二：Conditional Reinforcement Learning (RL)。該模塊嘗試學(xué)習(xí)一個(gè) conditional 策略，對(duì)于給定的一個(gè)對(duì)手策略的 embedding z，可以得到一個(gè)針對(duì)該對(duì)手的策略：

在線測(cè)試模塊：在線對(duì)手策略 embedding 估計(jì)，保守 & 激進(jìn)策略切換。該模塊一方面嘗試在線估計(jì)當(dāng)前對(duì)手的策略 embedding，另一方面基于 bandit 算法 EXP3 在固定的 “保守” 策略和實(shí)時(shí)計(jì)算的 “激進(jìn)” 策略兩者之間動(dòng)態(tài)切換：

同時(shí)，我們可以證明：[1] “激進(jìn)”策略的對(duì)戰(zhàn)效果有下限保證; [2] 相比不做對(duì)手建模（也就是采用一個(gè) “固定” 策略），我們的對(duì)手建模方法 GSCU 不帶來(lái)負(fù)作用，并有很大可能帶來(lái)正收益。

實(shí)驗(yàn)結(jié)果

在對(duì)比主流方法的基礎(chǔ)上，GSCU 在經(jīng)典****游戲 Kuhn poker 和 particle 環(huán)境 Predator Prey 上驗(yàn)證了其優(yōu)越性：

不同方法應(yīng)對(duì)不同未知對(duì)手的平均性能和最差性能對(duì)比

策略 embedding 學(xué)習(xí)算法 Policy2Emb 的實(shí)驗(yàn)結(jié)果：

Policy2Emb 得到的策略 embedding 空間（左）和 Kuhn poker 真實(shí)的策略參數(shù)空間（右）

GSCU 中 conditional RL 的學(xué)習(xí)效果：

基于 Policy2Emb 學(xué)習(xí)到的對(duì)手策略 embedding，conditional RL 學(xué)習(xí)到的針對(duì)性策略可以高效應(yīng)對(duì)不同的對(duì)手

GSCU 的在線對(duì)手策略 embedding 估計(jì)效果：

基于 Policy2Emb 學(xué)習(xí)到的 probabilistic decoder，GSCU 在策略 embedding 空間做 Bayesian inference 可以更好地估計(jì)對(duì)手策略。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

ICML 2022 | 游戲AI學(xué)會(huì)見(jiàn)招拆招，騰訊AI Lab提出「對(duì)手建?！顾惴蚣蹽SCU

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

ICML 2022 | 游戲AI學(xué)會(huì)見(jiàn)招拆招，騰訊AI Lab提出「對(duì)手建?！顾惴蚣蹽SCU

相關(guān)推薦

技術(shù)專區(qū)

ICML 2022 | 游戲AI學(xué)會(huì)見(jiàn)招拆招，騰訊AI Lab提出「對(duì)手建?！顾惴蚣蹽SCU