AI從零開始學(xué)會(huì)玩《我的世界》，DeepMind AI通用化取得突破

發(fā)布人：機(jī)器之心時(shí)間：2023-01-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

通用 AI 的重要里程碑。

通用智能需要解決多個(gè)領(lǐng)域的任務(wù)。人們認(rèn)為強(qiáng)化學(xué)習(xí)算法具有這種潛力，但它一直受到為新任務(wù)調(diào)整所需資源和知識(shí)的阻礙。在 DeepMind 的一項(xiàng)新研究中，研究人員展示了基于世界模型的通用可擴(kuò)展的算法 DreamerV3，它在具有固定超參數(shù)的廣泛領(lǐng)域中優(yōu)于以前的方法。

DreamerV3 符合的領(lǐng)域包括連續(xù)和離散動(dòng)作、視覺(jué)和低維輸入、2D 和 3D 世界、不同的數(shù)據(jù)量、獎(jiǎng)勵(lì)頻率和獎(jiǎng)勵(lì)等級(jí)。值得一提的是，DreamerV3 是第一個(gè)在沒(méi)有人類數(shù)據(jù)或主動(dòng)教育的情況下從零開始在《我的世界》（Minecraft）中收集鉆石的算法。研究人員表示，這樣的通用算法可以使強(qiáng)化學(xué)習(xí)得到廣泛應(yīng)用，并有望擴(kuò)展到硬決策問(wèn)題。

鉆石是《我的世界》游戲中最受歡迎的物品之一，它是游戲中最稀有的物品之一，可被用來(lái)制作游戲中絕大多數(shù)最強(qiáng)的工具、武器以及盔甲。因?yàn)橹挥性谧钌畹膸r石層中才能找到鉆石，所以產(chǎn)量很低。

DreamerV3 是第一個(gè)在我的世界中收集鉆石的算法，無(wú)需人工演示或手動(dòng)制作課程。該視頻顯示了它收集的第一顆鉆石，發(fā)生在 30M 環(huán)境步數(shù) / 17 天游戲時(shí)間之內(nèi)。

，時(shí)長(zhǎng)01:08

如果你對(duì)于 AI 玩我的世界沒(méi)有什么概念，英偉達(dá) AI 科學(xué)家 Jim Fan 表示，和 AlphaGo 下圍棋比，我的世界任務(wù)數(shù)量是無(wú)限的，環(huán)境變化是無(wú)限的，知識(shí)也是有隱藏信息的。

對(duì)于人類來(lái)說(shuō)，在我的世界里探索和構(gòu)建是有趣的事，圍棋則顯得有些復(fù)雜，對(duì)于 AI 來(lái)說(shuō)，情況剛好相反。AlphaGo 在 6 年前擊敗了人類冠軍，但現(xiàn)在也沒(méi)有可以和我的世界人類高手媲美的算法出現(xiàn)。

早在 2019 年夏天，我的世界的開發(fā)公司就提出了「鉆石挑戰(zhàn)」，懸賞可以在游戲里找鉆石的 AI 算法，直到 NeurIPS 2019 上，在提交的 660 多份參賽作品中，沒(méi)有一個(gè) AI 能勝任這項(xiàng)任務(wù)。

但 DreamerV3 的出現(xiàn)改變了這一現(xiàn)狀，鉆石是一項(xiàng)高度組合和長(zhǎng)期的任務(wù)，需要復(fù)雜的探索和規(guī)劃，新算法能在沒(méi)有任何人工數(shù)據(jù)輔助的情況下收集鉆石?；蛟S效率還有很大改進(jìn)空間，但 AI 智能體現(xiàn)在可以從頭開始學(xué)習(xí)收集鉆石這一事實(shí)本身，是一個(gè)重要的里程碑。

DreamerV3 方法概述

論文《Mastering Diverse Domains through World Models》：

論文鏈接：https://arxiv.org/abs/2301.04104v1

DreamerV3 算法由三個(gè)神經(jīng)網(wǎng)絡(luò)組成，分別是世界模型（world model）、critic 和 actor。這三個(gè)神經(jīng)網(wǎng)絡(luò)在不共享梯度的情況下根據(jù)回放經(jīng)驗(yàn)同時(shí)訓(xùn)練，下圖 3（a）展示了世界模型學(xué)習(xí)，圖（b）展示了 Actor Critic 學(xué)習(xí)。

為了取得跨域成功，這些組件需要適應(yīng)不同的信號(hào)幅度，并在它們的目標(biāo)中穩(wěn)健地平衡項(xiàng)。這是具有挑戰(zhàn)性的，因?yàn)椴粌H針對(duì)同一領(lǐng)域內(nèi)的相似任務(wù)，而且還要使用固定超參數(shù)跨不同領(lǐng)域進(jìn)行學(xué)習(xí)。

DeepMind 首先解釋了用于預(yù)測(cè)未知數(shù)量級(jí)的簡(jiǎn)單變換，然后介紹了世界模型、critic、actor 以及它們的穩(wěn)健學(xué)習(xí)目標(biāo)。結(jié)果發(fā)現(xiàn)，結(jié)合 KL 平衡和自由位可以使世界模型無(wú)需調(diào)整學(xué)習(xí)，并且在不夸大小回報(bào)（small return）的情況下，縮小大回報(bào)實(shí)現(xiàn)了固定的策略熵正則化器。

Symlog 預(yù)測(cè)

重建輸入以及預(yù)測(cè)獎(jiǎng)勵(lì)和價(jià)值具有挑戰(zhàn)性，因?yàn)樗鼈兊囊?guī)模可能因領(lǐng)域而異。使用平方損失預(yù)測(cè)大目標(biāo)會(huì)導(dǎo)致發(fā)散，而絕對(duì)損失和 Huber 損失會(huì)使學(xué)習(xí)停滯。另一方面，基于運(yùn)行統(tǒng)計(jì)數(shù)據(jù)的歸一化目標(biāo)將非平穩(wěn)性引入優(yōu)化。因此，DeepMind 提出將 symlog 預(yù)測(cè)作為解決這一難題的簡(jiǎn)單方法。

為此，具有輸入 x 和參數(shù) θ 的神經(jīng)網(wǎng)絡(luò) f (x, θ) 學(xué)習(xí)預(yù)測(cè)其目標(biāo) y 的變換版本。為了讀出該網(wǎng)絡(luò)的預(yù)測(cè) y^，DeepMind 使用了逆變換，如下公式（1）所示。

從下圖 4 中可以看到，使用對(duì)數(shù)（logarithm）作為變換無(wú)法預(yù)測(cè)具有負(fù)值的目標(biāo)。

因此，DeepMind 從雙對(duì)稱對(duì)數(shù)族中選擇一個(gè)函數(shù)，命名為 symlog 并作為變換，同時(shí)將 symexp 函數(shù)作為逆函數(shù)。

symlog 函數(shù)壓縮大的正值和負(fù)值的大小。DreamerV3 在****、獎(jiǎng)勵(lì)預(yù)測(cè)器和 critic 中使用 symlog 預(yù)測(cè)，還使用 symlog 函數(shù)壓縮編碼器的輸入。

世界模型學(xué)習(xí)

世界模型通過(guò)自編碼學(xué)習(xí)感官輸入的緊湊表示，并通過(guò)預(yù)測(cè)未來(lái)的表示和潛在行為的獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)規(guī)劃。

如上圖 3 所示，DeepMind 將世界模型實(shí)現(xiàn)為循環(huán)狀態(tài)空間模型 (RSSM)。首先，編碼器將感官輸入 x_t 映射到隨機(jī)表示 z_t，然后具有循環(huán)狀態(tài) h_t 的序列模型在給定過(guò)去動(dòng)作 a_t?1 的情況下預(yù)測(cè)這些表示的序列。h_t 和 z_t 的串聯(lián)形成模型狀態(tài)，從中預(yù)測(cè)獎(jiǎng)勵(lì) r_t 和 episode 連續(xù)標(biāo)志 c_t ∈ {0, 1} 并重建輸入以確保信息表示，具體如下公式（3）所示。

下圖 5 可視化了 world world 的長(zhǎng)期視頻預(yù)測(cè)。編碼器和****使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行視覺(jué)輸入，使用多層感知器 (MLP) 進(jìn)行低維輸入。動(dòng)態(tài)、獎(jiǎng)勵(lì)和持續(xù)預(yù)測(cè)器也是 MLPs，這些表示從 softmax 分布的向量中采樣而來(lái)。DeepMind 在采樣步驟中使用了直通梯度。

Actor Critic 學(xué)習(xí)

Actor Critic 神經(jīng)網(wǎng)絡(luò)完全從世界模型預(yù)測(cè)的抽象序列中學(xué)習(xí)行為。在環(huán)境交互期間，DeepMind 通過(guò)從 actor 網(wǎng)絡(luò)中采樣來(lái)選擇動(dòng)作，無(wú)需進(jìn)行前瞻性規(guī)劃。

actor 和 critic 在模型狀態(tài)下運(yùn)行，進(jìn)而可以從世界模型學(xué)得的馬爾可夫表示中獲益。actor 的目標(biāo)是在每個(gè)模型狀態(tài)的折扣因子 γ = 0.997 時(shí)最大化預(yù)期回報(bào)。為了考慮超出預(yù)測(cè)范圍 T = 16 的獎(jiǎng)勵(lì)，critic 學(xué)習(xí)預(yù)測(cè)當(dāng)前 actor 行為下每個(gè)狀態(tài)的回報(bào)。

從重放輸入的表示開始，動(dòng)態(tài)預(yù)測(cè)器和 actor 產(chǎn)生一系列預(yù)期的模型狀態(tài) s_1:T 、動(dòng)作 a_1:T 、獎(jiǎng)勵(lì) r_1:T 和連續(xù)標(biāo)志 c_1:T 。為了估計(jì)超出預(yù)測(cè)范圍的獎(jiǎng)勵(lì)的回報(bào)，DeepMind 計(jì)算了自舉的 λ 回報(bào)，它整合了預(yù)期回報(bào)和價(jià)值。

實(shí)驗(yàn)結(jié)果

DeepMind 進(jìn)行了廣泛的實(shí)證研究，以評(píng)估 DreamerV3 在固定超參數(shù)下跨不同領(lǐng)域（超過(guò) 150 個(gè)任務(wù)）的通用性和可擴(kuò)展性，并與已有文獻(xiàn)中 SOTA 方法進(jìn)行比較。此外還將 DreamerV3 應(yīng)用于具有挑戰(zhàn)性的視頻游戲《我的世界》。

對(duì)于 DreamerV3，DeepMind 直接報(bào)告隨機(jī)訓(xùn)練策略的性能，并避免使用確定性策略進(jìn)行單獨(dú)評(píng)估運(yùn)行，從而簡(jiǎn)化了設(shè)置。所有的 DreamerV3 智能體均在一個(gè) Nvidia V100 GPU 上進(jìn)行訓(xùn)練。下表 1 為基準(zhǔn)概覽。

為了評(píng)估 DreamerV3 的通用性，DeepMind 在七個(gè)領(lǐng)域進(jìn)行了廣泛的實(shí)證評(píng)估，包括連續(xù)和離散動(dòng)作、視覺(jué)和低維輸入、密集和稀疏獎(jiǎng)勵(lì)、不同獎(jiǎng)勵(lì)尺度、2D 和 3D 世界以及程序生成。下圖 1 中的結(jié)果發(fā)現(xiàn)，DreamerV3 在所有領(lǐng)域都實(shí)現(xiàn)了強(qiáng)大的性能，并在其中 4 個(gè)領(lǐng)域的表現(xiàn)優(yōu)于所有以前的算法，同時(shí)在所有基準(zhǔn)測(cè)試中使用了固定超參數(shù)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

AI從零開始學(xué)會(huì)玩《我的世界》，DeepMind AI通用化取得突破

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

AI從零開始學(xué)會(huì)玩《我的世界》，DeepMind AI通用化取得突破

相關(guān)推薦

技術(shù)專區(qū)

AI從零開始學(xué)會(huì)玩《我的世界》，DeepMind AI通用化取得突破