用語(yǔ)言建模世界：UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)（2）

發(fā)布人：機(jī)器之心時(shí)間：2023-08-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

HomeGrid 中的語(yǔ)言提示

研究者引入了 HomeGrid 來(lái)評(píng)估一個(gè)環(huán)境中的智能體。在這個(gè)環(huán)境中，智能體除了任務(wù)指令外還會(huì)收到語(yǔ)言提示。
HomeGrid 是一個(gè)具有指令和多樣化提示的具有挑戰(zhàn)性的視覺(jué)網(wǎng)格世界。HomeGrid 中的提示模擬了智能體可能從人類(lèi)那里學(xué)到或從文本中獲取的知識(shí)，提供了對(duì)解決任務(wù)有幫助但不是必需的信息：
未來(lái)觀察：描述了智能體未來(lái)可能觀察到的情況，比如「盤(pán)子在廚房里」。

Correction：提供了基于智能體當(dāng)前行為的交互式反饋，比如「轉(zhuǎn)身」。

Dynamics：描述了環(huán)境的動(dòng)態(tài)變化，比如「踩踏板打開(kāi)垃圾桶」。

HomeGrid 環(huán)境將與代碼一起發(fā)布，以鼓勵(lì)大家進(jìn)一步在這個(gè)方向上進(jìn)行研究。
盡管智能體沒(méi)有明確地接受有關(guān)文本對(duì)應(yīng)于什么觀察結(jié)果的明確監(jiān)督，但 Dynalang 通過(guò)未來(lái)預(yù)測(cè)目標(biāo)學(xué)會(huì)了將各種類(lèi)型的語(yǔ)言與環(huán)境相聯(lián)系。Dynalang 的性能優(yōu)于基于語(yǔ)言的 IMPALA 和 R2D2，這兩種方法在使用不同類(lèi)型的語(yǔ)言上遇到困難，通常在超出指令范圍的語(yǔ)言任務(wù)上表現(xiàn)更差。

Messenger 中的游戲手冊(cè)
研究者在 Messenger 游戲環(huán)境中進(jìn)行評(píng)估，以測(cè)試智能體如何從更長(zhǎng)、更復(fù)雜的文本中學(xué)習(xí)，這需要對(duì)文本和視覺(jué)觀察進(jìn)行多次推理。智能體必須對(duì)描述每個(gè)任務(wù)動(dòng)態(tài)的文本手冊(cè)進(jìn)行推理，并將其與環(huán)境中實(shí)體的觀察結(jié)果結(jié)合起來(lái)，以確定哪些實(shí)體應(yīng)該接收消息，哪些應(yīng)該避免。Dynalang 的表現(xiàn)優(yōu)于 IMPALA、R2D2 以及使用專(zhuān)門(mén)架構(gòu)對(duì)文本和觀察進(jìn)行推理的任務(wù)特定 EMMA 基線(xiàn)，特別是在最困難的第三階段。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

用語(yǔ)言建模世界：UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)（2）

相關(guān)推薦

技術(shù)專(zhuān)區(qū)