用語(yǔ)言建模世界：UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)（3）

發(fā)布人：機(jī)器之心時(shí)間：2023-08-07 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Habitat 中的指令遵循

研究者還展示了 Dynalang 能夠處理逼真的視覺(jué)觀察，并在 Habitat 中執(zhí)行指令跟隨。智能體必須遵循自然語(yǔ)言指令，在家庭逼真掃描中導(dǎo)航到目標(biāo)位置。在 Dynalang 中，指令遵循可以統(tǒng)一在相同的預(yù)測(cè)框架中，將其視為未來(lái)獎(jiǎng)勵(lì)預(yù)測(cè)。

基于 LangRoom 的語(yǔ)言生成
就像語(yǔ)言可以影響智能體對(duì)將要看到的事物的預(yù)測(cè)一樣，智能體觀察到的內(nèi)容也會(huì)影響它對(duì)將要聽(tīng)到的語(yǔ)言的期望（例如，關(guān)于它所看到的內(nèi)容的真實(shí)陳述）。通過(guò)在 LangRoom 中將語(yǔ)言輸出到動(dòng)作空間，研究者展示了 Dynalang 可以生成與環(huán)境相關(guān)聯(lián)的語(yǔ)言，從而進(jìn)行具身問(wèn)答。LangRoom 是一個(gè)簡(jiǎn)單的視覺(jué)網(wǎng)格世界，具有部分可觀察性，智能體需要在其中產(chǎn)生運(yùn)動(dòng)動(dòng)作和語(yǔ)言。

文本預(yù)訓(xùn)練
由于使用語(yǔ)言進(jìn)行世界建模與基于世界模型的行動(dòng)學(xué)習(xí)解耦，Dynalang 可以使用離線數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，而無(wú)需行動(dòng)或獎(jiǎng)勵(lì)標(biāo)簽。這種能力使得 Dynalang 能夠從大規(guī)模的離線數(shù)據(jù)集中受益，全部都在單一的模型架構(gòu)內(nèi)實(shí)現(xiàn)。研究者使用僅包含文本數(shù)據(jù)的數(shù)據(jù)對(duì) Dynalang 進(jìn)行預(yù)訓(xùn)練，從零開(kāi)始學(xué)習(xí) token 嵌入。在通用文本數(shù)據(jù)（TinyStories，2M 個(gè)短故事）上預(yù)訓(xùn)練模型，提高了模型在 Messenger 上的下游強(qiáng)化學(xué)習(xí)任務(wù)表現(xiàn)，超過(guò)了使用預(yù)訓(xùn)練的 T5 嵌入的結(jié)果。

研究者表示，盡管他們的工作專注于用于在世界中行動(dòng)的語(yǔ)言理解，但它也可以像一個(gè)僅文本語(yǔ)言模型一樣從世界模型中生成文本。研究者在潛在空間中對(duì)預(yù)訓(xùn)練的 TinyStories 模型進(jìn)行模擬的抽樣，然后在每個(gè)時(shí)間步驟從表示中解碼 token 觀察。盡管生成的文本質(zhì)量仍然低于當(dāng)前語(yǔ)言模型的水平，但模型生成的文本令人驚訝地連貫。他們認(rèn)為將語(yǔ)言生成和行動(dòng)統(tǒng)一在一個(gè)智能體架構(gòu)中是未來(lái)研究的一個(gè)令人興奮的方向。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

用語(yǔ)言建模世界：UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)（3）

相關(guān)推薦

技術(shù)專區(qū)