博客專欄

EEPW首頁(yè) > 博客 > 用語(yǔ)言建模世界:UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)(3)

用語(yǔ)言建模世界:UC伯克利多模態(tài)世界模型利用語(yǔ)言預(yù)測(cè)未來(lái)(3)

發(fā)布人:機(jī)器之心 時(shí)間:2023-08-07 來(lái)源:工程師 發(fā)布文章
Habitat 中的指令遵循


研究者還展示了 Dynalang 能夠處理逼真的視覺(jué)觀察,并在 Habitat 中執(zhí)行指令跟隨。智能體必須遵循自然語(yǔ)言指令,在家庭逼真掃描中導(dǎo)航到目標(biāo)位置。在 Dynalang 中,指令遵循可以統(tǒng)一在相同的預(yù)測(cè)框架中,將其視為未來(lái)獎(jiǎng)勵(lì)預(yù)測(cè)。
圖片

圖片


圖片


圖片
基于 LangRoom 的語(yǔ)言生成
就像語(yǔ)言可以影響智能體對(duì)將要看到的事物的預(yù)測(cè)一樣,智能體觀察到的內(nèi)容也會(huì)影響它對(duì)將要聽(tīng)到的語(yǔ)言的期望(例如,關(guān)于它所看到的內(nèi)容的真實(shí)陳述)。通過(guò)在 LangRoom 中將語(yǔ)言輸出到動(dòng)作空間,研究者展示了 Dynalang 可以生成與環(huán)境相關(guān)聯(lián)的語(yǔ)言,從而進(jìn)行具身問(wèn)答。LangRoom 是一個(gè)簡(jiǎn)單的視覺(jué)網(wǎng)格世界,具有部分可觀察性,智能體需要在其中產(chǎn)生運(yùn)動(dòng)動(dòng)作和語(yǔ)言。
圖片

圖片


文本預(yù)訓(xùn)練
由于使用語(yǔ)言進(jìn)行世界建模與基于世界模型的行動(dòng)學(xué)習(xí)解耦,Dynalang 可以使用離線數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,而無(wú)需行動(dòng)或獎(jiǎng)勵(lì)標(biāo)簽。這種能力使得 Dynalang 能夠從大規(guī)模的離線數(shù)據(jù)集中受益,全部都在單一的模型架構(gòu)內(nèi)實(shí)現(xiàn)。研究者使用僅包含文本數(shù)據(jù)的數(shù)據(jù)對(duì) Dynalang 進(jìn)行預(yù)訓(xùn)練,從零開(kāi)始學(xué)習(xí) token 嵌入。在通用文本數(shù)據(jù)(TinyStories,2M 個(gè)短故事)上預(yù)訓(xùn)練模型,提高了模型在 Messenger 上的下游強(qiáng)化學(xué)習(xí)任務(wù)表現(xiàn),超過(guò)了使用預(yù)訓(xùn)練的 T5 嵌入的結(jié)果。
圖片
研究者表示,盡管他們的工作專注于用于在世界中行動(dòng)的語(yǔ)言理解,但它也可以像一個(gè)僅文本語(yǔ)言模型一樣從世界模型中生成文本。研究者在潛在空間中對(duì)預(yù)訓(xùn)練的 TinyStories 模型進(jìn)行模擬的抽樣,然后在每個(gè)時(shí)間步驟從表示中解碼 token 觀察。盡管生成的文本質(zhì)量仍然低于當(dāng)前語(yǔ)言模型的水平,但模型生成的文本令人驚訝地連貫。他們認(rèn)為將語(yǔ)言生成和行動(dòng)統(tǒng)一在一個(gè)智能體架構(gòu)中是未來(lái)研究的一個(gè)令人興奮的方向。
圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉