博客專欄

EEPW首頁(yè) > 博客 > 順序決策與基礎(chǔ)模型如何交叉互惠?谷歌、伯克利等探討更多可能

順序決策與基礎(chǔ)模型如何交叉互惠?谷歌、伯克利等探討更多可能

發(fā)布人:機(jī)器之心 時(shí)間:2023-05-20 來源:工程師 發(fā)布文章
預(yù)訓(xùn)練基礎(chǔ)模型和順序決策的研究越來越頻繁地出現(xiàn)交叉,那么如何將兩個(gè)領(lǐng)域的研究交融,讓二者都從交叉研究中受益?這篇論文對(duì)這一問題進(jìn)行了深入探討。

在廣泛數(shù)據(jù)集上基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練基礎(chǔ)模型,已經(jīng)展現(xiàn)出將知識(shí)遷移到不同下游任務(wù)的優(yōu)秀能力。因此,這些模型也被應(yīng)用到長(zhǎng)期推理、控制、搜索和規(guī)劃等更復(fù)雜的問題,或者被部署在對(duì)話、自動(dòng)駕駛、醫(yī)療保健和機(jī)器人等應(yīng)用中。未來它們也會(huì)提供接口給外部實(shí)體和智能體,例如在對(duì)話應(yīng)用中,語(yǔ)言模型與人進(jìn)行多輪交流;在機(jī)器人領(lǐng)域,感知控制模型在真實(shí)環(huán)境中執(zhí)行動(dòng)作。

這些場(chǎng)景為基礎(chǔ)模型提出了新的挑戰(zhàn),包括:1) 如何從外部實(shí)體(如人對(duì)對(duì)話質(zhì)量的評(píng)價(jià))的反饋中學(xué)習(xí),2) 如何適應(yīng)大規(guī)模語(yǔ)言或視覺數(shù)據(jù)集中不常見的模態(tài)(如機(jī)器人動(dòng)作),3) 如何在未來進(jìn)行長(zhǎng)期的推理和規(guī)劃。 

圖片

這些問題一直是傳統(tǒng)意義上順序決策的核心,涵蓋了強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、規(guī)劃、搜索和最優(yōu)控制等領(lǐng)域。與基礎(chǔ)模型使用數(shù)十億圖像和文本 token 的廣泛數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的范式相反,以往關(guān)于順序決策制定的工作主要集中在任務(wù)特定或具有有限先驗(yàn)知識(shí)的白板設(shè)置上。
盡管缺少或沒有先驗(yàn)知識(shí)讓順序決策看起來很難,但是對(duì)順序決策的研究已經(jīng)在多個(gè)任務(wù)上超越了人類表現(xiàn),如玩棋盤游戲、雅達(dá)利(Atari)電子游戲以及操作機(jī)器人完成導(dǎo)航和操作等。
然而,由于這些方法學(xué)習(xí)從零開始解決任務(wù)而沒有來自視覺、語(yǔ)言或其它數(shù)據(jù)集的廣泛知識(shí),因此通常在泛化和樣本效率方面表現(xiàn)不佳,例如需要 7 塊 GPU 運(yùn)行一天才能解決單個(gè)雅達(dá)利游戲。直覺上,類似于基礎(chǔ)模型所用的廣泛數(shù)據(jù)集也應(yīng)該對(duì)順序決策制定模型有用。舉例而言,互聯(lián)網(wǎng)上有無數(shù)關(guān)于如何玩雅達(dá)利游戲的文章和視頻。同樣地,有關(guān)對(duì)象和場(chǎng)景屬性的大量知識(shí)對(duì)于機(jī)器人非常有用,關(guān)于人類愿望和情感的知識(shí)也可以改善對(duì)話模型。
雖然由于應(yīng)用和關(guān)注點(diǎn)不同,基礎(chǔ)模型和順序決策的研究大體上是不相交的,但交匯的研究也越來越多。在基礎(chǔ)模型方面,隨著大語(yǔ)言模型的出現(xiàn),目標(biāo)應(yīng)用從簡(jiǎn)單的零樣本或少樣本任務(wù)擴(kuò)展到現(xiàn)在需要長(zhǎng)期推理或多次交互的問題 。相反在順序決策領(lǐng)域,受到大規(guī)模視覺和語(yǔ)言模型成功的啟發(fā),研究人員開始為學(xué)習(xí)多模型、多任務(wù)和通用交互式智能體準(zhǔn)備越來越大的數(shù)據(jù)集。
兩者領(lǐng)域之間的界線變得越來越模糊,一些最近的工作研究了預(yù)訓(xùn)練基礎(chǔ)模型(例如 CLIP 和 ViT)在視覺環(huán)境中 bootstrap 交互式智能體的訓(xùn)練,而其他工作則研究了基礎(chǔ)模型作為通過強(qiáng)化學(xué)習(xí)和人類反饋進(jìn)行優(yōu)化的對(duì)話智能體。還有一些工作還調(diào)整大型語(yǔ)言模型以與外部工具交互,例如搜索引擎、計(jì)算器、翻譯工具、MuJoCo 模擬器和程序解釋器。
最近,谷歌大腦團(tuán)隊(duì)、UC 伯克利和 MIT 的研究者撰文表示,基礎(chǔ)模型和交互式?jīng)Q策研究相結(jié)合會(huì)讓彼此受益。一方面,將基礎(chǔ)模型應(yīng)用于涉及外部實(shí)體的任務(wù)中,可以從交互式反饋和長(zhǎng)期規(guī)劃中受益。另一方面,順序決策可以利用基礎(chǔ)模型的世界知識(shí)更快地解決任務(wù)并進(jìn)行更好的泛化。

圖片

論文地址:https://arxiv.org/pdf/2303.04129v1.pdf
為了在這兩個(gè)領(lǐng)域的交集上推動(dòng)進(jìn)一步的研究,研究者限定了用于決策制定的基礎(chǔ)模型的問題空間。同時(shí)提供了理解當(dāng)前研究的技術(shù)工具,回顧了目前存在的挑戰(zhàn)和未解決的問題,并預(yù)測(cè)了解決這些挑戰(zhàn)的潛在解決方案和有前景的方法。
論文概覽
論文主要分為以下 5 個(gè)主要章節(jié)。
第 2 章回顧了順序決策的相關(guān)背景,并提供了一些基礎(chǔ)模型和決策制定最好一起考慮的示例場(chǎng)景。隨后講述了圍繞基礎(chǔ)模型如何構(gòu)建決策制定系統(tǒng)的不同組件。

圖片

第 3 章探討了基礎(chǔ)模型如何作為行為生成式模型(比如技能發(fā)現(xiàn))和環(huán)境生成式模型(比如進(jìn)行基于模型的推演)。

圖片

第 4 章探討了基礎(chǔ)模型如何作為狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和轉(zhuǎn)移動(dòng)態(tài)的表示學(xué)習(xí)器(例如即插即用的視覺 - 語(yǔ)言模型、基于模型的表示學(xué)習(xí))。

圖片

第 5 章探討了語(yǔ)言基礎(chǔ)模型如何作為交互式智能體和環(huán)境,使得可以在順序決策框架(語(yǔ)言模型推理、對(duì)話、工具使用)下考慮新問題和應(yīng)用。

圖片

最后一章,研究者概述了未解決的問題和挑戰(zhàn),并提出了潛在的解決方案(例如如何利用廣泛的數(shù)據(jù)、如何構(gòu)建環(huán)境以及基礎(chǔ)模型和順序決策的哪些方面可以得到改進(jìn))。

圖片

更多細(xì)節(jié)內(nèi)容請(qǐng)參閱原論文。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉