NeurIPS 2022 | 賦能產(chǎn)業(yè)界的人工智能研究新趨勢(shì)
在本屆大會(huì)中,微軟亞洲研究院也有諸多論文入選,內(nèi)容主要涵蓋人工智能五大熱點(diǎn)話題:人工智能走向大一統(tǒng)、計(jì)算機(jī)理論、賦能產(chǎn)業(yè)界的人工智能、負(fù)責(zé)任的人工智能、人工智能賦能內(nèi)容與設(shè)計(jì)生成。上期,我們速覽了人工智能大一統(tǒng)與理論研究的最新進(jìn)展。本期為大家?guī)淼氖侨斯ぶ悄苜x能產(chǎn)業(yè)界話題下的5篇論文。
參與文末投****,為你最感興趣的論文投上一****!得****數(shù)前列的論文將于近期在B站“微軟中國(guó)視頻中心”賬號(hào)直播分享!
01
自動(dòng)強(qiáng)化學(xué)習(xí)輔助損失函數(shù)設(shè)計(jì)
論文鏈接:
https://www.microsoft.com/en-us/research/publication/reinforcement-learning-with-automated-auxiliary-loss-search/
項(xiàng)目主頁(yè):
https://seqml.github.io/a2ls/
強(qiáng)化學(xué)習(xí)算法通常面臨稀疏獎(jiǎng)勵(lì)、高維輸入情況下優(yōu)化穩(wěn)定性較差等訓(xùn)練問題。為此,研究者們根據(jù)經(jīng)驗(yàn)提出了多種輔助損失函數(shù),以幫助強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。然而,這些人工設(shè)計(jì)的輔助損失函數(shù)十分依賴人類知識(shí),且設(shè)計(jì)過程耗時(shí)費(fèi)力;同時(shí),由于未考慮強(qiáng)化學(xué)習(xí)的原本優(yōu)化目標(biāo),這些損失函數(shù)在函數(shù)空間中都屬于次優(yōu)解。
為了解決這些問題,微軟亞洲研究院的研究員們提出了自動(dòng)強(qiáng)化學(xué)習(xí)的框架 A2LS,在包含現(xiàn)有人工設(shè)計(jì)的損失函數(shù)的空間(復(fù)雜度約為7.5×10^20)中,使用基于元學(xué)習(xí)的自動(dòng)化算法自動(dòng)搜索更優(yōu)的輔助損失函數(shù)。算法在三個(gè)隨機(jī)選擇的機(jī)器人訓(xùn)練環(huán)境中經(jīng)過4至7輪的搜索后,找到了一個(gè)較優(yōu)的輔助損失函數(shù) A2-winner。廣泛的實(shí)驗(yàn)結(jié)果證明,該輔助損失函數(shù)不僅能大幅提升強(qiáng)化學(xué)習(xí)的訓(xùn)練效果,而且顯著優(yōu)于人工設(shè)計(jì)的輔助函數(shù),其在多種不同的場(chǎng)景下具有優(yōu)秀的遷移泛化性,包括從未在訓(xùn)練環(huán)境中見過的:(1)基于圖像的環(huán)境;(2)不同的場(chǎng)景例如游戲場(chǎng)景;(3)不同的狀態(tài)類型;(4)不同的策略網(wǎng)絡(luò)結(jié)構(gòu);(5)部分狀態(tài)可見(partial observable)的場(chǎng)景。論文原文中還提供了更多視角的對(duì)比分析,表明算法的特點(diǎn)與搜索結(jié)果的優(yōu)越性。
圖1:自動(dòng)強(qiáng)化學(xué)習(xí)算法框架(上);搜索過程可視化圖(下)
02
自提升離線強(qiáng)化學(xué)習(xí)
論文鏈接:
https://www.microsoft.com/en-us/research/publication/bootstrapped-transformer-for-offline-reinforcement-learning/
項(xiàng)目主頁(yè):
https://seqml.github.io/bootorl/
隨著強(qiáng)化學(xué)習(xí)在真實(shí)世界場(chǎng)景中的需求逐漸增大,作為一種新的強(qiáng)化學(xué)習(xí)訓(xùn)練范式,離線強(qiáng)化學(xué)習(xí)(offline reinforcement learning)受到了越來越多的關(guān)注。離線強(qiáng)化學(xué)習(xí)利用預(yù)先保存的智能體與環(huán)境的交互數(shù)據(jù)進(jìn)行離線訓(xùn)練,進(jìn)而獲得可用于在線真實(shí)環(huán)境的智能體。目前較受關(guān)注的一個(gè)離線強(qiáng)化學(xué)習(xí)技術(shù)分支是引入 Transformer 模型做序列建模,并取得了良好的成效。
現(xiàn)有的離線強(qiáng)化學(xué)習(xí)數(shù)據(jù)存在兩個(gè)問題,第一是覆蓋率的問題,主要由于采樣獲得這些離線數(shù)據(jù)的智能體可能是任意的智能體,難以保證離線數(shù)據(jù)對(duì)強(qiáng)化學(xué)習(xí)真實(shí)的數(shù)據(jù)分布具備良好的覆蓋;第二是訓(xùn)練數(shù)據(jù)量的問題,相比較自然語(yǔ)言處理預(yù)訓(xùn)練模型動(dòng)輒上百萬(wàn)文本語(yǔ)句的語(yǔ)料庫(kù)相比,離線強(qiáng)化學(xué)習(xí)的訓(xùn)練數(shù)據(jù)量一般較小。
根據(jù)目前 Transformer 模型序列建模與生成的特性,微軟亞洲研究院的研究員們提出了自提升的離線強(qiáng)化學(xué)習(xí)訓(xùn)練框架 Bootstrapped Transformer(簡(jiǎn)稱BooT)以解決上述問題。BooT 方法建模了離線訓(xùn)練數(shù)據(jù)的分布并同時(shí)生成了新的符合分布的數(shù)據(jù)以反哺訓(xùn)練過程。在通用的離線強(qiáng)化學(xué)習(xí)基準(zhǔn)中,BooT 顯著提升了效果,甚至超越了使用80倍數(shù)據(jù)量的其他預(yù)訓(xùn)練方案;量化與可視分析均表明 BooT 生成的數(shù)據(jù)更加符合原始數(shù)據(jù)分布,并能彌補(bǔ)原有離線訓(xùn)練數(shù)據(jù)的不足。
圖2:BooT 序列生成過程(上);BooT 序列生成結(jié)果與分布降維可視化(下)
03
面向具有分段穩(wěn)定上下文的非平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)
論文鏈接:
https://www.microsoft.com/en-us/research/publication/an-adaptive-deep-rl-method-for-non-stationary-environments-with-piecewise-stable-context/
在現(xiàn)實(shí)生活中,智能體處在不斷變化的環(huán)境中。這是阻礙強(qiáng)化學(xué)習(xí)算法成功應(yīng)用的原因之一。在很多現(xiàn)實(shí)問題中,環(huán)境(例如網(wǎng)絡(luò)可用帶寬、機(jī)器人所處地形等)會(huì)在一段隨機(jī)的時(shí)間內(nèi)保持不變,隨后以不可預(yù)測(cè)的方式發(fā)生突然跳變。這些環(huán)境變量往往不可觀測(cè)。因此,智能體需要及時(shí)檢測(cè)到這種變化,并快速調(diào)整自身策略以適應(yīng)這種變化。然而現(xiàn)有工作的建模方式都不能很好地解決當(dāng)前問題。
為此,微軟亞洲研究院的研究員們提出了一種新的 Latent Situational MDP (LS-MDP),引入了環(huán)境變量 C 以及環(huán)境變量結(jié)構(gòu) G 來細(xì)致地刻畫問題的結(jié)構(gòu),并提出了 SeCBAD(segmented context belief augmented deep RL)算法,以聯(lián)合推斷環(huán)境變量結(jié)構(gòu)及內(nèi)容的方式,來完成對(duì)環(huán)境變化的快速檢測(cè)。同時(shí),研究員們還使用推斷的環(huán)境變量 belief 對(duì) state 進(jìn)行增廣,從而使得智能體可以在收集更多信息、與利用已有信息最大化回報(bào)這兩種策略間達(dá)到最優(yōu)權(quán)衡。在機(jī)器人控制、網(wǎng)絡(luò)帶寬控制等應(yīng)用上對(duì)該算法的實(shí)驗(yàn)結(jié)果表明 SeCBAD 能夠顯著提升性能。
圖3:SeCBAD 算法框架圖
04
基于多模態(tài)時(shí)序?qū)Ρ葘W(xué)習(xí)的長(zhǎng)視頻-語(yǔ)言預(yù)訓(xùn)練
論文鏈接:
https://www.microsoft.com/en-us/research/publication/long-form-video-language-pre-training-with-multimodal-temporal-contrastive-learning/
項(xiàng)目主頁(yè):
https://github.com/microsoft/XPretrain
以往對(duì)視頻-語(yǔ)言預(yù)訓(xùn)練的研究主要集中在短視頻(即30秒內(nèi)的視頻)和句子上,忽略了真實(shí)場(chǎng)景中更加常見的長(zhǎng)視頻理解。直接從長(zhǎng)視頻和語(yǔ)言中學(xué)習(xí)表征可以幫助許多長(zhǎng)視頻-語(yǔ)言理解任務(wù)的發(fā)展,但遠(yuǎn)程關(guān)系建模的難度和更多幀引起的計(jì)算負(fù)擔(dān)極具挑戰(zhàn)性。
在本文中,研究員們提出了 Long-Form VIdeo-LAnguage 預(yù)訓(xùn)練模型(LF-VILA),并在基于視頻文本數(shù)據(jù)集 HD-VILA-100M 構(gòu)建的大規(guī)模長(zhǎng)視頻和段落數(shù)據(jù)集 LF-VILA-8M 上進(jìn)行了訓(xùn)練。為了有效地捕捉豐富的時(shí)序動(dòng)態(tài),并以有效的端到端的方式更好地對(duì)齊視頻和語(yǔ)言, LF-VILA 模型中引入了兩種新設(shè)計(jì)。研究員們首先提出了一種多模態(tài)時(shí)序?qū)Ρ葘W(xué)習(xí)(MTC)損失,通過鼓勵(lì)長(zhǎng)視頻和段落之間的細(xì)粒度對(duì)齊來學(xué)習(xí)不同模態(tài)之間的時(shí)序關(guān)系。其次,提出了一種分層時(shí)間窗口注意力(HTWA)機(jī)制,以有效捕獲長(zhǎng)期依賴關(guān)系,同時(shí)降低 Transformer 的計(jì)算開銷。
在7個(gè)下游長(zhǎng)視頻語(yǔ)言理解任務(wù)(包括段落到視頻檢索和長(zhǎng)視頻問答)上對(duì)預(yù)訓(xùn)練的 LF-VILA 模型進(jìn)的驗(yàn)證表明,LF-VILA 取得了最好的性能。具體而言,LF-VILA 在 ActivityNet 段落到視頻檢索任務(wù)上取得了16.1%的相對(duì)改進(jìn),在 How2QA 任務(wù)上取得了2.4%的相對(duì)改進(jìn)。LF-VILA 的代碼、數(shù)據(jù)集和預(yù)訓(xùn)練的模型將很快在官方項(xiàng)目主頁(yè)上發(fā)布,歡迎關(guān)注。
圖4:LF-VILA 預(yù)訓(xùn)練模型框架圖(a)與 MTC 方法示意圖(b)
05
面向多任務(wù)分組學(xué)習(xí)的元學(xué)習(xí)框架
論文鏈接:
https://openreview.net/forum?id=Rqe-fJQtExY
多任務(wù)學(xué)習(xí)范式被廣泛應(yīng)用于各種各樣的機(jī)器學(xué)習(xí)場(chǎng)景中,包括語(yǔ)言理解、視覺識(shí)別、機(jī)器人控制、****物發(fā)現(xiàn)、臨床治療、能源管理等等。然而,如何有效地選擇共同訓(xùn)練的任務(wù)組合卻是一個(gè)極有挑戰(zhàn)性的問題,這里有兩方面的原因:1)任務(wù)組合的數(shù)量隨著任務(wù)數(shù)量的增加而成指數(shù)級(jí)別地增長(zhǎng);2)簡(jiǎn)單地選擇一種分組可能會(huì)導(dǎo)致某些任務(wù)出現(xiàn)嚴(yán)重的性能衰退?,F(xiàn)有的研究工作要么聚焦于給定任務(wù)組合情況下的優(yōu)化方法和模型架構(gòu),要么采用一些啟發(fā)式的方法來應(yīng)對(duì)指數(shù)增長(zhǎng)的任務(wù)組合(比如:將多個(gè)任務(wù)組合在一起的收益,近似均攤為其兩兩組合的收益之和)。諸多新進(jìn)多任務(wù)學(xué)習(xí)研究都認(rèn)為在任務(wù)數(shù)量較多時(shí),充分探索這個(gè)指數(shù)級(jí)別增長(zhǎng)的任務(wù)組合的空間是幾乎不可能完成的任務(wù)。
為了應(yīng)對(duì)任務(wù)組合爆炸增長(zhǎng)的挑戰(zhàn),在本文中,研究員們?yōu)槎嗳蝿?wù)分組學(xué)習(xí)提出了一套元學(xué)習(xí)框架。本文的核心觀測(cè)在于盡管任務(wù)組合的數(shù)量隨著任務(wù)的數(shù)量指數(shù)增長(zhǎng),但任務(wù)組合與在其上做多任務(wù)學(xué)習(xí)帶來的增益之間的關(guān)系卻存在于一個(gè)低維的流形空間中?;诖擞^測(cè),本文定義了一個(gè)任務(wù)組合上的元學(xué)習(xí)問題:給定一個(gè)任務(wù)組合,預(yù)測(cè)其多任務(wù)學(xué)習(xí)相對(duì)于單任務(wù)學(xué)習(xí)所帶來的增益。在此元學(xué)習(xí)問題的基礎(chǔ)上,研究員們構(gòu)建了一個(gè)元模型并開發(fā)了一套逐步選擇元學(xué)習(xí)樣本的訓(xùn)練方法?;诖朔椒ǎ恍枰M(jìn)行有限次的多任務(wù)學(xué)習(xí)與評(píng)估,即可獲得一個(gè)有效的元模型來準(zhǔn)確地預(yù)測(cè)出所有未知任務(wù)組合上多任務(wù)學(xué)習(xí)的增益,進(jìn)而實(shí)現(xiàn)有效的任務(wù)分組。
值得注意的是,在視覺、能源、醫(yī)療等多種多任務(wù)學(xué)習(xí)場(chǎng)景下驗(yàn)證了以上框架后,一個(gè)大規(guī)模的實(shí)驗(yàn)評(píng)測(cè)(27個(gè)臨床醫(yī)療預(yù)測(cè)任務(wù),超過10億的任務(wù)組合)表明:在幾乎同等的計(jì)算開銷下,相對(duì)于現(xiàn)有的最佳方案,本文所提出的元學(xué)習(xí)方法獲得了幾乎翻倍的性能提升。
圖5:元學(xué)習(xí)框架圖
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。