博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ICLR 2022 | 微軟亞洲研究院深度學(xué)習(xí)領(lǐng)域最新研究成果一覽

ICLR 2022 | 微軟亞洲研究院深度學(xué)習(xí)領(lǐng)域最新研究成果一覽

發(fā)布人:MSRAsia 時(shí)間:2022-05-23 來(lái)源:工程師 發(fā)布文章
編者按:ICLR(International Conference on Learning Representations)是國(guó)際公認(rèn)的深度學(xué)習(xí)領(lǐng)域頂級(jí)會(huì)議之一,眾多在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域極其有影響力的論文都發(fā)表在該大會(huì)上。今年的 ICLR 大會(huì)于4月25日至29日在線(xiàn)上舉辦。本屆大會(huì)共接收論文1095篇,論文接收率32.3%。今天,我們精選了其中的六篇來(lái)為大家進(jìn)行簡(jiǎn)要介紹,其中研究主題的關(guān)鍵詞包括時(shí)間序列、策略?xún)?yōu)化、解耦表示學(xué)習(xí)、采樣方法、強(qiáng)化學(xué)習(xí)等。歡迎感興趣的讀者閱讀論文原文,一起了解深度學(xué)習(xí)領(lǐng)域的前沿進(jìn)展!


周期性時(shí)間序列的深度展開(kāi)學(xué)習(xí)
圖片

論文鏈接:https://www.microsoft.com/en-us/research/publication/depts-deep-expansion-learning-for-periodic-time-series-forecasting/


周期性時(shí)間序列在電力、交通、環(huán)境、醫(yī)療等領(lǐng)域中普遍存在,但是準(zhǔn)確地捕捉這些時(shí)序信號(hào)的演化規(guī)律卻很困難。一方面是因?yàn)橛^(guān)測(cè)到的時(shí)序信號(hào)往往對(duì)隱式的周期規(guī)律有著各種各樣復(fù)雜的依賴(lài)關(guān)系,另一方面是由于這些隱式的周期規(guī)律通常也由不同頻率、幅度的周期模式復(fù)合而成。然而,現(xiàn)有的深度時(shí)間序列預(yù)測(cè)模型要么忽視了對(duì)周期性的建模,要么依賴(lài)一些簡(jiǎn)單的假設(shè)(加性周期、乘性周期等),從而導(dǎo)致在相應(yīng)預(yù)測(cè)任務(wù)中的表現(xiàn)不如人意。


在深入思考這些研究難點(diǎn)后,微軟亞洲研究院的研究員們?yōu)橹芷谛詴r(shí)間序列的預(yù)測(cè)問(wèn)題提出了一套新型的深度展開(kāi)學(xué)習(xí)框架 DEPTS。該框架既可以刻畫(huà)多樣化的周期性成分,也能捕捉復(fù)雜的周期性依賴(lài)關(guān)系。


圖片

圖1:DEPTS 框架圖


如圖1所示,DEPTS 主要包含兩大模塊:周期模塊(The Periodicity Module)和展開(kāi)模塊(The Expansion Module)。首先,周期模塊負(fù)責(zé)對(duì)整條時(shí)間序列的全局周期進(jìn)行建模,接受全局時(shí)間作為輸入,推斷隱式的周期狀態(tài)作為輸出。為了有效刻畫(huà)多種不同模式的復(fù)合周期,這里使用了一組參數(shù)化的周期函數(shù)(如余弦級(jí)數(shù))來(lái)構(gòu)建周期模塊并使用相應(yīng)變換(如離散余弦變換)來(lái)進(jìn)行高效的參數(shù)初始化。


然后,基于一段觀(guān)測(cè)的時(shí)間序列信號(hào)及其相應(yīng)的隱式周期狀態(tài),展開(kāi)模塊負(fù)責(zé)捕捉觀(guān)測(cè)信號(hào)與隱式周期之間復(fù)雜的依賴(lài)關(guān)系并做出預(yù)測(cè)。在這里,研究員們拓展了經(jīng)典的深度殘差學(xué)習(xí)思想開(kāi)發(fā)了一種深度展開(kāi)學(xué)習(xí)架構(gòu)。在這個(gè)架構(gòu)中,研究員們會(huì)對(duì)輸入的時(shí)間序列及其隱式周期做逐層的依賴(lài)關(guān)系展開(kāi)并得出相應(yīng)預(yù)測(cè)分量。在每一層中,由參數(shù)化的周期神經(jīng)網(wǎng)絡(luò)來(lái)決定本層聚焦的周期分量,并展開(kāi)觀(guān)測(cè)信號(hào)的回看和預(yù)測(cè)分量。在進(jìn)入下一層前,研究員們會(huì)減去本層中產(chǎn)生的周期分量和回看分量,從而鼓勵(lì)后續(xù)的神經(jīng)網(wǎng)絡(luò)層聚焦于尚未展開(kāi)的周期性依賴(lài)。按照這樣的模式堆疊 N 層就構(gòu)成了(深度)展開(kāi)模塊。


研究員們?cè)谏蓴?shù)據(jù)和廣泛的真實(shí)數(shù)據(jù)上都進(jìn)行了實(shí)驗(yàn)驗(yàn)證,明確地揭示了現(xiàn)有方法在周期性時(shí)間序列預(yù)測(cè)方面的短板,并有力地證實(shí)了 DEPTS 框架的優(yōu)越性。值得注意的是,在一些周期模式很強(qiáng)的數(shù)據(jù)上,DEPTS 相對(duì)已有最佳方案的提升可達(dá)20%。


此外,由于對(duì)周期性進(jìn)行了明確的建模并提供了預(yù)測(cè)值在全局周期和局部波動(dòng)兩方面的分量展開(kāi),DEPTS 天生帶有一定可解釋性。


在基于模型的策略?xún)?yōu)化算法中,模型的梯度信息是重要的

圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/gradient-information-matters-in-policy-optimization-by-back-propagating-through-model/


基于模型的強(qiáng)化學(xué)習(xí)方法提供了一種通過(guò)與學(xué)到的環(huán)境進(jìn)行交互從而獲得最優(yōu)策略的高效機(jī)制。在這篇論文中,研究員們研究了其中模型學(xué)習(xí)與模型使用不匹配的問(wèn)題。具體來(lái)說(shuō),為了獲得當(dāng)前策略的更新方向,一個(gè)有效的方法就是利用模型的可微性去計(jì)算模型的導(dǎo)數(shù)。 然而,現(xiàn)在常用的方法都只是簡(jiǎn)單地將模型的學(xué)習(xí)看成是一個(gè)監(jiān)督學(xué)習(xí)的任務(wù),利用模型的預(yù)測(cè)誤差去指導(dǎo)模型的學(xué)習(xí),但是忽略了模型的梯度誤差。簡(jiǎn)而言之,基于模型的強(qiáng)化學(xué)習(xí)算法往往需要準(zhǔn)確的模型梯度,但是在學(xué)習(xí)階段只減小了預(yù)測(cè)誤差,因此就存在目標(biāo)不一致的問(wèn)題。


本篇論文中,研究員們首先在理論上證明了模型的梯度誤差對(duì)于策略?xún)?yōu)化是至關(guān)重要的。由于策略梯度的偏差不僅受到模型預(yù)測(cè)誤差的影響而且也受到模型梯度誤差的影響,因此這些誤差會(huì)最終影響到策略?xún)?yōu)化過(guò)程的收斂速率。


接下來(lái),論文提出了一個(gè)雙模型的方法去同時(shí)控制模型的預(yù)測(cè)和梯度誤差。研究員們?cè)O(shè)計(jì)了兩個(gè)不同的模型,并且在模型的學(xué)習(xí)和使用階段分別讓這兩個(gè)模型承擔(dān)了不同的角色。在模型學(xué)習(xí)階段,研究員們?cè)O(shè)計(jì)了一個(gè)可行的方法去計(jì)算梯度誤差并且用其去指導(dǎo)梯度模型的學(xué)習(xí)。在模型使用階段,研究員們先利用預(yù)測(cè)模型去獲得預(yù)測(cè)軌跡,再利用梯度模型去計(jì)算模型梯度。結(jié)合上述方法,本篇論文提出了基于方向?qū)?shù)投影的策略?xún)?yōu)化算法(DDPPO)。 最后,在一系列連續(xù)控制基準(zhǔn)任務(wù)上的實(shí)驗(yàn)結(jié)果證明了論文中提出的算法確實(shí)有著更高的樣本效率。


圖片

圖2: (a)模型學(xué)習(xí)和使用中的不一致。 (b)DDPPO 算法的示意圖。DDPPO 算法分別構(gòu)造了預(yù)測(cè)模型和梯度模型。DDPPO 算法使用不同的損失函數(shù)去分別訓(xùn)練這兩個(gè)模型,并且在策略?xún)?yōu)化中分別恰當(dāng)?shù)厥褂盟麄儭?/span>



RecurD遞歸解耦網(wǎng)絡(luò)


圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/recursive-disentanglement-network/


機(jī)器學(xué)習(xí)的最新進(jìn)展表明,解耦表示的學(xué)習(xí)能力有利于模型實(shí)現(xiàn)高效的數(shù)據(jù)利用。其中 BETA-VAE 及其變體是解耦表示學(xué)習(xí)中應(yīng)用最為廣泛的一類(lèi)方法。這類(lèi)工作引入了多種不同的歸納偏差作為正則化項(xiàng),并將它們直接應(yīng)用于隱變量空間,旨在平衡解耦表示的信息量及其獨(dú)立性約束之間的關(guān)系。然而,深度模型的特征空間具有天然的組合結(jié)構(gòu),即每個(gè)復(fù)雜特征都是原始特征的組合。僅將解耦正則化項(xiàng)應(yīng)用于隱變量空間無(wú)法有效地在組合特征空間中傳播解耦表示的約束。


本篇論文旨在結(jié)合組合特征空間的特點(diǎn)來(lái)解決解耦表示學(xué)習(xí)問(wèn)題。首先,論文從信息論的角度定義了解耦表示的屬性,從而引入了一個(gè)新的學(xué)習(xí)目標(biāo),包括三個(gè)基本屬性:充分性、最小充分性和解耦性。從理論分析表明,本篇論文所提出的學(xué)習(xí)目標(biāo)是 BETA-VAE 及其幾個(gè)變種的一般形式。接下來(lái),研究員們將所提出的學(xué)習(xí)目標(biāo)擴(kuò)展到了組合特征空間,以涵蓋組合特征空間中的解纏結(jié)表示學(xué)習(xí)問(wèn)題,包括組合最小充分性和組合解耦性。


基于組合解耦學(xué)習(xí)目標(biāo),本篇論文提出了對(duì)應(yīng)的遞歸解纏結(jié)網(wǎng)絡(luò)(Recursive disentanglement network, RecurD,在模型網(wǎng)絡(luò)中的組合特征空間內(nèi),遞歸地傳播解耦歸納偏置來(lái)指導(dǎo)解纏結(jié)學(xué)習(xí)過(guò)程。通過(guò)前饋網(wǎng)絡(luò),遞歸的傳播強(qiáng)歸納偏差是解耦表示學(xué)習(xí)的充分條件。實(shí)驗(yàn)表明,相較于 BETA-VAE 及其變種模型,RecurD 實(shí)現(xiàn)了更好的解耦表示學(xué)習(xí)。并且,在下游分類(lèi)任務(wù)中,RecurD 也表現(xiàn)出了一定的有效利用數(shù)據(jù)的能力。


圖片

圖3:RecurD 網(wǎng)絡(luò)結(jié)構(gòu)


04

基于鏡像斯坦因算符的采樣方法


圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/sampling-with-mirrored-stein-operators/


貝葉斯推理(Bayesian inference)等一些機(jī)器學(xué)習(xí)及科學(xué)計(jì)算問(wèn)題都可歸結(jié)為用一組樣本來(lái)代表一個(gè)只知道未歸一化密度函數(shù)的分布。不同于經(jīng)典的馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo)方法,近年來(lái)發(fā)展起來(lái)的斯坦因變分梯度下降方法(Stein variational gradient descent,簡(jiǎn)記為 SVGD)具有更好的樣本高效性,但對(duì)在受限空間(圖中Θ)上分布的采樣或?qū)π螤钆で姆植嫉牟蓸尤燥@吃力。


圖片

圖4:原樣本空間\Theta及其鏡像空間示意


本篇論文中,研究員們借鑒優(yōu)化領(lǐng)域中鏡像下降方法(mirrored descent)的思想,推導(dǎo)設(shè)計(jì)出了一系列鏡像斯坦因算符(mirrored Stein operators)及其對(duì)應(yīng)的鏡像 SVGD 方法。原空間經(jīng)鏡像映射(圖中?ψ)所得的鏡像空間是不受限的并可體現(xiàn)分布的幾何信息,因而這些方法系統(tǒng)性地解決了上述問(wèn)題。


具體來(lái)說(shuō),SVGD 的原理是使用能最大化樣本分布與目標(biāo)分布之間 KL 散度減小率的更新方向來(lái)更新樣本,從而使樣本分布不斷逼近目標(biāo)分布,而這個(gè)減小率和更新方向都是由斯坦因算符給出的。因而論文首先推導(dǎo)出了鏡像空間中的斯坦因算符(圖中 M_(p,ψ))和樣本的更新方向(圖中 E_(θ~q_t ) [M_(p,ψ) K(θ_t,θ)])。


研究員們進(jìn)而設(shè)計(jì)了三種計(jì)算更新方向所需的核函數(shù)(kernel function,圖中 K),分別可在單樣本情況下劃歸為針對(duì)鏡像空間及原空間上目標(biāo)分布峰值的梯度下降,以及原空間上的自然梯度下降。該論文還推導(dǎo)了所提方法的收斂性保證。實(shí)驗(yàn)發(fā)現(xiàn)所提方法比原本的 SVGD 有更好的收斂速度和精度。



部署高效的強(qiáng)化學(xué)習(xí):理論下界與最優(yōu)算法
圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/towards-deployment-efficient-reinforcement-learning-lower-bound-and-optimality/


傳統(tǒng)的(在線(xiàn))強(qiáng)化學(xué)習(xí)(RL)的學(xué)習(xí)過(guò)程可以概括為兩部分的循環(huán):其一是根據(jù)收集的數(shù)據(jù)學(xué)習(xí)一個(gè)策略(policy);其二是將策略部署到環(huán)境中進(jìn)行交互,獲得新的數(shù)據(jù)用于接下來(lái)的學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的目標(biāo)就是在這樣的循環(huán)中完成對(duì)環(huán)境的探索,提升策略直至最優(yōu)。


然而在一些實(shí)際應(yīng)用中,部署策略的過(guò)程會(huì)十分繁瑣,而相對(duì)來(lái)講,當(dāng)部署完新的策略之后,數(shù)據(jù)的收集過(guò)程是很快的。比如在推薦系統(tǒng)中,策略就是推薦方案,好的策略可以精準(zhǔn)地推送用戶(hù)所需要的內(nèi)容??紤]到用戶(hù)體驗(yàn),通常一家公司在上線(xiàn)新的推薦策略之前會(huì)進(jìn)行很長(zhǎng)時(shí)間的內(nèi)部測(cè)試來(lái)檢驗(yàn)性能,由于龐大的用戶(hù)基數(shù),往往部署之后短時(shí)間內(nèi)就可以收集到海量的用戶(hù)反饋數(shù)據(jù)來(lái)進(jìn)行后續(xù)的策略學(xué)習(xí)。在這樣的應(yīng)用中,研究員們更傾向于選擇只需要很少部署次數(shù)(deployment complexity)就能學(xué)到好策略的算法。


但是現(xiàn)有的強(qiáng)化學(xué)習(xí)算法以及理論和上述真實(shí)需求之間還有距離。在這篇論文中,研究員們嘗試去填補(bǔ)這個(gè)空白。研究員們首先從理論的角度上,對(duì) deployment-efficient RL 這個(gè)問(wèn)題提供了一個(gè)比較嚴(yán)謹(jǐn)?shù)亩x。之后以 episodic linear MDP 作為一個(gè)具體的設(shè)定,研究員們分別研究了最優(yōu)的算法能表現(xiàn)的怎樣(lower bound),以及提出了可以達(dá)到最優(yōu)的部署復(fù)雜度的算法設(shè)計(jì)方案(optimality)。


其中,在 lower bound 部分,研究員們貢獻(xiàn)了理論下界的構(gòu)造與相關(guān)證明;在 upper bound 部分,研究員們提出了“逐層推進(jìn)”的探索策略(如圖5所示),并貢獻(xiàn)了基于協(xié)方差矩陣估計(jì)的新的算法框架,以及一些技術(shù)層面的創(chuàng)新。研究員們的結(jié)論也揭示了部署帶有隨機(jī)性的策略對(duì)于降低部署復(fù)雜度的顯著作用,這一點(diǎn)在之前的工作當(dāng)中往往被忽略了。


圖片

圖5:“逐層推進(jìn)”的探索策略(以3層的離散馬爾科夫決策過(guò)程為例)



強(qiáng)化學(xué)習(xí)中的變分先知引導(dǎo)


圖片


論文鏈接:https://www.microsoft.com/en-us/research/publication/variational-oracle-guiding-for-reinforcement-learning/

GitHub鏈接:https://github.com/Agony5757/mahjong


深度強(qiáng)化學(xué)習(xí)(DRL最近在各種決策問(wèn)題上都取得了成功,然而有一個(gè)重要的方面還沒(méi)有被充分探索——如何利用 oracle observation(決策時(shí)不可見(jiàn),但事后可知的信息)來(lái)幫助訓(xùn)練。例如,人類(lèi)****高手會(huì)在賽后查看比賽的回放,在回放中,他們可以分析對(duì)手的手牌,從而幫助他們更好地反思比賽中自己根據(jù)可見(jiàn)信息(executor observation)來(lái)做的決策是否可以改進(jìn)。這樣的問(wèn)題被稱(chēng)為 oracle guiding。


在這項(xiàng)工作中,研究員們基于貝葉斯理論對(duì) oracle guiding 的問(wèn)題進(jìn)行了研究。本篇論文提出了一種新的基于變分貝葉斯方法(variational Bayes)的強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù),來(lái)利用 oracle observation 幫助訓(xùn)練。這項(xiàng)工作的主要貢獻(xiàn)是提出了一個(gè)通用的強(qiáng)化學(xué)習(xí)框架,稱(chēng)為 Variational Latent Oracle Guiding (VLOG)。VLOG 具有許多優(yōu)異的性質(zhì),比如在各種任務(wù)上都有著良好且魯棒的表現(xiàn),而且 VLOG 可以與任何 value-based 的 DRL 算法相結(jié)合使用。


圖片

圖6:VLOG 在訓(xùn)練時(shí)和使用時(shí)的模型圖表(以 Q-learning 為例)。左:訓(xùn)練時(shí)(知道 oracle observation),分別用 executor observation 和 oracle observation 來(lái)估計(jì)一個(gè)貝葉斯隱變量z的先驗(yàn)(prior)和后驗(yàn)(posterior)分布。通過(guò)優(yōu)化 VLOG 變分下界(variational lower bound,后驗(yàn)?zāi)P偷膹?qiáng)化學(xué)習(xí)目標(biāo)函數(shù)減去z的后驗(yàn)和先驗(yàn)分布之間的KL散度)來(lái)訓(xùn)練整個(gè)模型。右:使用時(shí),基于可見(jiàn)信息來(lái)做出決策。


研究員們對(duì) VLOG 進(jìn)行了各種任務(wù)的實(shí)驗(yàn),包括一個(gè)迷宮,簡(jiǎn)明版的 Atari Games,以及麻將。實(shí)驗(yàn)涵蓋了在線(xiàn)以及離線(xiàn)強(qiáng)化學(xué)習(xí)的不同情況,均驗(yàn)證了 VLOG 的良好表現(xiàn)。 此外,研究員們還開(kāi)源了文中使用的麻將強(qiáng)化學(xué)習(xí)環(huán)境和對(duì)應(yīng)的離線(xiàn)強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,來(lái)作為未來(lái) oracle guiding 問(wèn)題和復(fù)雜決策環(huán)境研究的標(biāo)準(zhǔn)化測(cè)試環(huán)境 。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電容傳感器相關(guān)文章:電容傳感器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉