ICLR 2021 | 微軟亞洲研究院精選論文一覽（2）

發(fā)布人：MSRAsia 時間：2021-05-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

結(jié)論三：預訓練和下游任務(wù)的問題對齊決定了遷移效果

為了進一步解釋為何自監(jiān)督預訓練在目標檢測上效果更好，研究員們又做了如下實驗。（1）通過分析檢測錯誤，自監(jiān)督預訓練能得到更準確的位置信息。（2）當利用 Deep image prior 對高層特征進行圖像重建時，自監(jiān)督重建的圖像更接近于原圖并且更加完整。雖然對比學習訓練時也包含了位置尺度不變性，但卻能在重建中保持正確的尺度和位置。相反，有監(jiān)督的學習過度關(guān)注物體的局部區(qū)域，丟失了很多對于精確定位的重要信息。研究員們認為 instance discrimination 方法為了保證當前實例區(qū)別與其它所有實例，盡可能的保留了更多的信息。

圖6：對于物體檢測，有監(jiān)督的預訓練（相比自監(jiān)督）帶來了更多定位的錯誤

圖7：自監(jiān)督模型可以更好的重建底層的圖像信息

二、一種改進的有監(jiān)督預訓練方法

大量的標注數(shù)據(jù)包含了豐富的語義信息，應該對下游任務(wù)有所幫助，但傳統(tǒng)的有監(jiān)督預訓練是通過減小 intra-class variation 進行學習的。這樣模型更多的關(guān)注了對特定類有識別力的區(qū)域，從而忽略了其它可能包含有用信息的區(qū)域。一個更好的有監(jiān)督預訓練方法應該僅僅拉遠不同類的實例，而不對同類樣本加以任何約束，這樣可以更好地保留每個實例的特征。參考 examplar SVM 的方法，研究員們在 instance discrimination 的損失函數(shù)上進行了改進。

實驗證明這種方式在圖像分類和目標識別兩個下游任務(wù)上都得到了提升。

表9：改進的有監(jiān)督模型 examplar 提高了遷移性能

基于實例的層序可變Transformer網(wǎng)絡(luò)結(jié)構(gòu)

論文地址: https://arxiv.org/abs/2103.03457

Transformer 網(wǎng)絡(luò)在自然語言以及視覺領(lǐng)域取得了極大的成功。它由三個基本的子層：自注意力層 (self-attention, SA)、編碼-解碼注意力層 (encoder-decoder attention, ED)和前饋全連接層 (feed-forward, FF)線性堆疊而成，并且這些子層的順序是固定的。然而，微軟亞洲研究院的研究員們通過一些簡單的驗證發(fā)現(xiàn)，不同的子層順序堆疊的網(wǎng)絡(luò) (如 SA→FF→ED 或者 FF→ED→SA) 對于不同的樣本來說重要程度是不一樣的。如表10所示，對于這個句子，用不同的子層順序網(wǎng)絡(luò)翻譯出的結(jié)果差距非常大。這告訴研究員們，其實每個語句都擁有自己偏好的網(wǎng)絡(luò)順序來進行更好的翻譯。

基于上述發(fā)現(xiàn)，研究員們提出了基于實例的子層順序動態(tài)可變的 Transformer 網(wǎng)絡(luò)結(jié)構(gòu) (IOT)，以打破固定順序的 Transformer 網(wǎng)絡(luò)，使得網(wǎng)絡(luò)能夠通過不同順序的堆疊來建模不同的函數(shù)，從而增大了網(wǎng)絡(luò)的建?？臻g并提升最后的任務(wù)結(jié)果表現(xiàn)。值得注意的是，研究員們的方法幾乎沒有增加額外的參數(shù)，并且能夠適用于各類神經(jīng)網(wǎng)絡(luò) (如驗證了在 DynamicConv 上的結(jié)果) ，只需網(wǎng)絡(luò)包含不同的子層結(jié)構(gòu)。

表10：一句德文語句的不同子層順序網(wǎng)絡(luò)對應的不同英文翻譯結(jié)果以及 BLEU、TER 的分數(shù)差距

關(guān)于論文中使用的方法，具體來說，研究員們在 Transformer 的編碼器和****模塊之前各增加了一個輕量的、基于 MLP 的層序預測器網(wǎng)絡(luò)，以此來進行不同的子層順序選擇?？蚣苋鐖D8所示，圖中展示了對于三個不同的樣本進行各自的子層順序網(wǎng)絡(luò)選擇的結(jié)果。

圖8：IOT: 基于實例的子層順序變化的框架圖以及三個樣例的順序選擇

研究員們采用了基于 Gumbel-softmax 的不同子層順序的權(quán)重學習。以****的順序選擇為例，λ_n 即為第 n 種層序的重要程度，其中 s_d 為編碼器最后層輸出的平均。同理，編碼器的第m種順序的重要程度用 γ_m 表示。所以研究員們根據(jù) λ_n 以及 γ_m 的大小 (argmax) 來選擇相應的編碼器和****的子層順序。

在訓練過程中，研究員們還使用了一個探索（exploration）和一個利用（exploitation）的損失函數(shù)來輔助訓練（通過約束順序的分布），從而使得每個數(shù)據(jù)實例能夠選擇其偏好的順序，并且網(wǎng)絡(luò)能夠穩(wěn)定且有效。

研究員們在三個不同的序列生成任務(wù)——機器翻譯、文本摘要以及代碼生成上進行了驗證，一共包含9個不同的數(shù)據(jù)集。實驗表明 IOT 都取得了超越基準模型不少的優(yōu)異結(jié)果。如在 IWSLT8 個方向的小數(shù)據(jù)集翻譯任務(wù)上都取得了超過一個點的 BLEU 提升，在 WMT14 的 En->De 大數(shù)據(jù)上取得了30.03的 BLEU 分數(shù)。研究員們還進行了各類不同方面的分析，以數(shù)據(jù)和順序間的選擇關(guān)系為例，如圖9所示，在數(shù)據(jù)所選擇的子層順序網(wǎng)絡(luò)上的確取得了超越其余子層順序的更優(yōu)結(jié)果，因此證明了數(shù)據(jù)的確進行了自己更偏好的、更優(yōu)的子層順序選擇。研究員們的方法簡單而高效，希望能夠讓更多人關(guān)注如何構(gòu)建動態(tài)網(wǎng)絡(luò)，從而增強網(wǎng)絡(luò)的建模能力。

圖9：根據(jù)層序預測器預測劃分的數(shù)據(jù)集以及不同子層順序的翻譯結(jié)果

基于回報的對比表征學習在強化學習中的應用

論文地址: https://openreview.net/pdf?id=_TM6rT7tXke

在深度強化學習中，如何學習緊致且有效的狀態(tài)表示是解決復雜決策問題和提升樣本效率的一個關(guān)鍵問題。最近，很多工作利用基于對比學習的輔助任務(wù)在強化學習過程中加強狀態(tài)表示的學習，都取得了很好的實際效果，但已有的基于對比學習的輔助任務(wù)并沒有充分考慮到強化學習問題的特性，而且大多是無/自監(jiān)督的。因此，微軟亞洲研究院的研究員們探究了如何利用回報分布 (Return Distribution)——強化學習中最為重要的反饋信號，來構(gòu)建一個新的對比學習式輔助任務(wù)。

首先，為了從數(shù)學上嚴謹?shù)乜坍嬂没貓蠓植歼@一想法，研究員們提出了 Z^π-irrelevance 抽象函數(shù)。直觀上來說，Z^π-irrelevance 抽象函數(shù)會把回報分布類似的狀態(tài)動作對聚集到一起。相比于之前的抽象函數(shù)，該函數(shù)能夠在不損失過多信息的同時，大幅縮小狀態(tài)動作空間，從而提高學習效率。該抽象函數(shù)具有兩大特點：

1.可以更大程度上地縮小狀態(tài)動作空間。

2.能夠在抽象狀態(tài)動作空間中精確表示原狀態(tài)動作空間的價值函數(shù)。

圖10：Z^π-irrelevance 抽象函數(shù)示意圖

接下來，為了從采樣數(shù)據(jù)中學習得到 Z^π-irrelevance 抽象函數(shù)，研究員們提出了基于對比損失函數(shù)的Z學習算法：

這里，? 代表編碼器，也就是狀態(tài)動作表示；w 代表判別器；y 是二元標簽，用于判斷當前兩個狀態(tài)動作對 x_1,x_2 是否具有相同的采樣回報值。

在理論上，該方法嚴謹?shù)刈C明了 Z 學習算法會以 1/√n 的速率收斂到 Z^π-irrelevance 抽象函數(shù)。而實際中，也可以通過分段的方式來判斷兩個狀態(tài)動作是否具有同樣的采樣回報值。具體來說，軌跡內(nèi)分段的思路如下：從頭到尾捋一遍采樣得到的整條軌跡，如果累計的獎勵絕對值變動超過某個閾值，那么就會從這里形成一個新的分段。這就是實際的 RCRL 算法。

圖11：RCRL 算法示意圖

為了驗證算法的有效性，研究員們分別在 Atari 游戲的26個游戲以及 DMControl 套件的6個任務(wù)中進行了大量實驗，結(jié)果表明 RCRL 算法不僅可以取得比其它前沿的狀態(tài)表示算法更佳的樣本效率，還可以和一些已有的狀態(tài)表示算法 (比如，CURL) 結(jié)合，共同提升基準算法的樣本效率。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

ICLR 2021 | 微軟亞洲研究院精選論文一覽（2）

相關(guān)推薦

技術(shù)專區(qū)