ICLR 2021 | 微軟亞洲研究院精選論文一覽(2)
結(jié)論三:預訓練和下游任務(wù)的問題對齊決定了遷移效果
為了進一步解釋為何自監(jiān)督預訓練在目標檢測上效果更好,研究員們又做了如下實驗。(1)通過分析檢測錯誤,自監(jiān)督預訓練能得到更準確的位置信息。(2)當利用 Deep image prior 對高層特征進行圖像重建時,自監(jiān)督重建的圖像更接近于原圖并且更加完整。雖然對比學習訓練時也包含了位置尺度不變性,但卻能在重建中保持正確的尺度和位置。相反,有監(jiān)督的學習過度關(guān)注物體的局部區(qū)域,丟失了很多對于精確定位的重要信息。研究員們認為 instance discrimination 方法為了保證當前實例區(qū)別與其它所有實例,盡可能的保留了更多的信息。
圖6:對于物體檢測,有監(jiān)督的預訓練(相比自監(jiān)督)帶來了更多定位的錯誤
圖7:自監(jiān)督模型可以更好的重建底層的圖像信息
二、一種改進的有監(jiān)督預訓練方法
大量的標注數(shù)據(jù)包含了豐富的語義信息,應該對下游任務(wù)有所幫助,但傳統(tǒng)的有監(jiān)督預訓練是通過減小 intra-class variation 進行學習的。這樣模型更多的關(guān)注了對特定類有識別力的區(qū)域,從而忽略了其它可能包含有用信息的區(qū)域。一個更好的有監(jiān)督預訓練方法應該僅僅拉遠不同類的實例,而不對同類樣本加以任何約束,這樣可以更好地保留每個實例的特征。參考 examplar SVM 的方法,研究員們在 instance discrimination 的損失函數(shù)上進行了改進。
實驗證明這種方式在圖像分類和目標識別兩個下游任務(wù)上都得到了提升。
表9:改進的有監(jiān)督模型 examplar 提高了遷移性能
基于實例的層序可變Transformer網(wǎng)絡(luò)結(jié)構(gòu)
論文地址: https://arxiv.org/abs/2103.03457
Transformer 網(wǎng)絡(luò)在自然語言以及視覺領(lǐng)域取得了極大的成功。它由三個基本的子層:自注意力層 (self-attention, SA)、編碼-解碼注意力層 (encoder-decoder attention, ED)和前饋全連接層 (feed-forward, FF)線性堆疊而成,并且這些子層的順序是固定的。然而,微軟亞洲研究院的研究員們通過一些簡單的驗證發(fā)現(xiàn),不同的子層順序堆疊的網(wǎng)絡(luò) (如 SA→FF→ED 或者 FF→ED→SA) 對于不同的樣本來說重要程度是不一樣的。如表10所示,對于這個句子,用不同的子層順序網(wǎng)絡(luò)翻譯出的結(jié)果差距非常大。這告訴研究員們,其實每個語句都擁有自己偏好的網(wǎng)絡(luò)順序來進行更好的翻譯。
基于上述發(fā)現(xiàn),研究員們提出了基于實例的子層順序動態(tài)可變的 Transformer 網(wǎng)絡(luò)結(jié)構(gòu) (IOT),以打破固定順序的 Transformer 網(wǎng)絡(luò),使得網(wǎng)絡(luò)能夠通過不同順序的堆疊來建模不同的函數(shù),從而增大了網(wǎng)絡(luò)的建??臻g并提升最后的任務(wù)結(jié)果表現(xiàn)。值得注意的是,研究員們的方法幾乎沒有增加額外的參數(shù),并且能夠適用于各類神經(jīng)網(wǎng)絡(luò) (如驗證了在 DynamicConv 上的結(jié)果) ,只需網(wǎng)絡(luò)包含不同的子層結(jié)構(gòu)。
表10:一句德文語句的不同子層順序網(wǎng)絡(luò)對應的不同英文翻譯結(jié)果以及 BLEU、TER 的分數(shù)差距
關(guān)于論文中使用的方法,具體來說,研究員們在 Transformer 的編碼器和****模塊之前各增加了一個輕量的、基于 MLP 的層序預測器網(wǎng)絡(luò),以此來進行不同的子層順序選擇??蚣苋鐖D8所示,圖中展示了對于三個不同的樣本進行各自的子層順序網(wǎng)絡(luò)選擇的結(jié)果。
圖8:IOT: 基于實例的子層順序變化的框架圖以及三個樣例的順序選擇
研究員們采用了基于 Gumbel-softmax 的不同子層順序的權(quán)重學習。以****的順序選擇為例,λ_n 即為第 n 種層序的重要程度,其中 s_d 為編碼器最后層輸出的平均。同理,編碼器的第m種順序的重要程度用 γ_m 表示。所以研究員們根據(jù) λ_n 以及 γ_m 的大小 (argmax) 來選擇相應的編碼器和****的子層順序。
在訓練過程中,研究員們還使用了一個探索(exploration)和一個利用(exploitation)的損失函數(shù)來輔助訓練(通過約束順序的分布),從而使得每個數(shù)據(jù)實例能夠選擇其偏好的順序,并且網(wǎng)絡(luò)能夠穩(wěn)定且有效。
研究員們在三個不同的序列生成任務(wù)——機器翻譯、文本摘要以及代碼生成上進行了驗證,一共包含9個不同的數(shù)據(jù)集。實驗表明 IOT 都取得了超越基準模型不少的優(yōu)異結(jié)果。如在 IWSLT8 個方向的小數(shù)據(jù)集翻譯任務(wù)上都取得了超過一個點的 BLEU 提升,在 WMT14 的 En->De 大數(shù)據(jù)上取得了30.03的 BLEU 分數(shù)。研究員們還進行了各類不同方面的分析,以數(shù)據(jù)和順序間的選擇關(guān)系為例,如圖9所示,在數(shù)據(jù)所選擇的子層順序網(wǎng)絡(luò)上的確取得了超越其余子層順序的更優(yōu)結(jié)果,因此證明了數(shù)據(jù)的確進行了自己更偏好的、更優(yōu)的子層順序選擇。研究員們的方法簡單而高效,希望能夠讓更多人關(guān)注如何構(gòu)建動態(tài)網(wǎng)絡(luò),從而增強網(wǎng)絡(luò)的建模能力。
圖9:根據(jù)層序預測器預測劃分的數(shù)據(jù)集以及不同子層順序的翻譯結(jié)果
基于回報的對比表征學習在強化學習中的應用
論文地址: https://openreview.net/pdf?id=_TM6rT7tXke
在深度強化學習中,如何學習緊致且有效的狀態(tài)表示是解決復雜決策問題和提升樣本效率的一個關(guān)鍵問題。最近,很多工作利用基于對比學習的輔助任務(wù)在強化學習過程中加強狀態(tài)表示的學習,都取得了很好的實際效果,但已有的基于對比學習的輔助任務(wù)并沒有充分考慮到強化學習問題的特性,而且大多是無/自監(jiān)督的。因此,微軟亞洲研究院的研究員們探究了如何利用回報分布 (Return Distribution)——強化學習中最為重要的反饋信號,來構(gòu)建一個新的對比學習式輔助任務(wù)。
首先,為了從數(shù)學上嚴謹?shù)乜坍嬂没貓蠓植歼@一想法,研究員們提出了 Z^π-irrelevance 抽象函數(shù)。直觀上來說,Z^π-irrelevance 抽象函數(shù)會把回報分布類似的狀態(tài)動作對聚集到一起。相比于之前的抽象函數(shù),該函數(shù)能夠在不損失過多信息的同時,大幅縮小狀態(tài)動作空間,從而提高學習效率。該抽象函數(shù)具有兩大特點:
1.可以更大程度上地縮小狀態(tài)動作空間。
2.能夠在抽象狀態(tài)動作空間中精確表示原狀態(tài)動作空間的價值函數(shù)。
圖10:Z^π-irrelevance 抽象函數(shù)示意圖
接下來,為了從采樣數(shù)據(jù)中學習得到 Z^π-irrelevance 抽象函數(shù),研究員們提出了基于對比損失函數(shù)的Z學習算法:
這里,? 代表編碼器,也就是狀態(tài)動作表示;w 代表判別器;y 是二元標簽,用于判斷當前兩個狀態(tài)動作對 x_1,x_2 是否具有相同的采樣回報值。
在理論上,該方法嚴謹?shù)刈C明了 Z 學習算法會以 1/√n 的速率收斂到 Z^π-irrelevance 抽象函數(shù)。而實際中,也可以通過分段的方式來判斷兩個狀態(tài)動作是否具有同樣的采樣回報值。具體來說,軌跡內(nèi)分段的思路如下:從頭到尾捋一遍采樣得到的整條軌跡,如果累計的獎勵絕對值變動超過某個閾值,那么就會從這里形成一個新的分段。這就是實際的 RCRL 算法。
圖11:RCRL 算法示意圖
為了驗證算法的有效性,研究員們分別在 Atari 游戲的26個游戲以及 DMControl 套件的6個任務(wù)中進行了大量實驗,結(jié)果表明 RCRL 算法不僅可以取得比其它前沿的狀態(tài)表示算法更佳的樣本效率,還可以和一些已有的狀態(tài)表示算法 (比如,CURL) 結(jié)合,共同提升基準算法的樣本效率。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。