ACL 2021 | 難度預(yù)測和采樣平滑，提高ELECTRA模型的表現(xiàn)！

發(fā)布人：MSRAsia 時間：2021-08-12 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：在 ELECTRA 模型的預(yù)訓練過程中，生成器無法直接得到判別器的信息反饋，導致生成器的采樣過程不夠有效。而且，隨著生成器的預(yù)測準確率不斷提高，生成器會過采樣那些正確的詞作為替換詞，從而使判別器的學習低效。為此，微軟亞洲研究院提出了兩種方法：難度預(yù)測和采樣平滑，通過提高生成器的采樣效率來提升模型的表現(xiàn)。相關(guān)研究論文 “Learning to Sample Replacements for ELECTRA Pre-Training” 已被 Findings of ACL 2021 收錄。

ELECTRA 模型包含一個生成器和一個判別器，如圖1所示。生成器將掩碼語言模型任務(wù)（Masked Language Modeling，MLM）作為訓練目標，通過 MLM 頭采樣替換詞，并輸入到判別器；判別器則用來判斷輸入的單詞是否被生成器替換。不同于掩碼語言模型的損失只來自被遮蓋的部分，ELECTRA 的預(yù)訓練損失來自整個句子中的每一個單詞，因此模型表現(xiàn)有大幅提升。

圖1：ELECTRA 模型概覽

然而在 ELECTRA 的預(yù)訓練過程中，由于生成器與判別器之間沒有直接的信息反饋回路，模型的兩部分訓練過程完全獨立，這就導致生成器的采樣較為低效。此外，一個訓練完全的生成器會有很高的MLM準確率，所以大多數(shù)替換詞都是原始輸入的單詞，進而使得采樣效率較為低下。針對上述問題，微軟亞洲研究院提出了兩種方法：難度預(yù)測和采樣平滑，通過提高生成器的采樣效率來提升模型的表現(xiàn)。相關(guān)研究論文 “Learning to Sample Replacements for ELECTRA Pre-Training” 已被 Findings of ACL 2021 收錄。

微信圖片_20210812191057.jpg

論文鏈接：https://arxiv.org/abs/2106.13715

方法一：難度預(yù)測

（Hardness Prediction）

圖2：ELECTRA+HP+Focal 模型概覽

難度預(yù)測的核心是讓生成器可以接受判別器的反饋，進而采樣更多對于判別器來說較難的替換詞。圖2為模型主要結(jié)構(gòu)，除了原有的 MLM 頭，該結(jié)構(gòu)還額外增加了一個用來采樣替換詞的采樣頭。采樣頭用以估計當采樣每一個詞表中的單詞時，所對應(yīng)的判別器的損失。因此，采樣分布由原來的掩碼語言分布變?yōu)橄率龉剑?/p>

p_G (x' |c) 表示了 MLM 頭學習到的掩碼語言概率，L_D (x',c) 表示替換詞為 x' 時所對應(yīng)的判別器的損失。論文證明了在上述分布中采樣替換詞可以將判別器損失的估計方差降為最小。與重要性采樣的思想類似，當生成器從一個不同于 p_G 的分布 p_S 中采樣時，其對判別器損失的估計方差為：

其中，Z 為 L_D (x',c) 在分布 p_G 下的期望?？梢钥吹疆?p_S 為分布(1)所示時，判別器損失的估計方差為0。上述采樣分布(1)的設(shè)計即來自于這個理論最優(yōu)的形式。需要注意的是，由于真實的 L_D (x',c) 不可能在沒有將 x' 作為替換詞輸入到判別器的情況下得到，所以論文中使用了估計值 L ?_D (x',c) 來計算采樣分布。在預(yù)訓練過程中，研究員們將實際的判別器損失作為監(jiān)督信號來訓練采樣頭，通過增加基于難度預(yù)測的采樣頭，生成器可以接收判別器的反饋以實現(xiàn)更高效的采樣。

論文中提出了兩種不同的采樣頭：第一種為 HP-Loss，旨在讓生成器學習判別器預(yù)測某個替換詞為原始詞的概率。采樣頭的損失函數(shù)如下：

對于每一個替換詞 x'（原始輸入詞為 x），生成器對判別器損失的估計為：

將判別器損失的估計值乘以 MLM 頭的輸出概率 p_G，即可得到公式(1)中的采樣分布 p_S。

第二種為 HP-Dist，旨在讓采樣頭直接近似期望采樣分布(1)。在這種情況下，采樣頭對于每一個替換詞 x' 都會通過一個 softmax 層來輸出一個采樣概率：

其中 e 為每個詞的詞嵌入。對于采樣出的替換詞 x'，采樣頭的損失如下：

方法二：采樣平滑

（Sampling Smoothing）

在預(yù)訓練過程中，生成器的 MLM 頭會達到一個較高的準確率。在這種情況下，生成器會過采樣那些正確的詞作為替換詞，使判別器的學習較為低效。為了解決這個問題，研究員們對 MLM 頭采用了焦點損失（Focal loss）。相比于之前的交叉熵損失，焦點損失增加了一個調(diào)節(jié)因子：

換言之，焦點損失已經(jīng)可以降低了那些被判別器分類后的簡單樣例的損失權(quán)重，從而更關(guān)注較難的訓練樣例。直觀上來看，當一個被掩蓋的位置很容易被生成器預(yù)測正確時，調(diào)節(jié)因子會明顯降低；但是如果該位置很難預(yù)測，焦點損失則近似等于原本的交叉熵損失。因此，論文中應(yīng)用焦點損失來平滑生成器的采樣分布，從而減少了在訓練后期生成器總是采樣正確替換詞問題的出現(xiàn)。

通過應(yīng)用以上兩個方法，模型的訓練目標如下所示。與 ELECTRA 一樣，在預(yù)訓練結(jié)束后，只使用判別器在下游任務(wù)上進行微調(diào)即可。

實驗結(jié)果

論文在 small-size 和 base-size 上實現(xiàn)了所提出的 ELECTRA + HP-Dist/HP-Loss + Focal 模型。MLM 頭和采樣頭一起共享生成器的參數(shù)和詞嵌入，但是其預(yù)測層參數(shù)均不相同，因此避免了不必要的模型復雜度升高。為了做到更可靠的比較，研究員們通過增加相對位置編碼，提高了基線模型的表現(xiàn)。

同時，論文在相同數(shù)據(jù)集（Wikipedia and BookCorpus）和超參數(shù)配置下進行了實驗，模型在 GLUE 基準上的實驗結(jié)果如表1所示，在 SQuAD2.0 上的實驗結(jié)果如表2所示?？梢钥吹?，論文中提出的兩個方法均可以提升 ELECTRA 模型在下游任務(wù)上的表現(xiàn)。

表1：ELECTRA + HP-Dist/HP-Loss + Focal 模型和其他基線模型在 GLUE 基準上的比較

表2：ELECTRA + HP-Dist/HP-Loss + Focal 模型和其他基線模型在 SQuAD2.0 數(shù)據(jù)集上的比較

模型分析

為了更好地理解論文中所提出的模型相較于 ELECTRA 模型的優(yōu)勢，研究員們設(shè)計了相應(yīng)的分析實驗。首先，論文比較了 ELECTRA 模型和論文模型的生成器的采樣分布。ELECTRA 模型和論文模型的生成器在被遮蓋位置的最大概率分布如圖3所示?？梢钥吹?ELECTRA 模型生成器最大概率在區(qū)間[0.9, 1]內(nèi)的比率要遠大于論文模型。換句話說，ELECTRA 模型會過采樣這些概率很高的替換詞，導致生成器被迫重復地學習這些簡單的樣例。相比之下，論文模型在每個區(qū)間內(nèi)的分布更為均勻，即模型可以顯著降低采樣簡單樣例的概率，使得整個分布更為平滑。

圖3：在被遮蓋位置，生成器的最大概率分布

論文模型（左），ELECTRA 模型（右）

其次，為了衡量采樣頭對判別器損失的估計水平，論文計算了真實值和估計值之間的相關(guān)系數(shù)，結(jié)果如表3所示。

表3：判別器損失真實值和估計值的相關(guān)系數(shù)

最后，為了證明論文模型的采樣分布，確實可以采樣更多對于判別器來說困難的樣例，論文評估了在原始采樣分布和所提出的采樣分布兩種情況下，判別器的預(yù)測準確率。從表4中可以看到，無論是在全部位置還是在被遮蓋位置進行評估，在論文中提出的采樣分布下，判別器的預(yù)測準確率都低于 ELECTRA 模型原始的采樣分布。結(jié)果表明，整個訓練過程中，生成器采樣到了更多判別器無法準確分類的替換詞，同時判別器也盡可能地對困難的樣例做出正確的預(yù)測。