非自回歸生成研究最新綜述，近200篇文獻(xiàn)揭示挑戰(zhàn)和未來(lái)方向

發(fā)布人：MSRAsia 時(shí)間：2022-05-23 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

編者按：近年來(lái)，由于并行的快速推理能力，非自回歸生成在自然語(yǔ)言處理、語(yǔ)音處理等領(lǐng)域展示出了其特有的優(yōu)勢(shì)，并日益成為生成模型的研究熱點(diǎn)。為了促進(jìn)非自回歸生成模型的發(fā)展，微軟亞洲研究院與蘇州大學(xué)的研究員們共同撰寫(xiě)了綜述論文“A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond”，回顧了非自回歸生成在神經(jīng)機(jī)器翻譯以及其他任務(wù)中的發(fā)展，并對(duì)非自回歸生成的未來(lái)提出了展望。

在如機(jī)器翻譯、對(duì)話生成、語(yǔ)音合成等自然語(yǔ)言、語(yǔ)音等生成任務(wù)中，自回歸（auto-regressive，AR）生成是一種最常采用的生成方法。簡(jiǎn)單來(lái)說(shuō)，AR 生成指的是用迭代循環(huán)的方式來(lái)依次生成一句語(yǔ)音或文本。比如，為了生成一句長(zhǎng)度為5的句子，AR 生成首先會(huì)生成第一個(gè)詞語(yǔ)，然后基于第一個(gè)詞語(yǔ)生成第二個(gè)詞語(yǔ)，再基于前二個(gè)詞語(yǔ)生成第三個(gè)詞語(yǔ)，以此類(lèi)推。由于每次新的詞語(yǔ)生成都依賴于之前生成的詞語(yǔ)，因此自回歸的生成方式能夠保證生成的準(zhǔn)確度。

但顯然，這樣循環(huán)的生成方式效率非常低，尤其是對(duì)生成長(zhǎng)句子來(lái)說(shuō)則更為明顯。為了加速生成過(guò)程，非自回歸（non-autoregressive，NAR）生成被提出，通過(guò)一次性并行地生成句子中所有詞語(yǔ)的方式，NAR 生成方法極大地提升了生成效率。然而，NAR 生成的準(zhǔn)確率并沒(méi)有得到保證，其性能與自回歸生成相比仍有一定差距。因此，如何平衡好 AR 生成與 NAR 生成的優(yōu)劣，是當(dāng)下生成任務(wù)的研究重點(diǎn)。

綜述概覽

NAR 生成在神經(jīng)機(jī)器翻譯 (neural machine translation，NMT) 中首次被提出，此后 NAR 生成便引起了機(jī)器學(xué)習(xí)和自然語(yǔ)言處理領(lǐng)域的廣泛關(guān)注。如前文所述，雖然 NAR 生成可以顯著提升機(jī)器翻譯的推理生成速度，但與 AR 生成相比，其加速是在犧牲翻譯準(zhǔn)確性的代價(jià)上實(shí)現(xiàn)的。近年來(lái)，為了彌補(bǔ) NAR 生成和 AR 生成之間的準(zhǔn)確性差距，許多新的模型和算法陸續(xù)被提出。

為了促進(jìn) NAR 生成模型的發(fā)展，微軟亞洲研究院與蘇州大學(xué)的研究員們共同撰寫(xiě)了綜述論文“A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond”（點(diǎn)擊閱讀原文，查看論文詳情）。

在文章中，研究員們給出了一個(gè)系統(tǒng)、全面的綜述。首先，研究員們從不同方面比較和討論了各種非自回歸翻譯（non-autoregressive translation，NAT）模型，具體來(lái)說(shuō)就是對(duì) NAT 的工作進(jìn)行了幾組不同的分類(lèi)，包括數(shù)據(jù)操作（data manipulation）、建模方法（modeling methods）、訓(xùn)練準(zhǔn)則（training criteria）、解碼算法（decoding ways）以及利用預(yù)訓(xùn)練模型（benefit from pre-training）。此外，研究員們還簡(jiǎn)要總結(jié)回顧了 NAR 生成在機(jī)器翻譯之外的其他應(yīng)用，例如對(duì)話生成、文本摘要、語(yǔ)法糾錯(cuò)、語(yǔ)義解析、語(yǔ)音合成和自動(dòng)語(yǔ)音識(shí)別等等。最后，研究員們討論了 NAR 未來(lái)值得繼續(xù)探索的潛在方向，包括減少對(duì)知識(shí)蒸餾（knowledge distillation，KD）的依賴性、動(dòng)態(tài)解碼長(zhǎng)度預(yù)測(cè)、NAR 生成的預(yù)訓(xùn)練，以及更廣泛的應(yīng)用。圖1展示了本篇綜述論文的整體結(jié)構(gòu)。

研究員們希望該綜述文章可以幫助研究人員更好地了解 NAR 生成的最新進(jìn)展，啟發(fā)更先進(jìn)的 NAR 模型和算法的設(shè)計(jì)，使行業(yè)從業(yè)者能夠根據(jù)其所在領(lǐng)域選擇合適的解決方案。

圖1：非自回歸（NAR）生成研究綜述概覽架構(gòu)圖

NAT 模型面臨的主要挑戰(zhàn)與解決方案

傳統(tǒng)的自回歸機(jī)器翻譯（autoregressive translation，AT）模型由編碼器和****構(gòu)成，編碼器對(duì)源語(yǔ)句進(jìn)行編碼后輸至****，然后****根據(jù)源語(yǔ)句和上一步預(yù)測(cè)的目標(biāo)端語(yǔ)言單詞來(lái)預(yù)測(cè)下一個(gè)單詞，這種逐字的生成方式限制了 AT 模型的解碼速度。而為了實(shí)現(xiàn)在訓(xùn)練和推理時(shí)并行的解碼方式， NAT 僅僅依賴源語(yǔ)句信息來(lái)生成所有目標(biāo)單詞，摒棄了目標(biāo)端單詞之間的條件依賴。這種方式極大地加速了模型的解碼，但也增加了 NAR 模型的訓(xùn)練難度，造成模型“難以建模目標(biāo)語(yǔ)言單詞之間的條件信息”。

針對(duì)該挑戰(zhàn)，現(xiàn)有的工作提出了多種解決方案。綜述文章對(duì)現(xiàn)有工作進(jìn)行了分類(lèi)，從數(shù)據(jù)、模型、損失函數(shù)、解碼算法、利用預(yù)訓(xùn)練模型五個(gè)角度對(duì)相關(guān)方法進(jìn)行了介紹和比較。其中，數(shù)據(jù)、模型和損失函數(shù)是自回歸文本生成模型的三個(gè)基本組成部分，這方面的工作旨在研究上述三個(gè)方面的傳統(tǒng)方法在 NAR 模型上的不足，并進(jìn)行相應(yīng)的改進(jìn)；解碼算法和利用預(yù)訓(xùn)練模型則是非自回歸文本生成模型中區(qū)別于 AR 生成的特殊模塊，包括目標(biāo)語(yǔ)句長(zhǎng)度預(yù)測(cè)、非自回歸預(yù)訓(xùn)練等，這方面的工作旨在設(shè)計(jì)合理、有效的算法來(lái)最大化地提升 NAR 生成模型的效果。這幾方面的聯(lián)系如圖2所示。

圖2：非自回歸機(jī)器翻譯模型的主要框架。其中涉及數(shù)據(jù)處理、模型改進(jìn)、訓(xùn)練準(zhǔn)則、解碼方式、預(yù)訓(xùn)練模型的利用等。

具體來(lái)說(shuō)，上述五個(gè)方面的改進(jìn)如下：

1. 數(shù)據(jù)層面進(jìn)行的改進(jìn)，包括利用知識(shí)蒸餾來(lái)生成數(shù)據(jù)、設(shè)計(jì)數(shù)據(jù)學(xué)習(xí)算法等。利用預(yù)訓(xùn)練 NAR 模型，基于知識(shí)蒸餾的方法將訓(xùn)練集中的源語(yǔ)句進(jìn)行翻譯，并將源語(yǔ)句和翻譯結(jié)果作為 NAR 模型的訓(xùn)練集。這種方式可以減少訓(xùn)練數(shù)據(jù)的多樣性，減輕 NAR 模型的訓(xùn)練難度。請(qǐng)注意數(shù)據(jù)層面的方法是通用的方法，例如，基于知識(shí)蒸餾的方法被廣泛應(yīng)用在文中介紹的大部分 NAR 生成模型中。

2. 模型層面進(jìn)行的改進(jìn)，包括設(shè)計(jì)迭代式模型、基于隱變量的模型以及增強(qiáng)****模型結(jié)構(gòu)等。其中，迭代式模型將原始一次解碼的 NAR 模型擴(kuò)展成為多次迭代解碼的模型，這樣在進(jìn)行每輪迭代時(shí)，上一輪迭代的結(jié)果可以作為目標(biāo)語(yǔ)言端的依賴信息，將一次解碼的難度分?jǐn)偟蕉啻蔚?，從而提?NAR 模型的效果。與一次解碼的 NAR 模型相比，迭代式的模型翻譯效果更好，但也犧牲了一部分翻譯速度，是屬于 AR 模型和 NAR 模型的中間態(tài)。

3. 損失函數(shù)層面進(jìn)行的改進(jìn)，主要針對(duì)傳統(tǒng)交叉熵?fù)p失函數(shù)的問(wèn)題，提出一系列改進(jìn)方法，包括基于 CTC、n-gram、以及引入順序信息的損失函數(shù)。其中，由于 n-gram 的方法針對(duì)傳統(tǒng)的交叉熵?fù)p失函數(shù)只能提供單詞級(jí)別的監(jiān)督信息而無(wú)法提供全局信息，研究員們提出了優(yōu)化預(yù)測(cè)和目標(biāo)之間 Bag of N-gram 差異的損失函數(shù)，以補(bǔ)充交叉熵?fù)p失函數(shù)中缺失的全局信息，以更好地對(duì) NAR 模型進(jìn)行優(yōu)化。

4. 解碼算法層面進(jìn)行的改進(jìn)，包括對(duì) NAR 模型的長(zhǎng)度預(yù)測(cè)模塊進(jìn)行改進(jìn)，以及對(duì)傳統(tǒng)解碼算法的改進(jìn)。由于 NAR 模型無(wú)法像 AR 模型一樣隱式地在解碼過(guò)程中決定目標(biāo)語(yǔ)句的長(zhǎng)度，因此需要在解碼過(guò)程開(kāi)始前就對(duì)目標(biāo)語(yǔ)句的長(zhǎng)度進(jìn)行顯式預(yù)測(cè)。這個(gè)步驟十分重要，因?yàn)槟繕?biāo)語(yǔ)句的長(zhǎng)度是否匹配直接影響模型最終的翻譯效果。因此，類(lèi)似自回歸解碼中的 Beam Search，有模型提出了提升長(zhǎng)度預(yù)測(cè)準(zhǔn)確率的方法，如多個(gè)長(zhǎng)度并行解碼等。這些方法也被廣泛應(yīng)用在 NAR 模型中。

5. 利用預(yù)訓(xùn)練模型的方法，包括利用自回歸教師翻譯模型的方法，和利用單語(yǔ)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的方法。其中，由于 NAR 模型和 AR 模型結(jié)構(gòu)相似，并且 AR 模型的翻譯準(zhǔn)確度更高，因此很多方法提出利用預(yù)訓(xùn)練的 AR 模型來(lái)額外監(jiān)督 NAR 模型的訓(xùn)練，包括在隱變量層面引入額外監(jiān)督信息，和基于課程學(xué)習(xí)的遷移學(xué)習(xí)方法等。

研究員們將文中討論的相關(guān)論文按照類(lèi)別列在了表1中，供大家查閱。

表1：針對(duì) NAT 模型5個(gè)方面的研究總結(jié)以及具體的相關(guān)工作

關(guān)于探索 NAR 的開(kāi)放性問(wèn)題和未來(lái)方向

NAR 除了在 NMT 中的應(yīng)用之外，還在其它許多的任務(wù)中也得到了擴(kuò)展應(yīng)用，其中包括文本生成任務(wù)，如文本補(bǔ)全、摘要生成、語(yǔ)法糾正、對(duì)話、風(fēng)格變化，語(yǔ)義解析任務(wù)，文本語(yǔ)音轉(zhuǎn)化任務(wù)，語(yǔ)音翻譯任務(wù)等等。研究員們?cè)诰C述文章中給出了一些具體實(shí)例的介紹，同時(shí)也給出了這些相關(guān)工作的實(shí)現(xiàn)與資源列表。

為了促進(jìn)未來(lái) NAR 的發(fā)展，研究員們對(duì)當(dāng)前 NAR 產(chǎn)生的問(wèn)題進(jìn)行了總結(jié)，并對(duì)未來(lái)可能的方向進(jìn)行了展望，具體包括：（1）如何能夠擺脫當(dāng)下 NAR 嚴(yán)重依賴 AR 進(jìn)行知識(shí)蒸餾的技術(shù)方案；（2）如何能夠降低迭代式 NAR 模型的計(jì)算復(fù)雜度以更好地關(guān)注純 NAR 模型；（3）動(dòng)態(tài)的預(yù)測(cè)目標(biāo)端文本的生成長(zhǎng)度值得深入探索；（4）如何像 AR 模型一般將 NAR 模型擴(kuò)展到多語(yǔ)言多任務(wù)的環(huán)境中是需要進(jìn)一步關(guān)注的；（5）如何對(duì) NAR 模型進(jìn)行更好的預(yù)訓(xùn)練。以上這些都是具有研究前景的研究問(wèn)題。

希望通過(guò)本篇綜述，在不同領(lǐng)域進(jìn)行生成任務(wù)研究的學(xué)者們能夠?qū)?NAR 生成有更全面的認(rèn)識(shí)，并且激發(fā)創(chuàng)造更加先進(jìn)的 NAR 模型，以促進(jìn) NAR 未來(lái)的發(fā)展，影響更廣闊的生成場(chǎng)景。

相關(guān)鏈接：

論文：

https://arxiv.org/pdf/2204.09269.pdf

GitHub：

https://github.com/LitterBrother-Xiao/Overview-of-Non-autoregressive-Applications

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。