博客專欄

EEPW首頁 > 博客 > ACL 2022 | NLP領(lǐng)域最新熱門研究,你一定不能錯(cuò)過!

ACL 2022 | NLP領(lǐng)域最新熱門研究,你一定不能錯(cuò)過!

發(fā)布人:MSRAsia 時(shí)間:2022-05-23 來源:工程師 發(fā)布文章

編者按:作為自然語言處理領(lǐng)域的國際頂級(jí)學(xué)術(shù)會(huì)議,ACL 每年都吸引了大量學(xué)者投稿和參會(huì),今年的 ACL 大會(huì)將于5月22日至5月27日舉辦。值得注意的是,這也是 ACL 大會(huì)采用 ACL Rolling Review 機(jī)制后的首次嘗試。在此次會(huì)議中,微軟亞洲研究院有多篇論文入選,本文精選了其中的6篇進(jìn)行簡要介紹,論文主題涵蓋了:編碼器****框架、自然語言生成、知識(shí)神經(jīng)元、抽取式文本摘要、預(yù)訓(xùn)練語言模型、零樣本神經(jīng)機(jī)器翻譯等。歡迎感興趣的讀者閱讀論文原文。


SpeechT5:語音和文本聯(lián)合預(yù)訓(xùn)練的編碼器****框架


圖片


論文鏈接:https://arxiv.org/abs/2110.07205


編碼器-****框架廣泛應(yīng)用于自然語言處理和語音處理領(lǐng)域,比如端到端的神經(jīng)機(jī)器翻譯模型和語音識(shí)別模型。受 T5(Text-To-Text Transfer Transformer)在自然語言處理預(yù)訓(xùn)練模型上應(yīng)用成功的啟發(fā),本文提出了一個(gè)統(tǒng)一語音模態(tài)和文本模態(tài)的聯(lián)合框架 SpeechT5,該框架探索了基于自監(jiān)督語音和文本表示學(xué)習(xí)的編碼器-****預(yù)訓(xùn)練方法。


SpeechT5 包含一個(gè)共享的編碼器-解碼網(wǎng)絡(luò)和對(duì)應(yīng)模態(tài)的前處理/后處理網(wǎng)絡(luò),試圖通過編碼器-****框架將不同的語音處理任務(wù)轉(zhuǎn)換成語音/文本到語音/文本的問題。利用大規(guī)模的未標(biāo)注語音和文本數(shù)據(jù),SpeechT5 統(tǒng)一了預(yù)訓(xùn)練學(xué)習(xí)兩種模態(tài)的表示,以提高對(duì)語音和文本的建模能力。為了將文本和語音信息對(duì)齊到統(tǒng)一的語義空間中,本文提出了一種跨模態(tài)的矢量量化方法,該方法將語音和文本向量和潛在量化向量隨機(jī)混合,作為編碼器和****之間的語義接口。研究員們?cè)诙喾N不同的語音處理任務(wù)上評(píng)估了所提出的 SpeechT5 模型,包括自動(dòng)語音識(shí)別、語音合成、語音翻譯、語音轉(zhuǎn)換、語音增強(qiáng)和說話人識(shí)別,均顯示出該模型的有效性和優(yōu)越性。


圖片

圖1:(a)是 SpeechT5 模型結(jié)構(gòu),該模型架構(gòu)包含一個(gè)編碼器-****模塊和六個(gè)模態(tài)特定的前處理/后處理網(wǎng)絡(luò)。(b)是聯(lián)合預(yù)訓(xùn)練方法,通過在不同模態(tài)之間共享潛在量化向量,聯(lián)合預(yù)訓(xùn)練方法搭建起了語音和文本之間的橋梁。


利用對(duì)比前綴的可控自然語言生成
圖片


論文鏈接:https://arxiv.org/abs/2202.13257


為了指導(dǎo)大型預(yù)訓(xùn)練語言模型的生成,之前的工作主要集中在直接微調(diào)語言模型或利用屬性分類模型來引導(dǎo)生成。Prefix-tuning (Li and Liang, 2021) 提出通過訓(xùn)練前綴(一個(gè)小規(guī)模的連續(xù)向量)來替代在下游生成任務(wù)上進(jìn)行的微調(diào)。受此啟發(fā),研究員們?cè)诒疚闹刑岢隽艘环N用于控制 GPT2 生成的新型輕量級(jí)框架。該框架利用一組前綴來引導(dǎo)自然語言文本的生成,每個(gè)前綴都與一個(gè)被控制的屬性相對(duì)應(yīng)。


與使用屬性分類模型或生成判別器相比,使用前綴實(shí)現(xiàn)可控性具有以下優(yōu)點(diǎn):首先,它引入了更少的附加參數(shù)(在實(shí)驗(yàn)中約為 GPT2 參數(shù)的 0.2%-2%)。其次,使用前綴可以使推理速度與原始 GPT2 模型相媲美。與 Prefix-tuning 獨(dú)立訓(xùn)練每個(gè)前綴的方式不同,微軟亞洲研究院的研究員們認(rèn)為屬性之間有相互關(guān)系(比如正面情感和負(fù)面情感是相互對(duì)立的關(guān)系),并且在訓(xùn)練過程中學(xué)習(xí)這種關(guān)系將有助于提高前綴的控制效果。因此,在該框架中,研究員們考慮了前綴之間的關(guān)系并同時(shí)訓(xùn)練了多個(gè)前綴。本文提出了一種新的有監(jiān)督訓(xùn)練方法和一種新的無監(jiān)督訓(xùn)練方法來實(shí)現(xiàn)單屬性控制,而這兩種方法的結(jié)合則可以實(shí)現(xiàn)多屬性控制。單屬性控制任務(wù)(情緒控制、去毒化、主題控制)的實(shí)驗(yàn)結(jié)果表明,研究員們提出的方法可以在保持較高語言質(zhì)量的同時(shí)引導(dǎo)生成文本具備目標(biāo)屬性。而多屬性控制任務(wù)(情感和主題控制)的實(shí)驗(yàn)結(jié)果表明,用該方法訓(xùn)練的前綴可以同時(shí)成功地控制這兩個(gè)方面的屬性。 


圖片

圖2: Prefix-tuning(上)和本文方法(下)在情感控制任務(wù)上的比較。實(shí)線箭頭表示訓(xùn)練過程,虛線箭頭表示生成過程。在本文提出的框架中,訓(xùn)練可以是有監(jiān)督的、半監(jiān)督的、或者無監(jiān)督的。


預(yù)訓(xùn)練 Transformers 中的知識(shí)神經(jīng)元


圖片


論文鏈接:https://arxiv.org/abs/2104.08696


近年來,大規(guī)模預(yù)訓(xùn)練語言模型被證明擁有較好的回憶預(yù)訓(xùn)練語料中所暴露的知識(shí)的能力。但現(xiàn)有的知識(shí)探針工作,如 LAMA,僅僅關(guān)注評(píng)估知識(shí)預(yù)測(cè)的整體準(zhǔn)確率。本文試圖對(duì)預(yù)訓(xùn)練語言模型進(jìn)行更深入的研究,通過引入知識(shí)神經(jīng)元的概念,來探究事實(shí)型知識(shí)是如何在模型中進(jìn)行存儲(chǔ)的。


首先,如圖3所示,研究員們把 Transformer 中的 FFN 模塊類比為鍵-值記憶模塊。具體來說,F(xiàn)FN 中的第一個(gè)線性層可以被看做一系列鍵,而第二個(gè)線性層可以被看做一系列對(duì)應(yīng)的值。一個(gè)隱向量先跟第一個(gè)線性層中的鍵通過內(nèi)積來計(jì)算出一系列中間神經(jīng)元的激活值,然后用這個(gè)激活值作為權(quán)重,來對(duì)第二個(gè)線性層中的值進(jìn)行加權(quán)求和。研究員們假設(shè)知識(shí)神經(jīng)元就存在于這些中間神經(jīng)元之中。


圖片

圖3:研究員們把 FFN 模塊類比為鍵-值記憶模塊,而知識(shí)神經(jīng)元存在于其中


在以上類比和假設(shè)的基礎(chǔ)之上,研究員們提出了一套檢測(cè)知識(shí)神經(jīng)元的方法?;谥R(shí)填空的任務(wù),研究員們先通過知識(shí)歸因算法來找到對(duì)最終知識(shí)表達(dá)最重要的神經(jīng)元,然后再通過一個(gè)知識(shí)神經(jīng)元精煉的步驟,進(jìn)一步提取出跟知識(shí)表達(dá)最為相關(guān)的神經(jīng)元。


研究員們通過實(shí)驗(yàn)驗(yàn)證了知識(shí)神經(jīng)元跟知識(shí)表達(dá)之間的關(guān)系:正向的,研究員們驗(yàn)證了知識(shí)神經(jīng)元的激活值可以直接影響事實(shí)型知識(shí)的表達(dá);反向的,研究員們驗(yàn)證了知識(shí)神經(jīng)元更容易被表達(dá)知識(shí)的文本所激活。此外,基于知識(shí)神經(jīng)元,本文還提出了兩個(gè)初步的知識(shí)編輯方法,通過修改知識(shí)神經(jīng)元對(duì)應(yīng)的 FFN 中的參數(shù),可以一定程度上對(duì)預(yù)訓(xùn)練模型中的一條知識(shí)進(jìn)行更新,也可以從模型中刪除一整類知識(shí)。


基于神經(jīng)標(biāo)簽搜索的零樣本多語言抽取式摘要


圖片


論文鏈接:https://arxiv.org/abs/2204.13512


抽取式文本摘要目前在英文上已經(jīng)取得了很好的性能,這主要得益于大規(guī)模預(yù)訓(xùn)練語言模型和豐富的標(biāo)注語料。但是對(duì)于其他小語種語言,目前很難獲得大規(guī)模的標(biāo)注數(shù)據(jù)。因此,本文的研究內(nèi)容是基于 Zero-Shot 的多語言抽取式文本摘要,具體方法是使用在英文上預(yù)訓(xùn)練好的抽取式文本摘要模型來在其他低資源語言上直接進(jìn)行摘要抽取。針對(duì)多語言 Zero-Shot 中的單語言標(biāo)簽偏差問題,本文提出了多語言標(biāo)簽(Multilingual Label)標(biāo)注算法和神經(jīng)標(biāo)簽搜索模型 NLSSum。


多語言標(biāo)簽是通過機(jī)器翻譯和雙語詞典替換等無監(jiān)督的方式所構(gòu)造的標(biāo)簽,如圖4所示,其中包含a、b、c、d四組標(biāo)簽集合,它們分別通過不同語言間的翻譯和詞替換來構(gòu)造。通過這種方式構(gòu)造的標(biāo)簽?zāi)軌蛟跇?biāo)簽中融入更多跨語言信息。


圖片

圖4:多語言抽取式摘要標(biāo)簽構(gòu)建。a為在英文上獲得的標(biāo)簽集合,b、c、d為對(duì)英文訓(xùn)練集進(jìn)行機(jī)器翻譯(MT)和雙語詞典替換(WR)而獲得的標(biāo)簽集合。


NLSSum 通過神經(jīng)搜索的方式來對(duì)多語言標(biāo)簽中不同標(biāo)簽集合賦予不同的權(quán)重,并最終得到每個(gè)句子加權(quán)平均的標(biāo)簽。本文就是使用這種最終的標(biāo)簽在英文數(shù)據(jù)集上訓(xùn)練抽取式摘要模型(見圖5)。其中,每個(gè)句子的標(biāo)簽得分綜合考慮了句子級(jí)別權(quán)重預(yù)測(cè)器 T_α 以及標(biāo)簽集合級(jí)別權(quán)重預(yù)測(cè)器 T_β 的結(jié)果。和單語言標(biāo)簽相比,多語言標(biāo)簽中存在更多的跨語言語義和語法信息,因此 NLSSum 模型在數(shù)據(jù)集 MLSUM 的所有語言數(shù)據(jù)集上均大幅度超越了基線模型的分?jǐn)?shù),甚至超越了未使用預(yù)訓(xùn)練模型的有監(jiān)督方法(Pointer-Generator)。


圖片

圖5:多語言神經(jīng)標(biāo)簽搜索摘要模型


本文中,研究員們還通過可視化分析進(jìn)一步研究了不同語言間重要信息的分布位置,可以發(fā)現(xiàn)英文語言中重要信息的分布較為靠前,其他語言中重要信息的分布相對(duì)比較分散,而這也是本文多語言標(biāo)簽?zāi)軌蛱嵘P托阅艿闹匾颉?/span>


NoisyTune: 加一點(diǎn)噪聲就能幫你更好地微調(diào)預(yù)訓(xùn)練語言模型
圖片


論文鏈接:https://arxiv.org/abs/2202.12024


預(yù)訓(xùn)練語言模型是近年來自然語言處理領(lǐng)域備受關(guān)注的熱門技術(shù)之一。在下游任務(wù)中如何有效地微調(diào)預(yù)訓(xùn)練語言模型是其成功與否的關(guān)鍵。目前已有的許多方法直接利用下游任務(wù)中的數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練語言模型,如圖6(a)所示。但是,研究員們認(rèn)為語言模型也存在過擬合預(yù)訓(xùn)練任務(wù)和數(shù)據(jù)的風(fēng)險(xiǎn)。由于預(yù)訓(xùn)練任務(wù)與下游任務(wù)通常存在鴻溝,已有的微調(diào)方法較難快速地從預(yù)訓(xùn)練空間遷移到下游任務(wù)空間,特別是當(dāng)下游任務(wù)的訓(xùn)練數(shù)據(jù)較為稀少時(shí)。針對(duì)這一問題,微軟亞洲研究院的研究員們提出了一種簡單而有效的解決方案,即在微調(diào)之前添加少量噪聲來擾動(dòng)預(yù)訓(xùn)練語言模型,名為 NoisyTune。其范式如圖6(b)所示。


圖片

圖6:標(biāo)準(zhǔn)語言模型微調(diào)的方式與本文所提出方式的對(duì)比


研究員們認(rèn)為,對(duì) PLM 添加少量噪聲可以幫助模型“探索”更多潛在的特征空間,從而減輕對(duì)預(yù)訓(xùn)練任務(wù)和數(shù)據(jù)的過擬合問題。為了更好地保留語言模型的知識(shí),研究員們提出了一種根據(jù)參數(shù)矩陣的方差添加均勻噪聲的方法,這種方法能夠根據(jù)不同類型參數(shù)的特點(diǎn)添加合適強(qiáng)度的噪聲,其公式如下。其中超參數(shù)λ控制了添加噪聲的強(qiáng)度。


圖片


研究員們?cè)谟⑽牡?GLUE 數(shù)據(jù)集與多語言的 XTREME 數(shù)據(jù)集上開展了實(shí)驗(yàn)。結(jié)果顯示,NoisyTune 可以有效為不同類型的語言模型帶來提升,特別是對(duì)規(guī)模相對(duì)較小的數(shù)據(jù)集提升幅度更大。


此外,研究員們還進(jìn)一步探究了添加不同噪聲對(duì)于 NoisyTune 的影響,結(jié)果發(fā)現(xiàn)加入全局統(tǒng)一分布的噪聲往往對(duì)模型性能有一定損害,而根據(jù)參數(shù)矩陣的偏離程度添加效果更佳。另外,可能由于高斯噪聲缺乏硬性范圍約束,添加均勻分布噪聲的模型效果比高斯噪聲更好。


圖片

圖7:不同噪聲類型對(duì) NoisyTune 的影響



零樣本神經(jīng)機(jī)器翻譯的跨語言遷移


圖片


論文鏈接:https://arxiv.org/abs/2110.08547


本文證明了在零樣本神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中,合適的多語言預(yù)訓(xùn)練和多語言微調(diào)方法對(duì)提高跨語言遷移的能力都是至關(guān)重要的。根據(jù)這個(gè)動(dòng)機(jī),研究員們提出了 SixT+,一個(gè)強(qiáng)大的多語言神經(jīng)機(jī)器翻譯模型,該模型只使用了六種語言的平行語料進(jìn)行訓(xùn)練,卻能夠同時(shí)支持100種語言的翻譯。


SixT+ 使用 XLM-R large 初始化 ****嵌入和整個(gè)編碼器,然后使用簡單的兩階段訓(xùn)練策略訓(xùn)練 編碼器和****。SixT+ 在不少翻譯方向上都取得了很好的結(jié)果,性能明顯優(yōu)于 CRISS 和 m2m-100 這兩個(gè)強(qiáng)大的多語言神經(jīng)機(jī)器翻譯系統(tǒng),其平均增長分別為7.2和5.0 BLEU。


此外,SixT+ 也是一個(gè)很好的預(yù)訓(xùn)練模型,可以進(jìn)一步微調(diào)以適應(yīng)其他無監(jiān)督任務(wù)。實(shí)驗(yàn)結(jié)果證明,在斯洛文尼亞語和尼泊爾語這兩個(gè)語言的翻譯上,SixT+ 比最先進(jìn)的無監(jiān)督機(jī)器翻譯模型的平均 BLEU 高出1.2以上。SixT+ 同樣可以應(yīng)用于零樣本跨語言摘要,它的平均性能顯著高于 mBART-ft,平均可以提高 12.3 ROUGE-L。研究員們還對(duì) SixT+ 進(jìn)行了詳細(xì)分析,以了解 SixT+ 的關(guān)鍵組成部分,包括多語言平行數(shù)據(jù)的必要性,位置分離編碼器及其編碼器的跨語言遷移能力。


圖片

圖8:研究員們提出的兩階段訓(xùn)練框架,利用多語言預(yù)訓(xùn)練模型 XLM-R 建立跨語言生成模型。圖中藍(lán)色的冰塊表示用 XLM-R 初始化并凍結(jié),而紅色的火焰則代表隨機(jī)初始化或從第一階段開始初始化。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉