微軟T-ULRv6：引領(lǐng)基礎(chǔ)模型向多語(yǔ)言“大一統(tǒng)”邁進(jìn)

發(fā)布人：MSRAsia 時(shí)間：2022-11-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

近日，微軟通用語(yǔ)言表示模型再創(chuàng)新佳績(jī)。最新的 T-ULRv6 在谷歌 XTREME 和 GLUE 排行榜上摘得雙榜冠軍，證明了單個(gè)多語(yǔ)言模型可以同時(shí)在英語(yǔ)和多語(yǔ)言理解任務(wù)上達(dá)到 SOTA 性能。這也是多語(yǔ)言理解模型首次在兩個(gè)排行榜上同時(shí)奪魁，力壓專用于英語(yǔ)或?qū)Ｓ糜诙嗾Z(yǔ)言任務(wù)的模型，從而有助于消除“多語(yǔ)言詛咒”。

微軟亞洲研究院自然語(yǔ)言計(jì)算組首席研究員韋福如表示，“T-ULRv6 是我們推進(jìn)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型以及 AI 模型‘大一統(tǒng)（The Big Convergence）’研究的重要里程碑。我們第一次發(fā)現(xiàn)通過規(guī)模化預(yù)訓(xùn)練語(yǔ)言模型，可以讓多語(yǔ)言基礎(chǔ)模型在高資源（rich-resource）語(yǔ)言（例如英文）上，取得與專門為這些語(yǔ)言設(shè)計(jì)和訓(xùn)練的單語(yǔ)言預(yù)訓(xùn)練模型在對(duì)應(yīng)語(yǔ)言的下游任務(wù)上一樣好的效果。之前的研究曾表明多語(yǔ)言預(yù)訓(xùn)練模型在低資源（low-resource）語(yǔ)言的下游任務(wù)上有很大的性能提升并具有支持跨語(yǔ)言遷移的能力。這也說(shuō)明未來(lái)我們可以專注于規(guī)?；嗾Z(yǔ)言基礎(chǔ)模型，并結(jié)合我們所推進(jìn)的多模態(tài)基礎(chǔ)模型大一統(tǒng)方面的研究（如 BEiT-3），為接下來(lái)推進(jìn)多語(yǔ)言、多模態(tài)模型的統(tǒng)一提供經(jīng)驗(yàn)與參考。”

基于“XY-LENT”的 T-ULRv6 XXL 模型是微軟圖靈團(tuán)隊(duì)和微軟亞洲研究院通力合作的成果，其平均分比 XTREME 排行榜目前位居第二的模型高出0.5分，在 GLUE 排行榜上也占據(jù)首位。

圖1：T-ULRv6 XXL 位居 XTREME 排行榜首位

圖2：T-ULRv6 XXL 位居 GLUE 排行榜首位

T-ULRv6 能夠取得如此優(yōu)異的成績(jī)，是因?yàn)樗?XY-LENT 研究的基礎(chǔ)之上，利用了不同語(yǔ)言之間的多向 (X-Y) 平行文本對(duì) (bitexts) ，并整合了 T-ULRv5 的關(guān)鍵創(chuàng)新，其中包括 XLM-E 架構(gòu)、MRTD 和 TRTD 的新型預(yù)訓(xùn)練任務(wù)、改進(jìn)的訓(xùn)練數(shù)據(jù)和詞匯，以及高級(jí)微調(diào)技術(shù) xTune。此外，為了能夠擴(kuò)展到 XXL 大小的模型，微軟還借助了 ZeRO 的內(nèi)存優(yōu)化優(yōu)勢(shì)。

超越以英語(yǔ)為中心的平行文本對(duì)范式，更好地學(xué)習(xí)多語(yǔ)言表達(dá)

T-ULRv6 的關(guān)鍵改進(jìn)在于摒棄了以英語(yǔ)為中心的 (EN-X) 平行文本對(duì)，直接利用不同語(yǔ)言之間的多向 (X-Y) 平行文本對(duì)（如法語(yǔ)-德語(yǔ)、印地語(yǔ)-烏爾都語(yǔ)，或斯瓦希里語(yǔ)-阿拉伯語(yǔ)）。盡管在多語(yǔ)言機(jī)器翻譯中利用這種平行文本對(duì)數(shù)據(jù)屬于常規(guī)操作，但這是由問題的性質(zhì)所決定的，研究員們的此次嘗試表明，利用平行文本對(duì)數(shù)據(jù)進(jìn)行多語(yǔ)言編碼器訓(xùn)練會(huì)帶來(lái)意想不到的性能提升。雖然 EN-X 平行文本對(duì)有助于學(xué)習(xí)跨語(yǔ)言對(duì)齊和共享表示，然而這種方式在語(yǔ)言和領(lǐng)域的覆蓋范圍及多樣性上會(huì)受到制約。另一方面，X-Y 平行文本對(duì)可以為學(xué)習(xí)多語(yǔ)言表示提供更豐富、更均衡的信息，從而可以更好地推廣到更廣泛的語(yǔ)言和任務(wù)中。

為了有效地利用 X-Y 平行文本對(duì)，研究員們采用了一種新穎的采樣策略，以確保數(shù)據(jù)在多語(yǔ)言之間有效分布，同時(shí)保持語(yǔ)言邊際分布一致。反過來(lái)說(shuō)，這也確保了模型仍然能夠維持強(qiáng)大的英語(yǔ)性能。

在編碼器中有一個(gè)值得注意的特性，就是參數(shù)效率。XY-LENT XXL 明顯優(yōu)于 XLM-R XXL 和 mT5 XXL，同時(shí)規(guī)模較后兩者分別縮小了約2倍和3倍。即使在 Base、Large 和 XL 三個(gè)類別中，與同類的其他模型相比，XY-LENT 也是最先進(jìn)的，并且展現(xiàn)出了跨類別的競(jìng)爭(zhēng)優(yōu)勢(shì)。強(qiáng)大的性能和較少的參數(shù)，在產(chǎn)品開發(fā)場(chǎng)景中非常實(shí)用。

圖3：T-ULRv6 (XY-LENT) 在模型規(guī)模范圍內(nèi)具有 SOTA 水平，同時(shí)具有參數(shù)效率

在 T-ULRv6 中，微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們與微軟圖靈團(tuán)隊(duì)緊密合作，為預(yù)訓(xùn)練模型的研究和開發(fā)以及下游任務(wù)的微調(diào)算法，提供了關(guān)鍵技術(shù)。基于 XLM-E 工作中提出的多語(yǔ)言預(yù)訓(xùn)練方法，研究員們成功實(shí)現(xiàn)了130倍的收斂提速，為 T-ULRv6 提供了方法框架。此外，針對(duì)多語(yǔ)言預(yù)訓(xùn)練特有的語(yǔ)種競(jìng)爭(zhēng)問題，研究員們還提出了 VoCap 準(zhǔn)則，以此動(dòng)態(tài)決定多語(yǔ)言詞表的分配額度，從而更好地對(duì)多語(yǔ)言輸入進(jìn)行表征?；诙嗾Z(yǔ)言的一致性準(zhǔn)則，微軟亞洲研究院的研究員們提出的多語(yǔ)言微調(diào)框架 xTune，也更好地實(shí)現(xiàn)了跨語(yǔ)言遷移性能。

只需一個(gè)模型就能應(yīng)對(duì)英語(yǔ)和多語(yǔ)言任務(wù)

T-ULRv6 XXL 的另一個(gè)顯著優(yōu)勢(shì)，是它在不犧牲質(zhì)量或效率的前提下，憑借單一模型即可在英語(yǔ)和多語(yǔ)言任務(wù)上同時(shí)實(shí)現(xiàn) SOTA 性能。這意味著用戶不用再根據(jù)自然語(yǔ)言處理任務(wù)來(lái)選擇使用哪個(gè)預(yù)訓(xùn)練模型，因?yàn)?T-ULRv6 XXL 可以很好地處理這兩種情況。這就簡(jiǎn)化了模型選擇和部署的過程，也降低了維護(hù)多個(gè)模型所需的計(jì)算和存儲(chǔ)成本。

為了實(shí)現(xiàn)這一點(diǎn)，T-ULRv6 利用其擴(kuò)展能力和非英語(yǔ)平行文本對(duì) (non-English bitexts) 優(yōu)勢(shì)消除了“多語(yǔ)言詛咒”，即在權(quán)衡英語(yǔ)和多語(yǔ)言性能時(shí)，常常給多語(yǔ)言模型造成困擾。T-ULRv6 不僅在涵蓋一系列英語(yǔ)自然語(yǔ)言理解任務(wù)的 GLUE 基準(zhǔn)測(cè)試中優(yōu)于專門的英語(yǔ)模型，在覆蓋40種不同類型語(yǔ)言和9種跨語(yǔ)言任務(wù)的 XTREME 基準(zhǔn)測(cè)試中也優(yōu)于專門的多語(yǔ)言模型。此外，T-ULRv6 模型規(guī)模也要小得多，這保證了其參數(shù)效率和可擴(kuò)展性。

圖4：T-ULRv6 (XY-LENT) 在多語(yǔ)言任務(wù)中展現(xiàn)出了強(qiáng)大的性能

開放共享，共同推動(dòng)領(lǐng)域發(fā)展

目前，T-ULRv6 已應(yīng)用于微軟必應(yīng) (Bing) 中，為必應(yīng)的國(guó)際化提供支持，使用戶能夠使用不同語(yǔ)言在不同地區(qū)搜索信息。T-ULRv6 還將會(huì)把最先進(jìn)的多語(yǔ)言功能賦能微軟其他產(chǎn)品，通過其跨國(guó)別和跨語(yǔ)言的能力，助力微軟踐行“予力全球每一人、每一組織，成就不凡”的使命，為更多用戶提供幫助。

微軟一直認(rèn)為 AI 技術(shù)要在學(xué)術(shù)界開放共享，進(jìn)而促進(jìn)合作與創(chuàng)新。因此，微軟啟動(dòng)了“微軟圖靈學(xué)術(shù)計(jì)劃” (MS-TAP，Microsoft Turing Academic Program)，允許科研人員提交研究方案，從而獲得 T-ULRv6 和其他圖靈模型的詳細(xì)資料。微軟邀請(qǐng)所有人共同探索多語(yǔ)言理解和生成的潛力，一起應(yīng)對(duì)挑戰(zhàn)，同時(shí)也歡迎大家提供寶貴的反饋和見解。未來(lái)，微軟還將開源 Base 和 Large 模型，進(jìn)一步推動(dòng)該領(lǐng)域的研究工作。

以多語(yǔ)言技術(shù)為錨點(diǎn)，讓AI更具包容性

多語(yǔ)言技術(shù)不僅是一個(gè)技術(shù)挑戰(zhàn)，更是一項(xiàng)社會(huì)責(zé)任。微軟一直致力于通過消除限制 AI 易用性和包容性的障礙，例如缺乏訓(xùn)練數(shù)據(jù)、語(yǔ)言建模成本過高以及多語(yǔ)言系統(tǒng)過于復(fù)雜等問題，實(shí)現(xiàn) AI 的普及化。T-ULRv6 讓 AI 向著這一目標(biāo)邁出了重要一步，它為跨語(yǔ)言系統(tǒng)開發(fā)提供了一個(gè)更為高效和可擴(kuò)展的框架，僅使用一個(gè)模型就能同時(shí)處理英語(yǔ)和多語(yǔ)言任務(wù)。微軟很高興有機(jī)會(huì)進(jìn)一步提高技術(shù)水平，開發(fā)新的多語(yǔ)言能力，讓世界各地的更多人和組織從中受益。希望這些工作能夠推動(dòng)社會(huì)進(jìn)步，讓 AI 更具包容性，并惠及所有人。

相關(guān)鏈接：

XY-LENT 論文鏈接：

Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning

https://arxiv.org/pdf/2210.14867.pdf

XLM-E 論文鏈接：

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

https://arxiv.org/abs/2106.16138

xTune 論文鏈接：

Consistency Regularization for Cross-Lingual Fine-Tuning

https://arxiv.org/pdf/2106.08226.pdf

ZeRO 論文鏈接：

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models