微軟T-ULRv6:引領(lǐng)基礎(chǔ)模型向多語(yǔ)言“大一統(tǒng)”邁進(jìn)
近日,微軟通用語(yǔ)言表示模型再創(chuàng)新佳績(jī)。最新的 T-ULRv6 在谷歌 XTREME 和 GLUE 排行榜上摘得雙榜冠軍,證明了單個(gè)多語(yǔ)言模型可以同時(shí)在英語(yǔ)和多語(yǔ)言理解任務(wù)上達(dá)到 SOTA 性能。這也是多語(yǔ)言理解模型首次在兩個(gè)排行榜上同時(shí)奪魁,力壓專用于英語(yǔ)或?qū)S糜诙嗾Z(yǔ)言任務(wù)的模型,從而有助于消除“多語(yǔ)言詛咒”。
微軟亞洲研究院自然語(yǔ)言計(jì)算組首席研究員韋福如表示,“T-ULRv6 是我們推進(jìn)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型以及 AI 模型‘大一統(tǒng)(The Big Convergence)’研究的重要里程碑。我們第一次發(fā)現(xiàn)通過規(guī)模化預(yù)訓(xùn)練語(yǔ)言模型,可以讓多語(yǔ)言基礎(chǔ)模型在高資源(rich-resource)語(yǔ)言(例如英文)上,取得與專門為這些語(yǔ)言設(shè)計(jì)和訓(xùn)練的單語(yǔ)言預(yù)訓(xùn)練模型在對(duì)應(yīng)語(yǔ)言的下游任務(wù)上一樣好的效果。之前的研究曾表明多語(yǔ)言預(yù)訓(xùn)練模型在低資源(low-resource)語(yǔ)言的下游任務(wù)上有很大的性能提升并具有支持跨語(yǔ)言遷移的能力。這也說(shuō)明未來(lái)我們可以專注于規(guī)?;嗾Z(yǔ)言基礎(chǔ)模型,并結(jié)合我們所推進(jìn)的多模態(tài)基礎(chǔ)模型大一統(tǒng)方面的研究(如 BEiT-3),為接下來(lái)推進(jìn)多語(yǔ)言、多模態(tài)模型的統(tǒng)一提供經(jīng)驗(yàn)與參考。”
基于“XY-LENT”的 T-ULRv6 XXL 模型是微軟圖靈團(tuán)隊(duì)和微軟亞洲研究院通力合作的成果,其平均分比 XTREME 排行榜目前位居第二的模型高出0.5分,在 GLUE 排行榜上也占據(jù)首位。
圖1:T-ULRv6 XXL 位居 XTREME 排行榜首位
圖2:T-ULRv6 XXL 位居 GLUE 排行榜首位
T-ULRv6 能夠取得如此優(yōu)異的成績(jī),是因?yàn)樗?XY-LENT 研究的基礎(chǔ)之上,利用了不同語(yǔ)言之間的多向 (X-Y) 平行文本對(duì) (bitexts) ,并整合了 T-ULRv5 的關(guān)鍵創(chuàng)新,其中包括 XLM-E 架構(gòu)、MRTD 和 TRTD 的新型預(yù)訓(xùn)練任務(wù)、改進(jìn)的訓(xùn)練數(shù)據(jù)和詞匯,以及高級(jí)微調(diào)技術(shù) xTune。此外,為了能夠擴(kuò)展到 XXL 大小的模型,微軟還借助了 ZeRO 的內(nèi)存優(yōu)化優(yōu)勢(shì)。
超越以英語(yǔ)為中心的平行文本對(duì)范式,更好地學(xué)習(xí)多語(yǔ)言表達(dá)
T-ULRv6 的關(guān)鍵改進(jìn)在于摒棄了以英語(yǔ)為中心的 (EN-X) 平行文本對(duì),直接利用不同語(yǔ)言之間的多向 (X-Y) 平行文本對(duì)(如法語(yǔ)-德語(yǔ)、印地語(yǔ)-烏爾都語(yǔ),或斯瓦希里語(yǔ)-阿拉伯語(yǔ))。盡管在多語(yǔ)言機(jī)器翻譯中利用這種平行文本對(duì)數(shù)據(jù)屬于常規(guī)操作,但這是由問題的性質(zhì)所決定的,研究員們的此次嘗試表明,利用平行文本對(duì)數(shù)據(jù)進(jìn)行多語(yǔ)言編碼器訓(xùn)練會(huì)帶來(lái)意想不到的性能提升。雖然 EN-X 平行文本對(duì)有助于學(xué)習(xí)跨語(yǔ)言對(duì)齊和共享表示,然而這種方式在語(yǔ)言和領(lǐng)域的覆蓋范圍及多樣性上會(huì)受到制約。另一方面,X-Y 平行文本對(duì)可以為學(xué)習(xí)多語(yǔ)言表示提供更豐富、更均衡的信息,從而可以更好地推廣到更廣泛的語(yǔ)言和任務(wù)中。
為了有效地利用 X-Y 平行文本對(duì),研究員們采用了一種新穎的采樣策略,以確保數(shù)據(jù)在多語(yǔ)言之間有效分布,同時(shí)保持語(yǔ)言邊際分布一致。反過來(lái)說(shuō),這也確保了模型仍然能夠維持強(qiáng)大的英語(yǔ)性能。
在編碼器中有一個(gè)值得注意的特性,就是參數(shù)效率。XY-LENT XXL 明顯優(yōu)于 XLM-R XXL 和 mT5 XXL,同時(shí)規(guī)模較后兩者分別縮小了約2倍和3倍。即使在 Base、Large 和 XL 三個(gè)類別中,與同類的其他模型相比,XY-LENT 也是最先進(jìn)的,并且展現(xiàn)出了跨類別的競(jìng)爭(zhēng)優(yōu)勢(shì)。強(qiáng)大的性能和較少的參數(shù),在產(chǎn)品開發(fā)場(chǎng)景中非常實(shí)用。
圖3:T-ULRv6 (XY-LENT) 在模型規(guī)模范圍內(nèi)具有 SOTA 水平,同時(shí)具有參數(shù)效率
在 T-ULRv6 中,微軟亞洲研究院自然語(yǔ)言計(jì)算組的研究員們與微軟圖靈團(tuán)隊(duì)緊密合作,為預(yù)訓(xùn)練模型的研究和開發(fā)以及下游任務(wù)的微調(diào)算法,提供了關(guān)鍵技術(shù)。基于 XLM-E 工作中提出的多語(yǔ)言預(yù)訓(xùn)練方法,研究員們成功實(shí)現(xiàn)了130倍的收斂提速,為 T-ULRv6 提供了方法框架。此外,針對(duì)多語(yǔ)言預(yù)訓(xùn)練特有的語(yǔ)種競(jìng)爭(zhēng)問題,研究員們還提出了 VoCap 準(zhǔn)則,以此動(dòng)態(tài)決定多語(yǔ)言詞表的分配額度,從而更好地對(duì)多語(yǔ)言輸入進(jìn)行表征?;诙嗾Z(yǔ)言的一致性準(zhǔn)則,微軟亞洲研究院的研究員們提出的多語(yǔ)言微調(diào)框架 xTune,也更好地實(shí)現(xiàn)了跨語(yǔ)言遷移性能。
只需一個(gè)模型就能應(yīng)對(duì)英語(yǔ)和多語(yǔ)言任務(wù)
T-ULRv6 XXL 的另一個(gè)顯著優(yōu)勢(shì),是它在不犧牲質(zhì)量或效率的前提下,憑借單一模型即可在英語(yǔ)和多語(yǔ)言任務(wù)上同時(shí)實(shí)現(xiàn) SOTA 性能。這意味著用戶不用再根據(jù)自然語(yǔ)言處理任務(wù)來(lái)選擇使用哪個(gè)預(yù)訓(xùn)練模型,因?yàn)?T-ULRv6 XXL 可以很好地處理這兩種情況。這就簡(jiǎn)化了模型選擇和部署的過程,也降低了維護(hù)多個(gè)模型所需的計(jì)算和存儲(chǔ)成本。
為了實(shí)現(xiàn)這一點(diǎn),T-ULRv6 利用其擴(kuò)展能力和非英語(yǔ)平行文本對(duì) (non-English bitexts) 優(yōu)勢(shì)消除了“多語(yǔ)言詛咒”,即在權(quán)衡英語(yǔ)和多語(yǔ)言性能時(shí),常常給多語(yǔ)言模型造成困擾。T-ULRv6 不僅在涵蓋一系列英語(yǔ)自然語(yǔ)言理解任務(wù)的 GLUE 基準(zhǔn)測(cè)試中優(yōu)于專門的英語(yǔ)模型,在覆蓋40種不同類型語(yǔ)言和9種跨語(yǔ)言任務(wù)的 XTREME 基準(zhǔn)測(cè)試中也優(yōu)于專門的多語(yǔ)言模型。此外,T-ULRv6 模型規(guī)模也要小得多,這保證了其參數(shù)效率和可擴(kuò)展性。
圖4:T-ULRv6 (XY-LENT) 在多語(yǔ)言任務(wù)中展現(xiàn)出了強(qiáng)大的性能
開放共享,共同推動(dòng)領(lǐng)域發(fā)展
目前,T-ULRv6 已應(yīng)用于微軟必應(yīng) (Bing) 中,為必應(yīng)的國(guó)際化提供支持,使用戶能夠使用不同語(yǔ)言在不同地區(qū)搜索信息。T-ULRv6 還將會(huì)把最先進(jìn)的多語(yǔ)言功能賦能微軟其他產(chǎn)品,通過其跨國(guó)別和跨語(yǔ)言的能力,助力微軟踐行“予力全球每一人、每一組織,成就不凡”的使命,為更多用戶提供幫助。
微軟一直認(rèn)為 AI 技術(shù)要在學(xué)術(shù)界開放共享,進(jìn)而促進(jìn)合作與創(chuàng)新。因此,微軟啟動(dòng)了“微軟圖靈學(xué)術(shù)計(jì)劃” (MS-TAP,Microsoft Turing Academic Program),允許科研人員提交研究方案,從而獲得 T-ULRv6 和其他圖靈模型的詳細(xì)資料。微軟邀請(qǐng)所有人共同探索多語(yǔ)言理解和生成的潛力,一起應(yīng)對(duì)挑戰(zhàn),同時(shí)也歡迎大家提供寶貴的反饋和見解。未來(lái),微軟還將開源 Base 和 Large 模型,進(jìn)一步推動(dòng)該領(lǐng)域的研究工作。
以多語(yǔ)言技術(shù)為錨點(diǎn),讓AI更具包容性
多語(yǔ)言技術(shù)不僅是一個(gè)技術(shù)挑戰(zhàn),更是一項(xiàng)社會(huì)責(zé)任。微軟一直致力于通過消除限制 AI 易用性和包容性的障礙,例如缺乏訓(xùn)練數(shù)據(jù)、語(yǔ)言建模成本過高以及多語(yǔ)言系統(tǒng)過于復(fù)雜等問題,實(shí)現(xiàn) AI 的普及化。T-ULRv6 讓 AI 向著這一目標(biāo)邁出了重要一步,它為跨語(yǔ)言系統(tǒng)開發(fā)提供了一個(gè)更為高效和可擴(kuò)展的框架,僅使用一個(gè)模型就能同時(shí)處理英語(yǔ)和多語(yǔ)言任務(wù)。微軟很高興有機(jī)會(huì)進(jìn)一步提高技術(shù)水平,開發(fā)新的多語(yǔ)言能力,讓世界各地的更多人和組織從中受益。希望這些工作能夠推動(dòng)社會(huì)進(jìn)步,讓 AI 更具包容性,并惠及所有人。
相關(guān)鏈接:
XY-LENT 論文鏈接:
Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
https://arxiv.org/pdf/2210.14867.pdf
XLM-E 論文鏈接:
XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
https://arxiv.org/abs/2106.16138
xTune 論文鏈接:
Consistency Regularization for Cross-Lingual Fine-Tuning
https://arxiv.org/pdf/2106.08226.pdf
ZeRO 論文鏈接:
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
https://arxiv.org/pdf/1910.02054.pdf
VoCap 論文鏈接:
Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training
https://arxiv.org/pdf/2109.07306.pdf
微軟圖靈學(xué)術(shù)計(jì)劃網(wǎng)頁(yè):
https://www.microsoft.com/en-us/research/collaboration/microsoft-turing-academic-program/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
土壤濕度傳感器相關(guān)文章:土壤濕度傳感器原理