無需「域外」文本,微軟:NLP就應(yīng)該針對性預(yù)訓(xùn)練
在生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域訓(xùn)練NLP模型,除了特定數(shù)據(jù)集,「域外」文本也被認(rèn)為是有用的。但最近,微軟的研究人員「大呼」:我不這么覺得!
本文引用地址:http://m.butianyuan.cn/article/202008/416905.htm什么是預(yù)訓(xùn)練?這是一個(gè)拷問人工智能「門外漢」的靈魂問題。生而為人,我們不需要一切從零開始學(xué)習(xí)。但是,我們會「以舊學(xué)新」,用過去所學(xué)的舊知識,來理解新知識和處理各種新任務(wù)。在人工智能中,預(yù)訓(xùn)練就是模仿人類這個(gè)過程。
預(yù)訓(xùn)練(pre-training)這個(gè)詞經(jīng)常在論文中見到,指的是用一個(gè)任務(wù)去訓(xùn)練一個(gè)模型,幫助它形成可以在其他任務(wù)中使用的參數(shù)。
用已學(xué)習(xí)任務(wù)的模型參數(shù)初始化新任務(wù)的模型參數(shù)。通過這種方式,舊的知識可以幫助新模型從舊的經(jīng)驗(yàn)中成功地執(zhí)行新任務(wù),而不是從零開始。
以前的研究已經(jīng)表明,在像生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域,當(dāng)訓(xùn)練一個(gè)NLP模型時(shí),特定領(lǐng)域的數(shù)據(jù)集可以提高準(zhǔn)確性。不過,還有一個(gè)普遍的認(rèn)識是,「域外」文本也有用。但是!微軟研究人員對這一假設(shè)提出了質(zhì)疑。
近日,微軟研究人員提出一種人工智能技術(shù),針對生物醫(yī)學(xué)NLP的領(lǐng)域特定語言模型預(yù)訓(xùn)練。并自信地說,通過從公開的數(shù)據(jù)集中編譯一個(gè)「全面的」生物醫(yī)學(xué)NLP基準(zhǔn),在包括命名實(shí)體識別、基于證據(jù)的醫(yī)學(xué)信息提取、文檔分類等任務(wù)上取得了最先進(jìn)的成果。
他們認(rèn)為,「混合領(lǐng)域」預(yù)訓(xùn)練?不就是遷移學(xué)習(xí)的另一種形式嗎?源領(lǐng)域是一般文本(如新聞),目標(biāo)領(lǐng)域是專門文本(如生物醫(yī)學(xué)論文)。
在此基礎(chǔ)上,針對特定領(lǐng)域的生物醫(yī)學(xué)NLP模型的預(yù)訓(xùn)練總是優(yōu)于通用語言模型的預(yù)訓(xùn)練,說明「混合領(lǐng)域」預(yù)訓(xùn)練并不完美。
神經(jīng)語言模型預(yù)訓(xùn)練的兩種范式?!富旌项I(lǐng)域」預(yù)訓(xùn)練(上);只使用域內(nèi)文本預(yù)訓(xùn)練(下)
如此自信,研究人員是有證據(jù)的。他們通過對生物醫(yī)學(xué)NLP應(yīng)用的影響,比較了訓(xùn)練前的建模和特定任務(wù)的微調(diào)。
第一步,他們創(chuàng)建了一個(gè)名為生物醫(yī)學(xué)語言理解和推理基準(zhǔn)(BLURB)的基準(zhǔn),該基準(zhǔn)側(cè)重于PubMed(一個(gè)生物醫(yī)學(xué)相關(guān)的數(shù)據(jù)庫)提供的出版物,涵蓋了諸如關(guān)系提取、句子相似度和問題回答等任務(wù),以及諸如是/否問題回答等分類任務(wù)。為了計(jì)算總結(jié)性分?jǐn)?shù),BLURB中的語料庫按任務(wù)類型分組,并分別打分,之后計(jì)算所有的平均值。
為了評估,他們又在最新的PubMed文檔中生成了一個(gè)詞匯表并訓(xùn)練了一個(gè)模型:1400萬篇摘要和32億個(gè)單詞,總計(jì)21GB。在一臺擁有16個(gè)V100顯卡的Nvidia DGX-2機(jī)器上,培訓(xùn)了大約5天時(shí)間。這個(gè)模型具有62,500步長和批量大小,可與以前生物醫(yī)學(xué)預(yù)訓(xùn)練實(shí)驗(yàn)中使用的計(jì)算量相媲美。
又一個(gè)自信,研究人員說他們的模型——PubMedBERT,是建立在谷歌的BERT之上。
那個(gè)牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領(lǐng)域最具有突破性的一項(xiàng)技術(shù)。
但有趣的是,將PubMed的全文添加到預(yù)訓(xùn)練文本(168億字)中會讓性能略有下降,直到預(yù)訓(xùn)練時(shí)間延長。但研究人員將這部分歸因于數(shù)據(jù)中的噪聲。
“在本文中,我們挑戰(zhàn)了神經(jīng)語言預(yù)訓(xùn)練模型中普遍存在的假設(shè)(就是前面說的「混合領(lǐng)域」預(yù)訓(xùn)練),并證明了從「無」開始對特定領(lǐng)域進(jìn)行預(yù)訓(xùn)練可以顯著優(yōu)于「混合領(lǐng)域」預(yù)訓(xùn)練?!笧樯镝t(yī)學(xué)NLP的應(yīng)用帶來了新的、最先進(jìn)的結(jié)果,」研究人員寫道,「我們未來會進(jìn)一步探索特定領(lǐng)域的預(yù)培訓(xùn)策略,將BLURB基準(zhǔn)擴(kuò)展到臨床或其他高價(jià)值領(lǐng)域。」
為了鼓勵生物醫(yī)學(xué)NLP的研究,研究人員創(chuàng)建了一個(gè)以BLURB基準(zhǔn)為特色的排行榜。他們還以開源的方式發(fā)布了預(yù)先訓(xùn)練過的特定任務(wù)模型。
研究已發(fā)布于預(yù)印論文網(wǎng)站arxiv上。
評論