博客專欄

EEPW首頁 > 博客 > AAAI 2022 | 基于詞對關(guān)系建模的統(tǒng)一NER,刷爆14個中英NER數(shù)據(jù)集

AAAI 2022 | 基于詞對關(guān)系建模的統(tǒng)一NER,刷爆14個中英NER數(shù)據(jù)集

發(fā)布人:數(shù)據(jù)派THU 時間:2022-05-15 來源:工程師 發(fā)布文章

來源:PaperWeekly

引言


本研究重新審視了統(tǒng)一命名實(shí)體識別中的核心問題,即詞與詞之間的關(guān)系建模,并提出將所有類型的命名實(shí)體識別統(tǒng)一采用一種詞對關(guān)系分類的方法進(jìn)行建模。所提出的系統(tǒng)廣泛地在 14 個命名實(shí)體識別數(shù)據(jù)集刷新了最好的分?jǐn)?shù)。
圖片


論文題目:
基于詞對關(guān)系建模的統(tǒng)一命名實(shí)體識別系統(tǒng)Unified Named Entity Recognition as Word-Word Relation Classification


論文作者:


李京燁(武漢大學(xué)),費(fèi)豪(武漢大學(xué)),劉江(武漢大學(xué)),吳勝瓊(武漢大學(xué)),張梅山(哈工大深圳),滕沖(武漢大學(xué)),姬東鴻(武漢大學(xué)),李霏(武漢大學(xué))


收錄會議:
AAAI 2022


論文鏈接:


https://arxiv.org/pdf/2112.10070.pdf


代碼鏈接:
https://github.com/ljynlp/W2NER


一、動機(jī)介紹

1.1 命名實(shí)體識別任務(wù)
命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理領(lǐng)域的一項(xiàng)非常基本的任務(wù),在社區(qū)長久以來一直得到廣泛的研究。當(dāng)前的 NER 的研究重點(diǎn)已經(jīng)從常規(guī)的扁平命名實(shí)體識別(Flat NER)逐漸轉(zhuǎn)向了重疊命名實(shí)體識別(Nested/Overlapped NER)非連續(xù)命名實(shí)體識別(Discontinuous NER)。這三類 NER 分別為:

  • Flat NER:抽取連續(xù)的實(shí)體片段(或者包含對應(yīng)的實(shí)體語義類型);
  • Nested/Overlapped NER:抽取的兩個或多個實(shí)體片段之間有一部分的文字重疊;
  • Discontinuous NER:所抽取的多個實(shí)體間存在多個片段,且片段之間不相連。


圖片▲ 圖1:重疊與非連續(xù)實(shí)體例子(a),該例子可轉(zhuǎn)化成詞對關(guān)系抽?。╞)


以圖 1 為例,“aching in legs”是一個扁平實(shí)體,“aching in shoulders”是一個非連續(xù)實(shí)體,兩者在“aching in”上重疊。以上三種 NER 類型可概括為統(tǒng)一命名實(shí)體識別(Unified Named Entity Recognition,UNER) 1.2 命名實(shí)體識別方法
截至當(dāng)前,命名實(shí)體識別領(lǐng)域的主流方法大致可分類為四類:

  • 基于序列標(biāo)注的方法;
  • 基于超圖的方法;
  • 基于序列到序列的方法;
  • 基于片段的方法。


其中,基于序列標(biāo)注的方法是 Flat NER 的基準(zhǔn)模型;而基于超圖的方法由于其模型結(jié)構(gòu)相對復(fù)雜從而使其獲得的關(guān)注相對較少。而基于序列到序列方法和基于片段的方法獲得了當(dāng)前最好的效果,并且也是當(dāng)前 NER 社區(qū)最為流行的方法,這兩種方法的基本技術(shù)思路如圖 2 所示。


圖片▲ 圖2:序列到序列的方法與基于片段的方法
當(dāng)前 NER 社區(qū)嘗試采用一種模型框架同時將三種不同類型的 NER 同時建模,即端到端抽取出所有的類型的實(shí)體。以上四種 NER 方法均可以被設(shè)計為支持統(tǒng)一命名實(shí)體識別的模型。本研究亦關(guān)注于構(gòu)建一種高效的 UNER 系統(tǒng)。
1.3 本文的方法
在絕大部分現(xiàn)有的 NER 工作中,普遍認(rèn)為NER的核心要點(diǎn)在于如何準(zhǔn)確識別實(shí)體的邊界;然而我們在針對三種實(shí)體類型的共性進(jìn)行深入挖掘后,認(rèn)為詞語之間在語義上的連接特征才是 UNER 最為關(guān)鍵的問題。例如圖 1(a)中,識別扁平實(shí)體“aching in legs”相對而言是較為簡單,因?yàn)檫@個實(shí)體所包含的詞是天然相鄰的。而要識別出非連續(xù)實(shí)體“aching in shoulders”,則一個成功的 UNER 模型需要準(zhǔn)確高效地片為片段“aching in”和片段“shoulders”之間在語義上的鄰接關(guān)系進(jìn)行建模。
根據(jù)上述觀察,本文將 UNER 任務(wù)轉(zhuǎn)化成一種詞對的關(guān)系分類任務(wù),提出了一種新的 UNER 架構(gòu)(NER as Word-Word Relation Classification),名為 W2NER。具體地,該框架的目標(biāo)是將 UNER 轉(zhuǎn)變?yōu)樽R別出實(shí)體詞中所蘊(yùn)含的兩種類型的關(guān)系,即:


  • 鄰接關(guān)系(Next-Neighboring-Word,NNW);
  • 頭尾關(guān)系(Tail-Head-Word-*,THW-*);


如圖 1(b)所示。其中 NNW 表示兩個詞在某個實(shí)體中相鄰(如“aching”->“in”),而 THW-* 則表示兩個詞是某個實(shí)體的頭部和尾部,且該實(shí)體類型為“*”(如“l(fā)eg”->“aching”,Symptom)。具體的詞對關(guān)系分類示例如圖 3 所示。
圖片▲ 圖3:關(guān)系分類示例


二、模型框架

圖 4 給出了 W2NER 整體的框架結(jié)構(gòu)。其整體可分為三層:輸入編碼層,卷積特征學(xué)習(xí)層以及最后的解碼層。其中解碼層是本論文的核心。


圖片▲ 圖4:模型整體結(jié)構(gòu)
2.1 編碼層
給定一個輸入句子,將每一個詞轉(zhuǎn)換成多個 word piece,并將他們輸入預(yù)訓(xùn)練的 BERT 模塊中。經(jīng)過 BERT 計算后,使用最大池化操作將這些 word piece 表示重新聚合成詞表示。為了進(jìn)一步增強(qiáng)模型的上下文建模能力,這里再使用了一個 BiLSTM 得到最終的詞表示序列。
2.2 卷積層
由于該框架的目標(biāo)是預(yù)測詞對中的關(guān)系,因此生成高質(zhì)量的詞對表示矩陣尤為重要,這里使用條件層規(guī)范化(Conditional Layer Normalization, CLN)對詞對表示進(jìn)行計算。受到 BERT 輸入層的啟發(fā),對于卷積模塊的輸入,使用詞對表示、位置嵌入和區(qū)域嵌入進(jìn)行拼接。其中位置嵌入表示每個詞對中蘊(yùn)含的相對位置信息,而區(qū)域嵌入用于分隔矩陣中上下三角的區(qū)域信息。然后,將這三種類型的張量拼接,再使用一個全連接網(wǎng)絡(luò)對特征進(jìn)行混合并降低維度,再送入多個擴(kuò)張卷積中進(jìn)行運(yùn)算,再將不同的卷積輸出結(jié)果拼接起來。
2.3 解碼層
在解碼預(yù)測層,在使用 FFN 對卷積層輸出特征進(jìn)行關(guān)系預(yù)測的同時,將編碼層輸出特征輸入 Biaffine 也進(jìn)行詞對關(guān)系預(yù)測,這一步可以看做是一種特殊的殘差機(jī)制,將編碼層的特征也利用起來。因此最后的輸出為 FFN 和 Biaffine 輸出的加和。
在解碼階段,模型需要處理不同的詞對關(guān)系。模型的預(yù)測結(jié)果是詞之間的關(guān)系,這些詞和關(guān)系可以構(gòu)成一個有向圖,其中詞是節(jié)點(diǎn),關(guān)系是邊。模型的解碼目標(biāo)則是要尋找從一個詞到另一個詞的由鄰接關(guān)系連接起來的路徑,每條路徑其實(shí)代表著一個對應(yīng)的實(shí)體。而頭尾關(guān)系則可以用于判斷實(shí)體的類型和邊界,除此之外還具有消歧的作用。圖 4 從易到難展示了 4 個解碼類型的例子。


圖片▲ 圖5:四種不同類型樣本的解碼示例
三、實(shí)驗(yàn)結(jié)果 本文在 14 個 NER 常用數(shù)據(jù)集上(包括英文和中文)進(jìn)行了實(shí)驗(yàn),分別是:

  • 在扁平實(shí)體識別中,使用的英文數(shù)據(jù)集為 CoNLL 2003 和 OntoNotes 5.0,中文數(shù)據(jù)集為 OntoNotes 4.0、MSRA、Weibo 和 Resume;
  • 在重疊實(shí)體識別中,使用 ACE 2004 和 ACE 2005 的中英文數(shù)據(jù),和生物領(lǐng)域的英文數(shù)據(jù)集 Genia;
  • 在非連續(xù)命名實(shí)體識別中,使用 CADEC、ShARe13、ShARe14。


表 1-5 分別展示了上述任務(wù)和數(shù)據(jù)集上與基線模型對比的結(jié)果。實(shí)驗(yàn)結(jié)果表明,我們提出的基于詞對關(guān)系抽取的方法,通過對鄰接關(guān)系和頭尾關(guān)系的識別,可以同時解決扁平實(shí)體、重疊實(shí)體和非連續(xù)實(shí)體的三種子任務(wù),并在 14 個數(shù)據(jù)集上的效果都優(yōu)于之前的工作。


圖片▲ 表1:英文扁平命名實(shí)體識別
圖片▲ 表2:中文扁平命名實(shí)體識別
圖片▲ 表3:英文重疊命名實(shí)體識別

圖片▲ 表4:中文重疊命名實(shí)體識別
圖片▲ 表5:英文非連續(xù)命名實(shí)體識別
圖片▲ 圖6:重疊實(shí)體與非連續(xù)實(shí)體識別效果對比
通過進(jìn)一步的消融實(shí)驗(yàn),我們探索了不同參數(shù)和部件對整體框架的影響。此外我們模型在相對較小的參數(shù)情況下,其訓(xùn)練和推理速度超過了多個非連續(xù)實(shí)體識別模型。
圖片▲ 表6:消融實(shí)驗(yàn)
圖片▲ 圖7:模型參數(shù)與效率對比


四、總結(jié)

本文提出了一個統(tǒng)一命名實(shí)體識別框架,通過對詞與詞之間的關(guān)系進(jìn)行分類的方式同時解決三種命名實(shí)體識別子任務(wù)。通過對預(yù)先定義好的詞對中的鄰接關(guān)系和頭尾關(guān)系分類,模型能夠?qū)崿F(xiàn)對復(fù)雜實(shí)體的解碼。所提出的框架在 14 個中英文命名實(shí)體識別基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,其刷新了當(dāng)前最先進(jìn)的基線模型,取得了目前最好的統(tǒng)一命名實(shí)體識別分?jǐn)?shù)。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉