AAAI 2022 | 基于詞對關(guān)系建模的統(tǒng)一NER，刷爆14個中英NER數(shù)據(jù)集

發(fā)布人：數(shù)據(jù)派THU 時間：2022-05-15 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：PaperWeekly

引言

本研究重新審視了統(tǒng)一命名實(shí)體識別中的核心問題，即詞與詞之間的關(guān)系建模，并提出將所有類型的命名實(shí)體識別統(tǒng)一采用一種詞對關(guān)系分類的方法進(jìn)行建模。所提出的系統(tǒng)廣泛地在 14 個命名實(shí)體識別數(shù)據(jù)集刷新了最好的分?jǐn)?shù)。

論文題目：
基于詞對關(guān)系建模的統(tǒng)一命名實(shí)體識別系統(tǒng)Unified Named Entity Recognition as Word-Word Relation Classification

論文作者：

李京燁（武漢大學(xué)），費(fèi)豪（武漢大學(xué)），劉江（武漢大學(xué)），吳勝瓊（武漢大學(xué)），張梅山（哈工大深圳），滕沖（武漢大學(xué)），姬東鴻（武漢大學(xué)），李霏（武漢大學(xué)）

收錄會議：
AAAI 2022

論文鏈接：

https://arxiv.org/pdf/2112.10070.pdf

代碼鏈接：
https://github.com/ljynlp/W2NER

一、動機(jī)介紹

1.1 命名實(shí)體識別任務(wù)
命名實(shí)體識別（Named Entity Recognition，NER）是自然語言處理領(lǐng)域的一項(xiàng)非常基本的任務(wù)，在社區(qū)長久以來一直得到廣泛的研究。當(dāng)前的 NER 的研究重點(diǎn)已經(jīng)從常規(guī)的扁平命名實(shí)體識別（Flat NER）逐漸轉(zhuǎn)向了重疊命名實(shí)體識別（Nested/Overlapped NER）與非連續(xù)命名實(shí)體識別（Discontinuous NER）。這三類 NER 分別為：

Flat NER：抽取連續(xù)的實(shí)體片段（或者包含對應(yīng)的實(shí)體語義類型）；
Nested/Overlapped NER：抽取的兩個或多個實(shí)體片段之間有一部分的文字重疊；
Discontinuous NER：所抽取的多個實(shí)體間存在多個片段，且片段之間不相連。

▲ 圖1：重疊與非連續(xù)實(shí)體例子（a），該例子可轉(zhuǎn)化成詞對關(guān)系抽?。╞）

以圖 1 為例，“aching in legs”是一個扁平實(shí)體，“aching in shoulders”是一個非連續(xù)實(shí)體，兩者在“aching in”上重疊。以上三種 NER 類型可概括為統(tǒng)一命名實(shí)體識別（Unified Named Entity Recognition，UNER） 1.2 命名實(shí)體識別方法
截至當(dāng)前，命名實(shí)體識別領(lǐng)域的主流方法大致可分類為四類：

基于序列標(biāo)注的方法；
基于超圖的方法；
基于序列到序列的方法；
基于片段的方法。

其中，基于序列標(biāo)注的方法是 Flat NER 的基準(zhǔn)模型；而基于超圖的方法由于其模型結(jié)構(gòu)相對復(fù)雜從而使其獲得的關(guān)注相對較少。而基于序列到序列方法和基于片段的方法獲得了當(dāng)前最好的效果，并且也是當(dāng)前 NER 社區(qū)最為流行的方法，這兩種方法的基本技術(shù)思路如圖 2 所示。

▲ 圖2：序列到序列的方法與基于片段的方法
當(dāng)前 NER 社區(qū)嘗試采用一種模型框架同時將三種不同類型的 NER 同時建模，即端到端抽取出所有的類型的實(shí)體。以上四種 NER 方法均可以被設(shè)計為支持統(tǒng)一命名實(shí)體識別的模型。本研究亦關(guān)注于構(gòu)建一種高效的 UNER 系統(tǒng)。
1.3 本文的方法
在絕大部分現(xiàn)有的 NER 工作中，普遍認(rèn)為NER的核心要點(diǎn)在于如何準(zhǔn)確識別實(shí)體的邊界；然而我們在針對三種實(shí)體類型的共性進(jìn)行深入挖掘后，認(rèn)為詞語之間在語義上的連接特征才是 UNER 最為關(guān)鍵的問題。例如圖 1（a）中，識別扁平實(shí)體“aching in legs”相對而言是較為簡單，因?yàn)檫@個實(shí)體所包含的詞是天然相鄰的。而要識別出非連續(xù)實(shí)體“aching in shoulders”，則一個成功的 UNER 模型需要準(zhǔn)確高效地片為片段“aching in”和片段“shoulders”之間在語義上的鄰接關(guān)系進(jìn)行建模。
根據(jù)上述觀察，本文將 UNER 任務(wù)轉(zhuǎn)化成一種詞對的關(guān)系分類任務(wù)，提出了一種新的 UNER 架構(gòu)（NER as Word-Word Relation Classification），名為 W2NER。具體地，該框架的目標(biāo)是將 UNER 轉(zhuǎn)變?yōu)樽R別出實(shí)體詞中所蘊(yùn)含的兩種類型的關(guān)系，即：

鄰接關(guān)系（Next-Neighboring-Word，NNW）；
頭尾關(guān)系（Tail-Head-Word-*，THW-*）；

如圖 1（b）所示。其中 NNW 表示兩個詞在某個實(shí)體中相鄰（如“aching”->“in”），而 THW-* 則表示兩個詞是某個實(shí)體的頭部和尾部，且該實(shí)體類型為“*”（如“l(fā)eg”->“aching”，Symptom）。具體的詞對關(guān)系分類示例如圖 3 所示。
▲ 圖3：關(guān)系分類示例

二、模型框架

圖 4 給出了 W2NER 整體的框架結(jié)構(gòu)。其整體可分為三層：輸入編碼層，卷積特征學(xué)習(xí)層以及最后的解碼層。其中解碼層是本論文的核心。

▲ 圖4：模型整體結(jié)構(gòu)
2.1 編碼層
給定一個輸入句子，將每一個詞轉(zhuǎn)換成多個 word piece，并將他們輸入預(yù)訓(xùn)練的 BERT 模塊中。經(jīng)過 BERT 計算后，使用最大池化操作將這些 word piece 表示重新聚合成詞表示。為了進(jìn)一步增強(qiáng)模型的上下文建模能力，這里再使用了一個 BiLSTM 得到最終的詞表示序列。
2.2 卷積層
由于該框架的目標(biāo)是預(yù)測詞對中的關(guān)系，因此生成高質(zhì)量的詞對表示矩陣尤為重要，這里使用條件層規(guī)范化（Conditional Layer Normalization, CLN）對詞對表示進(jìn)行計算。受到 BERT 輸入層的啟發(fā)，對于卷積模塊的輸入，使用詞對表示、位置嵌入和區(qū)域嵌入進(jìn)行拼接。其中位置嵌入表示每個詞對中蘊(yùn)含的相對位置信息，而區(qū)域嵌入用于分隔矩陣中上下三角的區(qū)域信息。然后，將這三種類型的張量拼接，再使用一個全連接網(wǎng)絡(luò)對特征進(jìn)行混合并降低維度，再送入多個擴(kuò)張卷積中進(jìn)行運(yùn)算，再將不同的卷積輸出結(jié)果拼接起來。
2.3 解碼層
在解碼預(yù)測層，在使用 FFN 對卷積層輸出特征進(jìn)行關(guān)系預(yù)測的同時，將編碼層輸出特征輸入 Biaffine 也進(jìn)行詞對關(guān)系預(yù)測，這一步可以看做是一種特殊的殘差機(jī)制，將編碼層的特征也利用起來。因此最后的輸出為 FFN 和 Biaffine 輸出的加和。
在解碼階段，模型需要處理不同的詞對關(guān)系。模型的預(yù)測結(jié)果是詞之間的關(guān)系，這些詞和關(guān)系可以構(gòu)成一個有向圖，其中詞是節(jié)點(diǎn)，關(guān)系是邊。模型的解碼目標(biāo)則是要尋找從一個詞到另一個詞的由鄰接關(guān)系連接起來的路徑，每條路徑其實(shí)代表著一個對應(yīng)的實(shí)體。而頭尾關(guān)系則可以用于判斷實(shí)體的類型和邊界，除此之外還具有消歧的作用。圖 4 從易到難展示了 4 個解碼類型的例子。

▲ 圖5：四種不同類型樣本的解碼示例
三、實(shí)驗(yàn)結(jié)果 本文在 14 個 NER 常用數(shù)據(jù)集上（包括英文和中文）進(jìn)行了實(shí)驗(yàn)，分別是：

在扁平實(shí)體識別中，使用的英文數(shù)據(jù)集為 CoNLL 2003 和 OntoNotes 5.0，中文數(shù)據(jù)集為 OntoNotes 4.0、MSRA、Weibo 和 Resume；
在重疊實(shí)體識別中，使用 ACE 2004 和 ACE 2005 的中英文數(shù)據(jù)，和生物領(lǐng)域的英文數(shù)據(jù)集 Genia；
在非連續(xù)命名實(shí)體識別中，使用 CADEC、ShARe13、ShARe14。

表 1-5 分別展示了上述任務(wù)和數(shù)據(jù)集上與基線模型對比的結(jié)果。實(shí)驗(yàn)結(jié)果表明，我們提出的基于詞對關(guān)系抽取的方法，通過對鄰接關(guān)系和頭尾關(guān)系的識別，可以同時解決扁平實(shí)體、重疊實(shí)體和非連續(xù)實(shí)體的三種子任務(wù)，并在 14 個數(shù)據(jù)集上的效果都優(yōu)于之前的工作。

▲ 表1：英文扁平命名實(shí)體識別
▲ 表2：中文扁平命名實(shí)體識別
▲ 表3：英文重疊命名實(shí)體識別

▲ 表4：中文重疊命名實(shí)體識別
▲ 表5：英文非連續(xù)命名實(shí)體識別
▲ 圖6：重疊實(shí)體與非連續(xù)實(shí)體識別效果對比
通過進(jìn)一步的消融實(shí)驗(yàn)，我們探索了不同參數(shù)和部件對整體框架的影響。此外我們模型在相對較小的參數(shù)情況下，其訓(xùn)練和推理速度超過了多個非連續(xù)實(shí)體識別模型。
▲ 表6：消融實(shí)驗(yàn)
▲ 圖7：模型參數(shù)與效率對比

四、總結(jié)

本文提出了一個統(tǒng)一命名實(shí)體識別框架，通過對詞與詞之間的關(guān)系進(jìn)行分類的方式同時解決三種命名實(shí)體識別子任務(wù)。通過對預(yù)先定義好的詞對中的鄰接關(guān)系和頭尾關(guān)系分類，模型能夠?qū)崿F(xiàn)對復(fù)雜實(shí)體的解碼。所提出的框架在 14 個中英文命名實(shí)體識別基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，其刷新了當(dāng)前最先進(jìn)的基線模型，取得了目前最好的統(tǒng)一命名實(shí)體識別分?jǐn)?shù)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AAAI 2022 | 基于詞對關(guān)系建模的統(tǒng)一NER，刷爆14個中英NER數(shù)據(jù)集

相關(guān)推薦

技術(shù)專區(qū)