【NAACL2021】Graph4NLP：圖深度學習自然語言處理

發(fā)布人：數(shù)據(jù)派THU 時間：2021-07-04 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：專知

深度學習已經(jīng)成為自然語言處理(NLP)研究的主導方法，特別是在大規(guī)模語料庫中。在自然語言處理任務(wù)中，句子通常被認為是一系列標記。因此，流行的深度學習技術(shù)如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)在文本序列建模中得到了廣泛的應(yīng)用。

然而，有大量的自然語言處理問題可以用圖結(jié)構(gòu)來最好地表達。例如，序列數(shù)據(jù)中的結(jié)構(gòu)和語義信息(例如，各種語法分析樹(如依賴分析樹)和語義分析圖(如抽象意義表示圖))可以通過合并特定任務(wù)的知識來擴充原始序列數(shù)據(jù)。因此，這些圖結(jié)構(gòu)化數(shù)據(jù)可以對實體標記之間的復雜成對關(guān)系進行編碼，以學習更多的信息表示。然而，眾所周知，深度學習技術(shù)對歐幾里德數(shù)據(jù)(如圖像)或序列數(shù)據(jù)(如文本)具有破壞性，但不能立即適用于圖結(jié)構(gòu)數(shù)據(jù)。因此，這一差距推動了對圖的深度學習的研究，特別是圖神經(jīng)網(wǎng)絡(luò)(GNN)的發(fā)展。

這種在圖的深度學習和自然語言處理的交叉領(lǐng)域的研究浪潮影響了各種自然語言處理任務(wù)。應(yīng)用/開發(fā)各種類型的GNN的興趣激增，并在許多自然語言處理任務(wù)中取得了相當大的成功，從分類任務(wù)如句子分類、語義角色標注和關(guān)系提取，到生成任務(wù)如機器翻譯、問題生成和摘要。

盡管取得了這些成功，NLP的圖深度學習仍然面臨許多挑戰(zhàn)，包括自動將原始文本序列數(shù)據(jù)轉(zhuǎn)換為高度圖結(jié)構(gòu)的數(shù)據(jù)，以及有效地建模復雜數(shù)據(jù)，包括基于圖的輸入和其他高度結(jié)構(gòu)化的輸出數(shù)據(jù) (如序列、樹、并在節(jié)點和邊均具有多種類型的圖數(shù)據(jù)。本教程將涵蓋在NLP中運用深度學習圖技術(shù)的相關(guān)和有趣的主題，包括NLP的自動圖構(gòu)造、NLP的圖表示學習、NLP的高級基于GNN的模型(例如graph2seq、graph2tree和graph2graph)，以及GNN在各種NLP任務(wù)中的應(yīng)用 (例如:機器翻譯、自然語言生成、信息提取和語義解析)。此外，還將包括動手演示課程，以幫助觀眾獲得應(yīng)用GNN解決具有挑戰(zhàn)性的NLP問題的實際經(jīng)驗，使用我們最近開發(fā)的開源庫——Graph4NLP，這是第一個為研究人員和從業(yè)者提供的庫，用于輕松地使用GNN解決各種NLP任務(wù)。

Graph4NLP 239頁slides的教程：

地址：https://github.com/graph4ai/graph4nlp

Graph4NLP：圖深度學習自然語言處理工具包

來自京東硅谷研發(fā)中心的首席科學家吳凌飛博士領(lǐng)導的 Graph4AI 團隊開發(fā)了首個面向NLP的圖深度學習工具包：Graph4NLP: Deep Learning on Graphs for Natural Language Processing 。

目前Graph4NLP的包是建立在DGL基礎(chǔ)上，關(guān)鍵模塊包含了文本轉(zhuǎn)圖結(jié)構(gòu)模塊（Graph Construction),、圖學習模塊 (Graph Representation Learning)、預(yù)測模塊 (Prediction)、評估模塊 (Evaluation) 和損失函數(shù)模塊 (Loss)。