復旦大學:多模態(tài)知識圖譜最新綜述
以下文章來源于NewBeeNLP ,作者上杉翔二
本篇博文梳理一篇knowledge-based方向的文章,結(jié)合了多模態(tài)知識的多模態(tài)知識圖譜。來自復旦大學,先上路徑:
- Title:Multi-Modal Knowledge Graph Construction and Application: A Survey
- Link:https://arxiv.org/abs/2202.05786v1
知識圖譜到多模態(tài)知識圖譜
首先知識圖譜是一個以實體、概念為節(jié)點、以概念之間的各種語義關系為邊的大規(guī)模語義網(wǎng)絡。這種帶有知識的結(jié)構(gòu)也被廣泛應用,但是,現(xiàn)有知識圖譜都以純文本的形式出現(xiàn),卻沒有真實世界的連接。比如:
- 對抽象概念的理解。一個符號“dog”應該根植于物理世界,將其和真的狗之間建立聯(lián)系對理解這些抽象概念是有效的。作者同時也舉例了“Hand-in-waistcoat”等詞匯。
- 對特定任務的幫助。在關系提取任務中,額外的圖像會以在視覺上幫助區(qū)分屬性和關系,如partOf (鍵盤和屏幕是筆記本電腦的一部分),colorOf(香蕉通常是黃色或黃綠色,而無藍色的)。在文本生成任務中,可以幫助生成一個信息更豐富的實體級句子(例如特朗普正在發(fā)表演講),而不是一個模糊的概念級描述(例如一個金發(fā)高個子男人正在發(fā)表演講)。
因此多模態(tài)知識圖譜(Multi-Modal Knowledge Graph,MMKG)被逐漸矚目,這篇文章主要關注兩個話題:
- 構(gòu)建(Construction)。MMKG的構(gòu)建主要有兩種:一種是從圖像到符號(from images to symbols),即用KG表示符號來標注圖像;另一種是從符號到圖像( from symbols to images),即把KG中的符號對應到圖像。
- 應用(Application)。MMKG的應用也可以大致分為兩類,一類是In-MMKG應用,目的是解決MMKG本身的質(zhì)量或集成問題;另一類是 Out-of-MMKG應用,作者指的是如果將MMKG應用到一般的多模態(tài)任務中。
多模態(tài)知識圖譜的好處
- MMKG提供了足夠的背景知識來豐富實體和概念的表示,特別是對于長尾問題,引入輔助的常識知識可以增強圖像和文本的表示能力。
- MMKG能夠理解圖像中不可見的物體。這主要是利用符號知識提供的在視覺上看不見物體的符號信息,或在看不見物體和看不見物體之間建立語義關系。
- MMKG支持多模態(tài)推理。在外部知識資源的幫助下,VQA任務的推理能力可以得到提升。
- MMKG通常提供多模態(tài)數(shù)據(jù)作為附加特性來彌補一些NLP任務中的信息差距。以實體識別為例,一個圖像可以提供足夠的信息來識別“Rocky”是一只狗的名字還是一個人的名字。
多模態(tài)知識圖譜構(gòu)建
MMKG構(gòu)建需要將普通KG中的符號知識(包括實體、概念、關系等)與圖像關聯(lián)起來。MMKG按類型可分為兩種,A-MMKG和N-MMKG。A即 attribute,將多模態(tài)數(shù)據(jù)如圖像作為實體或概念的特定屬性值,而N即entities,將多模態(tài)數(shù)據(jù)直接作為KGs中的實體。
下圖是兩種類型的主要predicate,如在A-MMKG中hasImage,N-MMKG的sameAs。
在構(gòu)建上,上面也提到過的,主要有兩種方式
(1) from images to symbols,即在圖像上標注KG中的符號;(2) from symbols to images,即在圖像上標注KG中的對應符號。
下圖a是第一種靠 labeling images構(gòu)建的方法,圖b是第二種 symbol grounding的構(gòu)建方式的流行數(shù)據(jù)集們。
從圖像到符號:標注圖像(labeling images)
可以由人工標注的數(shù)據(jù)集來監(jiān)督,讓人畫出邊界框并標注帶有給定標簽的圖像或圖像區(qū)域。也可搭建一個系統(tǒng)來做,比如分為三個子任務:視覺實體/概念提取、視覺關系提取和視覺事件提取。
- 視覺實體/概念提取的目的是檢測和定位圖像中的目標視覺對象,然后用KG中的實體/概念符號標記這些對象,目標檢測和視覺定位使用較多;
- 視覺關系提取的目的是識別圖像中檢測到的視覺實體/概念之間的語義關系,然后用KG中的關系對其進行標記,其中基于規(guī)則、統(tǒng)計或者更細粒度的方法較多;
- 事件提取任務的目的是預測事件類型。
從符號到圖像:符號定位( symbol grounding)
主要尋找合適的圖像來表示傳統(tǒng)KG中已經(jīng)存在的符號。與圖像標注方式相比,這種方式在MMKG構(gòu)建中更為廣泛,主要分為幾個過程:實體定位、概念定位和關系定位。
- 對于找實體圖像來說,基于百科或搜索是常見的方式
- 對于概念來說,該概念是否可以被可視化,和如何從大量圖片中選擇有代表性、多樣性的圖片是重要話題;
- 對于關系定位來說,圖文匹配或圖匹配會是比較好的選擇。
作者對這兩塊兒會遇到的挑戰(zhàn)和未來的優(yōu)化機會做了詳細的探討,有興趣可以拜讀原文。與此同時,如何應用好這些已經(jīng)被制作完善的MMKG也很重要。
多模態(tài)知識圖譜應用
應用任務主要分為in-KG和out-of-KG。In-MMKG應用是指在MMKG本身內(nèi)進行的任務,如:鏈接預測Link Prediction,三元組分類Triple Classification,實體鏈接Entity Classification,實體對齊Entity Alignment等等。這些和KG中已經(jīng)探討很多的任務,本篇博文就不再贅述太多。
Out-of-MMKG則是更為廣泛一些的下游任務,如多模態(tài)實體識別與鏈接Multi-modal Entity Recognition and Linking,視覺問答 Visual Question Answering,圖像文本匹配Image-Text Matching,多模態(tài)生成任務Multi-modal Generation Tasks,多模態(tài)推薦系統(tǒng)Multi-modal Recommender System。
- Multi-modal Entity Recognition and Linking。圖像可以為實體識別提供必要的互補信息。主要通過兩種方式利用MMKG中的圖像知識:1)提供實體應該鏈接的目標實體;2)學習每個多模態(tài)數(shù)據(jù)的分布式表示,然后用它來度量相關性。
- Visual Question Answering。MMKG可以提供關于問題實體及其在圖像中的關系的知識,從而帶來更深層次的視覺內(nèi)容理解,同時MMKG中的結(jié)構(gòu)化符號知識都可以為進行推理過程和預測最終答案的一種更明確的方式。
- Image-Text Matching。MMKG可以利用多模態(tài)實體之間的關系來擴展更多的視覺和語義概念。此外MMKG還可以幫助構(gòu)建場景圖,引入視覺概念之間的信息相關知識,進一步增強圖像表示。
- Multi-modal Generation Tasks。包括 image tagging, image captioning, visual storytelling都算,MMKG中的概念知識可以極大地提高圖像的表示能力,在解決歧義、看不見的物體、詞匯量等方面都表現(xiàn)強大。
- Multi-modal Recommender System。利用外部MMKG來獲得具有豐富語義的item表示,甚至個性化的表示都完全可以,這一點在KG in Recommendation就很有效,擴展到多模態(tài)形式或許能進一步增強效果。
多模態(tài)知識圖譜開放問題
作者主要提了以下未來的開放性問題:
- 復雜符號知識定位(Grounding Complex Symbolic Knowledge Grounding)。即除了實體、概念和關系的基礎之外,一些下游應用還需要復雜的符號知識的基礎,如KG中的一條路徑、一個子圖等涉及到多重關系。且在許多情況下,多重關系的復合語義是隱式表達的且可能隨著時間而改變。
- 質(zhì)量控制(Quality Control)。大規(guī)模的MMKG可能存在錯誤、缺少事實或過時的事實,因此精度、完整性、一致性和新鮮度,圖像質(zhì)量等可能都需要被討論。
- 效率(Efficiency)。MMKG的構(gòu)造效率問題較大,如NEIL需要大約350K CPU hours來為2273個對象收集400K的可視化實例,而在一個典型的KG中,這個數(shù)量會變成數(shù)十億個實例。而如果繼續(xù)擴展到視頻數(shù)據(jù),這個擴展性問題會繼續(xù)被放大。除了MMKG的構(gòu)建,MMKG的在線應用的要求也會更高。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。