一文 Get 汽車知識(shí)的語(yǔ)義網(wǎng)絡(luò)及圖譜構(gòu)建(1)
出品 | AI科技大本營(yíng)(ID:rgznai100)知識(shí)圖譜的概念最早由 Google 在2012 年提出, 旨在架構(gòu)更智能的搜索引擎,2013年之后開始在學(xué)術(shù)界和產(chǎn)業(yè)界普及,目前很多大型互聯(lián)網(wǎng)公司都在積極部署本企業(yè)的知識(shí)圖譜,F(xiàn)acebook、百度、阿里、騰訊、美團(tuán)等企業(yè)的落地應(yīng)用場(chǎng)景如下圖所示。作為人工智能核心技術(shù)驅(qū)動(dòng)力,知識(shí)圖譜可以緩解深度學(xué)習(xí)依賴海量數(shù)據(jù)訓(xùn)練,需要大規(guī)模算力的問(wèn)題,能夠廣泛適配不同的下游任務(wù),且具有良好的解釋性。目前,這一技術(shù)已廣泛應(yīng)用于搜索、推薦、廣告、風(fēng)控、智能調(diào)度、語(yǔ)音識(shí)別、機(jī)器人等多個(gè)業(yè)務(wù)領(lǐng)域。
從落地行業(yè)來(lái)看,目前知識(shí)圖譜的應(yīng)用主要集中在電商、醫(yī)療、金融等商業(yè)和服務(wù)領(lǐng)域,關(guān)于汽車知識(shí)的語(yǔ)義網(wǎng)絡(luò)及知識(shí)圖譜構(gòu)建缺少系統(tǒng)性的指導(dǎo)方法。本文以汽車領(lǐng)域知識(shí)為例,圍繞車系、車型、經(jīng)銷商、廠商、品牌等實(shí)體及相互關(guān)系,提供一種從零搭建領(lǐng)域圖譜的思路。
如何進(jìn)行圖譜構(gòu)建?構(gòu)建挑戰(zhàn)知識(shí)圖譜是真實(shí)世界的語(yǔ)義表示,其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”,“實(shí)體-屬性-屬性值”的三元組(Triplet),實(shí)體之間通過(guò)關(guān)系相互聯(lián)結(jié),從而構(gòu)成語(yǔ)義網(wǎng)絡(luò)。圖譜構(gòu)建中會(huì)面臨較大的挑戰(zhàn),但構(gòu)建之后,可在數(shù)據(jù)分析、推薦計(jì)算、可解釋性等多個(gè)場(chǎng)景中展現(xiàn)出豐富的應(yīng)用價(jià)值。其中,構(gòu)建挑戰(zhàn)包括:
Schema 難定義。目前尚無(wú)統(tǒng)一成熟的本體構(gòu)建流程,且特定領(lǐng)域本體定義通常需專家參與;
數(shù)據(jù)類型異構(gòu)。通常情況下,一個(gè)知識(shí)圖譜構(gòu)建中面對(duì)的數(shù)據(jù)源不會(huì)是單一類型,面對(duì)結(jié)構(gòu)各異的數(shù)據(jù),知識(shí)轉(zhuǎn)模及挖掘的難度較高;
依賴專業(yè)知識(shí)。領(lǐng)域知識(shí)圖譜通常依賴較強(qiáng)的專業(yè)知識(shí),例如車型對(duì)應(yīng)的維修方法,涉及機(jī)械、電工、材料、力學(xué)等多個(gè)領(lǐng)域知識(shí),且此類關(guān)系對(duì)于準(zhǔn)確度的要求較高,需要保證知識(shí)足夠正確;
數(shù)據(jù)質(zhì)量無(wú)保證。挖掘或抽取信息需要知識(shí)融合或人工校驗(yàn),才能作為知識(shí)助力下游應(yīng)用。
構(gòu)建后將獲得的收益:
- 知識(shí)圖譜統(tǒng)一知識(shí)表示。通過(guò)整合多源異構(gòu)數(shù)據(jù),形成統(tǒng)一視圖;
- 語(yǔ)義信息豐富。通過(guò)關(guān)系推理可以發(fā)現(xiàn)新關(guān)系邊,獲得更豐富的語(yǔ)義信息;
- 可解釋性強(qiáng)。顯式的推理路徑對(duì)比深度學(xué)習(xí)結(jié)果具有更強(qiáng)的解釋性;
- 高質(zhì)量且能不斷積累。根據(jù)業(yè)務(wù)場(chǎng)景設(shè)計(jì)合理的知識(shí)存儲(chǔ)方案,實(shí)現(xiàn)知識(shí)更新和累積。
架構(gòu)設(shè)計(jì)技術(shù)架構(gòu)主要分為構(gòu)建層、存儲(chǔ)層及應(yīng)用層三大層,架構(gòu)圖如下:
構(gòu)建層。包括Schema定義,結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)模,非結(jié)構(gòu)化數(shù)據(jù)挖掘,以及知識(shí)融合;
存儲(chǔ)層。包括知識(shí)的存儲(chǔ)和索引,知識(shí)更新,元數(shù)據(jù)管理,以及支持基本的知識(shí)查詢;
服務(wù)層。包括智能推理、結(jié)構(gòu)化查詢等業(yè)務(wù)相關(guān)的下游應(yīng)用層。
構(gòu)建步驟及流程
依據(jù)架構(gòu)圖,具體構(gòu)建流程可分為四步:本體設(shè)計(jì)、知識(shí)獲取、知識(shí)入庫(kù),以及應(yīng)用服務(wù)設(shè)計(jì)及使用。
本體構(gòu)建本體(Ontology)是公認(rèn)的概念集合,本體的構(gòu)建是指依據(jù)本體的定義,構(gòu)建出知識(shí)圖譜的本體結(jié)構(gòu)和知識(shí)框架。基于本體構(gòu)建圖譜的原因主要有以下幾點(diǎn):
明確專業(yè)術(shù)語(yǔ)、關(guān)系及其領(lǐng)域公理,當(dāng)一條數(shù)據(jù)必須滿足Schema預(yù)先定義好的實(shí)體對(duì)象和類型后,才允許被更新到知識(shí)圖譜中。
將領(lǐng)域知識(shí)與操作性知識(shí)分離,通過(guò)Schema可以宏觀了解圖譜架構(gòu)及相關(guān)定義,無(wú)須再?gòu)娜M中歸納整理。
實(shí)現(xiàn)一定程度的領(lǐng)域知識(shí)復(fù)用。在構(gòu)建本體之前,可以先調(diào)研是否有相關(guān)本體已經(jīng)被構(gòu)建出來(lái),這樣可以基于已有本體進(jìn)行改進(jìn)和擴(kuò)展,達(dá)到事半功倍的效果。
基于本體的定義,可以避免圖譜與應(yīng)用脫節(jié),或者修改圖譜Schema比重新構(gòu)建成本還要高的情況。
按照知識(shí)的覆蓋面來(lái)看,知識(shí)圖譜可以劃分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,通用圖譜更注重廣度,強(qiáng)調(diào)融合更多的實(shí)體數(shù)量,但對(duì)精確度的要求不高,很難借助本體庫(kù)對(duì)公理、規(guī)則及約束條件進(jìn)行推理和使用。而領(lǐng)域圖譜的知識(shí)覆蓋范圍較小,但知識(shí)深度更深,往往是在某一專業(yè)領(lǐng)域上的構(gòu)建。
考慮對(duì)準(zhǔn)確率的要求,領(lǐng)域本體構(gòu)建多傾向于手工構(gòu)建的方式,例如代表性的七步法、IDEF5方法等[1],該類方法的核心思想是,基于已有結(jié)構(gòu)化數(shù)據(jù),進(jìn)行本體分析,將符合應(yīng)用目的和范圍的本體進(jìn)行歸納及構(gòu)建,再對(duì)本體進(jìn)行優(yōu)化和驗(yàn)證,從而獲取初版本體定義。若想獲取更大范疇的領(lǐng)域本體,則可以從非結(jié)構(gòu)化語(yǔ)料中補(bǔ)充,考慮手工構(gòu)建過(guò)程較長(zhǎng),以汽車領(lǐng)域?yàn)槔?,提供一種半自動(dòng)本體構(gòu)建的方式。
構(gòu)建詳細(xì)步驟如下:
- 首先,收集大量汽車非結(jié)構(gòu)化語(yǔ)料(如車系咨詢、新車導(dǎo)購(gòu)文章等),作為初始個(gè)體概念集,利用統(tǒng)計(jì)方法或無(wú)監(jiān)督模型(TF-IDF、BERT等)獲取字特征和詞特征;
- 其次,利用BIRCH聚類算法對(duì)概念間層次劃分,初步構(gòu)建起概念間層級(jí)關(guān)系,并對(duì)聚類結(jié)果進(jìn)行人工概念校驗(yàn)和歸納,獲取本體的等價(jià)、上下位概念;
- 最后,使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合遠(yuǎn)程監(jiān)督的方法,抽取本體屬性的實(shí)體關(guān)系,并輔以人工識(shí)別本體中的類及屬性的概念,構(gòu)建起汽車領(lǐng)域本體。
上述方法可有效利用BERT等深度學(xué)習(xí)技術(shù),更好地捕捉語(yǔ)料間的內(nèi)部關(guān)系,使用聚類分層次對(duì)本體各模塊進(jìn)行構(gòu)建,輔以人工干預(yù),能夠快速、準(zhǔn)確的完成初步本體構(gòu)建。下圖為半自動(dòng)化本體構(gòu)建示意圖:
利用Protégé本體構(gòu)建工具[2],可以進(jìn)行本體概念類、關(guān)系、屬性和實(shí)例的構(gòu)建,下圖為本體構(gòu)建可視化示例圖:Protégé可以導(dǎo)出不同類型的Schema配置文件,其中owl.xml結(jié)構(gòu)配置文件如下圖所示。該配置文件可直接在MySQL、JanusGraph中加載使用,實(shí)現(xiàn)自動(dòng)化的創(chuàng)建Schema。
知識(shí)獲取
知識(shí)圖譜的數(shù)據(jù)來(lái)源通常包括三類數(shù)據(jù)結(jié)構(gòu),分別為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。面向不同類型的數(shù)據(jù)源,知識(shí)抽取涉及的關(guān)鍵技術(shù)和需要解決的技術(shù)難點(diǎn)有所不同。結(jié)構(gòu)化知識(shí)轉(zhuǎn)模結(jié)構(gòu)化數(shù)據(jù)是圖譜最直接的知識(shí)來(lái)源,基本通過(guò)初步轉(zhuǎn)換就可以使用,相較其他類型數(shù)據(jù)成本最低,所以圖譜數(shù)據(jù)一般優(yōu)先考慮結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)可能涉及多個(gè)數(shù)據(jù)庫(kù)來(lái)源,通常需要使用ETL方法轉(zhuǎn)模,ETL即Extract(抽?。?、Transform(轉(zhuǎn)換)、Load(裝載)。通過(guò)ETL流程可將不同源數(shù)據(jù)落到中間表,從而方便后續(xù)的知識(shí)入庫(kù)。下圖為車系實(shí)體屬性、關(guān)系表示例圖:車系與品牌關(guān)系表:非結(jié)構(gòu)化知識(shí)抽取——三元組抽取除了結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)中也存在著海量的知識(shí)(三元組)信息。一般來(lái)說(shuō),企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)量要遠(yuǎn)大于結(jié)構(gòu)化數(shù)據(jù),挖掘非結(jié)構(gòu)化知識(shí)能夠極大拓展和豐富知識(shí)圖譜。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
數(shù)字通信相關(guān)文章:數(shù)字通信原理