憑借cw2vec方法,阿里健康拿下中文電子病歷實(shí)體識(shí)別全國(guó)冠軍
全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS2018)8月14日至17日在天津舉行,憑借出色的專業(yè)能力,阿里健康團(tuán)隊(duì)在中文電子病歷命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)中奪冠。
本文引用地址:http://m.butianyuan.cn/article/201808/390772.htm電子病歷結(jié)構(gòu)化是讓計(jì)算機(jī)理解病歷、應(yīng)用病歷的基礎(chǔ)?;趯?duì)病歷的結(jié)構(gòu)化,可以計(jì)算出癥狀、疾病、藥品、檢查檢驗(yàn)等多個(gè)知識(shí)點(diǎn)之間的關(guān)系及其概率,構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜,進(jìn)一步優(yōu)化醫(yī)生的工作。
例如,基于大醫(yī)院的優(yōu)質(zhì)病歷數(shù)據(jù)訓(xùn)練的輔助診療系統(tǒng),可以在基層醫(yī)院應(yīng)用以提升醫(yī)生的業(yè)務(wù)能力;根據(jù)癥狀和以往病歷記錄自動(dòng)分析醫(yī)生開(kāi)出的藥品是否合理,預(yù)測(cè)發(fā)生誤診的概率等等。結(jié)構(gòu)化的電子病歷對(duì)于臨床醫(yī)學(xué)科研等工作也具有重大作用,醫(yī)生可以更加智能地搜索相關(guān)病歷,或者查看相似病歷,也可以對(duì)病歷進(jìn)行相關(guān)統(tǒng)計(jì)分析,有助于醫(yī)生發(fā)現(xiàn)潛在的知識(shí)聯(lián)系,產(chǎn)生高水平的臨床研究論文。
此次CCKS2018的電子病歷命名實(shí)體識(shí)別的評(píng)測(cè)任務(wù),是對(duì)于給定的一組電子病歷純文本文檔,識(shí)別并抽取出其中與醫(yī)學(xué)臨床相關(guān)的實(shí)體,并將它們歸類到預(yù)先定義好的類別中。組委會(huì)針對(duì)這個(gè)評(píng)測(cè)任務(wù),提供了600份標(biāo)注好的電子病歷文本,共需識(shí)別含解剖部位、獨(dú)立癥狀、癥狀描述、手術(shù)和藥物五類實(shí)體。
目前主流的中文實(shí)體識(shí)別方法主要沿用自英文和其他語(yǔ)言的通用方法,并沒(méi)有把中文的特色發(fā)揮出來(lái)。而正如英文中可以根據(jù)單詞的詞根詞綴來(lái)猜測(cè)其意義和性質(zhì)一樣,漢字的筆畫及偏旁部首中也蘊(yùn)含著大量信息。阿里健康團(tuán)隊(duì)以兩種序列標(biāo)注算法為基礎(chǔ),首次在醫(yī)療文本領(lǐng)域采用了cw2vec的方法構(gòu)建詞向量矩陣,基于全部的非標(biāo)注文本和標(biāo)注文本集訓(xùn)練詞向量,以解決新字無(wú)法識(shí)別的問(wèn)題;同時(shí)改進(jìn)了漢字結(jié)構(gòu)和拼音的特征的一般方案。最終,團(tuán)隊(duì)以嚴(yán)格指標(biāo)0.8913取得了第一名的好成績(jī)。
“醫(yī)療命名實(shí)體識(shí)別只是我們團(tuán)隊(duì)工作的一小部分,也是我們面向醫(yī)院和醫(yī)生提供醫(yī)療人工智能服務(wù)的基礎(chǔ)。”阿里健康人工智能實(shí)驗(yàn)室主任范繹說(shuō),阿里健康團(tuán)隊(duì)長(zhǎng)期專注通過(guò)實(shí)體識(shí)別、實(shí)體鏈接、關(guān)系提取等手段從電子病歷中識(shí)別信息,并在此基礎(chǔ)上對(duì)信息進(jìn)行融合和整合,以知識(shí)圖譜的呈現(xiàn)形式,為其他服務(wù)提供數(shù)據(jù)基礎(chǔ)。在此之上,基于電子病歷數(shù)據(jù),阿里健康打造了大數(shù)據(jù)科研平臺(tái)、臨床輔助決策引擎等針對(duì)醫(yī)院和醫(yī)生的多款產(chǎn)品,為廣大醫(yī)生和用戶提供更加智能的用戶體驗(yàn),幫助其提升專業(yè)水平和工作效率。
CCKS是由中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)(CIPS)定期舉辦的全國(guó)年度學(xué)術(shù)會(huì)議,致力于促進(jìn)中國(guó)語(yǔ)言與知識(shí)計(jì)算領(lǐng)域的學(xué)術(shù)研究和產(chǎn)業(yè)發(fā)展,為從事相關(guān)領(lǐng)域理論和應(yīng)用研究的學(xué)者、機(jī)構(gòu)和企業(yè)提供廣泛交流的平臺(tái),已經(jīng)成為國(guó)內(nèi)知識(shí)圖譜、語(yǔ)義技術(shù)、語(yǔ)言理解和知識(shí)計(jì)算等領(lǐng)域的核心會(huì)議。
評(píng)論