人工智能“訓(xùn)”出影像科“大拿”
春節(jié)長(zhǎng)假剛過(guò),一則消息就讓人工智能(AI)圈振奮不已。在2月22日最新一期的《細(xì)胞》雜志上,廣州市婦女兒童醫(yī)療中心張康團(tuán)隊(duì)的研究榮登雜志封面,他們所帶來(lái)的成果是一款能精確診斷眼病和肺炎兩大類疾病的AI系統(tǒng)。
本文引用地址:http://m.butianyuan.cn/article/201803/376658.htm
對(duì)于以數(shù)據(jù)為基礎(chǔ)食材的AI來(lái)說(shuō),沒(méi)有什么比醫(yī)學(xué)影像數(shù)據(jù)更好“咀嚼”的
在2月23日舉辦的新聞發(fā)布會(huì)上,研發(fā)團(tuán)隊(duì)介紹,新一代AI平臺(tái)“本領(lǐng)強(qiáng)大”,既能讀X光片和超聲數(shù)據(jù),又可以閱讀CT(X射線斷層掃描)和MR(磁共振)影像;可在30秒內(nèi)診斷黃斑變性和糖尿病視網(wǎng)膜黃斑水腫這兩種眼科疾病,還可在幾秒內(nèi)對(duì)兒童肺炎病原學(xué)類型進(jìn)行差異性分析和判定,診斷的準(zhǔn)確性和靈敏性均達(dá)到90%以上。
據(jù)了解,這不僅是中國(guó)研究團(tuán)隊(duì)首次在頂級(jí)生物醫(yī)學(xué)雜志發(fā)表有關(guān)醫(yī)學(xué)人工智能的研究成果,也是世界范圍內(nèi)首次使用如此龐大的標(biāo)注好的高質(zhì)量數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),并取得高度精確的診斷結(jié)果,實(shí)現(xiàn)用AI精確推薦治療手段的突破。
“未來(lái)我們將繼續(xù)增加這個(gè)系統(tǒng)能夠診斷的視網(wǎng)膜疾病,同時(shí)還將加入包括腫瘤等其他系統(tǒng)的疾病。”美國(guó)加州大學(xué)圣地亞哥分校人類基因組醫(yī)學(xué)研究所所長(zhǎng)、廣州市婦女兒童醫(yī)療中心基因檢測(cè)中心主任張康表示。
舉一反三的遷移學(xué)習(xí)
在眼科治療中,視網(wǎng)膜OCT(光學(xué)相干斷層掃描)成像技術(shù)是最常用的診斷技術(shù)之一,通過(guò)獲取視網(wǎng)膜組織的高分辨率圖像,醫(yī)生們能夠精準(zhǔn)地對(duì)年齡相關(guān)性黃斑變性和糖尿病性黃斑水腫等致盲性眼病作出診斷,并提供治療方案。
基于OCT技術(shù)的普遍性,如果能讓AI技術(shù)來(lái)處理這些圖片,無(wú)疑將會(huì)大大增強(qiáng)診斷的效率和準(zhǔn)確度。為此,張康團(tuán)隊(duì)獲取了超過(guò)20萬(wàn)張OCT的圖像,并使用其中來(lái)自近5000名患者的10萬(wàn)張圖像,訓(xùn)練一款深度學(xué)習(xí)算法。在經(jīng)歷了大量迭代訓(xùn)練后,這款算法的準(zhǔn)確率達(dá)到了目前的最優(yōu)值。
“在學(xué)習(xí)了超過(guò)20萬(wàn)病例的OCT圖像數(shù)據(jù)后,AI平臺(tái)診斷黃斑變性、黃斑水腫的準(zhǔn)確性達(dá)到96.6%,靈敏性達(dá)到97.8%,特異性達(dá)到97.4%。”據(jù)張康介紹,新一代AI平臺(tái)既能基于OCT數(shù)據(jù)實(shí)現(xiàn)常見(jiàn)視網(wǎng)膜疾病的識(shí)別和嚴(yán)重性定量評(píng)估,也能基于胸部X光影像數(shù)據(jù)實(shí)現(xiàn)兒童肺炎病原學(xué)類型的差異性分析和快速準(zhǔn)確判定。
那么,“學(xué)習(xí)訓(xùn)練”后的AI平臺(tái),診斷水平為什么會(huì)得到快速提高?這就是該研究應(yīng)用算法的創(chuàng)新之處——遷移學(xué)習(xí)。
所謂“遷移學(xué)習(xí)”,就是把已訓(xùn)練好的模型參數(shù)遷移到新的模型來(lái)幫助新模型訓(xùn)練,也就是運(yùn)用已有的知識(shí)來(lái)學(xué)習(xí)新的知識(shí),找到已有知識(shí)和新知識(shí)之間的相似性。這實(shí)際上就相當(dāng)于舉一反三。
“比如你過(guò)去沒(méi)有見(jiàn)過(guò)老虎,但當(dāng)你見(jiàn)了三只老虎之后,再出現(xiàn)第四只你就認(rèn)識(shí)了。”醫(yī)學(xué)影像人工智能專家、匯醫(yī)慧影CEO柴象飛對(duì)《中國(guó)科學(xué)報(bào)》記者解釋,“當(dāng)我們對(duì)一個(gè)事物建立了基本認(rèn)知之后,再去學(xué)習(xí)新的事物就會(huì)相對(duì)容易,并且只需很少的樣本就可以有一個(gè)知識(shí)的遷移,這就是遷移學(xué)習(xí)。”
相較于其他大多數(shù)學(xué)習(xí)模型的“從零開(kāi)始”,遷移學(xué)習(xí)利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)基于已有的訓(xùn)練好的源任務(wù)參數(shù)的基礎(chǔ)上學(xué)習(xí)目標(biāo)任務(wù)輸入數(shù)據(jù)的特點(diǎn),獲得新的網(wǎng)絡(luò)模型及其參數(shù)。以醫(yī)學(xué)影像學(xué)習(xí)為例,該系統(tǒng)會(huì)識(shí)別目標(biāo)系統(tǒng)中圖像的特點(diǎn),從研究人員導(dǎo)入的源系統(tǒng)的結(jié)構(gòu)和參數(shù)從發(fā),利用輸入圖像數(shù)據(jù)的相似性訓(xùn)練構(gòu)建新的系統(tǒng)模型和參數(shù)。
華中科技大學(xué)生命科學(xué)與技術(shù)學(xué)院教授薛宇表示,傳統(tǒng)機(jī)器學(xué)習(xí)算法訓(xùn)練數(shù)據(jù)集大,特征提取比較困難,這樣造成的結(jié)果是,數(shù)據(jù)集小預(yù)測(cè)不準(zhǔn),變大后預(yù)測(cè)準(zhǔn)確率提高,但數(shù)據(jù)集再大就又不準(zhǔn)了。深度學(xué)習(xí)的好處是,數(shù)據(jù)集越大準(zhǔn)確性越高,特征提取能力也比傳統(tǒng)機(jī)器學(xué)習(xí)算法強(qiáng)得多。
“CNN是深度學(xué)習(xí)算法里的一類方法,處理圖像數(shù)據(jù)比較有優(yōu)勢(shì)。這項(xiàng)研究策略是先讓機(jī)器學(xué)習(xí)1000類圖片的特征然后建立模型,再針對(duì)需要研究的問(wèn)題進(jìn)行遷移學(xué)習(xí),這樣的話,訓(xùn)練集足夠大準(zhǔn)確性也高。”薛宇點(diǎn)評(píng)道,“理論上訓(xùn)練集不斷增大,準(zhǔn)確性可以完全超過(guò)任何頂級(jí)專家的診斷。”
首先要克服數(shù)據(jù)困境
對(duì)于以數(shù)據(jù)為基礎(chǔ)食材的AI來(lái)說(shuō),沒(méi)有什么比醫(yī)學(xué)影像數(shù)據(jù)更需要“咀嚼”的。在醫(yī)療中,超過(guò)80%的數(shù)據(jù)來(lái)自于CT、X線、MR、超聲等醫(yī)學(xué)影像,AI可以借助這些海量數(shù)據(jù)生成算法模型,保證模型最大的包容性。
但在柴象飛看來(lái),醫(yī)療領(lǐng)域還有一個(gè)顯著特點(diǎn),就是醫(yī)療數(shù)據(jù)沒(méi)有辦法像人臉、指紋、車牌等圖像數(shù)據(jù)一樣有一個(gè)豐富的來(lái)源。
“實(shí)際上,醫(yī)療影像的數(shù)據(jù)是很有限的,尤其單病種,我們每個(gè)人平均一年都拍不到一張片子,比如間質(zhì)性肺炎或某一個(gè)部位的骨折,全國(guó)每年可能只有幾萬(wàn)個(gè)患者,并且還分散在各個(gè)地區(qū)及各個(gè)醫(yī)院,數(shù)據(jù)獲取十分困難。”柴象飛說(shuō)。
正如影像科醫(yī)師需要閱讀大量的臨床醫(yī)學(xué)圖像一樣,“喂食”病理圖像數(shù)據(jù)也是AI系統(tǒng)最主要的學(xué)習(xí)方式。“喂食”的病理圖像數(shù)據(jù)越充足,AI的分析能力才能越強(qiáng)大。
“能拿到非常好的數(shù)據(jù),才能知道算法在什么地方存在哪些問(wèn)題,通過(guò)AI反復(fù)計(jì)算來(lái)達(dá)到最好的效果。”張康同樣指出,AI應(yīng)用在醫(yī)療領(lǐng)域,數(shù)據(jù)獲取是一個(gè)很大的挑戰(zhàn)。“中國(guó)醫(yī)院有大量病人的數(shù)據(jù),但是如果沒(méi)有經(jīng)過(guò)純化、沒(méi)有高質(zhì)量標(biāo)注過(guò),這樣的數(shù)據(jù)直接輸入計(jì)算機(jī)是不會(huì)獲得預(yù)期結(jié)果的。”
另外,盡管大多數(shù)放射科已經(jīng)完成過(guò)數(shù)百萬(wàn)次的影像檢查,結(jié)構(gòu)化程度也較高,但是大部分都沒(méi)有醫(yī)生的標(biāo)注信息。醫(yī)療影像的專業(yè)性決定了它的特殊性,影像數(shù)據(jù)的標(biāo)注大部分只能仰賴專業(yè)的、有經(jīng)驗(yàn)的相關(guān)醫(yī)學(xué)領(lǐng)域從業(yè)人員,很難像語(yǔ)音數(shù)據(jù)、文本數(shù)據(jù)或是自然圖像一樣將標(biāo)注任務(wù)外包出去。
不僅如此,張康還指出,AI醫(yī)療領(lǐng)域一直是由幾個(gè)大的IT公司壟斷,如果形成對(duì)數(shù)據(jù)和技術(shù)的封鎖,也會(huì)對(duì)AI在醫(yī)療行業(yè)的發(fā)展應(yīng)用造成限制。
急需培養(yǎng)醫(yī)工融合人才
目前,影像已然成為AI在醫(yī)療領(lǐng)域落地的主要突破口,然而柴象飛認(rèn)為,這個(gè)口子并不容易突破,AI與醫(yī)療場(chǎng)景的結(jié)合還有很長(zhǎng)的路要走,AI開(kāi)發(fā)人員和工程化人員對(duì)醫(yī)療行業(yè)的陌生就是最大的挑戰(zhàn)。
AI醫(yī)學(xué)影像不同于只是單純需要理論型人才或是應(yīng)用型人才的其他領(lǐng)域,它需要的是大量醫(yī)工結(jié)合的復(fù)合型人才。在美國(guó)有多年研究經(jīng)歷的柴象飛深刻感受到,國(guó)內(nèi)外在該交叉領(lǐng)域的人才培養(yǎng)方面還存在較大差異。
“在美國(guó),工科學(xué)生都有七八年的醫(yī)院工作經(jīng)驗(yàn),從事聯(lián)合性開(kāi)發(fā),再把成果交給器械廠商做商業(yè)化。但是國(guó)內(nèi)有相關(guān)經(jīng)驗(yàn)的人卻非常少,大量醫(yī)生有興趣和意愿卻往往工科背景不足,還有一部分醫(yī)生很希望做產(chǎn)業(yè)化,但商業(yè)方面經(jīng)驗(yàn)和能力也相對(duì)不足。”柴象飛說(shuō)。
為了培養(yǎng)更多的復(fù)合型人才,匯醫(yī)慧影啟動(dòng)了“優(yōu)才計(jì)劃”,將國(guó)內(nèi)優(yōu)秀的醫(yī)學(xué)及計(jì)算機(jī)人才輸送到美國(guó)斯坦福大學(xué)等全球頂級(jí)名校進(jìn)行學(xué)習(xí)深造,提高我國(guó)醫(yī)療領(lǐng)域綜合型人才在全球市場(chǎng)的競(jìng)爭(zhēng)力。
廣州市婦女兒童醫(yī)療中心主任夏慧敏表示,患者日益增長(zhǎng)的優(yōu)質(zhì)醫(yī)療資源需要與專業(yè)醫(yī)療人員培養(yǎng)不足的矛盾,是醫(yī)院面臨的痛點(diǎn)之一。研究更好的技術(shù)手段和平臺(tái),既能在一定程度上解決醫(yī)療服務(wù)能力不足的問(wèn)題,又能提高健康服務(wù)的公平性和可及性。
對(duì)于此番研究團(tuán)隊(duì)開(kāi)發(fā)的這套AI系統(tǒng),張康希望,未來(lái)能應(yīng)用到包括初級(jí)保健、社區(qū)醫(yī)療、家庭醫(yī)生、急診室等領(lǐng)域,形成大范圍的自動(dòng)化分診系統(tǒng)。
評(píng)論