阿里達(dá)摩院專家解密:AI算法將肺炎疑似病例基因分析縮短至半小時的背后
到今天為止,肺炎疫情的發(fā)展依舊是每個人頭腦里繃得最緊的一根弦。
本文引用地址:http://m.butianyuan.cn/article/202002/409557.htm截至2月1日24時,國家衛(wèi)生健康委收到31個省(自治區(qū)、直轄市)和新疆生產(chǎn)建設(shè)兵團(tuán)累計(jì)報告確診病例14380例,疑似病例有19544例。
盡管疫情嚴(yán)重,但一個好消息是,AI正成為前線醫(yī)務(wù)人員的重要加持力量。
雷鋒網(wǎng)了解到,2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平臺,利用阿里達(dá)摩院研發(fā)的AI算法,可將原來數(shù)小時的疑似病例基因分析縮短至半小時,大幅縮短確診時間,并能精準(zhǔn)檢測出病毒的變異情況。
達(dá)摩院算法專家顧斐博士在疾控中心基因檢測分析現(xiàn)場
核酸檢測方法的局限性
在這么多天科普知識的瘋狂輸出下,我們可以知道的一點(diǎn)是,新型冠狀病毒感染的肺炎患者的臨床表現(xiàn)與流感的臨床表現(xiàn)差別并不大。
因此,醫(yī)務(wù)人員口中所說的“小盒子”——核酸檢測試劑盒的檢測結(jié)果對于確診來說非常重要。
在核酸檢測試劑盒開發(fā)過程中,基因組測序是必不可少的步驟,這個過程會耗費(fèi)數(shù)日。一旦完成,核酸檢測試劑盒的開發(fā)將變得很快。
那么,試劑盒數(shù)量夠了就行了嗎?遠(yuǎn)遠(yuǎn)不是。
此前,北京大學(xué)醫(yī)學(xué)部病原生物學(xué)系教授,美國伯明翰阿拉巴馬大學(xué)醫(yī)學(xué)院微生物學(xué)系分子病毒學(xué)終身教授羅光湘曾表示,核酸檢測試劑盒并不能獨(dú)立使用,需要搭配PCR儀器共同進(jìn)行檢測,而這種儀器只有規(guī)模較大的醫(yī)院才有,社區(qū)醫(yī)院、縣城醫(yī)院或許還未普及,只能送往中心城市的醫(yī)院或疾控中心進(jìn)行檢測。
所以,一開始,新型冠狀病毒核酸檢測只能在湖北省疾控中心進(jìn)行,而且核酸檢測試劑盒生產(chǎn)較少,就出現(xiàn)了疑似患者確診困難,得不到及時救治的狀況。
此外,新型冠狀病毒本身也很“難纏”。
公開信息顯示,該病毒是基因組序列最長的病毒之一,全基因組序列全長29847bp,臨床診斷需要將患者樣本與該病毒基因序列進(jìn)行比對才能確定診斷結(jié)果。
達(dá)摩院算法專家顧斐博士表示,目前醫(yī)院普遍采用核酸檢測方法,只能檢測到病毒基因的局部。一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
在接受雷鋒網(wǎng)采訪時,一位知情人士透露,核酸檢測方法是一種用于放大擴(kuò)增特定DNA片段的分子生物學(xué)技術(shù),能利用聚合酶鏈?zhǔn)椒磻?yīng)將微量的DNA大幅擴(kuò)增,從而檢測出帶有特定基因片段的病毒,也就是說這種方法只能檢測到樣本基因的局部。
(新型冠狀病毒結(jié)構(gòu))
所以,面對洶涌的疫情,單靠“人肉輸出”來獲得有漏檢風(fēng)險的結(jié)果,目測已經(jīng)不是一個好辦法了,大量疑似的患者仍然存在。
AI算法成破局利器
嚴(yán)峻的抗疫形勢下,AI成為破局的一把利器。
此次研發(fā)的自動化全基因組檢測分析平臺屬于高通量測序,由浙江省疾病預(yù)防控制中心、阿里達(dá)摩院醫(yī)療AI團(tuán)隊(duì)和杰毅生物技術(shù)公司共同研發(fā),突破之處在于大幅縮短了檢測時間。
針對平臺的合作細(xì)節(jié)以及未來的應(yīng)用規(guī)劃,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))與阿里達(dá)摩院的一位算法專家進(jìn)行了采訪。
Q:傳統(tǒng)的病毒基因分析過程,主要包含哪些步驟和階段?
A:一般而言整個流程涵蓋:樣本標(biāo)記、分裝;核酸提取;熒光定量PCR體系配制;上機(jī)檢測;數(shù)據(jù)報告分析。
Q:這么一套平臺,達(dá)摩院這邊投入了多少人力,什么時候開始做,前后花了多長時間?
A:疫情發(fā)生后,達(dá)摩院投入十余人研發(fā)這套新平臺,例如針對新冠病毒基因的特征進(jìn)行了分析,基于PDB等公共數(shù)據(jù)集的數(shù)據(jù)進(jìn)行算法的優(yōu)化訓(xùn)練,也有算法專家奔赴浙江省疾控中心前線,與兩個合作方溝通合作,才研發(fā)了這套平臺。
Q:既然是AI算法,就存在準(zhǔn)確性的問題,達(dá)摩院的AI算法、模型在各個階段應(yīng)用過程中是否需要考慮準(zhǔn)確性的問題?
A:目前,沒有不準(zhǔn)確的情況。在檢測過程中,對于算法而言,需要做到100%的準(zhǔn)確率。
Q:病毒基因的檢測和分析是兩種不同的工作,你們是如何合作的?
A:杰毅生物開發(fā)了全自動高通量測序建庫儀,把整體常規(guī)人工需要12小時的工作縮短到2個小時。簡單一點(diǎn)理解,就是檢測的結(jié)果進(jìn)行“數(shù)據(jù)化”,然后交由達(dá)摩院開發(fā)的算法進(jìn)行分析。每次測序過程會產(chǎn)生海量的數(shù)據(jù),基于一系列優(yōu)化的算法,可以加快樣本病例的檢測速度。在這個環(huán)節(jié)里,算力和算法同樣重要。
Q:這樣一個幫助醫(yī)務(wù)人員在減負(fù)和提效之間保持平衡的平臺,未來的應(yīng)用方法和合作途徑如何?
A:接下來,全基因組檢測分析平臺會在全省大規(guī)模應(yīng)用。達(dá)摩院會與合作伙伴共同將這套技術(shù)推廣至全國。對于是否有其他省市醫(yī)院尋求使用,暫時不好透露。
點(diǎn)睛之筆——分布式設(shè)計(jì)的算法
值得注意的是,達(dá)摩院這次的分布式設(shè)計(jì)算法是整個平臺的“點(diǎn)睛之筆”。
在序列比對過程中,達(dá)摩院對算法增加了分布式設(shè)計(jì),提升了比對效率;樣本基因分析的速度由數(shù)小時縮短到半小時;在病毒序列拼接階段,達(dá)摩院使用分布式設(shè)計(jì)的de Bruijn圖算法,變異病毒也能精準(zhǔn)檢測,病毒拼接的速度由30分鐘-1小時縮短到15-30分鐘。
除此之外,不同于傳統(tǒng)核酸檢測方法,這一平臺還可以檢測到病毒的全貌,對疑似病例的病毒樣本進(jìn)行全基因組序列分析比對,避免因?yàn)椴《咀儺愒斐傻穆z情況。
本次分析病毒檢測和病毒變異部分主要基于開源算法,設(shè)計(jì)分布式算法以加速分析流程。病毒序列拼接完成后,通過設(shè)計(jì)BiLSTM+DNN的方式訓(xùn)練模型預(yù)測病毒蛋白二級結(jié)構(gòu)。
與此同時,達(dá)摩院還在研究基于序列的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測模型以及藥物篩選模型。
浙江省疾控中心基因測序負(fù)責(zé)人孫逸博士表示:“該平臺基于阿里云的強(qiáng)大算力與達(dá)摩院新算法可以為病毒的解析提供支撐,基于該平臺,未來還可以在短時間內(nèi)將檢測范圍覆蓋整個確診病例,也為后續(xù)疫苗與藥物研發(fā)打下了堅(jiān)實(shí)基礎(chǔ)?!?/p>
一場關(guān)乎全民的技術(shù)戰(zhàn)
為了抗疫這場關(guān)乎全民的戰(zhàn)役,國內(nèi)的科技巨頭第一時間站了出來。
為了幫助加速新藥和疫苗研發(fā),此前,阿里云宣布將向全球公共科研機(jī)構(gòu)免費(fèi)開放一切AI算力。
目前,中國疾控中心已成功分離病毒,但在新藥和疫苗研發(fā)期間,需要進(jìn)行大量的數(shù)據(jù)分析、大規(guī)模文獻(xiàn)篩選和科學(xué)超算工作。阿里云的AI算力,可以支持病毒基因測序、新藥研發(fā)、蛋白篩選等工作,幫助科研機(jī)構(gòu)縮短研發(fā)周期。
而且,除了這次的全基因組檢測分析平臺,達(dá)摩院還在春節(jié)期間,用五天時間推出了“智能疫情機(jī)器人”,目前正在為浙江省新型肺炎公共服務(wù)與管理平臺提供服務(wù)。
今天(2月2日),“7000人鏖戰(zhàn),9天建成”的武漢火神山醫(yī)院正式交付。可以相信的是,在防疫戰(zhàn)役越來越深入的情況下,全基因組檢測分析平臺會像火神山醫(yī)院一樣,用AI的力量為民眾和醫(yī)務(wù)工作者帶來更多的信心。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
評論