AI挺進(jìn)生命科學(xué)領(lǐng)域,分子動(dòng)力學(xué)模擬加速新冠病毒致病機(jī)理研究進(jìn)程
編者按:我們身體的三分之一是蘑菇?因?yàn)槿祟惻c真菌共享三分之一的 DNA。我們一直在與異類共生?因?yàn)槿梭w內(nèi)有一半外來(lái)細(xì)胞。
這些看似不相關(guān)的現(xiàn)象其實(shí)都有著深層次的聯(lián)系,隨著科學(xué)家們的研究探索,生命神奇的本質(zhì)正在逐漸被揭開(kāi)。而近年來(lái)大數(shù)據(jù)、AI 等技術(shù)的發(fā)展和應(yīng)用,更是為生命科學(xué)研究開(kāi)啟了新范式。利用新技術(shù),科學(xué)家們可以模擬瞬間變化的生命現(xiàn)象、發(fā)現(xiàn)生命機(jī)理的規(guī)律、降低研究成本、獲得更好的研究結(jié)果。近日,微軟亞洲研究院就與清華大學(xué)合作,利用分子動(dòng)力學(xué)模擬技術(shù),取得了新冠病毒機(jī)理研究的重要成果。
不同領(lǐng)域的科學(xué)家協(xié)同合作的秘籍是什么?如何在 AI for Science 的趨勢(shì)中拔得頭籌?讓我們從微軟亞洲研究院與清華大學(xué)的合作分享中一探究竟吧。
新冠疫情自爆發(fā)以來(lái),已造成全球范圍內(nèi)近2.8億人感染,540多萬(wàn)人死亡,給全球的經(jīng)濟(jì)和社會(huì)生活帶來(lái)了巨大的損失和傷害,且至今仍未有緩和的跡象。相比之下,2003年的 SARS 疫情持續(xù)一年多,累計(jì)報(bào)告病例8000多例,死亡900多人;2012年的中東呼吸綜合征則主要在中東地區(qū)流行。同樣是冠狀病毒所引起的傳染病,為什么新冠病毒有如此高的傳染性?它又是如何侵染人體的?
面對(duì)這場(chǎng)病毒遭遇戰(zhàn),全球的科學(xué)家們迅速行動(dòng)對(duì)新冠病毒展開(kāi)研究,同時(shí)也推動(dòng)了人工智能等新技術(shù)與生命科學(xué)之間的進(jìn)一步加速融合。近兩年來(lái),微軟亞洲研究院的研究員們也一直在思考,如何利用自身在人工智能、深度學(xué)習(xí)等計(jì)算機(jī)領(lǐng)域的優(yōu)勢(shì),與生物學(xué)、病毒學(xué)專家深度合作,結(jié)合生命科學(xué)的專業(yè)知識(shí),為緩解新冠疫情貢獻(xiàn)自己的力量。就在不久前,微軟亞洲研究院與清華大學(xué)生命科學(xué)學(xué)院以及傳染病研究中心合作,在新冠病毒的跨領(lǐng)域、跨學(xué)科研究中取得了兩項(xiàng)重要成果,為厘清新冠病毒機(jī)理提供了新的方向。
新冠病毒致病機(jī)理研究?jī)砷_(kāi)花,計(jì)算生物學(xué)潛力凸顯
研究發(fā)現(xiàn) COVID-19 新型冠狀病毒是由 SARS-CoV-2 病毒所引起的。和其它冠狀病毒一樣,它的表面由刺突糖蛋白結(jié)構(gòu)組成,也就是 S(Spike)蛋白。若病毒要想進(jìn)入人體細(xì)胞,S 蛋白就需要與人體細(xì)胞的受體結(jié)合。S 蛋白的構(gòu)型很像英文字母“Y”,豎著的 S2 區(qū)域起支持作用,向上伸出的兩枝杈,一個(gè)是 RBD,另一個(gè)是 NTD??茖W(xué)家們已經(jīng)認(rèn)識(shí)到直接造成侵染的是 RBD 區(qū)域,而且它的狀態(tài)是站立(up)還是躺平(down)會(huì)直接影響受體結(jié)合,只有站立時(shí) RBD 才能進(jìn)行受體結(jié)合,從而感染人體。
基于這些背景知識(shí),微軟亞洲研究院的研究員們產(chǎn)生了一連串的疑問(wèn):RBD 的功能已經(jīng)清楚了,那 NTD 在感染過(guò)程中扮演著怎樣的角色?在病毒侵染的過(guò)程中 NTD 對(duì) RBD 的狀態(tài)變化是否有協(xié)同作用?如果找到了 RBD 站立與躺平的規(guī)律,是不是就有可能抑制病毒的入侵?因此,研究員們希望利用計(jì)算生物學(xué),特別是分子動(dòng)力學(xué)模擬技術(shù)對(duì) NTD 展開(kāi)深入研究。當(dāng)他們把這一想法與清華大學(xué)生命科學(xué)學(xué)院龔海鵬教授討論后,雙方立即開(kāi)啟了合作研究。
龔海鵬教授在微軟亞洲研究院做研究分享
經(jīng)過(guò)分析研究員們發(fā)現(xiàn),以往很多研究只對(duì) RBD 或 NTD 的一小部分進(jìn)行了模擬,只見(jiàn)樹(shù)木,不見(jiàn)森林,無(wú)法還原其在整個(gè) S 蛋白上的變化情況,模擬精度也有所欠缺。雖然只是對(duì)一個(gè)蛋白質(zhì)進(jìn)行模擬,但其中包含了百萬(wàn)級(jí)的原子數(shù),計(jì)算量和復(fù)雜度可想而知。對(duì)此,微軟亞洲研究院的研究員們采用了增強(qiáng)采樣、加速算法等手段,基于強(qiáng)大的計(jì)算平臺(tái),建立了大體系、全原子的分子動(dòng)力學(xué)模擬模型,實(shí)現(xiàn)了長(zhǎng)時(shí)間的計(jì)算。
大體系、全原子是指構(gòu)建擁有百萬(wàn)級(jí)原子的完整 S 蛋白,而不是只對(duì)10萬(wàn)個(gè)或1萬(wàn)個(gè)點(diǎn)進(jìn)行抽象模擬,從而提升模擬精度。
長(zhǎng)時(shí)間是指研究員們通過(guò)數(shù)十億步的計(jì)算,每步代表1飛秒(1秒的一千萬(wàn)億分之一),模擬運(yùn)行了20微秒。不能小看這個(gè)數(shù)字,20微妙相當(dāng)于2*1011步,在分子動(dòng)力學(xué)模擬中這屬于相當(dāng)長(zhǎng)的時(shí)間,以此可以更真實(shí)地模擬 NTD 和 RBD 之間的相對(duì)運(yùn)動(dòng)。
最終,微軟亞洲研究院首次提出了 NTD 在病毒侵染過(guò)程中發(fā)揮調(diào)控作用的“楔形”模型,相關(guān)成果于21年10月在著名期刊《Advanced Theory and Simulations》上作為封面文章發(fā)表?!捌鋵?shí) RBD 是傾向于躺平的,這和人一樣,躺著肯定更舒服,但當(dāng) RBD 想躺下的時(shí)候,NTD 會(huì)像楔子一樣堵住 RBD 下方的空隙,從而使其維持站立的狀態(tài),感染人體?!蔽④泚喼扪芯吭褐鞴苎芯繂T王童形象地解釋了他們從模擬中取得的發(fā)現(xiàn)。
NTD 在 SARS-CoV-2 的 S 蛋白構(gòu)象變化中發(fā)揮調(diào)控功能示意圖
利用這種“楔形”模型,研究員們進(jìn)一步在對(duì)中草****數(shù)據(jù)庫(kù) TCMSP 中的中****化合物進(jìn)行虛擬篩選,檢測(cè)到了8種中****中的18種化合物與 NTD 作用的該位點(diǎn)具有很強(qiáng)的結(jié)合能力,從而為新冠病毒****物研發(fā)提供了一定的參考價(jià)值。
像這樣利用計(jì)算機(jī)模擬的方式去做生物學(xué)實(shí)驗(yàn),甚至去預(yù)測(cè)和推論,被稱為“干實(shí)驗(yàn)”。但生物學(xué)研究還是不能離開(kāi)“濕實(shí)驗(yàn)”,也就是基于分子、細(xì)胞、生理等層面的生物實(shí)驗(yàn)。在開(kāi)展 NTD 探索性研究的同時(shí),王童了解到清華大學(xué)王新泉教授和張林琦教授的團(tuán)隊(duì)正在合作開(kāi)展新冠病毒致病機(jī)理的研究。于是三方一拍即合,通過(guò)清華兩位老師團(tuán)隊(duì)的結(jié)構(gòu)生物學(xué)和免疫學(xué)實(shí)驗(yàn)發(fā)現(xiàn),與其他冠狀病毒相比,新冠病毒 S 蛋白372號(hào)位點(diǎn)的突變使得370號(hào)位點(diǎn)缺失了糖基化。這一變化促使 RBD 更多處于站立狀態(tài),增強(qiáng)了病毒的感染性。而微軟亞洲研究院利用分子動(dòng)力學(xué)模擬等計(jì)算手段進(jìn)一步具體分析了 S 蛋白370位點(diǎn)糖基化對(duì) S 蛋白構(gòu)象變化和病毒感染能力的影響。最終,通過(guò)干濕結(jié)合的手段驗(yàn)證了結(jié)論的正確性,相關(guān)論文也已被生物學(xué)領(lǐng)域的頂級(jí)期刊《Cell Research》接收。
對(duì)于這項(xiàng)三方合作開(kāi)展的前瞻性科研工作,張林琦教授表示“我們?cè)诒姸嘈畔⒑蜕钚缘南嗷プ饔弥姓业搅艘粋€(gè)極其重要的點(diǎn)。它是在大量數(shù)據(jù)分析、實(shí)驗(yàn)驗(yàn)證以及預(yù)測(cè)的基礎(chǔ)之上得到的結(jié)果。通過(guò)與微軟亞洲研究院合作,我們看到將計(jì)算機(jī)科學(xué)與生命科學(xué)系統(tǒng)對(duì)接,可以加速找到生命現(xiàn)象的關(guān)鍵環(huán)節(jié),解決一些生命科學(xué)的問(wèn)題,并進(jìn)一步了解生命科學(xué)本身,從而對(duì)研發(fā)新****物來(lái)阻斷或者促進(jìn)某些生命現(xiàn)象起到了標(biāo)桿性的作用。”
AI為生命科學(xué)研究開(kāi)辟新方向,開(kāi)拓新產(chǎn)業(yè)
正如張林琦教授所言,AI、大數(shù)據(jù)等創(chuàng)新手段與生命科學(xué)的深度融合正在為生命科學(xué)研究開(kāi)辟新的方向,甚至改變生命科學(xué)的研究范式。生命科學(xué)研究發(fā)展至今,經(jīng)歷了不同的階段,從20世紀(jì)前的描述觀察,到20世紀(jì)的實(shí)驗(yàn)分析,在科學(xué)家們的努力下,生命的密碼正在逐漸被破解。但這些傳統(tǒng)生物學(xué)研究方式依賴于不斷地試錯(cuò)和積累,不僅耗資巨大,周期往往也很長(zhǎng)。同時(shí),基因組學(xué)等底層數(shù)據(jù)采集技術(shù)的發(fā)展以及****物試驗(yàn)中持續(xù)產(chǎn)生的數(shù)據(jù)等等,也讓生物數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。雖然這為個(gè)性化的靶向****物研發(fā)、精準(zhǔn)醫(yī)療提供了可能,但海量數(shù)據(jù)也注定了單靠人力完成數(shù)據(jù)的整理、分析和挖掘已是不可能完成的任務(wù)。
如今,隨著算力的提升、機(jī)器學(xué)習(xí)等模型的精進(jìn),大數(shù)據(jù)使得計(jì)算生物學(xué)的研究條件越來(lái)越完善,在基礎(chǔ)科學(xué)研究中扮演著越來(lái)越重要的角色。對(duì)于 AI 與生命科學(xué)的結(jié)合,龔海鵬教授說(shuō)道,“我們能不能從濕實(shí)驗(yàn)得到的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律?人的邏輯思維可以有一個(gè)大致的判斷,但還不夠細(xì)致,AI 在這方面就能體現(xiàn)出它的優(yōu)勢(shì)?!睂?duì)此張林琦教授也表示認(rèn)同,他認(rèn)為生命科學(xué)不能只靠感覺(jué),而是要朝定量化和精準(zhǔn)化的方向發(fā)展,“濕實(shí)驗(yàn)看到的結(jié)果往往是靜態(tài)的,但所有的生命過(guò)程都是動(dòng)態(tài)的,分子結(jié)構(gòu)變化更是瞬時(shí)反應(yīng),在自然條件下一閃而過(guò),人的肉眼連看到的機(jī)會(huì)都沒(méi)有。在模擬分子動(dòng)態(tài)變化以及定量評(píng)判方面,一些新的算法和技術(shù)能發(fā)揮非常大的作用,”張林琦教授說(shuō)。
張林琦教授(左),劉鐵巖博士(右)
除了促進(jìn)病毒、致病機(jī)理等基礎(chǔ)科學(xué)研究的發(fā)展,計(jì)算機(jī)科學(xué)與生命科學(xué)的結(jié)合也可能會(huì)創(chuàng)造一個(gè)全新的生物醫(yī)****產(chǎn)業(yè)。早在2018年,埃森哲(Accenture)就曾在一份統(tǒng)計(jì)報(bào)告中指出,“到2026年,大數(shù)據(jù)與醫(yī)學(xué)和制****領(lǐng)域的機(jī)器學(xué)習(xí)相結(jié)合將產(chǎn)生每年1500億美元的驚人價(jià)值”。
傳統(tǒng)的新****研發(fā)極具風(fēng)險(xiǎn)和難度,周期長(zhǎng)、費(fèi)用高,過(guò)去十年****物開(kāi)發(fā)項(xiàng)目從1期臨床到獲得 FDA 批準(zhǔn)上市的成功率僅為7.9%。對(duì)此張林琦教授深有感觸,不久前由他領(lǐng)銜研發(fā)的新冠“特效****”——單克隆中和抗體安巴韋單抗/羅米司韋單抗聯(lián)合療法獲得中國(guó)****品監(jiān)督管理局(NMPA)的上市批準(zhǔn),有助于治療新型冠狀病毒陽(yáng)性患者。他說(shuō),“AI 在新****研發(fā)整個(gè)過(guò)程中的每個(gè)節(jié)點(diǎn)都可以發(fā)揮巨大的作用,比如為抗體的篩選、評(píng)估、預(yù)測(cè)、優(yōu)化等提供支持,縮短研發(fā)時(shí)間,降低研發(fā)成本。另外,如果能在大數(shù)據(jù)分析的基礎(chǔ)上利用 AI 技術(shù)總結(jié)規(guī)律、進(jìn)行預(yù)測(cè),在病毒突變之前,設(shè)計(jì)出專門針對(duì)突變的抗體,那么我們就能先下手為強(qiáng),化被動(dòng)為主動(dòng)?!蔽磥?lái),從原始研究到臨床試驗(yàn),在生命科學(xué)產(chǎn)業(yè)的全鏈條上,通過(guò)跨界研究把干實(shí)驗(yàn)和濕實(shí)驗(yàn)無(wú)縫銜接,形成真實(shí)世界和理論數(shù)據(jù)的閉環(huán),將為生命科學(xué)帶來(lái)更廣闊的發(fā)展前景。
跨領(lǐng)域、交叉學(xué)科協(xié)同合作,打破次元壁的秘籍
盡管計(jì)算機(jī)科學(xué)與生命科學(xué)的跨界合作大有可為,但協(xié)作過(guò)程還需要更多的磨合。兩個(gè)領(lǐng)域的科學(xué)家所面對(duì)的是兩類不同的知識(shí)結(jié)構(gòu)、語(yǔ)言體系,如何打破行業(yè)壁壘、共建合作生態(tài)是關(guān)鍵。微軟亞洲研究院與清華大學(xué)通過(guò)上述兩項(xiàng)合作研究,為跨學(xué)科交叉實(shí)踐積累了一定的經(jīng)驗(yàn)。
那么不同背景的科學(xué)家協(xié)同合作的秘籍是什么?
首先,明己之長(zhǎng),知己所短,優(yōu)勢(shì)互補(bǔ)。張林琦教授長(zhǎng)期專注于艾滋病等人類重大病毒性傳染病的致病機(jī)理、抗病毒****物、抗體和疫苗的研究;王新泉教授的主要研究方向是結(jié)構(gòu)生物學(xué);龔海鵬教授則致力于把分子動(dòng)力學(xué)模擬等新方法用于分析生物大分子的大尺度構(gòu)象變化。他們及團(tuán)隊(duì)在各自的領(lǐng)域都有著深厚的積淀和世界級(jí)的影響力。這些專家對(duì)生命科學(xué)專業(yè)、前沿的洞察為算法提供了實(shí)現(xiàn)基礎(chǔ),可以幫助算法專家理解數(shù)據(jù)背后的科學(xué)意義。而微軟本身是以計(jì)算機(jī)技術(shù)為核心能力的平臺(tái)公司,在人工智能、云計(jì)算等領(lǐng)域能為其他學(xué)科提供強(qiáng)有力且最先進(jìn)的計(jì)算機(jī)科學(xué)加持。
“微軟亞洲研究院在生物學(xué)、材料科學(xué)、物理和化學(xué)方面并不是專家,所以我們需要與真正的領(lǐng)域?qū)<夜餐?、密切合作。在這個(gè)過(guò)程中,雙方會(huì)互相影響,相互改變。AI 科學(xué)家可以提供基于數(shù)據(jù)的端到端解決問(wèn)題的思路,提供比傳統(tǒng)科學(xué)計(jì)算更加高效的解決方案;自然科學(xué)領(lǐng)域的學(xué)者則可以提供獨(dú)到的領(lǐng)域知識(shí),讓這些計(jì)算能力以一種符合科學(xué)規(guī)律的方式用到刀刃上,”微軟亞洲研究院副院長(zhǎng)劉鐵巖表示。
其次,跨領(lǐng)域合作需要提出最具有前瞻性、挑戰(zhàn)性的科學(xué)問(wèn)題。只有前沿課題才能發(fā)揮雙方實(shí)力,激勵(lì)科研人員克服困難,合理調(diào)配資源。劉鐵巖表示,“雖然人們認(rèn)為 AI 能夠在任何領(lǐng)域發(fā)揮作用,但如何找到關(guān)鍵的科學(xué)問(wèn)題才是關(guān)鍵所在,這需要領(lǐng)域?qū)<遗c AI 專家坐下來(lái)細(xì)致地討論,不斷淬煉出真正重要的問(wèn)題?!焙献饕潦?,微軟亞洲研究院的研究員們與清華大學(xué)的師生團(tuán)隊(duì)也遇到了預(yù)期不匹配、溝通鴻溝等問(wèn)題。通過(guò)隨后定期的會(huì)議與學(xué)術(shù)討論,雙方逐漸明確了彼此的優(yōu)勢(shì)所在,找到了“最難啃的骨頭”。當(dāng)實(shí)驗(yàn)結(jié)果出現(xiàn)差異時(shí),大家會(huì)從不同角度共同分析問(wèn)題產(chǎn)生的原因,不斷磨合,增強(qiáng)了彼此的信任。
最后,是要有耐心與恒心。生命科學(xué)研究是一個(gè)漫長(zhǎng)而枯燥的過(guò)程,很多基礎(chǔ)研究短時(shí)間內(nèi)都無(wú)法帶來(lái)直接的收益。對(duì)此龔海鵬教授認(rèn)為“做科研需要踏踏實(shí)實(shí)。解決生物學(xué)的實(shí)際問(wèn)題,要以推動(dòng)科學(xué)發(fā)展為目標(biāo),而不是以發(fā)論文為目標(biāo)。微軟亞洲研究院在提供強(qiáng)大的計(jì)算資源、AI 算法的同時(shí),在合作研究中也極具耐心,這是跨領(lǐng)域合作的基礎(chǔ)?!?/p>
在雙方的合作中,大家也加深了對(duì)彼此所在行業(yè)和機(jī)構(gòu)的理解。在合作之前清華大學(xué)的老師們還有些疑慮,“在我們眼中,企業(yè)的研究部門更多的是以短期業(yè)績(jī)?yōu)閷?dǎo)向的。但合作之后我們發(fā)現(xiàn)微軟亞洲研究院是一個(gè)真正的學(xué)術(shù)機(jī)構(gòu),尤其是‘頂天立地’的價(jià)值取向和學(xué)術(shù)定位與清華大學(xué)的理念非常吻合。也只有這樣才能開(kāi)展更具學(xué)術(shù)性的研究合作,”王新泉教授說(shuō)。
王新泉教授在微軟亞洲研究院做研究分享
無(wú)論是用深度學(xué)習(xí)優(yōu)化大氣污染排放量、把 Graphormer 用于催化劑設(shè)計(jì)、神經(jīng)網(wǎng)絡(luò)用于新物理發(fā)現(xiàn),還是近期 AI 領(lǐng)域頂會(huì) NeurIPS 上火熱的科學(xué)相關(guān)主題演講,都昭示著 AI for Science 已經(jīng)成為一種趨勢(shì)。計(jì)算機(jī)科學(xué)、人工智能與生命科學(xué)、生物醫(yī)****、量子科學(xué)、天文學(xué)等一系列基礎(chǔ)科學(xué)研究交織碰撞,將為科學(xué)發(fā)展注入新的強(qiáng)勁動(dòng)力。而在這一浪潮中,微軟亞洲研究院也將繼續(xù)與科學(xué)界合作,取得更加亮眼的成績(jī)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。