你真的了解計算生物學和AI for Science嗎?
編者按:近年來,計算生物學無疑是人工智能領(lǐng)域的一大熱門話題。但,計算生物學究竟是什么?目前進展如何?未來又蘊藏了怎樣的機遇?
近期,在量子位對撞派推出的“計算生物學”專題直播中,微軟亞洲研究院副院長劉鐵巖、首席研究員邵斌和主管研究員王童介紹了微軟亞洲研究院計算生物學領(lǐng)域的最新研究,并對未來 AI for Science 的發(fā)展和融合進行了分享。
回放視頻以及精華版文字內(nèi)容如下,趕快一鍵收藏吧!
Q1:AlphaFold2的最大意義是什么?
A1:這個看似突破性的進展,其實是技術(shù)演進的必然結(jié)果。
此外,如果我們換個視角來看待這個問題,蛋白質(zhì)結(jié)構(gòu)預測僅僅是計算生物學這個大門類里面一個相對來說定義得比較清晰(well-defined)的問題。還有很多比蛋白質(zhì)結(jié)構(gòu)預測更加復雜也更有挑戰(zhàn)性的問題,等著我們用人工智能的手段去推進。
Q2:我們認為應該如何去定義計算生物學這一個學科,它里面又會有哪些細分的領(lǐng)域和維度呢?
A2:從研究對象的角度,有宏觀的,也有微觀的。從微觀的角度,可以小到一個蛋白、DNA 或者是一個單細胞。從宏觀的角度,可以大到人類或者說生物體的組織、器官、個體甚至是群體。
從研究手段來講,既有傳統(tǒng)的生物實驗,也有包括計算手段在內(nèi)的數(shù)學建模、數(shù)值仿真、數(shù)據(jù)分析或者是機器學習。
從應用門類來講,幾乎和我們平時生活或者科學發(fā)展的方方面面都有關(guān)系,它既有在基礎科學方面的潛力,也在制****診療方面有著巨大價值。
Q3:2021年,微軟亞洲研究院首次針對新冠病毒中的 NTD 提出了對應的楔型模型,并鑒定了潛在的****物靶點。能否介紹一下這項工作是怎么基于計算生物學完成的呢?
A3:之前科學家們發(fā)現(xiàn),新冠感染人體的物質(zhì)叫 S 蛋白。我們可以把它想象成一個英文字母 Y,有兩個枝杈,還有一個中軸。S 蛋白的中軸會固定在病毒的表面,而伸出的這兩個枝杈(RBD 和 NTD),其中的 RBD 會和我們的受體蛋白發(fā)生識別,然后進入人體。
我們的研究主要圍繞著機理還未明確的 NTD 展開。我們和清華大學計算生物學的老師通力合作,利用分子動力學模擬技術(shù)對整個 S 蛋白,全構(gòu)象是百萬級原子的巨大體系,進行了數(shù)十億步的動力學平衡模擬。通過分子動力學,我們發(fā)現(xiàn) NTD 就像一個開關(guān),可以去控制另一個枝杈 RBD 是否能和人體的蛋白發(fā)生識別、結(jié)合。而 NTD 和 RBD 兩者結(jié)合的界面,就自然形成了****物和疫苗設計的一個潛在靶點。
Q4:計算生物學算是一門交叉性非常強的學科,一方面是生物知識和人工智能的交叉,也就是所謂的 BT+IT。另一方面,也是干實驗和濕實驗的一種交叉。那請問幾位老師是如何看待這兩種強的交叉關(guān)系的?
A4:計算生物學是一個非常典型的交叉學科。這個交叉二字其實有幾個不同的層次。
首先是知識層面上,有生物學、醫(yī)學、****學、計算機科學,包括人工智能這些不同的知識門類的交叉。
還有一個研究方法的交叉,比如說傳統(tǒng)生物學的生物實驗,就是“濕實驗”。計算機的模擬或者人工智能的手段,我們通常稱為“干實驗”。
更重要的其實是人才的交叉。因為在這個過程中會涉及到計算機的人才、生物學的人才。而最有趣的是,每個人其實都是有自己的個性的,甚至是有一些偏見的。當我們面對著一個新的課題或者一個新的事物的時候,通常會帶入我們固有的一些思維。所以想要讓交叉學科發(fā)展得非常好,我們就需要一個開放、包容、多元化的環(huán)境,讓不同的知識做交融,讓不同類型的人才去做碰撞,讓不同的研究手段去進行互補或者形成某種閉環(huán)。
對談嘉賓: 微軟亞洲研究院副院長劉鐵巖(左二),微軟亞洲研究院首席研究員邵斌(右二),微軟亞洲研究院主管研究員王童(右一)
Q5: 是否存在哪些明顯的瓶頸?
A5:高質(zhì)量數(shù)據(jù)。盡管過去我們在生物學領(lǐng)域積累了大量的數(shù)據(jù),但是高質(zhì)量的數(shù)據(jù)仍然十分短缺。
從技術(shù)上來說,在做計算生物學的過程中,我們還是碰到了非常多的挑戰(zhàn)。比如說,真正的蛋白質(zhì)其實是處在一個非常復雜的細胞環(huán)境中的,這種微環(huán)境使得計算機的建模難度非常大。比如說在 NTD 的分子動力模擬中,就需要考慮到這個蛋白在人體內(nèi)真正的環(huán)境是什么樣的?是不是處在一個水溶液的環(huán)境里?是不是會有一些離子?在計算生物學的研究中,我們也要盡量地去仿照人體中真實的微環(huán)境,這可能是一個比較大的挑戰(zhàn)。
那還有一個挑戰(zhàn)是什么呢?在做計算免疫學的時候,其實每個人內(nèi)在的免疫環(huán)境都是千差萬別的。我們做一個 AI 模型,如果想在每個人身上都適用,取得很好的效果,也是很大的一個挑戰(zhàn)。這也就是為什么我們要對每個人有一個更個性化的建模過程和解決方案。
還有動態(tài)變化的問題。
生命科學很特別的一點,就是它的研究對象是活的。比如說,人體每天應對著我們所在的環(huán)境,包括各種病源的侵擾,我們是不斷地在進化、在變化中去抵抗它們的。所以當我們使用傳統(tǒng)的機器學習或人工智能的手段去做了分析建模,很可能這個模型未來要使用的對象已經(jīng)發(fā)生了變化。
所以當我們用人工智能的手段去解決這些生物問題的時候,怎么能夠做更好的泛化外推,能夠去解決和應對生物體本身的變化,這是一個非常有趣的問題,它不僅僅是對計算生物學有意義,對人工智能、對機器學習都是一個新的挑戰(zhàn)。
Q6:那我們是如何看待 AI for Science 這種形式的?
A6:當我們用人工智能跟自然科學進行交叉的時候,其實有兩個視角。
一個是我們已經(jīng)知道了自然科學的規(guī)律,也產(chǎn)生了很多的數(shù)據(jù),我們怎么用人工智能從里面學到某種模型去加速這個過程。
另一分支就是當我們能夠有那么多的觀測數(shù)據(jù),這些數(shù)據(jù)可能是科學家們用肉眼分析不過來的。如果我們有很好的人工智能技術(shù),我們能不能去通過大量的高通量數(shù)據(jù)分析,總結(jié)出一些現(xiàn)有的科學家還沒有發(fā)現(xiàn)的科學規(guī)律,這個科學發(fā)現(xiàn)的價值可能比加速的價值更高。
Q7:在 AI for Science,這個具體的融合過程中,有沒有什么經(jīng)驗和大家分享?
A7:人工智能帶來了科學研究范式的轉(zhuǎn)型。因為從計算機科學的視角看,現(xiàn)在很多的問題求解不再單純依賴于人工的算法設計,而更多的是轉(zhuǎn)成以數(shù)據(jù)驅(qū)動的模型構(gòu)建。
此外,從基礎科學研究的視角去看,傳統(tǒng)基礎科學研究更多是一種提出科學假設,然后驗證科學假設的研究范式。隨著大數(shù)據(jù)和人工智能的發(fā)展、普及和成熟,我們觀察到越來越多的科學研究從假設推動的范式,走向了利用大數(shù)據(jù)和計算機技術(shù)挖掘科學洞見的這種數(shù)據(jù)驅(qū)動的科學研究范式。
從生物科學的角度出發(fā),我們之前更多是基于專業(yè)領(lǐng)域知識(domain knowledge)的觸發(fā)來做研究。通俗來講,AI 其實只是作為一種計算手段扮演了配角的作用。更多是在有大量的生物學數(shù)據(jù)和生物領(lǐng)域知識的前提下,用一種非常簡單的統(tǒng)計模型或者是機器學習來做簡單的擬合。
但伴隨著 AI 技術(shù)的發(fā)展和深化,AI 在 AI for Science 里逐漸變成了主角。它并不是只去對生物數(shù)據(jù)做簡單的擬合,而是從 AI 入手去認識科學問題,即為科學問題量身定制一套 AI 的算法與開發(fā)。
但從另一方面來說,傳統(tǒng)計算生物學的研究,更多是為了提升性能,也就是追求更高的數(shù)字。現(xiàn)在的 AI for Science 并不是這樣。以 AI+****物設計研發(fā)為例,我們并不像之前一樣只關(guān)注準確率,而更關(guān)注可解釋性。比如說在****物虛擬篩選里,是潛在****物的哪些原子和我們的受體蛋白的哪一些殘基、哪一些原子能發(fā)生相互作用,這個模型能否提供更好的解釋性等等。
傳統(tǒng)的自然科學領(lǐng)域有一個研究范式,就是科學家們受到實驗數(shù)據(jù)的啟發(fā),然后大膽假說提出一套科學理論,再通過設計實驗去進一步地驗證這些理論或者推論。人工智能其實就是使傳統(tǒng)科學家做研究的這種過程變得自動化、規(guī)模化、并行化。所以,如果我們說傳統(tǒng)的自然科學的發(fā)展嚴重依賴于少數(shù)頂級科學家的智慧的話,在未來,有了人工智能技術(shù)的加持,我們相信有更多的科學工作者可以以更高的通量去做更了不起的研究。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。