博客專欄

EEPW首頁 > 博客 > 復(fù)現(xiàn)AlphaFold2?完全開源新型蛋白結(jié)構(gòu)預(yù)測工具的背后:算法不是寫出來的,而是用出來的丨專訪深勢科技

復(fù)現(xiàn)AlphaFold2?完全開源新型蛋白結(jié)構(gòu)預(yù)測工具的背后:算法不是寫出來的,而是用出來的丨專訪深勢科技

發(fā)布人:深科技 時間:2021-12-12 來源:工程師 發(fā)布文章
從一舉破解困擾生物學(xué)家長達 50 年的 “蛋白質(zhì)折疊” 難題,再到向公眾開源相關(guān)代碼,AlphaFold2、RoseTTAFold 等蛋白質(zhì)結(jié)構(gòu)預(yù)測工具正在深刻變革著結(jié)構(gòu)生物學(xué)的發(fā)展。


站在巨人的肩膀上,國內(nèi)的同行們也在不斷改進和優(yōu)化算法性能,并相繼推出了自己的蛋白質(zhì)預(yù)測工具。
近日,國內(nèi)人工智能初創(chuàng)公司深勢科技宣布正式推出蛋白質(zhì)結(jié)構(gòu)預(yù)測工具 Uni-Fold,并開源了推理代碼和訓(xùn)練代碼。深勢科技表示,Uni-Fold 成功復(fù)現(xiàn)了 AlphaFold2 的全規(guī)模訓(xùn)練,且已集成在其專有的****物設(shè)計平臺 Hermite,用戶可以在線試用。
值得一提的是,Uni-Fold 同時開源了推理代碼和訓(xùn)練代碼,這意味著用戶不僅可以預(yù)測蛋白質(zhì)三維結(jié)構(gòu),還可以根據(jù)項目需求進一步訓(xùn)練和優(yōu)化模型。而早前 AlphaFold2 只開源了推理代碼,用戶只能在現(xiàn)有數(shù)據(jù)庫基礎(chǔ)上使用。
據(jù)介紹,同等測試條件下,Uni-Fold 對 CASP14 蛋白質(zhì)序列數(shù)據(jù)集的 Cα-lDDT 達到 82.6,僅次于 AlphaFold2 的預(yù)測精度。此外,Uni-Fold 在運行硬件和代碼運行效率上具有明顯優(yōu)勢。
與 AlphaFold2 相比,本次開源的 Uni-Fold 有何突破性?背后推手深勢科技在生物制****領(lǐng)域有著怎么樣的布局?對計算生物學(xué)又有著怎樣的見解?
就這些問題,生輝與深勢科技首席執(zhí)行官孫偉杰以及首席科學(xué)家張林峰博士進行了探討。
孫偉杰與張林峰是典型的 90 后創(chuàng)業(yè)者,兩人既是本科同窗摯友,也是配合默契的創(chuàng)業(yè)伙伴。兩人本科均畢業(yè)于北大元培學(xué)院,此后,張林峰前往普林斯頓大學(xué)攻讀應(yīng)用數(shù)學(xué)博士學(xué)位,孫偉杰則投身于投資和管理。2018 年底,兩人一拍即合,共同創(chuàng)辦了深勢科技。

這是一家定位為工業(yè)設(shè)計的初創(chuàng)公司,目前團隊規(guī)模約為 120 人左右。該公司計劃搭建微尺度工業(yè)設(shè)計平臺,目標是從電子、原子、分子等微觀尺度為傳統(tǒng)行業(yè)找尋解決方案,當前兩大落地場景是****物設(shè)計和材料設(shè)計。
“開源兩大代碼更大的意義在于,可以為整個領(lǐng)域內(nèi)提供與 AlphaFold2 相同的起點,從這個起點出發(fā),大家可以做更多的事情。同時,技術(shù)的演進也會探索更多新場景,包括蛋白質(zhì)復(fù)合物、動力學(xué)等。接下來可能會出現(xiàn)更令人興奮的解決方案,整個生物計算以及生物制****領(lǐng)域也會有更大的發(fā)展。我們相信,Uni-Fold 會讓接下來半年更加值得期待。” 張林峰說。完全開源,可不斷優(yōu)化算法
AlphaFold2 在第 14 屆蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽中(CASP14)的預(yù)測分值中位數(shù)為 92.4 GDT,預(yù)測水準與實驗室水平相差無幾。其預(yù)測精確度極高的一個重要原因就在于對數(shù)據(jù)的利用度非常高,幾乎應(yīng)用了領(lǐng)域內(nèi)所有數(shù)據(jù)。
張林峰告訴生輝,蛋白質(zhì)預(yù)測工具 Uni-Fold 成功復(fù)現(xiàn)了 AlphaFold2 的大規(guī)模數(shù)據(jù)訓(xùn)練過程。也就是說完全復(fù)刻了 AlphaFold2 的技術(shù)路線,兩者的方法論一致,且屬于同一代技術(shù)。
基于此,Uni-Fold 對蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測精度、運行時間和對蛋白質(zhì)復(fù)合物的預(yù)測與 AlphaFold2 接近。據(jù)悉,在同等測試條件下,Uni-Fold 對 CASP14 蛋白質(zhì)序列數(shù)據(jù)集的平均 Cα-lDDT(局部比對指標)達到 82.6,僅次于 AlphaFold2,超越了 RoseTTAFold。

AlphaFold2 更擅長預(yù)測和計算單個蛋白質(zhì)的結(jié)構(gòu),然而大多數(shù)蛋白質(zhì)往往是以復(fù)合物形式存在,并非單體存在。預(yù)測蛋白質(zhì)復(fù)合物是該領(lǐng)域比較棘手的問題,RoseTTAFold 的研究人員曾表示下一步將會繼續(xù)提高算法預(yù)測蛋白質(zhì)復(fù)合物的能力。張林峰也坦言,目前 Uni-Fold 還沒有完全解決復(fù)合物預(yù)測問題,這會是團隊未來一個重點努力方向。
據(jù)了解,更為關(guān)鍵的一點在于,Uni-Fold 是蛋白質(zhì)結(jié)構(gòu)研究領(lǐng)域首款完全開源的預(yù)測工具,同時開源推理代碼和訓(xùn)練代碼。相比之下,AlphaFold2 只開源推理代碼,這就意味著只能在給定場景下預(yù)測蛋白質(zhì)結(jié)構(gòu),一定程度上限制了算法的優(yōu)化以及應(yīng)用邊界的擴展。
“這就好像一個用已有數(shù)據(jù)訓(xùn)練出來的‘熟練工’,只能根據(jù)指令做一些指定的指令,可塑性較低。從訓(xùn)練角度來看,完全開源的算法更像一個高智商的‘孩童’”,我們可以在不同場景,不同需求之下,指引其成為某個領(lǐng)域的專家?!?/span>
算法不是寫出來的,而是用出來的。我們希望在原有算法的基礎(chǔ)上擴展更多新的功能,包括蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測、蛋白質(zhì)與小分子相互作用預(yù)測、與電鏡實驗結(jié)合、抗體序列設(shè)計等場景。這是一個長期的發(fā)展需求,需要不斷演進迭代算法,開源算法有助于我們在整個領(lǐng)域不斷迭代解決方案。” 張林峰補充道。
此外,AlphaFold2 所開源的代碼與硬件生態(tài)耦合,需要通過 Google 專有的硬件 TPU Pod 運行。據(jù)悉,相比之下,Uni-Fold 具備更加通用的硬件運行平臺,適配并支持 NVIDIA、AMD 以及一些國產(chǎn)硬件。同時,在訓(xùn)練和效率上也做了大量工作,比如說推理代碼也更加輕量、高效,在同等運行硬件條件下,代碼運行效率提升約 2-3 倍。“新時代的薛定諤”
2019 年,張林峰在分子模擬算法上的取得了突破,這項由他作為核心開發(fā)者的研究工作獲得 2020 年全球計算機高性能計算領(lǐng)域的最高獎項 “戈登?貝爾獎”,并當選 2020 年全球人工智能十大科技進展。
生命科學(xué)、新能源、新材料和信息技術(shù)是人類文明最基礎(chǔ)的行業(yè),發(fā)展的瓶頸普遍是分子層面的設(shè)計問題。我們將量子物理模型、分子模擬算法、人工智能、高性能計算等新工具有機結(jié)合,搭建一個微尺度工業(yè)設(shè)計的平臺,從微觀層面出發(fā)解決這些行業(yè)問題。” 孫偉杰說。
兩位創(chuàng)始人更傾向于將深勢科技定位成一家工業(yè)設(shè)計公司。目前,該公司基于分子模擬算法搭建了專有的微尺度工業(yè)設(shè)計平臺,細分應(yīng)用場景落地在****物設(shè)計和材料設(shè)計兩大領(lǐng)域。本文的重點將圍繞****物設(shè)計景展開。
官網(wǎng)信息顯示,****物設(shè)計平臺(Hermite)集中于臨床前計算機輔助****物設(shè)計的全部階段,涵蓋了蛋白結(jié)構(gòu)解析、靶點發(fā)現(xiàn)和確證、虛擬篩選、先導(dǎo)化合物優(yōu)化、分子智能推薦和****代動力學(xué)預(yù)測等功能。上文提到的 Uni-Fold 的相關(guān)解決方案已整合在 Hermite 平臺中。

孫偉杰告訴生輝,基于這些特色的算法和功能,深勢科技首先可以為生物制****公司提供軟件服務(wù),也會基于創(chuàng)新性算法和生物制****公司針對一些難成****靶點進行聯(lián)合研發(fā),包括選擇性抑制劑、別構(gòu)抑制劑,以及針對無固定構(gòu)象蛋白靶點的****物設(shè)計和針對特定表位的抗體設(shè)計等。目前,已經(jīng)有多個合作項目在推進中。
在****物設(shè)計場景下,從平臺角度來看,我們更愿意做新時代的‘薛定諤’。一方面,Hermite 平臺可以基本覆蓋到薛定諤計算化學(xué)工具的功能范圍,包括從蛋白質(zhì)結(jié)構(gòu)解析、****物分子設(shè)計與優(yōu)化,再到****物諸多性質(zhì)評估的早期****物發(fā)現(xiàn)鏈條。另一方面,Hermite 平臺整合了源自內(nèi)部創(chuàng)新和外部合作者的多個先進算法模塊,在多個方面都有超越薛定諤現(xiàn)有功能的潛力,帶來新的應(yīng)用價值?!?孫偉杰說。
薛定諤定成立于 1990 年,是計算化學(xué)領(lǐng)域的 “老兵”,在業(yè)內(nèi)有 “計算****物研發(fā)上市第一股” 之稱。該公司長期專注于利用人工智能計算平臺加速****物開發(fā)和材料設(shè)計,基于物理和化學(xué)分析的專有軟件可以精準預(yù)測模型,繼而以更低成本、更快發(fā)現(xiàn)更高質(zhì)量的分子,并開發(fā)相關(guān)管線。“計算模擬的本質(zhì)是替代實驗”
通常來講,如果要研究一種材料或者一款候選化合物的性質(zhì),需要通過生化實驗分析驗證。分子模擬則是在計算機上完成這些的化學(xué)實驗?!?/span>本質(zhì)上,計算的價值就在于是否有能力替代此前在微觀分子層面難以完成的實驗或者低效的實驗。” 孫偉杰說。
“對于計算平臺而言,無論是從 AI 概念出發(fā),還是從計算或者是 CADD(計算機輔助****物設(shè)計)出發(fā),關(guān)鍵在于平臺技術(shù)中的計算方法或者工具能否具備代替試驗的能力。
孫偉杰透露,算法設(shè)計也應(yīng)該朝著更有潛力代替實驗的方向出發(fā),只有這樣算法的價值才會更高,平臺技術(shù)才可以解決更多的問題。從這個角度來看,雖然前路漫長,但我們對公司開發(fā)的分子模擬算法充滿信心。
以****物設(shè)計場景為例,深勢科技未來的方向同樣也會聚焦兩個方面:一,部分代替此前成熟但相對低效的實驗,比如通過 X 射線晶體學(xué)或者是冷凍電鏡解析結(jié)構(gòu),以及****物的篩選和優(yōu)化;二,解決難以進行實驗的****物設(shè)計問題,比如一些傳統(tǒng)意義上難成****的靶標,以及針對離子通道和特定表位的抗體****物設(shè)計。
現(xiàn)如今,CADD、AI 制****概念火熱,資本青睞,****企頻頻拋出橄欖枝。一方面,薛定諤、Relay、Recursion、AbCelera 等相繼上市,獲得資本熱捧;另一方面,英國 AI 制****領(lǐng)跑者 Exscientia 與 GSK、賽諾菲、BMS、拜耳等簽單,薛定諤與****明康德、BMS、再鼎攜手...


這是否意味著以 AI、CADD 為代表的計算生物學(xué)方式正在或者已經(jīng)可以代替?zhèn)鹘y(tǒng)實驗手段,在生物制****領(lǐng)域發(fā)揮著重大的價值?
“我認為現(xiàn)階段兩種方式會共存共生,互相促進。從預(yù)測工具角度來看,首先需要區(qū)分不同的應(yīng)用場景,評估算法的預(yù)測精度和置信區(qū)間;從生物體層面出發(fā),針對可以物理建模的生物問題,可能會在未來幾年通過計算方法的發(fā)展得到較好的解決。而對于復(fù)雜且無法物理建模的生物學(xué)問題,需要實驗技術(shù)揭示更深層的生物機理,提供更多高質(zhì)量的數(shù)據(jù),才能讓 AI 和計算發(fā)揮更大的價值,進而揭開生物體運作的奧秘?!?孫偉杰總結(jié)道。
張林峰從計算的發(fā)展過程角度談一談自己的觀點。從傳統(tǒng)實驗到計算方法的演進并非一蹴而就,這是一個循序漸進的過程。以薛定諤為例,當前該公司的 Docking 解決方案在某種程度上已經(jīng)實現(xiàn)了對實驗的部分替代。此外,代替方案也需要考慮效率和成本問題。
整體來看,計算正處于替代實驗的過程之中,這是一個存量和增量的問題。對于一些新靶點或者比較大的蛋白,這些屬于存量問題,計算工具精度可能還不夠,實驗方法必不可少;此外,新問題層出不窮,結(jié)構(gòu)生物學(xué)領(lǐng)域在可見的未來還是一個計算和試驗有機結(jié)合的生態(tài),雙方肯定是互相促進,共同發(fā)展?!?張林峰補充道。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。




技術(shù)專區(qū)

關(guān)閉