復現AlphaFold2?完全開源新型蛋白結構預測工具的背后:算法不是寫出來的,而是用出來的丨專訪深勢科技
站在巨人的肩膀上,國內的同行們也在不斷改進和優(yōu)化算法性能,并相繼推出了自己的蛋白質預測工具。
近日,國內人工智能初創(chuàng)公司深勢科技宣布正式推出蛋白質結構預測工具 Uni-Fold,并開源了推理代碼和訓練代碼。深勢科技表示,Uni-Fold 成功復現了 AlphaFold2 的全規(guī)模訓練,且已集成在其專有的****物設計平臺 Hermite,用戶可以在線試用。
值得一提的是,Uni-Fold 同時開源了推理代碼和訓練代碼,這意味著用戶不僅可以預測蛋白質三維結構,還可以根據項目需求進一步訓練和優(yōu)化模型。而早前 AlphaFold2 只開源了推理代碼,用戶只能在現有數據庫基礎上使用。
據介紹,同等測試條件下,Uni-Fold 對 CASP14 蛋白質序列數據集的 Cα-lDDT 達到 82.6,僅次于 AlphaFold2 的預測精度。此外,Uni-Fold 在運行硬件和代碼運行效率上具有明顯優(yōu)勢。
與 AlphaFold2 相比,本次開源的 Uni-Fold 有何突破性?背后推手深勢科技在生物制****領域有著怎么樣的布局?對計算生物學又有著怎樣的見解?
就這些問題,生輝與深勢科技首席執(zhí)行官孫偉杰以及首席科學家張林峰博士進行了探討。
孫偉杰與張林峰是典型的 90 后創(chuàng)業(yè)者,兩人既是本科同窗摯友,也是配合默契的創(chuàng)業(yè)伙伴。兩人本科均畢業(yè)于北大元培學院,此后,張林峰前往普林斯頓大學攻讀應用數學博士學位,孫偉杰則投身于投資和管理。2018 年底,兩人一拍即合,共同創(chuàng)辦了深勢科技。
這是一家定位為工業(yè)設計的初創(chuàng)公司,目前團隊規(guī)模約為 120 人左右。該公司計劃搭建微尺度工業(yè)設計平臺,目標是從電子、原子、分子等微觀尺度為傳統(tǒng)行業(yè)找尋解決方案,當前兩大落地場景是****物設計和材料設計。
“開源兩大代碼更大的意義在于,可以為整個領域內提供與 AlphaFold2 相同的起點,從這個起點出發(fā),大家可以做更多的事情。同時,技術的演進也會探索更多新場景,包括蛋白質復合物、動力學等。接下來可能會出現更令人興奮的解決方案,整個生物計算以及生物制****領域也會有更大的發(fā)展。我們相信,Uni-Fold 會讓接下來半年更加值得期待。” 張林峰說。完全開源,可不斷優(yōu)化算法
AlphaFold2 在第 14 屆蛋白質結構預測大賽中(CASP14)的預測分值中位數為 92.4 GDT,預測水準與實驗室水平相差無幾。其預測精確度極高的一個重要原因就在于對數據的利用度非常高,幾乎應用了領域內所有數據。
張林峰告訴生輝,蛋白質預測工具 Uni-Fold 成功復現了 AlphaFold2 的大規(guī)模數據訓練過程。也就是說完全復刻了 AlphaFold2 的技術路線,兩者的方法論一致,且屬于同一代技術。
基于此,Uni-Fold 對蛋白質三維結構的預測精度、運行時間和對蛋白質復合物的預測與 AlphaFold2 接近。據悉,在同等測試條件下,Uni-Fold 對 CASP14 蛋白質序列數據集的平均 Cα-lDDT(局部比對指標)達到 82.6,僅次于 AlphaFold2,超越了 RoseTTAFold。
AlphaFold2 更擅長預測和計算單個蛋白質的結構,然而大多數蛋白質往往是以復合物形式存在,并非單體存在。預測蛋白質復合物是該領域比較棘手的問題,RoseTTAFold 的研究人員曾表示下一步將會繼續(xù)提高算法預測蛋白質復合物的能力。張林峰也坦言,目前 Uni-Fold 還沒有完全解決復合物預測問題,這會是團隊未來一個重點努力方向。
據了解,更為關鍵的一點在于,Uni-Fold 是蛋白質結構研究領域首款完全開源的預測工具,同時開源推理代碼和訓練代碼。相比之下,AlphaFold2 只開源推理代碼,這就意味著只能在給定場景下預測蛋白質結構,一定程度上限制了算法的優(yōu)化以及應用邊界的擴展。
“這就好像一個用已有數據訓練出來的‘熟練工’,只能根據指令做一些指定的指令,可塑性較低。從訓練角度來看,完全開源的算法更像一個高智商的‘孩童’”,我們可以在不同場景,不同需求之下,指引其成為某個領域的專家。”
“算法不是寫出來的,而是用出來的。我們希望在原有算法的基礎上擴展更多新的功能,包括蛋白質復合物結構預測、蛋白質與小分子相互作用預測、與電鏡實驗結合、抗體序列設計等場景。這是一個長期的發(fā)展需求,需要不斷演進迭代算法,開源算法有助于我們在整個領域不斷迭代解決方案?!?張林峰補充道。
此外,AlphaFold2 所開源的代碼與硬件生態(tài)耦合,需要通過 Google 專有的硬件 TPU Pod 運行。據悉,相比之下,Uni-Fold 具備更加通用的硬件運行平臺,適配并支持 NVIDIA、AMD 以及一些國產硬件。同時,在訓練和效率上也做了大量工作,比如說推理代碼也更加輕量、高效,在同等運行硬件條件下,代碼運行效率提升約 2-3 倍。“新時代的薛定諤”
2019 年,張林峰在分子模擬算法上的取得了突破,這項由他作為核心開發(fā)者的研究工作獲得 2020 年全球計算機高性能計算領域的最高獎項 “戈登?貝爾獎”,并當選 2020 年全球人工智能十大科技進展。
“生命科學、新能源、新材料和信息技術是人類文明最基礎的行業(yè),發(fā)展的瓶頸普遍是分子層面的設計問題。我們將量子物理模型、分子模擬算法、人工智能、高性能計算等新工具有機結合,搭建一個微尺度工業(yè)設計的平臺,從微觀層面出發(fā)解決這些行業(yè)問題?!?孫偉杰說。
兩位創(chuàng)始人更傾向于將深勢科技定位成一家工業(yè)設計公司。目前,該公司基于分子模擬算法搭建了專有的微尺度工業(yè)設計平臺,細分應用場景落地在****物設計和材料設計兩大領域。本文的重點將圍繞****物設計場景展開。
官網信息顯示,****物設計平臺(Hermite)集中于臨床前計算機輔助****物設計的全部階段,涵蓋了蛋白結構解析、靶點發(fā)現和確證、虛擬篩選、先導化合物優(yōu)化、分子智能推薦和****代動力學預測等功能。上文提到的 Uni-Fold 的相關解決方案已整合在 Hermite 平臺中。
孫偉杰告訴生輝,基于這些特色的算法和功能,深勢科技首先可以為生物制****公司提供軟件服務,也會基于創(chuàng)新性算法和生物制****公司針對一些難成****靶點進行聯合研發(fā),包括選擇性抑制劑、別構抑制劑,以及針對無固定構象蛋白靶點的****物設計和針對特定表位的抗體設計等。目前,已經有多個合作項目在推進中。
“在****物設計場景下,從平臺角度來看,我們更愿意做新時代的‘薛定諤’。一方面,Hermite 平臺可以基本覆蓋到薛定諤計算化學工具的功能范圍,包括從蛋白質結構解析、****物分子設計與優(yōu)化,再到****物諸多性質評估的早期****物發(fā)現鏈條。另一方面,Hermite 平臺整合了源自內部創(chuàng)新和外部合作者的多個先進算法模塊,在多個方面都有超越薛定諤現有功能的潛力,帶來新的應用價值?!?孫偉杰說。
薛定諤定成立于 1990 年,是計算化學領域的 “老兵”,在業(yè)內有 “計算****物研發(fā)上市第一股” 之稱。該公司長期專注于利用人工智能計算平臺加速****物開發(fā)和材料設計,基于物理和化學分析的專有軟件可以精準預測模型,繼而以更低成本、更快發(fā)現更高質量的分子,并開發(fā)相關管線。“計算模擬的本質是替代實驗”
通常來講,如果要研究一種材料或者一款候選化合物的性質,需要通過生化實驗分析驗證。分子模擬則是在計算機上完成這些的化學實驗。“本質上,計算的價值就在于是否有能力替代此前在微觀分子層面難以完成的實驗或者低效的實驗。” 孫偉杰說。
“對于計算平臺而言,無論是從 AI 概念出發(fā),還是從計算或者是 CADD(計算機輔助****物設計)出發(fā),關鍵在于平臺技術中的計算方法或者工具能否具備代替試驗的能力。”
孫偉杰透露,算法設計也應該朝著更有潛力代替實驗的方向出發(fā),只有這樣算法的價值才會更高,平臺技術才可以解決更多的問題。從這個角度來看,雖然前路漫長,但我們對公司開發(fā)的分子模擬算法充滿信心。
以****物設計場景為例,深勢科技未來的方向同樣也會聚焦兩個方面:一,部分代替此前成熟但相對低效的實驗,比如通過 X 射線晶體學或者是冷凍電鏡解析結構,以及****物的篩選和優(yōu)化;二,解決難以進行實驗的****物設計問題,比如一些傳統(tǒng)意義上難成****的靶標,以及針對離子通道和特定表位的抗體****物設計。
現如今,CADD、AI 制****概念火熱,資本青睞,****企頻頻拋出橄欖枝。一方面,薛定諤、Relay、Recursion、AbCelera 等相繼上市,獲得資本熱捧;另一方面,英國 AI 制****領跑者 Exscientia 與 GSK、賽諾菲、BMS、拜耳等簽單,薛定諤與****明康德、BMS、再鼎攜手...
這是否意味著以 AI、CADD 為代表的計算生物學方式正在或者已經可以代替?zhèn)鹘y(tǒng)實驗手段,在生物制****領域發(fā)揮著重大的價值?
“我認為現階段兩種方式會共存共生,互相促進。從預測工具角度來看,首先需要區(qū)分不同的應用場景,評估算法的預測精度和置信區(qū)間;從生物體層面出發(fā),針對可以物理建模的生物問題,可能會在未來幾年通過計算方法的發(fā)展得到較好的解決。而對于復雜且無法物理建模的生物學問題,需要實驗技術揭示更深層的生物機理,提供更多高質量的數據,才能讓 AI 和計算發(fā)揮更大的價值,進而揭開生物體運作的奧秘?!?孫偉杰總結道。
張林峰從計算的發(fā)展過程角度談一談自己的觀點。從傳統(tǒng)實驗到計算方法的演進并非一蹴而就,這是一個循序漸進的過程。以薛定諤為例,當前該公司的 Docking 解決方案在某種程度上已經實現了對實驗的部分替代。此外,代替方案也需要考慮效率和成本問題。
“整體來看,計算正處于替代實驗的過程之中,這是一個存量和增量的問題。對于一些新靶點或者比較大的蛋白,這些屬于存量問題,計算工具精度可能還不夠,實驗方法必不可少;此外,新問題層出不窮,結構生物學領域在可見的未來還是一個計算和試驗有機結合的生態(tài),雙方肯定是互相促進,共同發(fā)展。” 張林峰補充道。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。