OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了嗎?一文總結(jié)生物制藥必備經(jīng)典模型(二)
1990年代后期,計算生物學開始成為生物學中非常重要的一部分。在大熱的AlphaFold掀起浪潮之前,就有科學家斷言:所有生物學都是計算生物學。AI或者深度學習的出現(xiàn),給計算生物學帶來了新的巨大的發(fā)展空間。
對于生物學本身,傳統(tǒng)的實驗和分析手段已難以充分開發(fā)海量生物數(shù)據(jù),確實需要計算生物學這種跨學科同時兼顧多個細分領(lǐng)域的綜合性工具來解決問題。在具體實驗方法上,當前絕大多數(shù)采用的都是基于已有數(shù)據(jù)庫和資源、利用成熟工具來解決特定問題或自行設計統(tǒng)計分析、數(shù)值計算的方法,而計算生物學的出現(xiàn)讓干濕實驗結(jié)合的新方法開始走向主流(在生物上講,干實驗就是通過計算機模擬以及生物信息學方法來進行研究。濕實驗就是通過在實驗室里采用分子、細胞、生理學試驗方法進行研究)。引入AI,實現(xiàn)了對在傳統(tǒng)的濕實驗環(huán)境中的假設的驗證,干濕實驗共同迭代加速,AI和傳統(tǒng)科研結(jié)合帶來的巨大潛能,有望帶來一場全新的科學革命。
在計算生物學中,AI的應用主要有三類:一是,計算推演生物性質(zhì)及原理,包括:蛋白質(zhì)結(jié)構(gòu)預測、致病機理研究、蛋白質(zhì)相互作用預測(PPI)、抗體和抗原的表位預測、基于基因組學尋找疾病成因或?qū)ふ倚滦偷纳飿酥疚锏?。(生物標志物是指可以標記系統(tǒng)、器官、組織、細胞及亞細胞結(jié)構(gòu)或功能的改變或可能發(fā)生的改變的生化指標,可用于疾病診斷、判斷疾病分期或者用來評價新藥或新療法在目標人群中的安全性及有效性。)這些研究的成果后續(xù)可用于得到新的藥物靶點等,為疾病治療提供基本思路。二是搭建預測及判斷模型,包括:AI制藥中基于靶點的化合物性質(zhì)預測(主要涉及小分子藥物開發(fā)),疾病診斷/監(jiān)控/治療建模,涵蓋細胞/器官/人體的生物模擬器等。其中,生物模擬器的本質(zhì)功能是用于驗證特定療法有效性的生物模擬器,可以簡單理解為生物醫(yī)藥領(lǐng)域的數(shù)字孿生。三是對生物體進行控制改造,包括:新療法/藥物開發(fā)、精準醫(yī)療和生物制造(以合成生物學為代表)。其中新療法/藥物開發(fā)是目前落地最成熟的場景。再往細來說,對癌癥的個性化治療和基因組學也將成為精準醫(yī)療中最先落地的場景。AI應用于新藥開發(fā),可以實現(xiàn)藥物靶點發(fā)現(xiàn)、藥物篩選和結(jié)構(gòu)優(yōu)化、合成路線等。
本文聚焦于生物制藥中必備的TOP模型,具體來說就是第三類AI應用中的主要模型,可以運用到整個藥物從研發(fā)、中試到生產(chǎn)的所有關(guān)鍵技術(shù)環(huán)節(jié)。上面提及的第二類AI應用主要是生物醫(yī)藥領(lǐng)域的數(shù)字孿生,不包含在本文的討論范圍內(nèi)。
本文回顧的必備TOP模型主要包括蛋白質(zhì)結(jié)構(gòu)預測和蛋白設計、分子生成、分子表征和性質(zhì)預測這三類應用,而化學合成/逆合成及其它大數(shù)據(jù)分析應用等,暫不包含在本文討論的模型范圍中。AI的各種模型和算法應用在生物制藥領(lǐng)域,需要與對應的生物學、醫(yī)學知識高度結(jié)合,因此,本報告中對必備TOP模型的介紹主要是從AI建模的角度對模型總體架構(gòu)和整體設計思路進行介紹,各個模型設計的技術(shù)細節(jié)、模型調(diào)參等思路和技術(shù)創(chuàng)新點,需結(jié)合原文和所應用的醫(yī)學場景深入理解。
一、蛋白質(zhì)結(jié)構(gòu)預測和蛋白設計
AI預測蛋白質(zhì)3D結(jié)構(gòu),僅通過單條蛋白序列就能搞定。也就是說,AI預測蛋白質(zhì)結(jié)構(gòu),可以不需要蛋白質(zhì)進化過程中的同源信息。一些人工設計的蛋白質(zhì)藥物和工業(yè)合成用酶,也可以通過AI預測3D結(jié)構(gòu),確定其對人體的功能,實現(xiàn)這一功能的模型就是OmegaFold。OmegaFold的整體模型在概念上受到自然語言處理的語言模型以及AlphaFold2中使用的深度神經(jīng)網(wǎng)絡的最新進展的啟發(fā)。
圖1 OmegaFold的模型結(jié)構(gòu)。主要的蛋白質(zhì)序列首先被送入一個預訓練的蛋白質(zhì)語言模型(Omega protein language model,OmegaPLM),以獲得殘基級節(jié)點嵌入和殘基-殘基配對嵌入。然后,一堆Geoformer層迭代更新這些嵌入,以提高其幾何一致性。最后,一個結(jié)構(gòu)模塊從最終的嵌入中預測出三維蛋白質(zhì)結(jié)構(gòu)。預測的結(jié)構(gòu)和嵌入可以通過循環(huán)程序再次輸入到另一個循環(huán)中,以預測更精細的結(jié)構(gòu)
這項工作專注于設計一個內(nèi)存高效的自注意力架構(gòu),通過改進以前的PLM的不同組件,如位置編碼功能、非線性轉(zhuǎn)換和歸一化功能,使PLM更加深入。OmegaPLM的整體架構(gòu)是一個自注意力模型,其中,每個token是一個氨基酸。OmegaFold模型用一堆GAU層來處理一個蛋白質(zhì)序列,而不是用自注意力層和多層感知器。該模型包含66個層,大約有6.7億個參數(shù),沒有共享參數(shù)。令n_i∈R^d作為位置i的token的d維向量表示,Algorithm 1中給出了OmegaPLM的詳細過程。
Pre-LayerNorm。如算法1所示,引入pre-LayerNorm操作,將層歸一化放在殘差塊之間。正如最近的研究表明,預層規(guī)范化能夠產(chǎn)生更穩(wěn)定的梯度,特別是在初始化時。目前在不同的深度學習包中普遍存在的歸一化層的實現(xiàn),通常包含element-wise的仿射變換,其參數(shù)可學習,緊隨其后的是許多 pre-layernorm Transformers的線性操作。然而,這種配置在數(shù)學上并沒有意義,只會在訓練期間選擇優(yōu)化器造成的微小差異。因此,刪除了pre-LayerNorm中的所有element-wise仿射變換。
Gated Attention Unit。沒有使用多頭自注意力(multi-headed self-attention,MHSA),而是采用了門控注意單元(GAU)(算法1中的第8行),它作為多頭自注意力的替代品,具有較小的內(nèi)存消耗和較快的收斂率,顯示出巨大的前景。在注意力聚集后應用門控操作,用relu2(-)取代傳統(tǒng)的softmax(-)函數(shù)來聚集成對的對數(shù)。特別是,使用一個額外的門控向量gi∈R^dv,其中dv是價值向量的維度,后來以元素方式與價值vj的加權(quán)和相乘(第8行)。
Relative Positional Encoding (RoPE)。注意力機制本質(zhì)上是變異的,所以它在應用于序列數(shù)據(jù)時需要位置信息。這里我們應用旋轉(zhuǎn)位置嵌入(rotary positional embedding,RoPE)(算法1中的第5行和第6行)來編碼一對氨基酸的位置信息,其定義見算法2。利用復數(shù)的特性解決了這個問題,并將這種機制應用到查詢和密鑰中。為了進一步強調(diào)相對位置信息的影響,引入一個偏置項b_i-j,它是針對位置i和j的。注意b_i-j和b_j-i的值是不同的。沒有隨著絕對相對位置的增加而減少嵌入值,而是對相對位置進行剪輯以允許extrapolation。
OmegaFold | 前往 SOTA!模型平臺獲取實現(xiàn)資源:https://sota.jiqizhixin.com/project/omegafold |
EquBind的工作發(fā)表在ICML 2022中。之前典型的‘配體-蛋白質(zhì)’方法,就像試圖讓模型將鑰匙插入一個有許多鎖孔的鎖中,需要花大量時間對鑰匙和每個鎖孔的配合度打分,然后選擇最合適的那個。而EquBind可以跳過最耗時的步驟,遇到新分子時可提前預測最合適的‘鎖眼’,這就是所謂的‘盲對接’。其內(nèi)置的幾何推理算法,可幫助模型學習分子的基本結(jié)構(gòu)。該算法允許EquBind在遇到新分子時直接預測最合適的位置,而不是花費大量時間嘗試不同的位置并對其進行評分。即,EquBind依靠SE(3)等價圖神經(jīng)網(wǎng)絡來預測結(jié)合的蛋白質(zhì)配體構(gòu)象,只需一次就能完成。EquBind將配體分子圖與隨機關(guān)聯(lián)的非結(jié)合三維構(gòu)象體以及受體結(jié)合結(jié)構(gòu)作為輸入,詳細結(jié)構(gòu)如圖2所示。
圖2 EquBind結(jié)構(gòu)
K-NN圖的表示。將兩個輸入分子表示為空間k-近鄰(k-NN)圖。配體圖G = (V, E)使用原子作為節(jié)點,其各自的三維坐標來自未結(jié)合的構(gòu)象體,表示為X∈R^3×n,以及初始特征F∈R^d×n(例如原子類型)。邊緣包括距離在4?A以內(nèi)的所有原子對。受體圖 G‘ = (V’, E‘) 將殘基作為節(jié)點,其三維坐標X0∈R……3×m由α-碳的位置給出。每個節(jié)點在圖中都與最近的10個其他節(jié)點相連,距離小于30?A。
Independent E(3)-equivariant transformations。使用獨立E(3)-變量圖匹配網(wǎng)絡(IEGMN),它結(jié)合了圖匹配網(wǎng)絡和E(3)-變量圖神經(jīng)網(wǎng)絡。這種架構(gòu)共同轉(zhuǎn)換特征和三維坐標,以進行神經(jīng)圖內(nèi)部的信息傳遞。
IEGMN(X, F, X’ , F’ ) = Z ∈ R ^3×n, H ∈ R^ d×n, Z’ ∈ R^ 3×m, H’ ∈ R^ d×m。IEGMNs的核心屬性是,堆疊任何數(shù)量的此類層都能保證原始輸入結(jié)構(gòu)的任何獨立旋轉(zhuǎn)和平移都將準確地反映在輸出中。在實踐中,圖11所示的Z、H、Z'、H'輸出是通過堆疊幾個IEGMN層得到的。我們對單個第l層的選擇是:
Z的作用。表示為Z和Z'的坐標E(3)等價變換的輸出將被用于不同的作用:識別剛體變換和結(jié)合點,以及通過訓練Z來表示變形的原子點云來模擬配體的靈活性。
EquBind | 前往 SOTA!模型平臺獲取實現(xiàn)資源:https://sota.jiqizhixin.com/project/equbind |
基于深度學習的從頭分子設計最近獲得了相當大的關(guān)注。許多基于深度學習的生成模型已被成功開發(fā)出來并應用于設計新的分子,但其中大多數(shù)是以配體為中心的,target binding pockets的三維幾何形狀在分子生成中的作用還沒有得到很好的利用。為此,提出了一個新的基于三維的生成模型,稱為RELATION。在RELATION模型中,BiTL算法被專門設計用來提取蛋白質(zhì)-配體復合物的所需幾何特征并將其遷移到一個潛在的空間進行生成,在引入雙向遷移學習后,隱藏層的采樣能夠同時兼顧生成分子的骨架片段的新穎性以及對靶標蛋白的親和性。應用藥效團約束生成( pharmacophore conditioning)和貝葉斯優(yōu)化(BO)采樣,能夠有效地瀏覽巨大的化學空間,可供用戶定制化生成藥效團匹配度更高以及對靶標的對接打分表現(xiàn)更好的分子。
RELATION框架由兩個部分組成:(1)3D編碼器,使用了3D-CNN的結(jié)構(gòu),包括私有編碼器和共享編碼器。附帶SMILES標簽的訓練源域數(shù)據(jù)以及目標域數(shù)據(jù)轉(zhuǎn)換成4D張量后,分別作為私有編碼器和共享編碼器的輸入。所有的編碼器具有相同的架構(gòu),均具有8層,第一層包含64個過濾器,然后在奇數(shù)層上加倍,最后一層學習512個過濾器。每一個偶數(shù)層后面都有一個額外的池化層,核數(shù)、步長和填充為2,用于執(zhí)行下采樣。利用ReLU激活函數(shù)對3D-CNN模型進行訓練,并使用兩個輸出為512維的全連接層得到μ和σ,對其重參數(shù)化后,生成一個的1024維嵌入向量;(2)****,****的結(jié)構(gòu)是caption-LSTM,可以將隱藏層內(nèi)的高維向量轉(zhuǎn)化為SMILE分子式,caption-LSTM由三層組成,其詞匯量輸入大小為39,隱藏大小為1024。
圖3 RELATION架構(gòu)
為了實現(xiàn)雙向遷移,定義損失函數(shù)如下:
在遷移學習中引入L_sim和βL_diff,使得隱藏層在生成過程中不僅考慮了源域數(shù)據(jù)集和目標域數(shù)據(jù)集的相似性,也保留了源域數(shù)據(jù)集(結(jié)構(gòu)多樣性)和目標域數(shù)據(jù)集(蛋白-配體親和力)各自的特征。L_sim項能夠保證共享隱藏層中小分子與復合物的相似性。L_latent表示編碼器由均值和單位方差均為零的多元高斯分布先驗進行正則化,表示為:
最后,L_caption用來測量原始輸入和通過字幕網(wǎng)絡產(chǎn)生的輸出之間的重建損失。
RELATION | 前往 SOTA!模型平臺獲取實現(xiàn)資源:https://sota.jiqizhixin.com/project/relation |
二、分子生成
1、 BIMODAL循環(huán)神經(jīng)網(wǎng)絡(RNN)能夠使用簡化的分子輸入線輸入系統(tǒng)(SMILES)字符串表示的化學結(jié)構(gòu)來生成新的分子設計?;赗NN的結(jié)構(gòu)生成通常是單向進行的,通過從左到右增長SMILES字符串。然而,小分子沒有自然的起點或終點,SMILES字符串本質(zhì)上是分子圖的非單點表示。這些特性促使了雙向結(jié)構(gòu)的生成。這篇文章介紹了用于基于SMILES的分子設計的雙向生成性RNNs,實現(xiàn)了兩種既定的雙向方法,并引入了一種用于SMILES字符串生成和數(shù)據(jù)增強的新方法:雙向分子設計交替學習法(BIMODAL)。作者將這三種雙向策略與用于SMILES字符串生成的單向正向RNN方法進行了比較,內(nèi)容包括(i)計算機生成的分子的新穎性,(ii)支架的多樣性,(iii)化學-生物學相關(guān)性。
圖4 (a) SMILES字符串,從分子圖表示中獲得,每個原子用其元素符號表示,而分支和連接性用符號或小寫字母表示(例如,"( )"、"="和 "c "分別表示分支、雙鍵和芳香族碳)。圖中給出代表藥物布洛芬的三個SMILES字符串的示例;用于SMILES字符串生成的起始原子用灰色數(shù)字表示。(b) 帶有一個遞歸神經(jīng)元層的前向RNN的簡化方案。RNNs是一個動態(tài)系統(tǒng)的模型,其中任何一個時間點t的網(wǎng)絡狀態(tài)都取決于當前的觀察(x_t)和之前的狀態(tài)(t - 1),并被用來預測輸出(y_t)
以SMILES字符序列("token")作為輸入,RNN模型根據(jù)序列的前一部分和概率估計,每次學習預測一個token(圖4b)??梢詮膶W到的概率分布抽樣新的SMILES字符串。RNNs通常被訓練成以 "向前 "的方式讀取和生成SMILES字符串,即從左到右。然而,SMILES表示可以從任何非氫原子開始,按任何方向進行生成(圖4a)。與自然語言不同,小分子沒有唯一定義的起點和終點。非單向性和非方向性提供了探索雙向序列生成的機會,即在前向和后向都能讀取和生成SMILES字符串的方法。然而,純粹的從頭開始("端到端")的雙向SMILES生成至今還沒有被探索過。BIMODAL就是一種雙向生成性RNNs。
給定一個輸入序列,生成式RNNs被訓練成通過預測下一個序列標記來擴展這個序列,定義為y_t = x_t+1。使用帶有LSTM單元的RNNs以解決由長序列和大型網(wǎng)絡結(jié)構(gòu)引起的梯度消失和梯度爆炸問題。在任何給定的第t個時間步長,這樣的網(wǎng)絡由以下一組方程描述:
最常見的用于序列生成的RNNs版本從左到右進行(前向),即從t=1到t=L,其中,L是SMILES序列的長度。在訓練過程中,輸入的第一個位置被填入一個序列開始的token,而輸入的最后一個位置被填入一個序列結(jié)束的token。一旦RNN模型被訓練好,新的序列就會通過(i)輸入起始token("G"),(ii)允許模型逐步選擇下一個token,給定各自的前一個token序列,直到生成結(jié)束token("E")(圖5a)。在每一個時間步長t,每一個第k個符號跟隨生成的字符串的前一部分的概率是用一個softmax函數(shù)計算的
圖5 基于RNN的SMILES字符串生成方法。SMILES生成從起始token "G "開始,按預定方向進行。(a) 前向RNN。從起始token "G "開始,從左到右添加新的token。(b) BIMODAL方法:在每個時間步長(t)交替生成token。該模型使用整個序列(前向和后向)來生成下一個token。(c) 前向-后向模型。從 "G "token開始,每個時間步長預測兩個token,兩邊各一個。(d) NADE方法:缺失的 "假 "token("M")被替換為有效的SMILES字符,可以向字符串的中心或以隨機方式替換
在任何第t個時間步長,BIMODAL沿前向(x_m→x_t)和后向(x_t←x_m)方向讀取x={x_m, x_m+1, ..., x_t},在兩個方向上生成SMILES序列。然而,通過同時使用從左到右(向前)和從右到左(向后)的信息,每一步只有一個token被交替預測。BIMODAL由兩個RNN組成,每個方向(前向和后向)都有一個讀取序列,然后結(jié)合起來提供一個聯(lián)合預測(y_t):
在SMILES的生成設置中,BIMODAL在每個時間步長t的前向和后向都會讀取序列(圖5b)。然后,它在前向或后向生成一個新token:
BIMODAL | 前往 SOTA!模型平臺獲取實現(xiàn)資源:https://sota.jiqizhixin.com/project/bimodal |
2、 GF-VAE
GF-VAE是一種用于分子圖生成的基于流的變分自動編碼器(VAE)模型。該模型在原來VAE的基礎上增加了Flow模型****。其中,編碼器主要是加速解碼的訓練,而****則依次優(yōu)化編碼器的性能。由于流模型的可逆性,生成過程很容易通過反轉(zhuǎn)****來完成。因此,GF-VAE繼承了VAE和基于流的方法的優(yōu)點。給定
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。