MIT 最新研究：AlphaFold 蛋白質(zhì)預(yù)測(cè)能力太差，目前利用價(jià)值還很低

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-09-22 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自AI科技評(píng)論

作者 | 李梅、黃楠

編輯 | 陳彩嫻

2018 年，Deepmind 首次發(fā)布基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)數(shù)據(jù)庫(kù) AlphaFold，在蛋白質(zhì)預(yù)測(cè)中實(shí)現(xiàn)了最先進(jìn)的性能；去年，AlphaFold 2 獲得了 98.5% 的蛋白質(zhì)預(yù)測(cè)率；前段時(shí)間，Deepmind 又重磅發(fā)布了數(shù)據(jù)集更新，稱(chēng)目前的 AlphaFold 已經(jīng)預(yù)測(cè)了幾乎所有已知的蛋白質(zhì)。

如何有效識(shí)別****物作用機(jī)制在今天仍然是一個(gè)巨大挑戰(zhàn)，計(jì)算對(duì)接的方法已被廣泛用于預(yù)測(cè)****物結(jié)合靶點(diǎn)。有了大規(guī)模蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)，****物發(fā)現(xiàn)將變得更容易。所以，自 AlphaFold 問(wèn)世以來(lái)，稱(chēng)其將引發(fā)一場(chǎng)結(jié)構(gòu)生物學(xué)的革命、徹底改變****物發(fā)現(xiàn)的聲音就不絕于耳。

本質(zhì)上，AlphaFold 是一個(gè)工具，我們目前真的能利用好這個(gè)工具嗎？

近日，來(lái)自 MIT 的研究團(tuán)隊(duì)給出了否定的回答。

他們對(duì)使用 AlphaFold2 的分子對(duì)接模擬的模型性能進(jìn)行了評(píng)估，發(fā)現(xiàn)模型在識(shí)別真正的蛋白質(zhì)-配體相互作用方面的預(yù)測(cè)能力較弱，并證明需要使用基于機(jī)器學(xué)習(xí)的方法進(jìn)行建模來(lái)提高模型性能，以更好地利用AlphaFold2 進(jìn)行****物發(fā)現(xiàn)。該論文“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”發(fā)表在了Molecular Systems Biology 期刊上。

論文地址：https://www.embopress.org/doi/epdf/10.15252/msb.202211081

使用AlphaFold 2 預(yù)測(cè)分子對(duì)接

所謂化合物的對(duì)接計(jì)算，是將候選化合物列表中的每一個(gè)對(duì)接到目標(biāo)蛋白質(zhì)中，生成最有可能結(jié)合的化合物的粗略排序。這個(gè)過(guò)程可以在化合物集合上完成，獲得龐大的虛擬庫(kù)，這種虛擬篩選已經(jīng)成為計(jì)算化學(xué)領(lǐng)域的長(zhǎng)期目標(biāo)。
篩選 218 種大腸桿菌活性化合物研究團(tuán)隊(duì)首先篩選了一組化合物，包含大約 39128 種，其中包括已知****物（已知抗生素）、活性天然產(chǎn)物和一系列其他不同結(jié)構(gòu)，并在針對(duì)大腸桿菌的篩選中發(fā)現(xiàn)了 218 種化合物培養(yǎng)物。僅僅有 218 個(gè)陽(yáng)性，這個(gè)結(jié)果是令人驚訝的，但考慮到抗菌****物發(fā)現(xiàn)工作的難度，這個(gè)數(shù)字也算比較難得了。在 218 種活性化合物中，有大約 80% 是已知抗生素類(lèi)別中的成員，剩下的部分則是已知細(xì)胞毒性化合物和一些新的通配類(lèi)型的混合。這為實(shí)驗(yàn)的進(jìn)行提供了一個(gè)很好的背景，因?yàn)樵诖蠖鄶?shù)情況下，我們可以預(yù)測(cè)從反向?qū)雍Y選中獲得什么結(jié)果。將活性化合物與預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)對(duì)接接著，團(tuán)隊(duì)研究了這些活性化合物的潛在結(jié)合靶標(biāo)。多年來(lái)，在大腸桿菌中進(jìn)行的大量基因組敲除掃描的共識(shí)評(píng)分已經(jīng)得出了 296 項(xiàng)基本蛋白質(zhì)，所以，可以合理推斷所有真正抑制生長(zhǎng)的靶標(biāo)蛋白質(zhì)都可能在這些列表當(dāng)中。作者將 218 種活性化合物中與 AlphaFold 2 預(yù)測(cè)出的 296 種基本大腸桿菌蛋白質(zhì)結(jié)構(gòu)進(jìn)行對(duì)接，并通過(guò)幾種不同的計(jì)算方法，對(duì) 218 種化合物與 296 種蛋白質(zhì)的組合進(jìn)行計(jì)算，預(yù)測(cè)了 64000 多個(gè)蛋白質(zhì)-配體對(duì)的結(jié)合位姿與結(jié)合親和力預(yù)測(cè)。

圖注：在 AlphaFold 結(jié)構(gòu)上進(jìn)行分子對(duì)接從計(jì)算量來(lái)看，這是一個(gè)可靠度相當(dāng)高的測(cè)試，尤其是考慮到內(nèi)部控制的數(shù)量（具有已知靶標(biāo)的化合物和在這些靶標(biāo)內(nèi)具有已知結(jié)合構(gòu)象的化合物），這項(xiàng)計(jì)算是很有價(jià)值的。作為對(duì)照，研究團(tuán)隊(duì)還從一組化合物中，隨機(jī)選擇了 100 種對(duì)細(xì)菌生長(zhǎng)完全沒(méi)有抑制作用的化合物進(jìn)行相同的計(jì)算，從而獲得對(duì) 29600 個(gè)蛋白質(zhì)-配體對(duì)的結(jié)合位姿與親和力預(yù)測(cè)。

基于 AlphaFold 2 預(yù)測(cè)結(jié)構(gòu)的模型性能很弱

雖然這項(xiàng)工作預(yù)測(cè)了包括活性和非活性化合物的化合物與蛋白質(zhì)混雜性，但問(wèn)題是，這些預(yù)測(cè)中有多少是假陽(yáng)性？將模型預(yù)測(cè)與已知的抗生素結(jié)合目標(biāo)進(jìn)行比較為了評(píng)估所用模型方法的性能，作者將模型預(yù)測(cè)與常用抗生素類(lèi)別的已知相互作用進(jìn)行比較。作者搜集了先前文獻(xiàn)中的抗生素-蛋白質(zhì)靶對(duì)，組成一個(gè)包含 142 種抗生素-蛋白質(zhì)相互作用的數(shù)據(jù)集。結(jié)果發(fā)現(xiàn)，他們的模型僅僅正確預(yù)測(cè)了 3 種具有強(qiáng)結(jié)合性（即結(jié)合親和力閾值為 -7 kcal/mol ）的相互作用，以及 43 種具有一般結(jié)合性（即結(jié)合親和力閾值為 -5 kcal/mol ）的相互作用。所以，模型預(yù)測(cè)的真陽(yáng)性率分別為 2.1% 和 30.3%。這種比較表明，基于 AlphaFold 2 預(yù)測(cè)結(jié)構(gòu)的建模平臺(tái)性能很弱。測(cè)量 12 種基本蛋白質(zhì)的酶抑制作者接著選取了 12 種基本蛋白質(zhì)，它們可以用于酶促測(cè)定，通過(guò)測(cè)量 218 種活性化合物對(duì)這些蛋白質(zhì)的酶抑制，作者對(duì)模型預(yù)測(cè)的子集進(jìn)行進(jìn)一步的評(píng)估。

圖注：所有 218 種活性化合物的平均相對(duì)活性，12 種蛋白質(zhì)都經(jīng)過(guò)抑制實(shí)驗(yàn)測(cè)試。結(jié)合相互作用命中是蛋白質(zhì)-配體相互作用（紅點(diǎn)），所有其他交互都被指定為非命中（灰點(diǎn)）。結(jié)果表明，所有測(cè)試中的基本蛋白質(zhì)都被至少四種不同的化合物所抑制，涵蓋從強(qiáng)到弱的一系列結(jié)合親和力閾值，基于 AlphaFold 2 的模型所預(yù)測(cè)的對(duì)接顯示出了廣泛的混雜性。模型的基準(zhǔn)測(cè)試最后，作者對(duì)建模平臺(tái)的性能進(jìn)行了統(tǒng)計(jì)基準(zhǔn)測(cè)試?；诿敢种茰y(cè)量數(shù)據(jù)，作者將實(shí)驗(yàn)觀察到的結(jié)合相互作用命中與他們預(yù)測(cè)的相互作用進(jìn)行比較，結(jié)合親和力閾值設(shè)定為小于 -5 kcal/mol 和 -7 kcal/mol。結(jié)果發(fā)現(xiàn)，更強(qiáng)結(jié)合性的親和力閾值會(huì)導(dǎo)致更少的結(jié)合相互作用預(yù)測(cè)，此時(shí)真陽(yáng)性率更低，準(zhǔn)確性更高。模型性能根據(jù)所設(shè)定的結(jié)合親和力閾值從弱到中等變化。作者又在獨(dú)立于結(jié)合親和力閾值的條件下，使用接受者操作特征曲線 (ROC) 和精確召回曲線 (PR) 再次進(jìn)行評(píng)估，也都表明模型性能較弱。總之，模型的預(yù)測(cè)結(jié)果中不僅存在大量假陽(yáng)性（即非活性化合物被預(yù)測(cè)為與關(guān)鍵細(xì)菌蛋白質(zhì)的活性位點(diǎn)結(jié)合），而且還有大量的假陰性（即已知存在相互作用，但沒(méi)有被發(fā)現(xiàn)）。只有達(dá)到最嚴(yán)格的結(jié)合親和力閾值時(shí)，模型才會(huì)比隨機(jī)預(yù)測(cè)表現(xiàn)得略好一些。

AlphaFold 本身沒(méi)錯(cuò)，用好機(jī)器學(xué)習(xí)方法是關(guān)鍵

接下來(lái)的問(wèn)題是，模型的弱性能是由 AlphaFold2 所提供的蛋白質(zhì)結(jié)構(gòu)質(zhì)量導(dǎo)致的嗎？
問(wèn)題出自對(duì)接方法而非蛋白質(zhì)結(jié)構(gòu)質(zhì)量為了驗(yàn)證這個(gè)問(wèn)題，作者將 218 種活性化合物與八種實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)中的每一種對(duì)接進(jìn)行了重復(fù)的對(duì)接模擬，并同樣對(duì)模型性能進(jìn)行了基準(zhǔn)測(cè)試，結(jié)果是 auROC 值在數(shù)量上與先前相似，范圍從 0.25 ( glmU ) 到 0.69 ( gyrAB )，平均值為 0.46。auPRC 值也發(fā)現(xiàn)了類(lèi)似的結(jié)果，范圍從 0.03 ( ligA ) 到 0.56 ( gyrAB )，平均值為 0.22。這些發(fā)現(xiàn)表明，使用 AlphaFold2 預(yù)測(cè)結(jié)構(gòu)的分子對(duì)接與使用實(shí)驗(yàn)確定的結(jié)構(gòu)是類(lèi)似的。這也與之前對(duì) AlphaFold 對(duì)實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)的保真度評(píng)估一致，由此可以得出，模型的性能弱是因?yàn)閷?duì)接方法的原因，而不是蛋白質(zhì)結(jié)構(gòu)的質(zhì)量差。使用機(jī)器學(xué)習(xí)方法可改進(jìn)模型性能基于分子對(duì)接的弱性能問(wèn)題，研究團(tuán)隊(duì)探索了可以提高性能的方法。研究中使用了四種不同的基于機(jī)器學(xué)習(xí)的評(píng)分函數(shù)，分別是 RF-Score 、RF-Score-VS、PLEC score 和 NNScore，以對(duì)模型性能進(jìn)行基準(zhǔn)測(cè)試和改進(jìn)。相比于 RF-Score 和 RF-Score-VS - RF-Score 的虛擬篩選適應(yīng)性--利用隨機(jī)森林或決策樹(shù)的組合來(lái)預(yù)測(cè)蛋白質(zhì)與配體的結(jié)合親和力，PLEC score 采用了蛋白質(zhì)-配體對(duì)之間的擴(kuò)展連接指紋，NNScore 是基于神經(jīng)網(wǎng)絡(luò)的集合。作者在研究中采用了評(píng)分函數(shù)，使用 PDBbind v2016 或有用的誘餌目錄對(duì)增強(qiáng)（DUD-E）數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練，以重新評(píng)估 AutoDock Vina 預(yù)測(cè)的對(duì)接姿勢(shì)。此外，研究使用 DOCK6.9 和應(yīng)用于 AutoDock Vina 姿勢(shì)的每個(gè)基于機(jī)器學(xué)習(xí)的評(píng)分函數(shù)，還預(yù)測(cè)了每種抗菌化合物與 12 種經(jīng)驗(yàn)測(cè)試必需蛋白中每一種之間的結(jié)合親和力，并對(duì)每種方法的性能進(jìn)行基準(zhǔn)測(cè)試。測(cè)試結(jié)果發(fā)現(xiàn)，平均 auROC 值在 0.46 和 0.63 之間（下圖 A）。其中，與 DOCK6.9 對(duì)接并使用 PLEC score 對(duì) AutoDock Vina 姿勢(shì)進(jìn)行重新評(píng)分平均，導(dǎo)致 auROC 值低于單獨(dú)使用 AutoDock Vina 的結(jié)果，DOCK6.9 的 auROC 值為為 0.46（范圍為 0.25 至 0.61）和 0.47（范圍 PLEC score 為 0.28 至 0.63）（下圖 A）相比之下，使用 RF-Score、RF-Score-VS 或 NNScore 對(duì) AutoDock Vina 姿勢(shì)進(jìn)行重新評(píng)分可提高模型性能，平均 auROC 值分別為 0.62（范圍為 0.53 至 0.69）、0.63（范圍為 0.46 至 0.75）和 0.58（范圍為 0.41 到 0.69）。研究結(jié)果也與 auPRC 相似，當(dāng)使用 RF-Score 重新評(píng)分時(shí)，其平均值高達(dá) 0.24。這些模型性能評(píng)估表明，某些基于機(jī)器學(xué)習(xí)的評(píng)分函數(shù)提高了預(yù)測(cè)準(zhǔn)確性。

圖注：使用機(jī)器學(xué)習(xí)對(duì)模型性能進(jìn)行基準(zhǔn)測(cè)試和改進(jìn)。A. 在不同的分子對(duì)接程序和不同的基于機(jī)器學(xué)習(xí)的姿勢(shì)評(píng)分函數(shù)。白點(diǎn)表示平均值；灰色條表第25-75個(gè)百分位值的范圍；灰色箱線圖須線表示不被視為異常值的值范圍；0.5 處的水平線表示隨機(jī)預(yù)測(cè)生成的基準(zhǔn)。B. 通過(guò)在 AutoDock Vina 應(yīng)用基于機(jī)器學(xué)習(xí)的重新評(píng)分函數(shù)建模的蛋白質(zhì)-配體對(duì)的排序結(jié)合親和力。曲線根據(jù) (A) 中使用的重新評(píng)分函數(shù)著色；陰影區(qū)域表示 > 7 的結(jié)合親和力閾值。C-E. 預(yù)測(cè)準(zhǔn)確性、預(yù)測(cè)陽(yáng)性數(shù)（蛋白質(zhì)-配體相互作用）和真陽(yáng)性率/假陽(yáng)性率對(duì)所用模型數(shù)量的依賴(lài)性。群體智慧方法可提高預(yù)測(cè)準(zhǔn)確性由于某些基于機(jī)器學(xué)習(xí)的評(píng)分函數(shù)會(huì)增加 auROC 和 auPRC，研究還探討了在嚴(yán)格限制結(jié)合親和力閾值的情況下，結(jié)合“群體智慧”方法使用重新評(píng)分模型，是否可以提高預(yù)測(cè)準(zhǔn)確性和真陽(yáng)性率。作者將預(yù)測(cè)的蛋白質(zhì)-配體相互作用，定義為滿足所有模型的結(jié)合親和力閾值，并將 AutoDock Vina 預(yù)測(cè)與上述四種基于機(jī)器學(xué)習(xí)的評(píng)分函數(shù)的預(yù)測(cè)相結(jié)合；研究通過(guò)使用這種共識(shí)方法發(fā)現(xiàn)，預(yù)測(cè)準(zhǔn)確性可隨著使用的模型數(shù)量而提高（上圖 C），這同預(yù)測(cè)的蛋白質(zhì)-配體相互作用數(shù)量的相應(yīng)減少預(yù)期一致（上圖 D）。與此同時(shí)，真陽(yáng)性率與假陽(yáng)性率的比率則是隨使用模型數(shù)量的增加而增加，在預(yù)期之外（上圖 E）。可以看到，該結(jié)果同使用某些基于機(jī)器學(xué)習(xí)的評(píng)分函數(shù)提高預(yù)測(cè)能力的發(fā)現(xiàn)一致，這也進(jìn)一步表明了，將分子對(duì)接與基于機(jī)器學(xué)習(xí)的模型結(jié)合起來(lái)，可以讓人們更好地利用 AlphaFold2 預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)進(jìn)行****物篩選。所以，一些機(jī)器學(xué)習(xí)方法確實(shí)可以提高了預(yù)測(cè)的準(zhǔn)確性。不過(guò)，這只是部分的成功，當(dāng)前研究所用的數(shù)據(jù)集中有很多已經(jīng)確定的蛋白質(zhì)和化合物的實(shí)驗(yàn)事實(shí)，如果涉及那些較少被關(guān)注的領(lǐng)域，這些方法是否仍然奏效就不可知了。雖然 AlphaFold 為我們提供了大量且合理的蛋白質(zhì)結(jié)構(gòu)，但我們實(shí)現(xiàn)它的價(jià)值的能力還非常有限。所以至少在目前看來(lái)，“AlphaFold 將徹底改變****物發(fā)現(xiàn)”的說(shuō)法還尚待證實(shí)，成功還在未來(lái)。參考鏈接：https://www.science.org/content/blog-post/not-alphafold-s-fault

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

MIT 最新研究：AlphaFold 蛋白質(zhì)預(yù)測(cè)能力太差，目前利用價(jià)值還很低

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

博客專(zhuān)欄

MIT 最新研究：AlphaFold 蛋白質(zhì)預(yù)測(cè)能力太差，目前利用價(jià)值還很低

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

MIT 最新研究：AlphaFold 蛋白質(zhì)預(yù)測(cè)能力太差，目前利用價(jià)值還很低