通用蛋白質(zhì)設(shè)計(jì)新方法,谷歌研究團(tuán)隊(duì):具有分層功能的從頭蛋白質(zhì)設(shè)計(jì)的條件生成建模
谷歌的研究人員解決了以分層基因本體的功能標(biāo)簽為條件的通用蛋白質(zhì)設(shè)計(jì)問題。由于缺少在該領(lǐng)域評(píng)估生成模型的規(guī)范方法,他們?cè)O(shè)計(jì)了一個(gè)評(píng)估方案,其中包含幾個(gè)生物學(xué)和統(tǒng)計(jì)學(xué)啟發(fā)的指標(biāo)。然后,該團(tuán)隊(duì)開發(fā)了條件生成對(duì)抗網(wǎng)絡(luò) ProteoGAN,并表明它在蛋白質(zhì)序列生成方面優(yōu)于幾個(gè)經(jīng)典和最近的深度學(xué)習(xí)基線。研究人員估計(jì),功能條件模型可以通過組合標(biāo)簽來生成具有新功能的蛋白質(zhì),并為這一研究方向邁出第一步。該研究以「Conditional generative modeling for de novo protein design with hierarchical functions」為題,于 2022 年 7 月 1 日刊載在《Bioinformatics》。設(shè)計(jì)具有目標(biāo)生物功能的新蛋白質(zhì)是生物技術(shù)中的一項(xiàng)常見任務(wù),并且在合成生物學(xué)和****物研究(例如****物發(fā)現(xiàn))中具有廣泛的應(yīng)用。這項(xiàng)任務(wù)具有挑戰(zhàn)性,因?yàn)榈鞍踪|(zhì)的序列-結(jié)構(gòu)-功能關(guān)系極其復(fù)雜,尚未完全了解。因此,蛋白質(zhì)設(shè)計(jì)主要通過試錯(cuò)法完成,例如定向進(jìn)化,它依賴于已知蛋白質(zhì)的一些隨機(jī)突變和選擇壓力來探索相關(guān)蛋白質(zhì)的空間。這個(gè)過程既費(fèi)時(shí)又費(fèi)錢,而且通常只探索一小部分序列空間。同時(shí),表征蛋白質(zhì)及其功能的數(shù)據(jù)很容易獲得,并為機(jī)器學(xué)習(xí)在蛋白質(zhì)序列設(shè)計(jì)中的應(yīng)用提供了有希望的機(jī)會(huì)。最近提出了多種生成模型來設(shè)計(jì)用于不同任務(wù)的蛋白質(zhì),例如開發(fā)新療法、酶、納米抗體序列或?qū)е驴股啬?***性的蛋白質(zhì)。這些模型通常專注于蛋白質(zhì)設(shè)計(jì)的子任務(wù),因此僅限于給定的應(yīng)用,通常甚至僅限于特定的蛋白質(zhì)家族。這需要對(duì)一項(xiàng)新任務(wù)進(jìn)行重新訓(xùn)練,這限制了模型可以從中學(xué)習(xí)的序列的多樣性和數(shù)量。在其他領(lǐng)域,例如密切相關(guān)的自然語言生成,人們可以觀察到通用模型的趨勢(shì),然后在各種上下文中使用這些模型。谷歌團(tuán)隊(duì)的研究人員假設(shè),同樣在蛋白質(zhì)設(shè)計(jì)中,一刀切的模型可以學(xué)習(xí)不同蛋白質(zhì)類別的共同基本原理,從而提高生成序列的質(zhì)量。更進(jìn)一步,它甚至可以通過結(jié)合它在不同蛋白質(zhì)家族中學(xué)到的功能的不同方面來創(chuàng)造不僅新的序列,而且還可以創(chuàng)造新的功能。因此,該團(tuán)隊(duì)開發(fā)了 ProteoGAN,這是一種用于條件蛋白質(zhì)設(shè)計(jì)的通用生成模型,基于分子功能基因本體論(the Molecular Function Gene Ontology,GO),一種描述蛋白質(zhì)功能方面的標(biāo)簽層次結(jié)構(gòu)。這些功能從結(jié)合特異性試劑到轉(zhuǎn)運(yùn)蛋白或傳感器活性、生化反應(yīng)催化等等不一而足。此外,分層組織中編碼的信息可能有助于對(duì)性能進(jìn)行建模。他們的模型基于流行的生成對(duì)抗網(wǎng)絡(luò)(GAN)框架。研究人員通過提出一種條件機(jī)制來擴(kuò)展框架,將蛋白質(zhì)功能的多標(biāo)簽層次信息納入生成過程。然而,開發(fā)這樣的生成模型可能具有挑戰(zhàn)性,尤其是因?yàn)槿狈︶槍?duì)問題的評(píng)估。評(píng)估指標(biāo)需要評(píng)估生成的樣本是否有效(即現(xiàn)實(shí)性和功能性),這本身就是一個(gè)難題,還需要快速計(jì)算大量樣本。生成模型的評(píng)估仍在進(jìn)行中,特別是在蛋白質(zhì)設(shè)計(jì)領(lǐng)域。雖然生成序列的金標(biāo)準(zhǔn)驗(yàn)證意味著在實(shí)驗(yàn)室中合成蛋白質(zhì),但缺乏計(jì)算機(jī)評(píng)估使得難以有效地比較蛋白質(zhì)序列設(shè)計(jì)的方法。因此,該團(tuán)隊(duì)基于最大平均差異 (MMD) 統(tǒng)計(jì)量為生成蛋白質(zhì)設(shè)計(jì)構(gòu)建了一系列評(píng)估指標(biāo),以測(cè)量生成序列與真實(shí)蛋白質(zhì)的分布相似性和條件一致性。同時(shí),進(jìn)一步提出了解釋序列多樣性的措施。蛋白質(zhì)設(shè)計(jì)的相關(guān)生成模型引導(dǎo)和條件蛋白質(zhì)生成模型機(jī)器學(xué)習(xí)模型和最近的深度生成模型已被用于設(shè)計(jì)計(jì)算機(jī)生物序列,例如 RNA、DNA 或蛋白質(zhì)序列,通常旨在創(chuàng)建具有所需特性的序列。實(shí)現(xiàn)這一目標(biāo)有兩種主要策略,一種是有指導(dǎo)的,另一種是有條件的。引導(dǎo)式方法使用預(yù)測(cè)器(也稱為預(yù)言機(jī))通過迭代的訓(xùn)練-生成-預(yù)測(cè)步驟來引導(dǎo)設(shè)計(jì)朝著目標(biāo)屬性發(fā)展。然而,在具有多個(gè)功能標(biāo)簽的情況下,缺乏用于蛋白質(zhì)功能的高度準(zhǔn)確和快速的多標(biāo)簽預(yù)測(cè)器會(huì)損害功能性蛋白質(zhì)生成中的引導(dǎo)生成技術(shù)。另一方面,條件方法將功能信息集成到生成機(jī)制本身中,從而無需預(yù)測(cè)器。例如,2020 年 Madani 團(tuán)隊(duì)開發(fā)了 ProGen,這是一種條件轉(zhuǎn)換器,可以控制生成大量功能性蛋白質(zhì),但對(duì)序列上下文的需求可能會(huì)受到實(shí)驗(yàn)限制,并且與從頭設(shè)計(jì)不兼容。2019 年 Ingraham 團(tuán)隊(duì)提出了一種基于圖的條件生成模型,該模型依賴于結(jié)構(gòu)信息,而這種信息很少可用。2018 年 Das 團(tuán)隊(duì)和 Greener 團(tuán)隊(duì)訓(xùn)練條件變分自動(dòng)編碼器(CVAE)以生成特定蛋白質(zhì),例如金屬蛋白。2020 年 Karimi 團(tuán)隊(duì)使用引導(dǎo)條件 Wasserstein-GAN 生成具有新折疊的蛋白質(zhì)。所有這些模型要么只關(guān)注蛋白質(zhì)設(shè)計(jì)的子任務(wù),要么依賴于上下文信息,例如 3D 結(jié)構(gòu)或模板序列片段。而谷歌團(tuán)隊(duì)所提出的 ProteoGAN,是一種用于蛋白質(zhì)設(shè)計(jì)的通用模型,該模型只需要指定生成所需的功能特性。生成模型的評(píng)估迄今為止,對(duì)于評(píng)估(條件)生成模型輸出的質(zhì)量、多樣性和條件一致性的最佳評(píng)估措施,還沒有明確的共識(shí)。大多數(shù)在計(jì)算機(jī)視覺中脫穎而出的指標(biāo),例如初始分?jǐn)?shù)、Frechet 初始距離(FID)或 GAN 訓(xùn)練和 GAN 測(cè)試,都依賴于外部的、特定于領(lǐng)域的預(yù)測(cè)器。對(duì)于功能性蛋白質(zhì)設(shè)計(jì),這樣的預(yù)測(cè)器在評(píng)估和訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)既不夠好也不夠快,無法完全依賴它們的預(yù)測(cè)。功能注釋的關(guān)鍵評(píng)估 (CAFA) 挑戰(zhàn)報(bào)告了當(dāng)前最佳模型(NetGO),其 Fmax 得分為 0.63,其預(yù)測(cè)速度約為每小時(shí) 1000 個(gè)序列。相反,域無關(guān)對(duì)偶間隙可以在訓(xùn)練和測(cè)試時(shí)計(jì)算,并且已被證明與 FID 有很好的相關(guān)性。在自然語言建模中,困惑度是一種常見的評(píng)估指標(biāo),與模型下測(cè)試集的概率有關(guān)。然而,這需要訪問在某些模型中不可用的可能性,例如 GAN,并且并不總是樣本質(zhì)量的良好指標(biāo)。另一種方法測(cè)量可以從不完整的序列中恢復(fù)多少野生型殘基,然而,這與從頭蛋白質(zhì)設(shè)計(jì)的想法背道而馳。盡管研究界對(duì)蛋白質(zhì)生成模型的興趣日益濃厚,但還沒有明確的指標(biāo)可以作為比較它們的可靠工具。討論指標(biāo)的元評(píng)估:Spectrum MMD 是蛋白質(zhì)設(shè)計(jì)的有效指標(biāo)不同的嵌入捕獲原始數(shù)據(jù)的不同方面。該團(tuán)隊(duì)感興趣的是相對(duì)簡(jiǎn)單的 Spectrum 內(nèi)核嵌入是否足以評(píng)估分布相似性和條件一致性,因此將其與三個(gè)生物學(xué)基礎(chǔ)的嵌入進(jìn)行了比較:ProFET,主要與單個(gè)氨基酸或序列基序的生物物理特性相關(guān)的序列特征的手工選擇,UniRep,基于 LSTM 的學(xué)習(xí)嵌入和 ESM,基于 Transformer 的學(xué)習(xí)嵌入。后兩者被證明可以恢復(fù)蛋白質(zhì)的各個(gè)方面,包括結(jié)構(gòu)和功能特性以及進(jìn)化背景。在這個(gè)比較中,ESM 嵌入可以說是最強(qiáng)大的,并且有望獲得最好的分?jǐn)?shù)。值得注意的是,Spectrum 內(nèi)核嵌入也非常適合評(píng)估蛋白質(zhì)的結(jié)構(gòu)和功能方面,同時(shí)計(jì)算速度快幾個(gè)數(shù)量級(jí),并且需要更少的計(jì)算資源。這使得它更適合神經(jīng)網(wǎng)絡(luò)和其他模型的評(píng)估或超參數(shù)優(yōu)化過程中對(duì)性能的要求。選擇 Spectrum 內(nèi)核嵌入的另一個(gè)原因是它的簡(jiǎn)單性,因?yàn)樗粚?duì)數(shù)據(jù)分布做任何假設(shè):學(xué)習(xí)到的嵌入 UniRep 和 ESM 是在大量自然序列上訓(xùn)練的復(fù)雜非線性映射,雖然它們?cè)谧匀环植紨?shù)據(jù)上表現(xiàn)出色,但它們?cè)谏尚蛄猩系男袨槿匀徊豢深A(yù)測(cè)。超參數(shù)分析:ProteoGAN 的條件判別器對(duì)其性能最為關(guān)鍵研究人員測(cè)試了 cGAN 的各種超參數(shù)和架構(gòu)選擇,并在 fANOVA 框架(functional ANOVA framework)中對(duì)蛋白質(zhì)設(shè)計(jì)性能指標(biāo) MMD 和 MRR 進(jìn)行了分析。為了為這些模型的后續(xù)工作提供信息,研究人員可以根據(jù)經(jīng)驗(yàn)得出一些專門用于蛋白質(zhì)設(shè)計(jì)的 GAN 設(shè)計(jì)原則。首先,較小的架構(gòu)比具有四個(gè)以上隱藏層的網(wǎng)絡(luò)表現(xiàn)得更好。這個(gè)大小似乎足以對(duì)蛋白質(zhì)進(jìn)行建模,盡管優(yōu)化當(dāng)然會(huì)對(duì)快速收斂(?。┠P彤a(chǎn)生選擇壓力。判別器達(dá)到最優(yōu)解,比通過較大的學(xué)習(xí)率經(jīng)常找到的局部最優(yōu),更重要。研究人員觀察到分布相似性和條件一致性之間的權(quán)衡。這表現(xiàn)在增加 MRR 和降低 MMD 性能時(shí),當(dāng)權(quán)衡更強(qiáng)的 AC 的訓(xùn)練損失項(xiàng)時(shí),以及在不同的調(diào)節(jié)機(jī)制之間切換時(shí)。僅使用序列作為輸入,而不是將生物物理特征向量附加到序列嵌入中,可以獲得最佳性能。氨基酸同一性,而不是其特性,似乎對(duì)序列建模更為關(guān)鍵。研究人員發(fā)現(xiàn),在比較捕獲標(biāo)簽之間的層次關(guān)系的不同標(biāo)簽嵌入時(shí),標(biāo)簽的簡(jiǎn)單 one-hot 編碼顯示出最佳結(jié)果。對(duì)于模型,離散的 one-hot 標(biāo)簽嵌入似乎比連續(xù)的 node2vec 嵌入或雙曲 Poincaré 嵌入更容易解釋。雖然這些嵌入包含更多信息,但 one-hot 編碼以更易于訪問的形式呈現(xiàn)它們。此外,對(duì)于神經(jīng)網(wǎng)絡(luò)需要首先學(xué)習(xí)的許多基本概念,雙曲空間需要特殊的算子。GAN 框架的其他流行擴(kuò)展,例如輸入噪聲、標(biāo)簽平滑或訓(xùn)練比率在上下文中沒有顯著影響模型性能??偠灾粋€(gè)具有調(diào)節(jié)機(jī)制且沒有進(jìn)一步序列或標(biāo)簽增強(qiáng)的小型模型效果最好。對(duì)架構(gòu)的進(jìn)一步改進(jìn)應(yīng)該集中在改進(jìn)鑒別器上,因?yàn)橛绊懰某瑓?shù)顯示出最大的影響。他們的最終模型 ProteoGAN 是優(yōu)化性能最好的模型,具有多個(gè)投影、一個(gè) AC、沒有生物物理特征和標(biāo)簽信息的單熱編碼。基線比較:ProteoGAN 優(yōu)于其他方法根據(jù)提出的分布相似性、條件一致性和多樣性指標(biāo),研究人員評(píng)估 ProteoGAN 的性能,并將其與幾個(gè)基線進(jìn)行比較。通過對(duì)生物嵌入 ProFET、UniRep 和 ESM 以及嵌入的特征 KS 統(tǒng)計(jì)量的評(píng)估來鞏固結(jié)果。圖示:基于 Spectrum 內(nèi)核嵌入,使用 MMD、MRR 和多樣性指標(biāo)評(píng)估 ProteoGAN 和各種基線。(來源:論文)結(jié)果表明,ProteoGAN 在所有指標(biāo)和嵌入上都明顯優(yōu)于 HMM、n-gram 模型和 CVAE。這同樣適用于 OpL 版本,每個(gè)標(biāo)簽訓(xùn)練一次。ProteoGAN 的性能也優(yōu)于最先進(jìn)的 ProGen 模型。MMD 值相似,ProGen 可能會(huì)比 ProteoGAN 更好地?cái)U(kuò)展;然而,MRR 顯示了 ProteoGAN 在條件生成方面的明顯優(yōu)勢(shì)。適用性:ProteoGAN可以支持更大序列空間的蛋白質(zhì)篩選沒有濕實(shí)驗(yàn)室驗(yàn)證,很難證明生物學(xué)有效性,后續(xù)可能會(huì)進(jìn)行驗(yàn)證。研究人員承認(rèn),MMD 值仍然與陽性對(duì)照有顯著差異,并且相應(yīng)的 P 值在這方面尚無定論。因此,生成的序列很可能不是開箱即用的,而是需要一些實(shí)驗(yàn)性調(diào)整,如定向進(jìn)化。目前,ProteoGAN 的主要應(yīng)用:用比以前可能的距離已知序列空間更遠(yuǎn)的候選者進(jìn)行蛋白質(zhì)篩選的擴(kuò)展,但比其他方法的相對(duì)新穎的候選者更可能具有功能。展望:調(diào)理可能使新蛋白質(zhì)功能的設(shè)計(jì)成為可能作為一個(gè)有趣的前景,該團(tuán)隊(duì)提供了關(guān)于 OOD 生成的初步評(píng)估。以多個(gè)標(biāo)簽為條件的模型通常旨在模擬給定標(biāo)簽的蛋白質(zhì)的聯(lián)合分布,即執(zhí)行所有指定功能的蛋白質(zhì)。因此,研究人員假設(shè)條件機(jī)制可用于將以前不相關(guān)的功能標(biāo)記組合成一種蛋白質(zhì),這將能夠設(shè)計(jì)出具有以前看不見的功能的全新類型的蛋白質(zhì)。研究人員強(qiáng)調(diào)這個(gè)目標(biāo)沒有明確地建立在條件機(jī)制中,因此它不適合優(yōu)化沖突屬性。但是,正交屬性的組合可能是允許的。雖然同樣在這里,生物實(shí)施是不可避免的來證明這一概念,但研究人員可以報(bào)告 ProteoGAN 和 CVAE 在五個(gè)保留標(biāo)簽組合上顯示出有希望的 Top-X 精度。這一概念的進(jìn)一步發(fā)展將為生物技術(shù)提供新的工具。
圖示:具有 OOD 功能的模型的頻譜嵌入 top10 準(zhǔn)確度。(來源:論文)
代碼和數(shù)據(jù):https://github.com/timkucera/proteogan論文鏈接:https://academic.oup.com/bioinformatics/article/38/13/3454/6593486?login=true
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。