博客專欄

EEPW首頁(yè) > 博客 > 語(yǔ)言模型生成了自然界不存在的蛋白質(zhì),圖靈獎(jiǎng)得主LeCun:蛋白質(zhì)編程來(lái)了

語(yǔ)言模型生成了自然界不存在的蛋白質(zhì),圖靈獎(jiǎng)得主LeCun:蛋白質(zhì)編程來(lái)了

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-01-19 來(lái)源:工程師 發(fā)布文章
Meta:設(shè)計(jì)蛋白質(zhì)這件事,語(yǔ)言模型就能干。


用機(jī)器學(xué)習(xí)去研究蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),吸引了眾多科技大廠、科研機(jī)構(gòu)的目光紛紛投入其中,這期間,他們也產(chǎn)出了重要成果。如在 2021 年 《Science》的十大年度突破中,DeepMind 攜預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的 AI 模型 AlphaFold 上榜,在這項(xiàng)工作的基礎(chǔ)上,研究人員現(xiàn)在已經(jīng)使用人工智能來(lái)設(shè)計(jì)可用于疫苗、建筑材料或納米機(jī)器的全新蛋白質(zhì)。


在《Science》2022年 9 月發(fā)表的一篇論文中,華盛頓大學(xué)醫(yī)學(xué)院生物化學(xué)教授 David Baker 等研究者提出,AI 可以通過(guò)兩種思路從頭設(shè)計(jì)蛋白質(zhì)。當(dāng)然,對(duì)這一領(lǐng)域的熱情,自然也少不了 Meta 的加入,在2022年 11 月,Meta 拿下微生物領(lǐng)域蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),開(kāi)放 6 億 + 宏基因組蛋白質(zhì)結(jié)構(gòu)圖譜,這是首個(gè)蛋白質(zhì)宇宙「暗物質(zhì)」的綜合視圖。


近期,在 FAIR 公布的最新兩篇論文中,該研究發(fā)現(xiàn) ESM2 語(yǔ)言模型通過(guò)學(xué)習(xí)深層語(yǔ)法,就能生成天然蛋白質(zhì)以外的新蛋白質(zhì),并可以編程生成復(fù)雜和模塊化的蛋白質(zhì)結(jié)構(gòu)。其中 ESM2 模型參數(shù)為 150 億,是迄今為止最大的蛋白質(zhì)語(yǔ)言模型。


圖片
Yann LeCun 在推特上表示:FAIR 開(kāi)發(fā)的新蛋白質(zhì)設(shè)計(jì)系統(tǒng),可以產(chǎn)生與自然界中觀察到的蛋白質(zhì)完全不同的蛋白質(zhì);在這個(gè)蛋白質(zhì)設(shè)計(jì)系統(tǒng)之上,蛋白質(zhì)可以通過(guò)一種編程語(yǔ)言來(lái)指定。
圖片
在論文《Language models generalize beyond natural proteins》中,ESM2 通過(guò)學(xué)習(xí)深層語(yǔ)法,成功設(shè)計(jì)了 152 種蛋白質(zhì)。
圖片


論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf
在論文《A high-level programming language for generative protein design》中,該研究實(shí)現(xiàn)了一種用于生成蛋白設(shè)計(jì)的高級(jí)編程語(yǔ)言。這使得編程生成具有復(fù)雜和模塊化結(jié)構(gòu)的大蛋白質(zhì)和復(fù)合物成為可能。
圖片
論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf
ESM2 設(shè)計(jì)蛋白質(zhì)
在論文《Language models generalize beyond natural proteins》中,研究者專注于兩個(gè)蛋白質(zhì)設(shè)計(jì)任務(wù):

  • 指定結(jié)構(gòu)的固定骨架設(shè)計(jì);

  • 從模型中采樣結(jié)構(gòu)的無(wú)約束生成。


盡管語(yǔ)言模型僅針對(duì)序列進(jìn)行訓(xùn)練,但該研究發(fā)現(xiàn)它們能夠設(shè)計(jì)結(jié)構(gòu)。在該研究的實(shí)驗(yàn)結(jié)果中,一共生成了 228 種蛋白質(zhì),設(shè)計(jì)成功的比率是 152/228(67%)。在 152 個(gè)實(shí)驗(yàn)成功的設(shè)計(jì)中,有 35 個(gè)與已知的天然蛋白質(zhì)沒(méi)有明顯的序列匹配。對(duì)于固定主干設(shè)計(jì),語(yǔ)言模型成功為 8 個(gè)經(jīng)過(guò)實(shí)驗(yàn)評(píng)估的人工創(chuàng)建的固定主干目標(biāo)生成了蛋白質(zhì)設(shè)計(jì)。對(duì)于不受約束生成的情況,采樣的蛋白質(zhì)涵蓋了不同的拓?fù)浣Y(jié)構(gòu)和二級(jí)結(jié)構(gòu)組成,結(jié)果具有很高的實(shí)驗(yàn)成功率 71/129(55%)。


,時(shí)長(zhǎng)00:13


該研究用語(yǔ)言模型設(shè)計(jì)的蛋白質(zhì)反映了連接序列和結(jié)構(gòu)的深層模式,包括已在自然結(jié)構(gòu)中出現(xiàn)的基序,和在已知蛋白質(zhì)的結(jié)構(gòu)環(huán)境中未觀察到的基序。實(shí)驗(yàn)結(jié)果表明,語(yǔ)言模型雖然只接受序列訓(xùn)練,但通過(guò)學(xué)習(xí)深層語(yǔ)法就可以設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu),并且設(shè)計(jì)出自然界中未出現(xiàn)過(guò)的蛋白質(zhì)。下圖 1 是 ESM2 模型設(shè)計(jì)蛋白質(zhì)的總體流程:
圖片
該研究通過(guò)分析比較,歸納出語(yǔ)言模型在蛋白質(zhì)設(shè)計(jì)過(guò)程中的作用,如下圖 2 所示:
圖片
實(shí)驗(yàn)結(jié)果表明,ESM2 模型能夠生成自然界已有的蛋白質(zhì)結(jié)構(gòu)和全新的蛋白質(zhì)結(jié)構(gòu):
圖片
一種用于生成蛋白質(zhì)設(shè)計(jì)的高級(jí)編程語(yǔ)言
對(duì)于蛋白質(zhì)來(lái)說(shuō),我們不能將其分解為易重組部分,因?yàn)榈鞍踪|(zhì)序列的局部結(jié)構(gòu)糾纏在其全局背景中,傳統(tǒng)的設(shè)計(jì)方法試圖確定一組基本的結(jié)構(gòu)構(gòu)件,然后在組裝成更高階的結(jié)構(gòu)。然而,現(xiàn)有方法還不能達(dá)到真正可編程性所必需的高度組合復(fù)雜性。該研究從模塊化和可編程性入手,將兩者置于更高的抽象層次,蛋白質(zhì)設(shè)計(jì)者只需要重新組合高級(jí)指令,然后在生成模型上執(zhí)行指令即可。他們提出的生成蛋白質(zhì)設(shè)計(jì)的編程語(yǔ)言,允許設(shè)計(jì)人員指定直觀、模塊化和分層的程序。該編程語(yǔ)言首先需要一個(gè)語(yǔ)法樹(shù) (圖 1A),由末端符號(hào) (即樹(shù)的葉子) 和非末端符號(hào) (即樹(shù)的內(nèi)部節(jié)點(diǎn)) 組成,前者對(duì)應(yīng)一個(gè)獨(dú)特的蛋白質(zhì)序列 (在蛋白質(zhì)中可能重復(fù)),后者支持分層組織。此外還需要一個(gè)基于能量的生成模型。首先,蛋白質(zhì)設(shè)計(jì)器指定一個(gè)高級(jí)程序,該程序由一組按層次組織的約束組成(圖 1A)。然后,該程序編譯為一個(gè)能量函數(shù),用于評(píng)估與約束的兼容性,約束是任意的且不可微的(圖 1B)。最后通過(guò)將原子級(jí)結(jié)構(gòu)預(yù)測(cè)(由語(yǔ)言模型支持)合并到能量函數(shù)中,可以生成大量復(fù)雜的蛋白質(zhì)設(shè)計(jì)(圖 1C)。
圖片
下圖為模型生成的高置信度結(jié)構(gòu)(圖 2A 和 2B)。
圖片圖 2
下圖為生成模型產(chǎn)生了一組不同的高置信度結(jié)構(gòu)(圖 3B、S2A 和 S2B),包括自然界中蛋白質(zhì)的各種折疊(卷曲螺旋、β 螺旋槳狀、β 桶狀和 TIM 桶狀)以五角星形狀蛋白質(zhì)(圖 3B 中的第 1 行和第 3 列)和立方體狀蛋白質(zhì) (圖 3B 中的第 2 行和第 2 列)。
圖片圖 3


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉