專訪司同丨自動化合成生物技術加速科學研究,「暴力」破解+AI學習,為基礎理論的突破積累數(shù)據(jù)
這樣的夢想可能會成真,因為實驗室研究自動化正在成為一種趨勢,就像工廠的自動流水線一樣,機器會按照標準化的工作流程完成實驗操作。
中國科學院深圳先進技術研究院合成生物學研究所(以下簡稱 “合成所”)的司同研究員便是早期參與自動化合成生物技術構建的人員之一,現(xiàn)在他還是深圳合成生物研究重大科技基礎設施(在建,以下簡稱”合成生物大設施")的總工藝師。
2009 年從清華大學畢業(yè)后,司同赴美國伊利諾伊大學香檳分校(University of Illinois at Urbana-Champaign,縮寫 UIUC)趙惠民教授課題組攻讀博士學位,專業(yè)是合成生物學,2014 年博士畢業(yè)后繼續(xù)在該校開展博士后研究。
“博士畢業(yè)之后,我決定留在 UIUC,原因有兩個,一是自動化系統(tǒng)剛剛搭建好,二是博士期間已經完成了大規(guī)模構建合成生命,但是通用性的測試方法還是很欠缺,所以希望將研究繼續(xù)推進下去?!?司同告訴生輝 SynBio。
2019 年 4 月,司同正式加入合成所,課題組方向為自動化合成生物技術,包括機器學習指導蛋白工程、基因組定向進化等,用于開發(fā)微生物細胞工廠研究和生產燃料、****物、材料等。讓機器做簡單、重復、大規(guī)模的實驗
司同介紹,目前認為生命在演化過程中,突變是沒有方向性的,之所以在不同的環(huán)境中呈現(xiàn)出不同的表型,是因為一個群體中更為適應環(huán)境的基因突變會在長期演化中富集,這就是自然界的演化方式。
在實驗室中也可以模擬這一過程,即定向進化,該方法發(fā)明人 Frances Arnold 教授獲得 2018 年諾貝爾化學獎。具體而言,首先需要設定一個目標,例如生物合成某一化合物、靶向殺傷癌細胞等,之后再建立大規(guī)模的突變體,針對基因組中的不同基因,或蛋白質中的不同氨基酸進行突變,接著,利用高通量篩選方法識別更為接近目標的突變體,作為新一輪定向進化的起點。
“通過這一過程的反復迭代,可以快速獲得與目標要求相符合的突變體,進一步,也可以通過逆向工程解析其形成原理,來指導理性設計,其實更多采取的是一種‘暴力’破解的方法,” 司同表示,“但從蛋白到通路再到基因組水平,突變體庫的規(guī)模會變得十分巨大,大大超出了人工操作的范圍。‘暴力’破解的上限有多高?比較不同突變體的通量和準確性又如何?這些都是人工操作時不可控制的因素。”
“為了滿足這些需求,機器人可能更適合做這些簡單、重復、需要大規(guī)模操作的工作。合成生物學一個重要的部分是標準化,但在當時學術界更多的關注點還是在功能層面的‘對象’標準化,對于物理層面的‘過程’標準化研究并不多?!?趙惠民教授課題組在 UIUC 化學工程系,從化工的角度看,合成生物研究的過程標準化勢在必行。
于是從需求出發(fā),團隊決定建立一個全新的系統(tǒng),解決規(guī)?;僮鲉栴}?!白詣踊铣缮锛夹g的設計思路與汽車和手機的自動化生產線類似,但不同的是后兩者是肉眼可見的組裝過程,對于一個生物來說,很多生命過程例如 DNA 的組裝都是不可見的,所以需要開發(fā)新的、更適合自動化過程的合成生物技術?!?這是司同的主要關注點。課題組另一位研究生晁然(現(xiàn)為衍進科技創(chuàng)始人),他更關注系統(tǒng)集成,開發(fā)自動化軟件和硬件,使其適用于合成生物實驗。
2014年,合成生物自動化設施的第一臺概念機在 UIUC 誕生,這臺概念機的模式目前已經成功復制到了全球多個實驗室。
而深圳的合成生物大設施規(guī)模將是概念機的 30 倍以上,旨在打造用戶的 “云端實驗室” 和運營者的 “智能實驗室” 二位一體的工業(yè)化合成生物研究平臺,將自動化、信息化與生物技術相融合,實現(xiàn)高通量、標準化合成生物研發(fā)能力,服務學術研究與工業(yè)應用。
自動化技術 + AI 技術讓 “遙遙無期” 變成 “有生之年”
細胞中各類生命大分子的復雜程度并不亞于廣袤的宇宙,傳統(tǒng)的生物技術過程像是一場漫長的無止境的核動力太空探索,旅行者 1 號已經在太空中飛行了 40 多年,而自動化技術與 AI 技術的加成,則像是開發(fā)了曲率引擎,須臾之間便可完成星際旅行。
司同告訴生輝 SynBio,“對于單點突變而言,如果一個蛋白質含有 300 個位點,每個位點有 19 種突變可能,那么一共需要構建約 6000 個突變體,如果測試一個突變體的時間是半個小時,那么就需要小半年的時間完成。而自動化的設施可以提高‘暴力’破解的效率,如果將構建和測試時間縮短到 5 秒,那么兩三天就可以完成測試。然而,如果涉及到蛋白質的多點組合突變,就會造成‘維數(shù)災難’”。
生命體的復雜性程度遠遠高于一個蛋白質,生命大分子不同排列組合之后的突變體數(shù)量是以指數(shù)型增長的,就算有自動化技術的加成,機器 24 小時不眠不休,完成時間也是以年為單位,“所以當數(shù)量達到一個程度之后,就無法通過‘暴力’破解窮盡所有可能了,于是我們引入了 AI 技術,通過深度學習的方法尋找規(guī)律,可以預測實驗結果,優(yōu)化實驗設計,無需檢測每一個突變體。”
與近期熱門的 AlphaFold2 類似,人們無需在現(xiàn)實世界中合成蛋白質,人工智能便可預測出十分接近真實蛋白質的結構,當然前提是需要學習大量的數(shù)據(jù)。
“以前需要 10 年或 20 年完成的事情,可能一個月就可以完成。而且研究范式是固定的,可以應用到個性化的需求當中,從而降低了合成生物學進入的門檻?!?下游領域或者行業(yè)的人無需完全掌握合成生物學的知識,只要按照標準流程進行操作,即可獲得符合需求的菌株。為基礎理論的突破積累數(shù)據(jù)
司同表示,深圳的大設施無論從資金投入和規(guī)模上都是獨一檔,一般來說,并不是所有的設施都需要集成,也不是所有的設施都要自動化,而公司的設施設計也都會從具體的需求入手,配備不同的功能。
“深圳大設施要滿足的是合成生物學不同方向和層面的需求,而不是只關注在細胞工廠層面,而設施本身也會隨著學科發(fā)展而不斷升級,將來的目標是任何的生物體系的合成生物學設計和改造,無論是動物或者植物,都可以在大設施里完成。” 司同告訴生輝 SynBio。
以化工行業(yè)發(fā)展的經驗來看,無論是研究或產業(yè)化,從過程上進行分析,所有的過程都可以拆分成有限個單元操作,生物系統(tǒng)也是如此,理論上也可以做到標準化和模塊化,這也正是司同團隊在做的事情。
“當然,以上只是實踐層次上的目標,更深層次上的需求是解決合成生物學如何從‘黑箱’走向‘白箱’的問題,也就是定量合成生物學。” 司同表示。
中國科學院院士趙國屏和中國科學院深圳先進技術研究院副院長、深圳合成生物學創(chuàng)新研究院院長劉陳立在近日發(fā)文(點擊直達:我國迎來定量合成生物學發(fā)展重要契機)總結,提出要建設理論 (理性設計)、技術 (合成能力)、工程 (自動化平臺) 三者相輔相成的合成生物學體系,進而以此推動合成生物學研究由定性、描述性、局部性的研究,向定量、理論化和整體化的變革。
司同解釋道,“‘暴力’破解加 AI 技術也有解決不了的情況,這時候就需要生物學的理論化和數(shù)學化的基礎理論突破,需要建立在大數(shù)據(jù)的基礎上,更好地處理數(shù)據(jù)、總結規(guī)律。大設施提供的是統(tǒng)計學的數(shù)據(jù),而設施整體框架的建立以及靠直覺或者頓悟的思想提出則需要科學家的努力。”
據(jù)悉,深圳大設施建成之后,會對全球的科研人員開放,司同表示,大設施的建立能夠降低合成生物學研究的門檻,就可以讓更多的人以及技術參與到其中,共同推進合成生物學的發(fā)展。寫在最后
司同被邀請為合成生物學競賽(以下簡稱 “競賽”)的評委,競賽匯聚頂級聯(lián)合發(fā)起方,旨在推倒產業(yè)與學術之間的 “高墻”,集結代表現(xiàn)在和未來的才智,打造中國合成生物頂級競賽和創(chuàng)新孵化平臺。
司同認為,與不同學科、行業(yè)的人交流,有助于解決合成生物學的一些問題,“問題是釘子,而每個人手上都有不同的錘子,就會出現(xiàn)很多解決問題的辦法。此外競賽的平臺匯聚了產學研資政的多方資源,也是一個非常好的契機,把不同的要素集聚在一起,產生更多的碰撞?!?/span>
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。