Nature子刊 | 譚濟民、夏波等提出基因組構象預測模型及高通量計算遺傳篩選方法

發(fā)布人：機器之心時間：2023-01-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文首先提出了新型多模態(tài)機器學習模型 C.Origami 來預測特定細胞類型的染色質構象，并基于遺傳篩選的原理提出了全新的高通量計算遺傳篩選 (in silico genetic screening, ISGS) 方法。

圖 0
不同種類細胞中基因組構象的差異決定了基因表達的特異性，進而決定不同細胞類型的功能差異。長久以來，從原位雜交到高通量檢測如 Hi-C、micro-C 技術，基因組構象檢測的實驗方法通常耗時耗力、成本高昂且有很強的技術局限性。這些方法極大地限制了這些實驗技術在基因組構象研究領域的廣泛應用，尤其是研究稀有細胞類型以及需要大規(guī)模驗證基因組構象調控的因果關系等方面。這些方法的局限性也長期限制三維基因組構象調控領域里的新發(fā)現(xiàn)。

圖 1
2023 年 1 月 9 日，紐約大學醫(yī)學院（NYU Grossman School of Medicine）Aristotelis Tsirigos 實驗室和博德研究所（Broad Institute of MIT and Harvard）夏波實驗室合作在 Nature Biotechnology 上發(fā)表文章《Cell type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening》。

論文地址：https://www.nature.com/articles/s41587-022-01612-8
這項研究中，第一作者紐約大學醫(yī)學院博士生譚濟民與夏波博士首先提出了新型多模態(tài)機器學習模型 C.Origami 來預測特定細胞類型的染色質構象，并基于遺傳篩選的原理提出了全新的高通量計算遺傳篩選 (in silico genetic screening, ISGS) 方法，用以鑒定細胞類型特異性的功能基因組元件，助力發(fā)現(xiàn)新的染色質構象調控機理。

圖 2
研究者首先構建了應用于基因組數(shù)據(jù)的新型多模態(tài)深度學習框架，Origami，使其能有效地整合 DNA 序列信息以及細胞特異性的功能基因組信息，進而預測新的基因組信息。通過反復調試及模型訓練，研究者發(fā)現(xiàn)整合 DNA 序列、CTCF 結合狀態(tài)（CTCF ChIP-seq）、及 ATAC-seq 信號作為輸入信息可以準確地預測染色質構象，并以二維的 Hi-C 矩陣作為預測輸出目標（圖 1-2）。輸入信息為 2 百萬堿基對的 DNA，CTCF ChIP-seq 和 ATAC-seq。研究者們使用 Onehot-encoding 來編碼離散的 DNA 序列，而 CTCF ChIP-seq 和 ATAC-seq 則編碼成非離散的特征。

C.Origami 模型分為三個部分，處理并壓縮 DNA 及基因組信息的編碼器，Transformer 中間層和輸出 Hi-C ****。其中編碼器由一系列 1D ResNet 和 strided convolution 構成用來編碼和壓縮 2 百萬堿基對的輸入信息。在編碼器末端 2 百萬長度的信息被壓縮為 256 長度并作為 Transformer 的輸入信息。Transformer 的自注意力機制可以處理不同基因組區(qū)域間的 interdependency 并提升了模型的綜合性能。Transformer 中的注意力矩陣還可以增強模型的可解釋性。研究者們將注意力權重轉換成了 “attention score ”，用來衡量模型在預測時對于不同區(qū)域的側重。最后，研究者們將 Transformer 模塊的 1D 輸出用 “outer concatenation” 的方式轉換成了 2D 的 contact/adjacency matrix，用作 Hi-C ****的輸入信息。****是一個 Dilated 2D ResNet。研究者們調整了不同層的 dilation factor 使得最后層的每一個像素位置的 receptive field 都能覆蓋所有輸入信息。
這一預測染色質構象的模型則被稱為 C.Origami。研究者稱 C.Origami 是基因組學中第一個多模態(tài)深度學習模型。由于它多模態(tài)的特性，C.Origami 能夠準確地預測（de novo prediction）從未接觸過的新細胞類型的染色質構象。例如，在 IMR-90 細胞（肺成纖維細胞）上訓練的模型能夠準確預測出 GM12878 細胞（B 淋巴細胞）里特定的染色質構象（圖 3）。

圖 3
結構變異（structural variant）---- 比如染色體易位 ---- 在腫瘤中非常常見，并經(jīng)常改變染色質相互作用模式，進而可能影響癌基因或抑癌基因的表達。研究這些結構變異對染色質構象及基因表達的影響對理解腫瘤發(fā)生和進展的機理有重要作用。這類研究通常需要借助 4C-seq 或 Hi-C 等實驗來分析結構變異位點的染色質構象，但又往往受限于資源和時間的限制，難以大規(guī)模開展。
這項研究中，C.Origami 可以在輸入變量中模擬 DNA 序列的變異，然后預測變異后的癌癥基因組中新的染色質相互作用。之前的研究發(fā)現(xiàn) T 細胞急性淋巴細胞白血病（T-ALL）細胞模型 CUTLL1 有一個 chr7-chr9 的染色體易位（圖 4）。通過計算模擬染色體易位變異，C.Origami 準確預測了在變異位點的新 TAD 結構，并檢測到從 chr9 延伸到 chr7 的‘互動束’（chromatin stripe）結構（圖 4）。

圖 4
鑒于 C.Origami 的精準預測效果，并受到反向遺傳篩選原理的啟發(fā)，研究者提出了全新的高通量計算遺傳篩選 (in silico genetic screening，ISGS) 方法，用以系統(tǒng)鑒定細胞類型特異性的功能基因組元件，并助力發(fā)現(xiàn)新的染色調控分子（圖 5）。研究者們基于 C.Origami 模型開發(fā)了用于系統(tǒng)性鑒定染色質構象所需的順式調控元件（cis-regulatory element）的計算遺傳篩選 ISGS 的框架。通過對全基因組 1kb 分辨率的 ISGS，作者分離出對染色質構象有重要影響的順式調控元件（占約 1% 的基因組）。這些染色質構象調控序列呈現(xiàn)出對 CTCF 結合和 ATAC-seq 信號的不同依賴度（圖 5）。

圖 5
ISGS 框架可以對細胞或疾病特異性的染色質構象進行高通量篩選。研究者在 CUTLL1、Jurkat 和正常 T 細胞中分別進行了 ISGS，并發(fā)現(xiàn)了一個在 CHD4 基因附近的順式調控元件 (CHD4-insu) 在 T-ALL 細胞里特異性丟失。篩選結果表明，T-ALL 細胞中 CHD4-insu 的絕緣性缺失可能使 CHD4 基因建立新的染色質相互作用，進而上調 CHD4 表達并促進白血病細胞增殖。
ISGS 也可以用來系統(tǒng)地發(fā)現(xiàn)調控染色質構象的新型反式作用因子（trans-acting factors）。通過對細胞類型特異性的重要調控序列與轉錄因子結合部位的富集分析，研究者確定了有助于細胞類型特異的基因組構象的調控因子。有意思的是，之前研究發(fā)現(xiàn) MAZ 可能與 CTCF 一起調控染色質構象。通過 ISGS 及轉錄因子富集分析，作者發(fā)現(xiàn) MAZ 極大地富集于開放染色質區(qū)域，而在 CTCF 結合的非開放染色質區(qū)域僅顯示微弱結合。這一結果預示 MAZ 可能獨立于 CTCF 調節(jié)基因組構象。
研究者們在染色質結構預測中看到了結合 DNA 序列與染色質信息的多模態(tài)機器學習模型的巨大潛力。而該模型的底層多模態(tài)架構 Origami 可以推廣到其他基因組學數(shù)據(jù)的應用，例如表觀遺傳修飾、基因表達、突變功能性篩查等。研究者預測，未來的基因組學研究將更多的轉向使用利用深度學習模型作為工具來進行主要計算遺傳篩選，并輔以生物實驗驗證的新一代高通量研究方法。
這項研究中，紐約大學醫(yī)學院博士研究生譚濟民為第一作者，Aristotelis Tsirigos 博士和夏波博士為共同通訊作者。這項研究起始于 2020 年 10 月疫情封控期間夏波與譚濟民的頭腦風暴，歷經(jīng)兩年半的完善與打磨，在 2023 年一月于 Nature Biotechnology 正式刊出。
此項目的代碼和訓練數(shù)據(jù)已在GitHub和Zenodo上開源，并配有Google Colab做功能展示。
項目地址：https://github.com/tanjimin/C.Origami

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

tcp/ip相關文章:tcp/ip是什么

pos機相關文章:pos機原理

激光二極管相關文章:激光二極管原理

博客專欄

Nature子刊 | 譚濟民、夏波等提出基因組構象預測模型及高通量計算遺傳篩選方法

相關推薦

技術專區(qū)