博客專欄

EEPW首頁(yè) > 博客 > 圖卷積神經(jīng)網(wǎng)絡(luò)分析復(fù)雜碳水化合物

圖卷積神經(jīng)網(wǎng)絡(luò)分析復(fù)雜碳水化合物

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2021-07-16 來(lái)源:工程師 發(fā)布文章

來(lái)源:DeepHub IMBA

作者:Daniel Bojar

1.png

圖卷積神經(jīng)網(wǎng)絡(luò) (GCN) 在過(guò)去幾年中引起了越來(lái)越多的關(guān)注,越來(lái)越多的學(xué)科開始使用它們。這也已擴(kuò)展到生命科學(xué)領(lǐng)域,因?yàn)?GCN 已被用于分析蛋白質(zhì)、****物,當(dāng)然還有生物網(wǎng)絡(luò)。實(shí)現(xiàn)這種擴(kuò)展的 GCN 的一個(gè)關(guān)鍵優(yōu)勢(shì)是它們能夠在本地處理非線性數(shù)據(jù)格式,這與更線性的數(shù)據(jù)結(jié)構(gòu)(如自然語(yǔ)言)形成對(duì)比。由于此功能,我們還為自己感興趣的主題(復(fù)雜碳水化合物或聚糖的研究)使用了 GCN。

聚糖在生物學(xué)中無(wú)處不在,裝飾每個(gè)細(xì)胞并在病毒感染或腫瘤免疫逃避等過(guò)程中發(fā)揮關(guān)鍵作用。它們也是極其多樣化的生物序列,由數(shù)百個(gè)獨(dú)特的構(gòu)建塊組成,相比之下,蛋白質(zhì)為 20 個(gè),DNA/RNA 為 4 個(gè),它們也可以在不斷增長(zhǎng)的聚糖鏈中以幾種不同的配置組合。最后,聚糖是唯一的非線性生物序列,自然形成廣泛的分支,這些分支本身可以進(jìn)一步分支。因此,它們是圖子類的一部分,即樹。這使得聚糖成為在生物學(xué)中適當(dāng)應(yīng)用 GCN 的主要候選者。

以前,我們開發(fā)了通過(guò)將聚糖序列視為一種生物語(yǔ)言來(lái)分析聚糖序列的技術(shù)。我們使用循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)置來(lái)解決聚糖序列的非線性問(wèn)題,以預(yù)測(cè)它們的免疫原性、對(duì)致病性的貢獻(xiàn)和分類學(xué)起源。這在一定程度上效果很好,超過(guò)了基線,例如使用基于主題頻率的隨機(jī)森林。然而,我們相信更強(qiáng)大的算法,能夠適應(yīng)聚糖的樹結(jié)構(gòu),將改進(jìn)現(xiàn)有的應(yīng)用程序,并在聚糖的研究中實(shí)現(xiàn)新的方法。這就是為什么我們轉(zhuǎn)向 GCN 來(lái)設(shè)置分析聚糖的最新技術(shù)。

2.jpg

GCN 通過(guò)圖中的鄰居來(lái)表征節(jié)點(diǎn),或者更準(zhǔn)確地說(shuō),是通過(guò)鄰居節(jié)點(diǎn)的特征來(lái)表征節(jié)點(diǎn),從而學(xué)習(xí)圖(或樹)中的關(guān)系。在我們的案例中,我們將單糖(聚糖構(gòu)建塊,如葡萄糖或半乳糖)及其連接鍵視為節(jié)點(diǎn)。雖然將單糖視為節(jié)點(diǎn)并將連接視為邊緣似乎更自然,但我們決定反對(duì)這種做法,以適應(yīng)僅由一個(gè)單糖和一個(gè)連接組成的短而重要的聚糖。為了讓我們的 GCN 學(xué)習(xí)節(jié)點(diǎn)鄰域的特征,我們首先實(shí)現(xiàn)了節(jié)點(diǎn)嵌入,以便通過(guò)嵌入特征來(lái)表示每個(gè)單糖和鏈接類型,這些特征可以由我們的模型學(xué)習(xí)并用于表征節(jié)點(diǎn)鄰域。為了最好地表達(dá)聚糖的豐富多樣性,我們?yōu)榇耸褂昧?128 維嵌入。

接下來(lái),我們必須選擇用于執(zhí)行圖卷積的圖內(nèi)核。這個(gè)過(guò)程就是上面提到的通過(guò)節(jié)點(diǎn)及其特征(在我們的例子中,節(jié)點(diǎn)類型的嵌入特征)來(lái)學(xué)習(xí)節(jié)點(diǎn)的過(guò)程。在測(cè)試了各種圖核之后,我們最終得到了 k 維圖神經(jīng)網(wǎng)絡(luò)算子,它受 Weisfeiler-Leman 算法的啟發(fā)來(lái)測(cè)試圖同構(gòu),并在我們的數(shù)據(jù)集上顯示出最佳性能?,F(xiàn)在,GCN 的偉大之處在于您可以在單個(gè)模型中擁有多個(gè)圖卷積層。這允許您分析不同粒度級(jí)別的圖形/聚糖。雖然第一層可能只考慮直接連接的節(jié)點(diǎn)進(jìn)行分析,但后續(xù)層可以擴(kuò)展這個(gè)所謂的感受野,并考慮節(jié)點(diǎn)與圖中進(jìn)一步刪除的節(jié)點(diǎn)的關(guān)系。在我們的案例中,我們選擇了一個(gè)具有三個(gè)這樣的層的模型作為同類最佳模型。

3.jpg

這種連續(xù)圖卷積層的方法允許模型學(xué)習(xí)圖鄰域,甚至可以在監(jiān)督設(shè)置中預(yù)測(cè)下游分類任務(wù)的特征圖案。為了總結(jié)從這些步驟中學(xué)到的特征,我們使用池化層將來(lái)自圖卷積層的顯著信息濃縮為后續(xù)層。在每個(gè)圖卷積層之后,我們首先使用一個(gè) topk 池化層,它根據(jù)學(xué)習(xí)的投影分?jǐn)?shù)將圖投影到較小的圖。然后,我們將全局平均池化和全局平均池化操作的結(jié)果連接起來(lái)。

這個(gè)最終的圖形表示,跨越三個(gè)圖卷積層,然后通過(guò)一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)路由,以達(dá)到對(duì)相應(yīng)任務(wù)的最終預(yù)測(cè)。除了標(biāo)準(zhǔn)的(leaky)ReLU、dropout 和批量歸一化設(shè)置之外,我們還在這部分中包含了一個(gè)所謂的繁榮層。通常,卷積后表示的維數(shù)在這最后部分向低維模型輸出緩慢降低。然而,繁榮層會(huì)暫時(shí)增加維度(與瓶頸相反),以允許模型擺脫局部最小值并提高性能。我們將這個(gè)最終模型命名為 SweetNet,以向傳統(tǒng)上已知和喜愛(ài)的碳水化合物類型致敬。現(xiàn)在我們可以看看你可以用 GCN 為聚糖做些什么有趣的事情!

在構(gòu)建 SweetNet 時(shí),我們確保我們的預(yù)測(cè)性能優(yōu)于之前報(bào)告的架構(gòu),例如上面提到的循環(huán)神經(jīng)網(wǎng)絡(luò),在所有報(bào)告的任務(wù)上。其中一項(xiàng)任務(wù)是預(yù)測(cè)人類免疫系統(tǒng)是否會(huì)識(shí)別聚糖序列。這是相關(guān)的,因?yàn)榫厶强赡芫哂泻軓?qiáng)的免疫原性,例如在過(guò)敏原或血型不匹配的情況下,但也具有免疫抑制性,例如在腫瘤免疫逃避的情況下。在我們的數(shù)據(jù)集上,SweetNet 實(shí)現(xiàn)了約 95% 的測(cè)試集準(zhǔn)確率,完全基于聚糖序列。然后,我們提取了這些序列的圖表示,這些序列由經(jīng)過(guò)訓(xùn)練的用于預(yù)測(cè)聚糖免疫原性的 SweetNet 模型學(xué)習(xí),緊接在圖卷積層之后。對(duì)此進(jìn)行可視化時(shí),很明顯該模型已經(jīng)學(xué)會(huì)了區(qū)分兩類免疫原性/非免疫原性聚糖。更重要的是,在非免疫原性聚糖中,可以看到精細(xì)結(jié)構(gòu),讓人聯(lián)想到不同類別的人類聚糖(當(dāng)然,它們?cè)谕活悇e內(nèi)具有序列相似性)。糖脂和 O-聚糖都與免疫原性聚糖部分重疊,因?yàn)檫@些聚糖存在于我們的粘膜表面,并被具有免疫原性的微生物模仿。

4.png

除了其他應(yīng)用之外,我們還將這個(gè)用于聚糖的 GCN 與用于分析蛋白質(zhì)序列的循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,以預(yù)測(cè)病毒和聚糖之間的相互作用。大多數(shù)病毒,從流感病毒到 SARS-CoV-2,都需要宿主細(xì)胞上的特定聚糖才能感染它們。事實(shí)上,病毒與宿主聚糖的匹配可以決定病毒的宿主范圍。在流感病毒的情況下,一種特定的蛋白質(zhì)血凝素負(fù)責(zé)在細(xì)胞進(jìn)入和感染之前與細(xì)胞的聚糖結(jié)合。不同的流感病毒株具有不同的血凝素序列,這會(huì)影響它們的聚糖結(jié)合特異性。這方面的一個(gè)例子是禽流感病毒和哺乳動(dòng)物流感病毒之間的差異。雖然這兩種類型的流感病毒主要識(shí)別一種稱為 Neu5Ac 的特定單糖,一種唾液酸,但禽流感病毒通常僅與 α2-3 構(gòu)型的 Neu5Ac 結(jié)合,而哺乳動(dòng)物流感病毒更喜歡 α2-6 構(gòu)型的 Neu5Ac。一個(gè)微妙的結(jié)構(gòu)轉(zhuǎn)變,但這是阻止禽流感病毒“跳過(guò)”感染人類的唯一障礙。突變禽血凝素以與 α2-6 構(gòu)型的 Neu5Ac 結(jié)合,然后您就可以用這種突變的禽流感病毒感染人類。

血凝素序列與聚糖結(jié)合特異性之間的這種明確關(guān)系使我們假設(shè)我們可以使用模型來(lái)學(xué)習(xí)這些關(guān)聯(lián)并預(yù)測(cè)流感病毒和其他病毒的基于病毒聚糖的受體。因此,我們建立了一種匹配模型,給定一個(gè)血凝素序列和一個(gè)聚糖,可以在回歸設(shè)置中預(yù)測(cè)這是否會(huì)導(dǎo)致結(jié)合。我們很幸運(yùn),因?yàn)槲覀冇写罅繉?shí)驗(yàn)觀察到的來(lái)自各種流感病毒株的血凝素相互作用的數(shù)據(jù)集和一組可用于訓(xùn)練和評(píng)估模型的聚糖。

5.png

訓(xùn)練后,我們確實(shí)可以證明一個(gè)訓(xùn)練有素的模型用α2-3 連接的Neu5Ac 用于禽流感病毒和α2-6 連接的Neu5Ac 用于哺乳動(dòng)物流感病毒。此外,該模型還預(yù)測(cè)了可能與流感病毒結(jié)合相關(guān)的其他基序,例如硫酸化聚糖基序,這些基序過(guò)去曾被認(rèn)為可能是流感受體。然后我們表明,這項(xiàng)研究也可以擴(kuò)展到其他病毒,例如輪狀病毒,這是嬰兒感染的常見原因。在這里,我們可以證明訓(xùn)練有素的模型預(yù)測(cè)高度復(fù)雜的母乳聚糖與輪狀病毒蛋白結(jié)合,輪狀病毒蛋白已被獨(dú)立證明可以結(jié)合和中和輪狀病毒,證明了母乳的保護(hù)作用。聚糖的這種中和作用,通過(guò)與病毒緊密結(jié)合并阻止它們與細(xì)胞結(jié)合,被我們的身體在各種情況下使用,并且也可能為使用我們的模型設(shè)計(jì)具有改進(jìn)結(jié)合特性的新聚糖提供機(jī)會(huì),在未來(lái),可以作為一種新型的抗病毒****物。

這就是在聚糖分析中了解 GCN 當(dāng)前狀態(tài)的全部?jī)?nèi)容!嗯,反正大部分。前往報(bào)紙了解更多詳情。或者前往新聞稿,獲取有關(guān)我們研究影響的更易于理解的信息。當(dāng)然,這里是 SweetNet 的代碼,所有使用的數(shù)據(jù)都可以在 GitHub 或論文的補(bǔ)充表中找到。

SweetNet 代碼:

https://github.com/BojarLab/SweetNet

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。




相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉