博客專欄

EEPW首頁 > 博客 > 神經(jīng)網(wǎng)絡(luò)的學習方式-從網(wǎng)絡(luò)傳播到圖卷積

神經(jīng)網(wǎng)絡(luò)的學習方式-從網(wǎng)絡(luò)傳播到圖卷積

發(fā)布人:數(shù)據(jù)派THU 時間:2021-07-04 來源:工程師 發(fā)布文章

來源:DeepHub IMBA

1.png

你可能聽說過圖卷積,因為它在當時是一個非常熱門的話題。雖然不太為人所知,但網(wǎng)絡(luò)傳播是計算生物學中用于網(wǎng)絡(luò)學習的主要方法。在這篇文章中,我們將深入研究網(wǎng)絡(luò)傳播背后的理論和直覺,我們也將看到網(wǎng)絡(luò)傳播是圖卷積的一種特殊情況。

網(wǎng)絡(luò)傳播是計算生物學中基于內(nèi)疚關(guān)聯(lián)原理的一種流行方法。

兩種不同的網(wǎng)絡(luò)傳播觀點:隨機游走和擴散,以HotNet2為例。

網(wǎng)絡(luò)傳播是圖卷積的一種特例。

計算生物學中的網(wǎng)絡(luò)傳播

網(wǎng)絡(luò)自然產(chǎn)生于許多真實世界的數(shù)據(jù),如社交網(wǎng)絡(luò),交通網(wǎng)絡(luò),生物網(wǎng)絡(luò),僅舉幾個例子。網(wǎng)絡(luò)結(jié)構(gòu)編碼了關(guān)于網(wǎng)絡(luò)中每個個體角色的豐富信息。

在計算生物學中,像蛋白質(zhì)相互作用(PPI)這樣的生物網(wǎng)絡(luò),節(jié)點是蛋白質(zhì),邊緣代表兩個蛋白質(zhì)相互作用的可能性,在重建生物過程,甚至揭示疾病基因方面非常有用[1,2]。這種重建可以簡單地通過直接觀察目標蛋白的鄰近蛋白是否是生物過程或疾病的一部分來完成。這種通過鄰近蛋白質(zhì)來推斷蛋白質(zhì)隸屬度的過程稱為網(wǎng)絡(luò)傳播。我們將在下一節(jié)中更仔細地研究精確的數(shù)學公式,但是現(xiàn)在讓我們想想為什么這樣一個簡單的方法有效。

2.png

這一切都歸結(jié)為內(nèi)疚關(guān)聯(lián)(GBA)原則,即通過物理交互作用或其他相似度量(如基因共同表達),蛋白質(zhì)彼此緊密相關(guān),可能參與相同的生物過程或途徑。GBA原理來自于觀察到許多蛋白質(zhì)復合物(如酵母[3]中的SAGA/TFIID復合物)定位于一個內(nèi)聚網(wǎng)絡(luò)模塊。同樣,在人類疾病基因網(wǎng)絡(luò)[4]中,我們可以看到,例如,與耳、鼻、喉疾病或血液病相關(guān)的疾病基因都局限在網(wǎng)絡(luò)模塊中。作為旁注,在這篇文章中,蛋白質(zhì)和基因這兩個詞將互換使用。

3.png

網(wǎng)絡(luò)傳播的數(shù)學公式——兩種不同的觀點

1. 符號

給定一個(無向)圖G=(V, E, w),有n個頂點的頂點集V,邊集E,權(quán)函數(shù)w,設(shè)A為相應的n × n維鄰接矩陣:

4.png

利用對角度矩陣D,它的對角項是相應節(jié)點的度,我們可以將A按行或按列規(guī)格化,得到兩個新的矩陣P和W。

5.png

最后,設(shè)p0為°熱編碼的標簽向量,其中p0對應的正標簽節(jié)點的項為1,其余均為0。

觀點1:隨機游走

我們可以在網(wǎng)絡(luò)上以隨機游走的方式進行網(wǎng)絡(luò)傳播。在這種情況下,我們要問的關(guān)鍵問題如下。

通過一跳傳播,從目標節(jié)點開始并最終到達任何一個具有正標簽的節(jié)點的概率是多少?

在數(shù)學上,該操作對應于P和p0之間的矩陣向量乘法,得到預測得分向量y:

6.png

讓我們看一個例子??紤]基因g1、g2、g3和g4的以下子網(wǎng)。假設(shè)g2和g3被注釋到一種疾病中,這意味著已知這兩個基因與此處研究的疾病有關(guān)。另一方面,g1和g4沒有對該疾病進行注釋(注意:這并不意味著它們對該疾病沒有影響,而是目前還不知道它們與該疾病有關(guān))。

7.png

為了確定g1是否與疾病相關(guān),我們可以簡單地設(shè)計一個從g1開始的單跳隨機行走,看看它落在疾病基因(g2或g3)上的概率是多少。經(jīng)過簡單的計算,我們看到預測得分是2/3,這是相當高的。這是有道理的,因為g1的三個鄰近基因中有兩個與疾病相關(guān),而根據(jù)GBA原理,g1很可能與這種疾病相關(guān)。

觀點2:擴散

網(wǎng)絡(luò)傳播的另一種觀點是通過網(wǎng)絡(luò)進行擴散。在這種情況下,我們要問的關(guān)鍵問題如下。

有多少“熱度”被擴散到目標節(jié)點?或者換句話說,從帶有正標簽的節(jié)點開始,通過一跳傳播最終到達目標節(jié)點的概率是多少?

數(shù)學上,該操作對應于波浪號P和p0 (p0的標準化版本)之間的矩陣向量乘法,產(chǎn)生預測得分向量y波浪號。

8.png

注:p0歸一化保證了從一個概率分布映射到一個概率分布,即y波浪號等于1。

讓我們回到上面的例子,通過網(wǎng)絡(luò)傳播疾病基因預測。這一次,我們想將標簽傳播作為擴散來執(zhí)行。結(jié)果,兩個注釋疾病基因產(chǎn)生的總“熱”中有很大一部分(5/12)被g1收集。因此g1很可能與本病相關(guān)。

9.png

超越了單跳傳播

10.png

單跳傳播方法簡單有效。然而,當標記數(shù)據(jù)稀缺時(這是計算生物學中典型的情況),單跳傳播方法只能計算疾病基因直接鄰居的非平凡預測分數(shù)。考慮到人類基因組中有超過2萬個基因,這顯然導致了次優(yōu)預測。因此,我們可以擴展到2-hop, 3-hop,甚至更多,而不是局限于1-hop社區(qū)。圖中顯示了k-hop從k = 1到k = 2的傳播過程。

HotNet2擴散

有許多不同的變體來執(zhí)行多跳擴散或隨機游走。我們將以HotNet2為例。與上面介紹的擴散類似,HotNet2算法迭代更新初始“heat”分布p0波浪線如下。

11.png

其中beta值從0到1,是將“熱量”帶回其源頭的“重啟概率”。包含這個重啟概率的原因有幾個(有些相關(guān))。首先,之前定義的擴散算子給出了當前節(jié)點擁有的所有“熱量”,因此在第t步,之前所有的擴散信息都丟失了。添加beta有效地在每一步中保留了一些熱量,因此在第t步,分布包含了之前步驟的所有信息。其次,(非零)beta參數(shù)保證了t趨近于無窮時熱分布的收斂性,從而給出了t=∞時熱分布的封閉形式解:

微信圖片_20210704180038.jpg

最后,在[1]中已經(jīng)證明,在生物通路重建、疾病基因預測等方面,這種HotNet2擴散方法比上一節(jié)定義的單跳網(wǎng)絡(luò)傳播能夠產(chǎn)生持續(xù)更好的預測。

與圖卷積的關(guān)系

回想一下,圖卷積網(wǎng)絡(luò)遵循如下的分層傳播規(guī)則:

12.png

其中H(l)是第l層的隱藏特征,W(l)是可學習參數(shù),非線性σ (DAD)內(nèi)部的主導部分是具有自連接的譜歸一化鄰接矩陣。自連接的作用類似于重新啟動概率,以保留當前迭代的一些信息。

通過下面的替換,我們可以完全重建標簽傳播作為圖卷積的一種特殊情況。

用行歸一化(P)或列歸一化(W)版本替換譜歸一化自連接鄰接矩陣

用p(l)代替H(l)

用恒等式代替非線性和W(l)(或者干脆忽略這些變換)

注意,第一次替換不會改變圖的頻譜,因此仍然會執(zhí)行相同的卷積操作。

現(xiàn)在你知道了,網(wǎng)絡(luò)傳播是圖卷積的一種特殊情況!

總結(jié)

基于關(guān)聯(lián)原理,網(wǎng)絡(luò)傳播由于細胞組織的模塊化,在計算生物學中被廣泛應用于疾病基因預測等各種任務。我們已經(jīng)深入研究了網(wǎng)絡(luò)傳播的兩個觀點及其與圖卷積的聯(lián)系。

引用

[1] R. Liu, C. A. Mancuso, A. Yannakopoulos, K. A. Johnson, A. Krishnan, Supervised learning is an accurate method for network-based gene classification (2020), Bioinformatics

[2] L. Cowen, T. Ideker, B. J. Raphael, R. Sharan, Netowork propagation: a universal amplifier of genetic associations (2017), Nat Rev Genet

[3] V. Spirin and L. A. Mirny, Protein complexes and functional modules in molecular networks (2003), Proceedings of the National Academy of Sciences

[4] K. Goh, M. E. Cusick, D. Valle, B. Childs, M. Vidal, A. Barabasi, The human disease network (2007), Proceedings of the National Academy of Sciences

[5] W. L. Hamilton, R. Ying, J. Leskovec, Inductive Representation Learning on Large Graphs (2017), arXiv

[6] T. N. Kipf and M. Welling, Semi-Supervised Classification with Graph Convolutional Networks (2016), arXiv

作者:Remy Lau

原文地址:https://towardsdatascience.com/network-learning-from-network-propagation-to-graph-convolution-eb3c62d09de8

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。




相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉