「信息瓶頸」提出者Naftali Tishby逝世,Hinton曾感嘆:我要再聽(tīng)一萬(wàn)遍才能真正理解
信息瓶頸極其有趣,我要再聽(tīng)一萬(wàn)遍才能真正理解它,當(dāng)今能聽(tīng)到如此原創(chuàng)的想法非常難得,或許它就是解開(kāi)謎題的那把鑰匙?!狦eoffrey Hinton
剛剛,耶路撒冷希伯來(lái)大學(xué)發(fā)布了一則訃告:該校計(jì)算機(jī)科學(xué)與工程學(xué)院教授、信息瓶頸方法提出者之一 Naftali Tishby 逝世,享年 69 歲。
Naftali Tishby 生于 1952 年,1985 年在希伯來(lái)大學(xué)獲得理論物理學(xué)博士學(xué)位,之后曾在 MIT、貝爾實(shí)驗(yàn)室、賓夕法尼亞大學(xué)、IBM 等機(jī)構(gòu)做研究工作。去世之前,Tishby 在耶路撒冷希伯來(lái)大學(xué)擔(dān)任計(jì)算機(jī)科學(xué)教授、Edmond and Lily Safra 腦科學(xué)中心(ELSC) Ruth and Stan Flinkman 腦科學(xué)研究主席,是以色列機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)研究領(lǐng)域的領(lǐng)導(dǎo)者之一。
1999 年,Naftali Tishby 和 Fernando Pereira、William Bialek 一起提出了信息論中的重要方法——信息瓶頸。
論文鏈接:https://www.cs.huji.ac.il/labs/learning/Papers/allerton.pdf
該方法的目的是:對(duì)于一個(gè)隨機(jī)變量,假設(shè)已知其與觀察變量 Y 之間的聯(lián)合概率分布 p(X,Y)。此時(shí),當(dāng)需要 summarize(如聚類)時(shí),可以通過(guò)信息瓶頸方法來(lái)分析如何最優(yōu)化地平衡準(zhǔn)確度與復(fù)雜度(數(shù)據(jù)壓縮)。該方法的應(yīng)用包括分布聚類與降維等。
最重要的是,這一理論有望最終打開(kāi)深度學(xué)習(xí)的黑箱,以及解釋人腦的工作原理。
2015 年,Tishby 及其學(xué)生 Noga Zaslavsky 發(fā)表了一篇論文,假設(shè)深度學(xué)習(xí)是一個(gè)信息瓶頸程序,盡可能地壓縮數(shù)據(jù)噪聲,保留數(shù)據(jù)想表達(dá)的信息。也就是說(shuō),神經(jīng)網(wǎng)絡(luò)就像把信息擠進(jìn)瓶頸一樣,只留下與一般概念最為相關(guān)的特征,去掉大量無(wú)關(guān)的噪音數(shù)據(jù)。
論文鏈接:https://arxiv.org/pdf/1503.02406.pdf
2017 年,Tishby 和他的另一個(gè)學(xué)生 Ravid Shwartz-Ziv 聯(lián)合進(jìn)行了一場(chǎng)引入注目的實(shí)驗(yàn),揭示了發(fā)生在深度學(xué)習(xí)之中的擠壓過(guò)程。
論文鏈接:https://arxiv.org/pdf/1703.00810.pdf
在一個(gè)案例中,他們訓(xùn)練小型網(wǎng)絡(luò)使其將數(shù)據(jù)標(biāo)記為 1 或 0(比如「狗」或「非狗」),網(wǎng)絡(luò)一共有 282 個(gè)神經(jīng)連接并隨機(jī)初始化連接強(qiáng)度,然后他們使用 3000 個(gè)樣本的輸入數(shù)據(jù)集追蹤網(wǎng)絡(luò)究竟在做什么。
大多數(shù)深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過(guò)程中用來(lái)響應(yīng)數(shù)據(jù)輸入和調(diào)整神經(jīng)連接強(qiáng)度的基本算法都是「隨機(jī)梯度下降」:每當(dāng)輸入訓(xùn)練數(shù)據(jù)到網(wǎng)絡(luò)中,一連串的激活行為將接連每一層的神經(jīng)元。當(dāng)信號(hào)到達(dá)最頂層時(shí),最后的激活模式將對(duì)應(yīng)確定的標(biāo)簽,1 或 0,「狗」或「非狗」。激活模式和正確的模式之間的不同將會(huì)「反向傳播」回網(wǎng)絡(luò)的層中,即,正如老師批改作業(yè)一樣,這個(gè)算法將強(qiáng)化或者弱化每一個(gè)連接的強(qiáng)度以使網(wǎng)絡(luò)能輸出更產(chǎn)生的輸出信號(hào)。經(jīng)過(guò)訓(xùn)練之后,訓(xùn)練數(shù)據(jù)的一般模式將體現(xiàn)在神經(jīng)連接的強(qiáng)度中,網(wǎng)絡(luò)將變成識(shí)別數(shù)據(jù)的專家。
在他們的實(shí)驗(yàn)中,Tishby 和 Shwartz-Ziv 追蹤了深度神經(jīng)網(wǎng)絡(luò)的每一層保留了多少輸入數(shù)據(jù)的信息,以及每一層保留了多少輸出標(biāo)簽的信息。他們發(fā)現(xiàn),網(wǎng)絡(luò)逐層收斂到了信息瓶頸的理論范圍(Tishby 導(dǎo)出的理論極限)。Pereira 和 Bialek 最初的論文中展示了系統(tǒng)提取相關(guān)信息的最佳結(jié)果。在信息瓶頸的理論范圍內(nèi),網(wǎng)絡(luò)將盡可能地壓縮輸入,而無(wú)需犧牲精確預(yù)測(cè)標(biāo)簽的能力。
Tishby 和 Shwartz-Ziv 還發(fā)現(xiàn)了一個(gè)很有趣的結(jié)果,深度學(xué)習(xí)以兩個(gè)狀態(tài)進(jìn)行:一個(gè)短期「擬合」?fàn)顟B(tài),期間網(wǎng)絡(luò)學(xué)習(xí)標(biāo)記輸入數(shù)據(jù),和一個(gè)時(shí)間長(zhǎng)得多的長(zhǎng)期「壓縮」?fàn)顟B(tài),通過(guò)測(cè)試其標(biāo)記新測(cè)試數(shù)據(jù)的能力可以得出期間網(wǎng)絡(luò)的泛化能力變得很強(qiáng)。
A. 初始狀態(tài):第一層的神經(jīng)元編碼輸入數(shù)據(jù)的所有信息,包括其中的標(biāo)簽信息。最高層神經(jīng)元處于幾乎無(wú)序的狀態(tài),和輸入數(shù)據(jù)或者其標(biāo)簽沒(méi)有任何關(guān)聯(lián)。
B. 擬合狀態(tài):深度學(xué)習(xí)剛開(kāi)始的時(shí)候,高層神經(jīng)元獲得輸入數(shù)據(jù)的信息,并逐漸學(xué)會(huì)匹配標(biāo)簽。
C. 狀態(tài)變化:網(wǎng)絡(luò)的層的狀態(tài)突然發(fā)生變化,開(kāi)始「遺忘」輸入數(shù)據(jù)的信息。
D. 壓縮狀態(tài):網(wǎng)絡(luò)的高層壓縮對(duì)輸入數(shù)據(jù)的表示,保留與輸出標(biāo)簽關(guān)聯(lián)最大的表示,這些表示更擅長(zhǎng)預(yù)測(cè)標(biāo)簽。
E. 最終狀態(tài):網(wǎng)絡(luò)的最高層在準(zhǔn)確率和壓縮率之間取得平衡,只保留可以預(yù)測(cè)標(biāo)簽的信息。
當(dāng)深度神經(jīng)網(wǎng)絡(luò)用隨機(jī)梯度下降調(diào)整連接強(qiáng)度時(shí),最初網(wǎng)絡(luò)存儲(chǔ)輸入數(shù)據(jù)的比特?cái)?shù)基本上保持常量或者增加很慢,期間連接強(qiáng)度被調(diào)整以編碼輸入模式,而網(wǎng)絡(luò)標(biāo)注數(shù)據(jù)的能力也在增長(zhǎng)。一些專家將這個(gè)狀態(tài)與記憶過(guò)程相比較。
然后,學(xué)習(xí)轉(zhuǎn)向了壓縮狀態(tài)。網(wǎng)絡(luò)開(kāi)始對(duì)輸入數(shù)據(jù)進(jìn)行篩選,追蹤最突出的特征(與輸出標(biāo)簽關(guān)聯(lián)最強(qiáng))。這是因?yàn)樵诿恳淮蔚S機(jī)梯度下降時(shí),訓(xùn)練數(shù)據(jù)中或多或少的偶然關(guān)聯(lián)都驅(qū)使網(wǎng)絡(luò)做不同的事情,使其神經(jīng)連接變得或強(qiáng)或弱,隨機(jī)游走。這種隨機(jī)化現(xiàn)象和壓縮輸入數(shù)據(jù)的系統(tǒng)性表征有相同的效果。舉一個(gè)例子,有些狗的圖像背景中可能會(huì)有房子,而另一些沒(méi)有。當(dāng)網(wǎng)絡(luò)被這些照片訓(xùn)練的時(shí)候,由于其它照片的抵消作用,在某些照片中它會(huì)「遺忘」房子和狗的關(guān)聯(lián)。
Tishby 和 Shwartz-Ziv 稱,正是這種對(duì)細(xì)節(jié)的遺忘行為,使系統(tǒng)能生成一般概念。實(shí)際上,他們的實(shí)驗(yàn)揭示了,深度神經(jīng)網(wǎng)絡(luò)在壓縮狀態(tài)中提高泛化能力,從而更加擅長(zhǎng)標(biāo)記測(cè)試數(shù)據(jù)。(比如,被訓(xùn)練識(shí)別照片中的狗的深度神經(jīng)網(wǎng)絡(luò),可以用包含或者不包含狗的照片進(jìn)行測(cè)試。)
Tishby 的發(fā)現(xiàn)在人工智能領(lǐng)域引發(fā)了熱烈的討論。
深度學(xué)習(xí)先驅(qū) Geoffrey Hinton 在聽(tīng)了 Tishby 的報(bào)告之后給他發(fā)了郵件:「信息瓶頸極其有趣,我要再聽(tīng)一萬(wàn)遍才能真正理解它,當(dāng)今能聽(tīng)到如此原創(chuàng)的想法非常難得,或許它就是解開(kāi)謎題的那把鑰匙?!?/p>
紐約大學(xué)心理學(xué)和數(shù)據(jù)科學(xué)助理教授 Brenden Lake 認(rèn)為,Tishby 的研究成果是「打開(kāi)神經(jīng)網(wǎng)絡(luò)黑箱的重要一步」。
谷歌研究員 Alex Alemi 說(shuō):「我認(rèn)為信息瓶頸對(duì)未來(lái)的深度神經(jīng)網(wǎng)絡(luò)研究很重要。我甚至發(fā)明了新的近似方法,從而把信息瓶頸分析應(yīng)用到大型深度神經(jīng)網(wǎng)絡(luò)中?!顾终f(shuō):「信息瓶頸不僅可以作為理論工具用來(lái)理解神經(jīng)網(wǎng)絡(luò)的工作原理,同樣也可以作為構(gòu)建網(wǎng)絡(luò)架構(gòu)和新目標(biāo)函數(shù)的工具?!?/p>
不過(guò),這一理論也受到了一些挑戰(zhàn),比如 Andrew M. Saxe 等人發(fā)表在 ICLR 2018 上的一篇批判性分析文章。簡(jiǎn)單來(lái)說(shuō),該論文發(fā)現(xiàn) Schwartz-Viz 和 Tishby 論文中的結(jié)果無(wú)法很好地泛化到其他網(wǎng)絡(luò)架構(gòu):訓(xùn)練期間的兩個(gè)階段依賴于激活函數(shù)的選擇;無(wú)法證明壓縮與泛化之間存在因果關(guān)系;當(dāng)壓縮確實(shí)發(fā)生時(shí),它不一定依賴于來(lái)自隨機(jī)梯度下降(SGD)的隨機(jī)性。
論文鏈接:https://openreview.net/pdf?id=ry_WPG-A-
據(jù) Tishby 所講,信息瓶頸是一個(gè)根本性的學(xué)習(xí)原則,不管是算法、家蠅、有意識(shí)的存在還是突發(fā)事件的物理計(jì)算。我們期待已久的答案即是「學(xué)習(xí)的關(guān)鍵恰恰是遺忘?!?/p>
除了信息瓶頸理論之外,Tishby 還于 2019 年 12 月與幾位學(xué)者一起在頂級(jí)期刊《現(xiàn)代物理評(píng)論》上發(fā)表了一篇綜述文章《Machine learning and the physical sciences》,闡述了機(jī)器學(xué)習(xí)在物理學(xué)不同學(xué)科中的使用。對(duì)「物理 + 機(jī)器學(xué)習(xí)」感興趣的同學(xué)可以去讀一下。
論文鏈接:https://arxiv.org/pdf/1903.10563.pdf
網(wǎng)友翻譯版:https://blog.csdn.net/Wendy_WHY_123/article/details/104793247
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。