博客專欄

EEPW首頁 > 博客 > 研究揭秘:神經(jīng)網(wǎng)絡(luò)越大、表現(xiàn)越好的“神秘力量”

研究揭秘:神經(jīng)網(wǎng)絡(luò)越大、表現(xiàn)越好的“神秘力量”

發(fā)布人:數(shù)據(jù)派THU 時間:2022-03-13 來源:工程師 發(fā)布文章

以下文章來源于數(shù)據(jù)實戰(zhàn)派 ,作者青蘋果

圖片


對人類來說,對生拇指(opposable thumbs)的出現(xiàn)是一個重大的時刻。那么,如果在進化過程中大自然又賜給我們額外的拇指,人類使用工具的能力是否會更強呢?情況可能不會有太大改觀,畢竟一只手有一個拇指就夠了。
但對神經(jīng)網(wǎng)絡(luò)而言,并非如此。
神經(jīng)網(wǎng)絡(luò)已經(jīng)成為執(zhí)行類人任務(wù)(human-like)的領(lǐng)先AI系統(tǒng)。隨著其規(guī)模越來越大,理解力也隨之增強。這無疑對研究者來說,驚喜與挑戰(zhàn)并存。
基本的數(shù)學(xué)結(jié)果表明,網(wǎng)絡(luò)差不多大就可以了,但現(xiàn)代神經(jīng)網(wǎng)絡(luò)的規(guī)模往往遠超出預(yù)測需求——這種情況被稱為過度參數(shù)化(over-parameterization)。
一般來說,只要參數(shù)的數(shù)量大于要滿足的方程的數(shù)量,就可以使用參數(shù)化模型類進行數(shù)據(jù)插值。
而深度學(xué)習(xí)中一個令人費解的現(xiàn)象是,模型的訓(xùn)練參數(shù)比這個經(jīng)典理論所暗示的要多得多。具體而言,求解n個方程一般只需要 n 個未知數(shù)。然而,革命性的深度學(xué)習(xí)方法圍繞著高度參數(shù)化的模型,從 n 個訓(xùn)練數(shù)據(jù)點學(xué)習(xí)的參數(shù)遠遠超過 n 個。
圖片
NeurIPS 會議上發(fā)表的一篇題為“A Universal Law of Robustness via Isoperimetry”論文中,微軟研究院的 Sébastien Bubeck 和斯坦福大學(xué)的 Mark Sellke 對規(guī)模擴展成功背后的奧秘提供了新的解釋:找到一個擬合d維數(shù)據(jù)的平滑函數(shù)至少需要nd參數(shù)。
換句話說,d 因子的過度參數(shù)化對于平滑插值是必要的,這也恰好表明,深度學(xué)習(xí)中使用的大尺寸模型是有用的,而非框架的弱點。
而且,神經(jīng)網(wǎng)絡(luò)必須比傳統(tǒng)的預(yù)期要大得多,才能避免某些基本問題。
這一發(fā)現(xiàn)為一個持續(xù)了幾十年的問題提供了普適性的見解。
“這是一個非常有趣的數(shù)學(xué)理論結(jié)果?!比鹗柯迳B?lián)邦理工學(xué)院的Lenka Zdeborová說道?!八麄円砸环N非常普遍的方式證明了這一點。因此,從該意義上說,它將成為計算機科學(xué)的核心?!?/span>
對神經(jīng)網(wǎng)絡(luò)規(guī)模的標準期望,來自于對它們?nèi)绾斡洃洈?shù)據(jù)的分析。但要理解記憶,首要做的是理解網(wǎng)絡(luò)。
神經(jīng)網(wǎng)絡(luò)的一個常見任務(wù)是識別圖像中的物體。為了創(chuàng)建這樣的網(wǎng)絡(luò),首先,研究人員需要提供大量的圖像和標簽,以訓(xùn)練其學(xué)習(xí)數(shù)據(jù)之間的相關(guān)性。然后,網(wǎng)絡(luò)將會在所看到的圖像中進行正確地的識別。換句話說,訓(xùn)練會使網(wǎng)絡(luò)記住數(shù)據(jù)。更值得注意的是,一旦網(wǎng)絡(luò)記住了足夠多的訓(xùn)練數(shù)據(jù),它還能以不同程度的準確度預(yù)測從未見過的物體標簽,即泛化。
可以說,網(wǎng)絡(luò)的規(guī)模決定了它的記憶量。
這點可以借助圖形的方式加以理解。想象一下,在xy平面上得到了兩個數(shù)據(jù)點。接下來,你可以將這些點與一條由兩個參數(shù)(線的斜率和穿過垂直軸時的高度)描述的線相連接。如果給定其他人這條線,以及其中一個原始數(shù)據(jù)點的x坐標,那么,他們只需查看這條線(或使用參數(shù))就可以找出相應(yīng)的y坐標。因為,這條線已經(jīng)記住了這兩個數(shù)據(jù)點。
當(dāng)然,神經(jīng)網(wǎng)絡(luò)與之類似。例如,圖像由數(shù)百或數(shù)千個值描述——每個像素對應(yīng)一個值。構(gòu)成這個組合的自由值,在數(shù)學(xué)上就等價于高維空間中的點的坐標,而坐標的數(shù)量稱為維數(shù)。
一個古老的數(shù)學(xué)結(jié)果表明,要用曲線擬合n個數(shù)據(jù)點,需要一個包含n個參數(shù)的函數(shù)。當(dāng)神經(jīng)網(wǎng)絡(luò)在 20 世紀 80 年代首次作為一股力量出現(xiàn)時,思考同樣的事情是有意義的。無論數(shù)據(jù)的維度如何,他們應(yīng)該只需要n個參數(shù)來擬合n個數(shù)據(jù)點。
“這不再是將會發(fā)生的事情,”德克薩斯大學(xué)奧斯汀分校的 Alex Dimakis 說?!艾F(xiàn)在,我們常規(guī)地創(chuàng)建神經(jīng)網(wǎng)絡(luò),它的參數(shù)比訓(xùn)練樣本的數(shù)量還要多,這意味著書必須重寫。”
他們正在研究神經(jīng)網(wǎng)絡(luò)需要加強的另一種特性——魯棒性,即網(wǎng)絡(luò)處理微小變化的能力。例如,一個魯棒性差的網(wǎng)絡(luò)可能已經(jīng)學(xué)會了識別長頸鹿,但它會將一個幾乎沒有修改的版本錯誤地標記為沙鼠。2019 年,在 Bubeck 和同事們意識到這個問題與網(wǎng)絡(luò)規(guī)模有關(guān)時,也試圖進行一些與之相關(guān)的定理證明。
據(jù)研究推測,魯棒性法則應(yīng)該適用于所有的兩層神經(jīng)網(wǎng)絡(luò)。在本文中,研究團隊也證明了它實際上適用于任意光滑參數(shù)化函數(shù)類,只要參數(shù)的大小至多為多項式。而且多項式大小限制對于有界深度神經(jīng)網(wǎng)絡(luò)是必要的。
Bubeck 說:“我們當(dāng)時正在研究對抗的例子,然后網(wǎng)絡(luò)規(guī)模就強行加入了進來。于是,我們意識到這或許是一個令人難以置信的機會,因為涉及到了解規(guī)模本身的一系列問題?!?/span>
在研究過程中,這對搭檔證明了過度參數(shù)化對于網(wǎng)絡(luò)魯棒性的必要程度。隨后,他們通過計算需要多少個參數(shù)來將數(shù)據(jù)點與具有等同于魯棒性的曲線擬合,得出了平滑性(smoothness)。
為了充分理解該點,再次回想平面中的曲線,其中 x 坐標表示單個像素的顏色,y 坐標表示圖像標簽。由于曲線是平滑的,如果對像素顏色稍加修改,沿著曲線移動一小段距離,相應(yīng)的預(yù)測只會發(fā)生很小的變化。另一方面,對于明顯鋸齒狀的曲線,x 坐標的微小變化可能誘發(fā)y坐標的劇烈變化。
這項研究表明,平滑擬合高維數(shù)據(jù)點并非需要 n 個參數(shù),而是高達 n × d 個參數(shù),其中 d 是輸入的維數(shù)(例如,對于 784 像素的圖像,d 值為 784)。
換句話說,如果你希望網(wǎng)絡(luò)能可靠地記憶其訓(xùn)練數(shù)據(jù),過度參數(shù)化不僅有幫助,而且是強制性的。這一證明依賴于高維幾何的一個奇怪的事實,即在球面上隨機分布的點彼此之間幾乎都是一個直徑的距離。點之間的巨大間隔意味著用一條平滑的曲線擬合它們,需要許多額外的參數(shù)。
“這個證明非常簡單——不需要復(fù)雜的數(shù)學(xué)運算,而且說明了一些非常普遍的原理,”耶魯大學(xué)的 Amin Karbasi 說。
該結(jié)果提供了一種新穎的方法,以更好地理解為什么簡單的神經(jīng)網(wǎng)絡(luò)擴展策略卻如此有效。
除了這次的研究之外,其他相關(guān)的一些研究,也揭示了過度參數(shù)化之所以有用的原因。例如,它可以提高訓(xùn)練過程的效率,以及網(wǎng)絡(luò)的泛化能力。雖然依據(jù)目前所知,過度參數(shù)化對于魯棒性是必要的,但尚不清楚魯棒性對其他事物究竟有多重要。但是,如果能將其與過度參數(shù)化聯(lián)系起來,新的研究便給出了明示,魯棒性極有可能比人們想象的更重要。




*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

電磁爐相關(guān)文章:電磁爐原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉