可構(gòu)建AI的「AI」誕生：幾分之一秒內(nèi)，就能預(yù)測新網(wǎng)絡(luò)的參數(shù)

發(fā)布人：AI科技大本營時間：2022-02-12 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源 | 學(xué)術(shù)頭條

人工智能在很大程度上是一場數(shù)字游戲。當(dāng)深度神經(jīng)網(wǎng)絡(luò)在 10 年前開始超越傳統(tǒng)算法，是因為我們終于有了足夠的數(shù)據(jù)和處理能力來充分利用它們。

今天的神經(jīng)網(wǎng)絡(luò)更依賴于數(shù)據(jù)和算力。訓(xùn)練網(wǎng)絡(luò)時，需要仔細調(diào)整表征網(wǎng)絡(luò)的數(shù)百萬甚至數(shù)十億參數(shù)值，這些參數(shù)代表人工神經(jīng)元之間連接的強度。目標(biāo)是為它們找到接近理想的值，這個過程稱為優(yōu)化。但訓(xùn)練網(wǎng)絡(luò)要達到這一點并不容易。倫敦 DeepMind 的研究科學(xué)家 Petar Veli?kovi? 說：“訓(xùn)練可能需要花費幾天、幾周甚至幾個月的時間”。

但上述這種情況可能很快就會改變。安大略省圭爾夫大學(xué)的 Boris Knyazev 和他的同事設(shè)計并訓(xùn)練了一個“超網(wǎng)絡(luò)”——一種其他神經(jīng)網(wǎng)絡(luò)的“霸主”，該網(wǎng)絡(luò)可以加快訓(xùn)練過程。給定一個為某些任務(wù)設(shè)計的新的、未經(jīng)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)，超網(wǎng)絡(luò)可以在幾分之一秒內(nèi)預(yù)測新網(wǎng)絡(luò)的參數(shù)，理論上可以使訓(xùn)練變得不必要。由于超網(wǎng)絡(luò)學(xué)習(xí)了深度神經(jīng)網(wǎng)絡(luò)設(shè)計中極其復(fù)雜的模式，因此這項工作也可能具有更深層次的理論意義。這項研究題為 Parameter Prediction for Unseen Deep Architectures。

目前，超網(wǎng)絡(luò)在某些環(huán)境中表現(xiàn)的出人意料地好，但仍有增長空間。Veli?kovi? 說：“如果他們能解決相應(yīng)問題，這將對機器學(xué)習(xí)產(chǎn)生很大的影響”。

獲得“超能力”

目前，訓(xùn)練和優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的最佳方法是一種稱為隨機梯度下降技術(shù)（SGD）的變體。訓(xùn)練涉及在給定任務(wù)中（例如：圖像識別）最小化網(wǎng)絡(luò)誤差。SGD 算法通過大量標(biāo)記數(shù)據(jù)來調(diào)整網(wǎng)絡(luò)參數(shù)，并減少誤差或損失。梯度下降是損失函數(shù)從高值向下降到某個最小值的迭代過程，它代表了足夠好的（有時甚至?xí)r最好的）參數(shù)值。

但是這種技術(shù)只有在網(wǎng)絡(luò)需要優(yōu)化時才有效。為了構(gòu)建最初的神經(jīng)網(wǎng)絡(luò)（一般由從輸入到輸出的多層人工神經(jīng)元組成），工程師必須依靠直覺和經(jīng)驗法則。這些架構(gòu)在神經(jīng)元層數(shù)、每層神經(jīng)元數(shù)等方面可能有所不同。

微信圖片_20220212154301.jpg

圖1 梯度下降算法用來降低網(wǎng)絡(luò)的“損失函數(shù)”，其中較高的值表示較大的損失。該算法試圖找到全局最小值以最小化損失。

理論上，一個人可以從很多架構(gòu)開始，然后優(yōu)化每個架構(gòu)并選擇最好的。但現(xiàn)任 Google Brain 的訪問研究員 MengYe Ren 說：“訓(xùn)練需要花費相當(dāng)多的時間，訓(xùn)練和測試每個候選網(wǎng)絡(luò)架構(gòu)是不可能的。它不能很好地擴展，尤其是考慮到數(shù)百萬種可能的設(shè)計?！?/p>

所以在 2018 年，Ren 和他在多倫多大學(xué)的前同事 Chris Zhang 及他們的顧問 Raquel Urtasun 嘗試了一種不同的方法。他們設(shè)計了所謂的圖超網(wǎng)絡(luò)（Graph Hypernetwork: GHN），可以在給定一組候選架構(gòu)的情況下，找到解決某些任務(wù)的最佳深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。

該名稱概述了他們的方法?！皥D”指的是深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)，可以被認為是一個數(shù)學(xué)圖——由線或邊連接的點或節(jié)點的集合。這里的節(jié)點代表計算單元（通常是神經(jīng)網(wǎng)絡(luò)的整個層），邊代表這些單元互連的方式。

圖超網(wǎng)絡(luò)的工作原理是首先對于任何需要優(yōu)化的架構(gòu)（稱其為候選架構(gòu)），它盡最大努力預(yù)測候選者的理想?yún)?shù)。然后將實際神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置為預(yù)測值，并在給定任務(wù)上對其進行測試。Ren 的團隊表明，這種方法可用于對候選架構(gòu)進行排名，并選擇表現(xiàn)最佳的架構(gòu)。

當(dāng) Knyazev 和他的同事看到圖超網(wǎng)絡(luò)的想法時，他們意識到可以在此基礎(chǔ)上進行構(gòu)建。在他們的新論文中，該團隊展示了如何使用 GHN，不僅從一組樣本中找到最佳架構(gòu)，還可以預(yù)測最佳網(wǎng)絡(luò)的參數(shù)，使其在絕對意義上表現(xiàn)良好。在還沒有達到最好的情況下，其可以使用梯度下降進一步訓(xùn)練網(wǎng)絡(luò)。

Ren 說：“這是一篇非常扎實的論文，它包含了更多我們所做的實驗。看到圖超網(wǎng)絡(luò)在非常努力地提升絕對性能，我們大家都很高興?！?/p>

訓(xùn)練“教練”

Knyazev 和他的團隊將他們的超網(wǎng)絡(luò)命名為 GHN-2，它改進了Ren及其同事構(gòu)建的圖超網(wǎng)絡(luò)的兩個重要方面。

首先，他們依賴 Ren 等人將神經(jīng)網(wǎng)絡(luò)架構(gòu)描繪為圖的技術(shù)。圖中的每個節(jié)點都是關(guān)于執(zhí)行某種特定類型計算的神經(jīng)元子集的編碼信息。圖的邊緣描繪了信息如何從一個節(jié)點到另一個節(jié)點，從輸入到輸出。

第二，他們借鑒了訓(xùn)練超網(wǎng)絡(luò)預(yù)測新的候選架構(gòu)的方法。這需要另外兩個神經(jīng)網(wǎng)絡(luò)。第一個啟用對原始候選圖的計算，從而更新與每個節(jié)點相關(guān)的信息，第二個將更新的節(jié)點作為輸入，并預(yù)測候選神經(jīng)網(wǎng)絡(luò)的相應(yīng)計算單元的參數(shù)。這兩個網(wǎng)絡(luò)也有自己的參數(shù)，必須在超網(wǎng)絡(luò)正確預(yù)測參數(shù)值之前對其進行優(yōu)化。

具體流程如下，首先你需要訓(xùn)練數(shù)據(jù)——候選人工神經(jīng)網(wǎng)絡(luò)（Artifical Neural Network: ANN）架構(gòu)的隨機樣本。對于示例中的每一個架構(gòu)，先從一個圖開始，之后使用圖超神經(jīng)網(wǎng)絡(luò)預(yù)測參數(shù)，并使用預(yù)測的參數(shù)初始化候選 ANN。使用 ANN 來執(zhí)行一些特定的任務(wù)，如圖像識別。通過計算 ANN 的損失函數(shù)，來更新做出預(yù)測的超網(wǎng)絡(luò)參數(shù)，而不是更新 ANN 的參數(shù)做出預(yù)測。這樣可以使超網(wǎng)絡(luò)在每一次迭代后做的更好；然后，通過迭代標(biāo)記過的訓(xùn)練數(shù)據(jù)集中的每一個圖像和架構(gòu)的隨機樣本中的每一個 ANN，來減少每一步的損失，直到達到最優(yōu)。一般這個情況下，你就可以得到一個訓(xùn)練有素的超網(wǎng)絡(luò)。

因為 Ren 的團隊沒有公開源代碼，所以 Knyazev 的團隊采納了這些想法，從頭開始編寫了自己的軟件，并對其進行了改進。首先，他們確定了 15 種類型的節(jié)點，通過混合、匹配可以構(gòu)建任何現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)。他們還在提高預(yù)測的準(zhǔn)確性上取得了一些進步。

最重要的是，為了確保 GHN-2 學(xué)會預(yù)測各種目標(biāo)神經(jīng)網(wǎng)絡(luò)架構(gòu)的參數(shù)，Knyazev 及其同事創(chuàng)建了一個包含 100 萬個可能架構(gòu)的獨特數(shù)據(jù)集。Knyazev 說：“為了訓(xùn)練我們的模型，我們創(chuàng)建了盡可能多樣化的隨機架構(gòu)”。

因此，GHN-2 的預(yù)測能力更有可能被很好地推廣到看不見的目標(biāo)架構(gòu)。谷歌研究院大腦團隊的研究科學(xué)家 Thomas Kipf 說：“例如，它們可以解釋人們使用的所有典型的最先進的架構(gòu)，這是一個重大貢獻。”

微信圖片_20220212154338.jpg

圖2 圖神經(jīng)網(wǎng)絡(luò)

圖片令人印象深刻的結(jié)果

當(dāng)然，真正的考驗是讓 GHN-2 發(fā)揮作用。一旦 Knyazev 和他的團隊訓(xùn)練它預(yù)測給定任務(wù)的參數(shù)，例如，對特定數(shù)據(jù)集中的圖像進行分類，他們就測試了它為任何隨機候選架構(gòu)預(yù)測參數(shù)的能力。這個新的候選者可能具有與訓(xùn)練數(shù)據(jù)集中的百萬架構(gòu)相似的屬性，或者可能不同——有點離群值。在前一種情況下，目標(biāo)架構(gòu)被認為是在分發(fā)中；在后者中，它已無法分發(fā)。深度神經(jīng)網(wǎng)絡(luò)在對后者進行預(yù)測時經(jīng)常會失敗，因此在此類數(shù)據(jù)上測試 GHN-2 非常重要。

借助經(jīng)過全面訓(xùn)練的 GHN-2 模型，該團隊預(yù)測了 500 個以前看不見的隨機目標(biāo)網(wǎng)絡(luò)架構(gòu)的參數(shù)。然后將這 500 個網(wǎng)絡(luò)（其參數(shù)設(shè)置為預(yù)測值）與使用隨機梯度下降訓(xùn)練的相同網(wǎng)絡(luò)進行對比。盡管有些結(jié)果更加復(fù)雜，但新的超網(wǎng)絡(luò)通?？梢缘钟鶖?shù)千次 SGD 迭代，有時甚至做得更好。

微信圖片_20220212154359.jpg

圖3 安大略省圭爾夫大學(xué)的 Boris Knyazev ，幫助建立了一個超網(wǎng)絡(luò)，旨在預(yù)測未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的參數(shù)。

對于圖像數(shù)據(jù)集 CIFAR-10 ，GHN-2 在分布式架構(gòu)上的平均準(zhǔn)確率為 66.9%，而使用接近 2,500 次 SGD 迭代訓(xùn)練的網(wǎng)絡(luò)，所達到的平均準(zhǔn)確率為 69.2%。對于非分布式架構(gòu)，GHN-2 的表現(xiàn)出人意料地好，達到了大約 60% 的準(zhǔn)確率。特別是，它對一種特定知名深度神經(jīng)網(wǎng)絡(luò)架構(gòu) ResNet-50 實現(xiàn)了 58.6% 的可觀準(zhǔn)確率。Knyazev 在該領(lǐng)域的旗艦會議 NeurIPS 2021 上說：“鑒于 ResNet-50 比我們的平均訓(xùn)練架構(gòu)大大約 20 倍，所以 ResNet-50 的泛化效果出奇地好，”。

GHN-2 在 ImageNet 上表現(xiàn)不佳，ImageNet 是一個相當(dāng)大的數(shù)據(jù)集。平均而言，它的準(zhǔn)確率只有 27.2% 左右。盡管如此，這與使用 5,000 步 SGD 訓(xùn)練的相同網(wǎng)絡(luò)的 25.6% 的平均準(zhǔn)確度相比也是有利的。（當(dāng)然，如果你繼續(xù)使用 SGD，你最終可以以相當(dāng)大的成本獲得 95% 的準(zhǔn)確率。）最關(guān)鍵的是，GHN-2 在不到一秒的時間內(nèi)做出了 ImageNet 預(yù)測，而使用 SGD 在圖形處理單元上預(yù)測參數(shù)，來獲得相同的性能，平均花費時間比 GHN-2 要長 10,000 倍。

Veli?kovi? 說：“結(jié)果絕對令人印象深刻，他們基本上大大降低了能源成本。”

當(dāng) GHN-2 從架構(gòu)樣本中為一項任務(wù)找到最佳神經(jīng)網(wǎng)絡(luò)，而該最佳選擇還不夠好時，至少模型已經(jīng)得到了部分訓(xùn)練并且可以進一步優(yōu)化。與其在使用隨機參數(shù)初始化的網(wǎng)絡(luò)上釋放 SGD，不如使用 GHN-2 的預(yù)測作為起點。Knyazev 說：“基本上我們模仿的是預(yù)訓(xùn)練”。

超越 GHN-2

盡管取得了這些成功，Knyazev 認為機器學(xué)習(xí)社區(qū)一開始會抵制使用圖超網(wǎng)絡(luò)。他將其比作 2012 年之前深度神經(jīng)網(wǎng)絡(luò)面臨的阻力。當(dāng)時，機器學(xué)習(xí)從業(yè)者更喜歡手工設(shè)計的算法，而不是神秘的深度網(wǎng)絡(luò)。但是，當(dāng)對大量數(shù)據(jù)進行訓(xùn)練的大型深度網(wǎng)絡(luò)開始超越傳統(tǒng)算法時，這種情況發(fā)生了變化。Knyazev ：“這可以走同樣的路?！?/p>

與此同時，Knyazev 看到了很多改進的機會。例如，GHN-2 只能被訓(xùn)練來預(yù)測參數(shù)以解決給定的任務(wù)，例如對 CIFAR-10 或 ImageNet 圖像進行分類，但不能同時進行。在未來，他設(shè)想在更多樣化的架構(gòu)和不同類型的任務(wù)（例如圖像識別、語音識別和自然語言處理）上訓(xùn)練圖超網(wǎng)絡(luò)。然后根據(jù)目標(biāo)架構(gòu)和手頭的特定任務(wù)來進行預(yù)測。

如果這些超網(wǎng)絡(luò)真的成功，新的深度神經(jīng)網(wǎng)絡(luò)的設(shè)計和開發(fā)，將不再局限于財力雄厚和能夠訪問大數(shù)據(jù)的公司。任何人都可以參與其中。Knyazev 非常清楚這種“使深度學(xué)習(xí)民主化”的潛力，稱其為長期愿景。

然而，如果像 GHN-2 這樣的超網(wǎng)絡(luò)真的成為優(yōu)化神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)方法，Veli?kovi? 強調(diào)了一個潛在的大問題。他說：“你有一個神經(jīng)網(wǎng)絡(luò)——本質(zhì)上是一個黑盒子，再使用圖超網(wǎng)絡(luò)去預(yù)測另一個神經(jīng)網(wǎng)絡(luò)的參數(shù)。當(dāng)它出錯時，你無法解釋[它]?！?/p>

當(dāng)然，在很大程度上這已經(jīng)是神經(jīng)網(wǎng)絡(luò)的特點了。Veli?kovi? 說：“我不會稱之為弱點，而稱之為警告信號?！?/p>

然而，Kipf 看到了一線希望?！耙恍┢渌氖挛镒屛覍Υ烁械阶钆d奮，即 GHN-2 展示了圖神經(jīng)網(wǎng)絡(luò)在復(fù)雜數(shù)據(jù)中尋找模式的能力?！?/p>

通常，深度神經(jīng)網(wǎng)絡(luò)會在圖像、文本或音頻信號中找到模式，這些是相當(dāng)結(jié)構(gòu)化的信息類型。而 GHN-2 在完全隨機的神經(jīng)網(wǎng)絡(luò)架構(gòu)圖中找到模式。這是非常復(fù)雜的數(shù)據(jù)。

然而，GHN-2 可以泛化——這意味著它可以對看不見的、甚至分布式網(wǎng)絡(luò)架構(gòu)以外的參數(shù)做出合理的預(yù)測。Kipf 說：“這項工作向我們展示了許多模式在不同的架構(gòu)中以某種方式相似，并且模型可以學(xué)習(xí)如何將知識從一種架構(gòu)轉(zhuǎn)移到不同的架構(gòu)，這可能會激發(fā)一些神經(jīng)網(wǎng)絡(luò)的新理論?！?/p>

如果是這樣的話，它可能會讓我們對這些黑匣子產(chǎn)生新的、更深入的理解。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

可構(gòu)建AI的「AI」誕生：幾分之一秒內(nèi)，就能預(yù)測新網(wǎng)絡(luò)的參數(shù)

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

可構(gòu)建AI的「AI」誕生：幾分之一秒內(nèi)，就能預(yù)測新網(wǎng)絡(luò)的參數(shù)

相關(guān)推薦

技術(shù)專區(qū)

可構(gòu)建AI的「AI」誕生：幾分之一秒內(nèi)，就能預(yù)測新網(wǎng)絡(luò)的參數(shù)