解決神經(jīng)網(wǎng)絡的百年難題,MIT新模型Liquid CfC讓模擬大腦動力學成為可能
隨著神經(jīng)元數(shù)量的增加,人工智能模型的訓練和計算成本都變得非常高昂。有沒有一種模型能夠既實現(xiàn)類似于人腦的神經(jīng)模擬,又速度快成本低呢?
在自動駕駛等許多重要應用中,數(shù)據(jù)都是實時動態(tài)的,并且包含一些意外情況。為了高效應對實時數(shù)據(jù),去年 MIT 的研究者受生物神經(jīng)元啟發(fā)設計了一種新型「Liquid」神經(jīng)網(wǎng)絡,其不僅能在訓練階段學習,而且還能持續(xù)不斷地適應。之所以將這種靈活的算法命名為「Liquid」神經(jīng)網(wǎng)絡,是因為其能像「液體」一樣改變其底層的數(shù)學方程以持續(xù)適應新的輸入數(shù)據(jù)。
我們可以將「liquid」神經(jīng)網(wǎng)絡理解為是一類具有靈活性、魯棒性的機器學習模型,它可以在工作中學習,并適應不斷變化的外部條件,可用于駕駛、飛行等安全性至關重要的任務。
所謂靈活性,是指「liquid」神經(jīng)網(wǎng)絡對多種任務都適合:例如對涉及時間序列的任務能夠做出更好的決策,其中包括對大腦和心臟的監(jiān)測、天氣和股****價格的預測等。
但隨著神經(jīng)元和突觸數(shù)量的增加,模型的計算成本劇增,一些復雜的數(shù)學問題需要計算大量的步驟才能得到最終的解決方案。高昂的成本成為高性能神經(jīng)網(wǎng)絡面對的重要挑戰(zhàn)。
現(xiàn)在,MIT 的「liquid」神經(jīng)網(wǎng)絡團隊發(fā)現(xiàn)了緩解這一瓶頸的方法,即求解兩個神經(jīng)元通過突觸相互作用背后的微分方程?;诖?,他們提出了一種快速高效的新型人工智能算法 CfC(closed-form continuous-depth networks),其具有與 liquid 神經(jīng)網(wǎng)絡相同的特征——靈活性、因果性、魯棒性和可解釋性——但速度更快,且可擴展。
論文地址:https://www.nature.com/articles/s42256-022-00556-7
代碼地址:https://github.com/raminmh/CfC
論文作者之一、MIT 的教授 Daniela Rus 介紹道:「新機器學習模型 CfC 用一個閉合的(closed form)近似形式取代了定義神經(jīng)元計算的微分方程,同時保留了 liquid 網(wǎng)絡的特性,而不需要數(shù)值積分?!笴fC 模型因此具有因果性、緊湊性、可解釋性,并且可以高效地進行訓練和預測。
這種 closed-form 的近似方法讓該研究成功求解了描述神經(jīng)元和突觸相互作用的微分方程,而這是自 1907 年以來首次攻克這一數(shù)學難題,將讓神經(jīng)網(wǎng)絡的研究獲得質(zhì)的飛躍。論文第一作者、MIT CSAIL 研究科學家 Ramin Hasani 也在推特上激動地發(fā)文稱解決了這個百年難題。
CfC 模型最大的優(yōu)點也是靈活性,可用于需要長期洞察數(shù)據(jù)的任務。相比于大多數(shù)固定的傳統(tǒng)模型,CfC 緊湊且適應性強。
在模型性能方面,CfC 在一系列任務上都優(yōu)于當前的 SOTA 模型,在通過運動傳感器識別人類動作、模擬步行機器人的物理動力學建模以及基于事件的序列圖像處理等多個任務上都具有更高的處理速度和性能。
下圖是與其他幾種經(jīng)典模型的性能比較結果:
與基于微分方程的對應模型相比,CfC 在訓練和推理方面速度要快 1 到 5 個數(shù)量級。更重要的是,與基于普通微分方程的連續(xù)網(wǎng)絡相比,CfC 可以很好地進行擴展。最后,由于 CfC 模型源自 liquid 網(wǎng)絡,與先進的循環(huán)神經(jīng)網(wǎng)絡模型相比,CfC 在時間序列建模方面表現(xiàn)出良好的性能。
微分方程使我們能夠計算事件在演化過程中的狀態(tài),使用 CfC 神經(jīng)網(wǎng)絡,人們可以在任意時間計算這個方程。由于不需要一步步求解微分方程,因此計算速度也快得多。
想象一下,如果一個端到端的神經(jīng)網(wǎng)絡以安裝在汽車上的攝像頭接收數(shù)據(jù)作為輸入,以汽車的轉向角為輸出,那么自動駕駛領域的一些問題就迎刃而解。
2020 年,MIT 的團隊就通過使用具有 19 個節(jié)點的「liquid」神經(jīng)網(wǎng)絡解決了這個問題——以 19 個神經(jīng)元加上一個小型感知模塊來驅動汽車。以少量神經(jīng)元解決復雜問題,這意味著「liquid」神經(jīng)網(wǎng)絡會速度更快,計算成本更低。
從這個角度講,closed-form 微分方程對推進人工智能系統(tǒng)的研究具有深遠的影響?!府斘覀儗ι窠?jīng)元和突觸的通信進行 closed-form 的描述時,我們可以構建具有數(shù)十億個細胞的大腦計算模型,由于神經(jīng)科學模型的計算復雜性很高,這種能力在今天是不可能的。而 closed-form 的方程有助于實現(xiàn)這種宏大的模擬,為我們理解智能開辟了新的研究途徑」,Ramin Hasani 說道。
此外,已有研究表明 Liquid CfC 模型可以在一個環(huán)境中從視覺輸入中學習任務,并將其學到的技能遷移到一個全新的環(huán)境中,而無需額外的訓練。這被稱為分布外泛化,是人工智能研究最基本的挑戰(zhàn)之一。
我們來看一下 CfC 在一些具體任務上的實驗結果。
在一項醫(yī)學預測任務中,CfC 在 8000 名患者的樣本中預測速度提高了 220 倍。
在醫(yī)學數(shù)據(jù)集 PhysioNet 上各模型執(zhí)行預測任務的性能。
在情感分析方面,該研究在互聯(lián)網(wǎng)電影數(shù)據(jù)集 IMDB 上測試了 CfC 模型和其他一些經(jīng)典模型的性能,結果如下:
該研究還讓幾種模型模擬步行機器人的物理動力學,其中 CfC 模型的性能顯著優(yōu)于其他基線模型:
對于這項解決神經(jīng)網(wǎng)絡難題的研究,波音子公司 Aurora Flight Sciences 的人工智能和機器學習小組負責人 Sildomar Monteiro 博士評論道:「近來神經(jīng)網(wǎng)絡架構(例如神經(jīng) ODE 和「liquid」神經(jīng)網(wǎng)絡)具有一種特殊的隱藏層,這種隱藏層由表示無限潛在狀態(tài)的特定動力系統(tǒng)組成。這些隱式定義的模型獲得了 SOTA 性能,并且所需的參數(shù)比傳統(tǒng)架構少得多。然而,由于訓練和推理所需的高計算成本,它們的實際采用受到限制。而 MIT 的新研究顯著提高了這類神經(jīng)網(wǎng)絡的計算效率,這將被廣泛應用于與安全有關的現(xiàn)實任務中?!?/span>
參考鏈接:
https://twitter.com/search?q=Ramin%20Hasani&src=typed_query
https://www.csail.mit.edu/news/solving-brain-dynamics-gives-rise-flexible-machine-learning-models
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。