NeurIPS 2022 | 一窺人工智能大一統(tǒng)與理論研究的最新進展(1)
在本屆大會中,微軟亞洲研究院也有諸多論文入選,內(nèi)容主要涵蓋人工智能五大熱點話題:人工智能走向大一統(tǒng)、計算機理論、賦能產(chǎn)業(yè)界的人工智能、負責(zé)任的人工智能、人工智能賦能內(nèi)容與設(shè)計生成。在接下來的幾周里,我們將按話題與大家分享相關(guān)領(lǐng)域的學(xué)術(shù)最前沿!今天,讓我們先從“人工智能走向大一統(tǒng)”和“計算機理論”話題下的8篇論文精華開始。
歡迎參與文末投****,選出你最想看的論文直播!
人工智能走向大一統(tǒng)
The Big Convergence of AI
01
針對強化學(xué)習(xí)的掩碼隱空間重建
論文鏈接:
https://www.microsoft.com/en-us/research/publication/mask-based-latent-reconstruction-for-reinforcement-learning/
視覺狀態(tài)表征的質(zhì)量對基于視覺的強化學(xué)習(xí)(vision-based reinforcement learning)至關(guān)重要。為了學(xué)習(xí)高效的狀態(tài)表征,微軟亞洲研究院的研究員們創(chuàng)新性地將基于掩碼的建模技術(shù)(mask-based modeling)應(yīng)用到強化學(xué)習(xí)中,以促進其狀態(tài)表征學(xué)習(xí)。此前基于掩碼的建模技術(shù)已經(jīng)在 CV 和 NLP 領(lǐng)域中大放異彩,而這項工作是將其應(yīng)用到強化學(xué)習(xí)領(lǐng)域幫助策略學(xué)習(xí)的首次探索。
具體地,研究員們提出了一種簡單而有效的自監(jiān)督方法,即基于掩碼的隱空間重建 (mask-based latent reconstruction,簡稱為 MLR)。MLR 通過從具有時空掩碼的視覺狀態(tài)中預(yù)測其在隱空間中的完整表征,從而使神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)狀態(tài)表征時能夠更好地利用上下文信息,編碼更多策略學(xué)習(xí)所需要的語義信息。大量基準(zhǔn)實驗表明,MLR 顯著提高了強化學(xué)習(xí)算法的樣本效率(sample efficiency),在多個連續(xù)和離散的強化學(xué)習(xí)環(huán)境中取得了 SOTA 的性能。
圖1:基于掩碼的隱空間重建(MLR)的框架示意圖
02
基于滑動語言模型的句子評分轉(zhuǎn)換器
論文鏈接:
https://www.microsoft.com/en-us/research/publication/transcormer-transformer-for-sentence-scoring-with-sliding-language-modeling/
句子評分旨在評估一個句子的最大似然估計,被廣泛應(yīng)用于許多自然語言任務(wù)的場景中,包括重排序、語言可接受性等。過去用于解決句子評分的工作主要以兩種經(jīng)典語言模型為主:因果語言模型(causal language modeling, CLM)和掩碼語言模型(masked language modeling, MLM)。然而,這些工作都存在一定的瓶頸:CLM 雖然只需要計算一次但卻只利用了單向信息;MLM 能夠利用雙向語義,但每次只能預(yù)測部分單詞而不得不需要多次推理。
因此,微軟亞洲研究院的研究員們提出了一種基于滑動語言模型的 Transformer 模型 Transcormer,并在其中設(shè)計了一種三流自注意力機制用于維護滑動語言模型。利用這樣的設(shè)計,Transcormer 可以確保模型能夠利用雙向信息進行預(yù)測的同時,只需一次計算即可得到所有單詞的概率?;瑒诱Z言模型在計算句子評分時,Transcormer 還可以避免 CLM 只能利用單向信息的缺點以及 MLM 需要多次計算的不足。實驗結(jié)果表明,Transcormer 在句子評分任務(wù)上能夠取得比其他方法更好的結(jié)果。
圖2:Transcormer 結(jié)構(gòu)示意圖:左側(cè)為前向流,右側(cè)為后向流,中間為詢問流。其中,前向流用于收集前向語義,后向流用于收集后向語義,而詢問流用于捕獲當(dāng)前位置在其之前的前向流語義和其之后的后向流語義
03
周邊視覺注意力網(wǎng)絡(luò)
論文鏈接:
https://www.microsoft.com/en-us/research/publication/peripheral-vision-transformer/
人類擁有周邊視覺這種特殊的視覺處理系統(tǒng)。具體來說,我們的整個視野可以根據(jù)到凝視中心的距離被劃分為多個輪廓區(qū)域,而周邊視覺使我們能夠感知不同區(qū)域的各種視覺特征。受該生物學(xué)啟發(fā),微軟亞洲研究院的研究員們開始探索在深度神經(jīng)網(wǎng)絡(luò)中模擬周邊視覺進行視覺識別的方法。
研究員們所設(shè)計的 PerViT 網(wǎng)絡(luò),可以將輪廓區(qū)域通過位置編碼結(jié)合到多頭自注意力機制中,使網(wǎng)絡(luò)掌握如何將視野劃分為不同輪廓區(qū)域的方法,并能夠從不同區(qū)域中提取相應(yīng)的特征。研究員們系統(tǒng)地研究了機器感知模型的內(nèi)部工作原理,發(fā)現(xiàn)網(wǎng)絡(luò)學(xué)習(xí)感知視覺數(shù)據(jù)的方式與人類視覺相似。在 ImageNet-1K 上對 PerViT 網(wǎng)絡(luò)評估的結(jié)果顯示,PerViT 在不同模型大小上的圖像分類性能均優(yōu)于基線,證明了該方法的有效性。
圖3:人類周邊視覺(上)與基于注意力的神經(jīng)網(wǎng)絡(luò)(下)相結(jié)合以進行視覺識別的示意圖
04
VRL3:由數(shù)據(jù)驅(qū)動的視覺深度強化學(xué)習(xí)框架
論文鏈接:
https://www.microsoft.com/en-us/research/publication/vrl3-a-data-driven-framework-for-visual-deep-reinforcement-learning/
在強化學(xué)習(xí),尤其是機器人系統(tǒng)的訓(xùn)練中,新數(shù)據(jù)樣本的采集往往十分昂貴。為了實現(xiàn)經(jīng)濟,高效,服務(wù)于大眾的泛用性強化學(xué)習(xí)和機器人技術(shù),研究員們嘗試結(jié)合利用多種數(shù)據(jù)來源,大幅提高訓(xùn)練效率。研究員們設(shè)計了一個全新的數(shù)據(jù)驅(qū)動的學(xué)習(xí)框架 VRL3。VRL3 使用了三階段的訓(xùn)練方式,整合了非強化學(xué)習(xí)的大規(guī)模圖像數(shù)據(jù)集,有限的人類專家示范以及在線強化學(xué)習(xí)數(shù)據(jù),并加以充分利用,其可在基于視覺輸入的深度強化學(xué)習(xí)任務(wù)尤其是模擬機器人任務(wù)上,以驚人的樣本效率進行學(xué)習(xí)。
相比之前的最先進方法,在極富挑戰(zhàn)性的 Adroit 機械手基準(zhǔn)測試中最難的任務(wù)上,VRL3 可極其顯著地將樣本效率提高24倍,并以10倍更快計算速度和3倍更少參數(shù)需求完成訓(xùn)練。在達到極高性能的同時,VRL3 追求大道至簡的設(shè)計理念,用簡單易懂的設(shè)計思路和代碼實現(xiàn)。這項研究向?qū)崿F(xiàn)高效、便攜、低成本可廣泛服務(wù)于大眾的強化學(xué)習(xí)和機器人系統(tǒng)邁出了關(guān)鍵一步。
圖4:VRL3 模型設(shè)計圖
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。
單片機相關(guān)文章:單片機教程
單片機相關(guān)文章:單片機視頻教程
單片機相關(guān)文章:單片機工作原理
網(wǎng)線測試儀相關(guān)文章:網(wǎng)線測試儀原理