7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度學(xué)習(xí)的黃金十年;擴散模型生成視頻
本周論文包括谷歌大牛 Jeff Dean 發(fā)文探索深度學(xué)習(xí)發(fā)展的黃金十年;Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡單策略,顯著提高了大型語言模型的推理準確率。
目錄
A Golden Decade of Deep Learning: Computing Systems & Applications
Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing
Self-Consistency Improves Chain of Thought Reasoning in Language Models
Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction
Video Diffusion Models
Overcoming a Theoretical Limitation of Self-Attention
RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:A Golden Decade of Deep Learning: Computing Systems & Applications
作者:Jeffrey Dean
論文鏈接:https://www.amacad.org/sites/default/files/publication/downloads/Daedalus_Sp22_04_Dean.pdf
摘要:自從計算機誕生之初,人類就夢想著能夠創(chuàng)造出會思考的機器。1956 年在達特茅斯學(xué)院組織的一個研討會上,約翰 · 麥卡錫提出人工智能這個概念,一群數(shù)學(xué)家和科學(xué)家聚集在一起尋找如何讓機器使用語言、形成抽象理解和概念、以解決現(xiàn)存的各種問題,當(dāng)時研討會參與者樂觀地認為,在幾個月的時間里這些問題能取得真正的進展。
事實證明,預(yù)留幾個月的時間安排過于樂觀。在接下來的 50 年里,創(chuàng)建人工智能系統(tǒng)的各種方法開始流行,但后來又遭遇過時,包括基于邏輯的系統(tǒng)、基于規(guī)則的專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)。
直到 2011 年左右,人工智能才開始進入發(fā)展關(guān)鍵階段,取得了巨大的進步,這得益于深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的復(fù)興,這些技術(shù)的進步有助于提高計算機看、聽和理解周圍世界的能力,使得人工智能在科學(xué)以及人類探索的其他領(lǐng)域取得巨大進步。這其中有哪些原因呢?
近日,谷歌大牛 Jeff Dean 發(fā)表了一篇文章《 A Golden Decade of Deep Learning: Computing Systems & Applications 》,文章探索了深度學(xué)習(xí)在這黃金十年里,計算系統(tǒng)以及應(yīng)用進步的原因都有哪些?本文重點關(guān)注三個方面:促成這一進步的計算硬件和軟件系統(tǒng);過去十年在機器學(xué)習(xí)領(lǐng)域一些令人興奮的應(yīng)用示例;如何創(chuàng)建更強大的機器學(xué)習(xí)系統(tǒng),以真正實現(xiàn)創(chuàng)建智能機器的目標。
Jeff Dean 的這篇文章發(fā)表在了美國文理學(xué)會會刊 D?dalus 的 AI 與社會(AI & Society)特刊上。
推薦:谷歌大牛 Jeff Dean 單一作者撰文:深度學(xué)習(xí)研究的黃金十年。
論文 2:Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing
作者:Zhuo Wang 、 Zezheng Wang 、 Zitong Yu 等
論文鏈接:https://arxiv.org/abs/2203.05340
摘要:在這篇文章中,該研究提出了一個新的網(wǎng)絡(luò)結(jié)構(gòu) SSAN,用以實現(xiàn)具有域泛化性的活體檢測算法。與過去的方法直接在圖像完全表征上提升域泛化性的思路不同,該研究基于內(nèi)容特征和風(fēng)格特征在統(tǒng)計特性上的差異,對他們實施不同的處理。具體而言,對于內(nèi)容特征,本文采用了對抗學(xué)習(xí)的方式,使得網(wǎng)絡(luò)無法對他們進行數(shù)據(jù)域?qū)用娴膮^(qū)分。對于風(fēng)格特征,本文使用了對比學(xué)習(xí)的策略,來強化與活體相關(guān)的風(fēng)格信息,同時抑制域信息相關(guān)的部分。然后,本文對配對的內(nèi)容和風(fēng)格特征進行組合,構(gòu)成完全特征表示,并用以最后的分類。
此外,為了彌合學(xué)術(shù)界與工業(yè)界之間的差異,本文通過合并現(xiàn)有的公開數(shù)據(jù)集,建立了大規(guī)?;铙w檢測測試協(xié)議。在現(xiàn)有的協(xié)議和本文所提出的協(xié)議上,所提出的 SSAN 算法均取得了最佳的表現(xiàn)。
本文方法的整體框架如圖二所示。首先,本文使用一個雙流網(wǎng)絡(luò)來對圖像的內(nèi)容信息和風(fēng)格信息進行提取。第二步,一種風(fēng)格重組的方法被提出,以使不同的內(nèi)容特征和風(fēng)格特征進行組合。然后,為了抑制域相關(guān)的風(fēng)格信息,同時增強活體相關(guān)的風(fēng)格信息,本文在重組后的特征空間上使用了對比學(xué)習(xí)的策略。最后,總的損失函數(shù)用來訓(xùn)練所提出的網(wǎng)絡(luò)。
整體網(wǎng)絡(luò)框架
推薦:快手、北郵提出基于特征組合的域泛化性活體檢測算法,多項 SOTA。
論文 3:Self-Consistency Improves Chain of Thought Reasoning in Language Models
作者:Xuezhi Wang 、 Jason Wei 等
論文鏈接:https://arxiv.org/pdf/2203.11171.pdf
摘要:盡管語言模型在一系列 NLP 任務(wù)中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴大模型規(guī)模不能解決這個問題?;诖耍琖ei et al. (2022) 提出了思維提示鏈(chain of thought prompting),提示語言模型生成一系列短句,這些短句模仿一個人在解決推理任務(wù)時可能采用的推理過程。
現(xiàn)在來自 Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡單策略,它顯著提高了大型語言模型的推理準確率。
簡單來說,復(fù)雜的推理任務(wù)通常有多個能得到正確答案的推理路徑,自洽方法通過思維提示鏈從語言模型中采樣一組不同的推理路徑,然后返回其中最自洽的答案。
該方法在一系列算術(shù)和常識推理基準上評估自洽性,可以穩(wěn)健地提高各種語言模型的準確性,而無需額外的訓(xùn)練或輔助模型。當(dāng)與最近的大型語言模型 PaLM-540B 結(jié)合使用時,自洽方法將多個基準推理任務(wù)的性能提高到 SOTA 水平。
該方法是完全無監(jiān)督的,預(yù)訓(xùn)練語言模型直接可用,不需要額外的人工注釋,也不需要任何額外的訓(xùn)練、輔助模型或微調(diào)。
該研究在三種大型語言模型上評估一系列算術(shù)推理和常識推理任務(wù)的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發(fā)現(xiàn),對于這幾種規(guī)模不同的語言模型,自洽方法都能顯著提高其推理能力。與通過貪心解碼(Wei et al., 2022)生成單一思維鏈相比,自洽方法有助于在所有推理任務(wù)中顯著提高準確性,如下圖 2 所示。
推薦:用自洽性提升大模型推理能力,谷歌解答基準中 75% 數(shù)學(xué)問題,比 GPT-3 提升 20%。
論文 4:Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction
作者:Mengmeng Sun、Chenyao Tian 等
論文鏈接:https://onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202112508
摘要:看過電影《毒液》的朋友都知道,「共生體」以液體狀的形式出現(xiàn),即使被打成肉泥或是一灘水,只要有足夠的時間也可以恢復(fù)?,F(xiàn)在,具有這般強大修復(fù)功能的機器人出現(xiàn)了。
這種「磁性粘液機器人」和粘液怪 slime 同名,是由來自哈爾濱工業(yè)大學(xué)和香港中文大學(xué)的研究者共同研發(fā)的,研究發(fā)表在同行評審期刊《Advanced Functional Materials》上。
slime 由聚乙烯醇、硼砂和釹磁鐵顆粒的混合物制成。研究團隊成員、香港中文大學(xué)教授張立說:「這種材料就像是水和淀粉的混合物,是一種非牛頓流體,其粘度會在外力作用下發(fā)生變化。當(dāng)你快速觸摸它時,它就像一個固體。當(dāng)你輕輕地、慢慢地觸摸它時,它就像液體一樣?!?/span>
由于該粘液中含有釹磁鐵等磁性顆粒,因此能夠由磁鐵控制其移動和變形,并且具有良好的導(dǎo)電性,可與電極相連,充當(dāng)電路開關(guān)。
slime 具備極好的拉伸性能,可以通過 1.5mm 的狹窄縫隙而不斷裂。該研究在相同的磁場條件下,比較了鐵磁流體液滴機器人和 slime 的拉伸能力。
此外,slime 能夠變成 O 形或 C 形來環(huán)繞細小的物體,一些科學(xué)家認為這可能對消化系統(tǒng)有用,例如減少吞下小電池的危害。他們認為使用這種粘液機器人對電池進行封裝,形成一種惰性涂層,可以避免有毒電解質(zhì)泄漏的危害。
推薦:來自哈爾濱工業(yè)大學(xué)和香港中文大學(xué)的研究者共同研發(fā)了一種磁性粘液機器人,具有強大的變形功能。
論文 5:Video Diffusion Models
作者:Jonathan Ho 、 Tim Salimans 等
論文鏈接:https://arxiv.org/pdf/2204.03458.pdf
摘要:擴散模型并不是一個嶄新的概念,早在 2015 年就已經(jīng)被提出。其核心應(yīng)用領(lǐng)域包括音頻建模、語音合成、時間序列預(yù)測、降噪等。
那么它在視頻領(lǐng)域表現(xiàn)如何?先前關(guān)于視頻生成的工作通常采用諸如 GAN、VAE、基于流的模型。
在視頻生成領(lǐng)域,研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴散模型來實現(xiàn)這一里程碑,顯示出非常有希望的初步結(jié)果。本文所提出的模型是標準圖像擴散架構(gòu)的自然擴展,它可以從圖像和視頻數(shù)據(jù)中進行聯(lián)合訓(xùn)練,研究發(fā)現(xiàn)這可以減少小批量梯度的方差并加快優(yōu)化速度。
為了生成更長和更高分辨率的視頻,該研究引入了一種新的用于空間和時間視頻擴展的條件采樣技術(shù),該技術(shù)比以前提出的方法表現(xiàn)更好。
例如生成五彩斑斕的煙花:
這項研究有哪些亮點呢?首先谷歌展示了使用擴散模型生成視頻的首個結(jié)果,包括無條件和有條件設(shè)置。先前關(guān)于視頻生成的工作通常采用其他類型的生成模型,如 GAN、VAE、基于流的模型和自回歸模型。
其次該研究表明,可以通過高斯擴散模型的標準公式來生成高質(zhì)量的視頻,除了直接的架構(gòu)更改以適應(yīng)深度學(xué)習(xí)加速器的內(nèi)存限制外,幾乎不需要其他修改。該研究訓(xùn)練生成固定數(shù)量的視頻幀塊的模型,并且為了生成比該幀數(shù)更長的視頻,他們還展示了如何重新調(diào)整訓(xùn)練模型的用途,使其充當(dāng)對幀進行塊自回歸的模型。
下圖左為利用梯度方法的視頻幀,圖右為利用自回歸擴展基線替代(replacement)方法的幀??梢钥吹剑褂锰荻确椒ú捎玫囊曨l比基線方法具有更好的時間相干性。
推薦:視頻生成無需 GAN、VAE,谷歌用擴散模型聯(lián)合訓(xùn)練視頻、圖像,實現(xiàn)新 SOTA。
論文 6:Overcoming a Theoretical Limitation of Self-Attention
作者:David Chiang 、 Peter Cholak
論文鏈接:https://arxiv.org/pdf/2202.12172.pdf
摘要:盡管 transformer 模型在許多任務(wù)中都非常有效,但它們對一些看起來異常簡單的形式語言卻難以應(yīng)付。Hahn (2020) 提出一個引理 5),來試圖解釋這一現(xiàn)象。這個引理是:改變一個輸入符號只會將 transformer 的輸出改變
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。