博客專欄

EEPW首頁(yè) > 博客 > 微軟亞洲研究院持續(xù)迭代BEiT,為通用基礎(chǔ)模型的大一統(tǒng)發(fā)展奠定基礎(chǔ)

微軟亞洲研究院持續(xù)迭代BEiT,為通用基礎(chǔ)模型的大一統(tǒng)發(fā)展奠定基礎(chǔ)

發(fā)布人:MSRAsia 時(shí)間:2022-11-21 來(lái)源:工程師 發(fā)布文章
編者按:近期,微軟亞洲研究院聯(lián)合微軟圖靈團(tuán)隊(duì)推出了 BEiT-3 預(yù)訓(xùn)練模型,并在廣泛的視覺(jué)及視覺(jué)-語(yǔ)言任務(wù)上,實(shí)現(xiàn)了 SOTA 的遷移性能。BEiT-3 創(chuàng)新的設(shè)計(jì)和出色的表現(xiàn)為多模態(tài)研究開(kāi)創(chuàng)了新的范式,更預(yù)示著人工智能大一統(tǒng)漸露曙光。BEiT-3 的構(gòu)建思路是什么?大規(guī)模預(yù)訓(xùn)練又將通向怎樣的未來(lái)?在深科技近日的采訪中,微軟亞洲研究院首席研究員韋福如詳細(xì)介紹了生成式自監(jiān)督視覺(jué)預(yù)訓(xùn)練模型 BEiT 和通用多模態(tài)基礎(chǔ)模型 BEiT-3 背后的技術(shù),并探討了大模型開(kāi)發(fā)與訓(xùn)練中需要探討和深思的問(wèn)題,以及該領(lǐng)域的未來(lái)發(fā)展方向。


韋福如,本科、碩士和博士畢業(yè)于武漢大學(xué)計(jì)算機(jī)學(xué)院。博士期間,他在香港理工大學(xué)計(jì)算機(jī)系擔(dān)任訪問(wèn)學(xué)者,自此開(kāi)始從事自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的研究工作。


幾年間,韋福如在 NLP 領(lǐng)域取得了多次突破,并在大規(guī)模預(yù)訓(xùn)練模型、自然語(yǔ)言處理,多模態(tài)人工智能等領(lǐng)域持續(xù)創(chuàng)新,曾入選2017年《麻省理工科技評(píng)論》“35歲以下科技創(chuàng)新35人”中國(guó)區(qū)榜單。


圖片

微軟亞洲研究院首席研究員韋福如


目前,韋福如已在微軟亞洲研究院工作12年,現(xiàn)任自然語(yǔ)言計(jì)算組首席研究員。他以 NLP 為主攻領(lǐng)域,這是人工智能的核心課題之一,是一門(mén)研究機(jī)器如何理解和生成自然語(yǔ)言的學(xué)科。該領(lǐng)域包括語(yǔ)言分析、信息抽取、信息檢索、文本挖掘、機(jī)器閱讀理解、智能問(wèn)答、機(jī)器翻譯、自動(dòng)文摘,文本生成以及綜合場(chǎng)景應(yīng)用等研究課題。


近年來(lái),隨著自然語(yǔ)言處理的研究和技術(shù)廣泛遷移到人工智能的其他領(lǐng)域,韋福如和團(tuán)隊(duì)還專注于跨任務(wù)、跨語(yǔ)言和跨模態(tài)基礎(chǔ)模型、語(yǔ)音處理、文檔智能和多模態(tài)人工智能等領(lǐng)域的研究。


從技術(shù)層面來(lái)看,最近幾年 NLP 領(lǐng)域取得了非常出色的進(jìn)展。大規(guī)模預(yù)訓(xùn)練模型正在引領(lǐng)人工智能領(lǐng)域進(jìn)行一場(chǎng)前所未有的范式遷移:在海量的未標(biāo)注數(shù)據(jù)上通過(guò)自監(jiān)督預(yù)訓(xùn)練得到一個(gè)預(yù)訓(xùn)練模型(又稱為基礎(chǔ)模型),再通過(guò)微調(diào)或少樣本/零樣本學(xué)習(xí)使用少量標(biāo)注,甚至不需要標(biāo)注數(shù)據(jù),即可把基礎(chǔ)模型廣泛應(yīng)用到下游任務(wù)模型上。新的范式取得了優(yōu)異的效果,并展現(xiàn)出了強(qiáng)大的泛化和通用能力。


“這幾年有三個(gè)重要的關(guān)鍵詞。第一個(gè)是大規(guī)模預(yù)訓(xùn)練模型,或稱為基礎(chǔ)模型,即在通過(guò)自監(jiān)督學(xué)習(xí)完成預(yù)訓(xùn)練的同時(shí),也實(shí)現(xiàn)了模型訓(xùn)練的范式遷移。第二個(gè)是多語(yǔ)言,也就是用一個(gè)模型可以支持多種語(yǔ)言的下游任務(wù)。第三個(gè)是多模態(tài),即不同模態(tài)(例如文本、圖像、語(yǔ)音等)的建模和學(xué)習(xí)逐漸趨于融合和統(tǒng)一。”韋福如表示。


圖片

生成式自監(jiān)督視覺(jué)預(yù)訓(xùn)練模型BEiT和通用多模態(tài)基礎(chǔ)模型BEiT-3


計(jì)算機(jī)視覺(jué)(Computer Vision, CV)領(lǐng)域通常使用的是有監(jiān)督預(yù)訓(xùn)練,也就是利用有標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練。但隨著視覺(jué)模型的不斷擴(kuò)大,標(biāo)注數(shù)據(jù)難以滿足模型需求,當(dāng)模型達(dá)到一定規(guī)模時(shí),即使模型再擴(kuò)大,也無(wú)法得到更好的結(jié)果,這就是所謂的數(shù)據(jù)饑餓(data hungry)。因此,科研人員開(kāi)始使用無(wú)標(biāo)注數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),以此預(yù)訓(xùn)練大模型參數(shù)。


以往在 CV 領(lǐng)域,無(wú)標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)常采用對(duì)比學(xué)習(xí)。但對(duì)比學(xué)習(xí)存在一個(gè)問(wèn)題——對(duì)圖像干擾操作過(guò)于依賴。當(dāng)噪聲太簡(jiǎn)單時(shí),模型學(xué)習(xí)不到有用的知識(shí);而對(duì)圖像改變過(guò)大,甚至面目全非時(shí),模型無(wú)法進(jìn)行有效學(xué)習(xí)。所以對(duì)比學(xué)習(xí)很難把握這之間的平衡,且需要大批量訓(xùn)練,對(duì)顯存和工程實(shí)現(xiàn)要求很高。


在此背景下,韋福如團(tuán)隊(duì)于2021年推出了生成式自監(jiān)督的視覺(jué)預(yù)訓(xùn)練模型 BEiT,借助掩碼圖像建模(Masked Image Modeling,MIM)方法完成預(yù)訓(xùn)練任務(wù)。


國(guó)際表征學(xué)習(xí)(International Conference on Learning Representations,ICLR)大會(huì)評(píng)審委員會(huì)認(rèn)為,BEiT 為視覺(jué)大模型預(yù)訓(xùn)練的研究開(kāi)創(chuàng)了一個(gè)全新的方向,首次成功將掩碼預(yù)訓(xùn)練應(yīng)用在了 CV 領(lǐng)域非常具有創(chuàng)新性。實(shí)驗(yàn)結(jié)果表明,與之前的預(yù)訓(xùn)練方法相比,BEiT 可實(shí)現(xiàn)更為優(yōu)越的效果。


基于 BEiT,2022年韋福如和團(tuán)隊(duì)進(jìn)一步豐富了自監(jiān)督學(xué)習(xí)的語(yǔ)義信息,發(fā)布了 BEiT-2,并隨后將其升級(jí)為 BEiT-3。


2022年8月31日,相關(guān)論文以《把圖像視為外語(yǔ):適用于所有視覺(jué)和視覺(jué)-語(yǔ)言任務(wù)的BEiT預(yù)訓(xùn)練方法》(Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks)為題發(fā)布在預(yù)印本平臺(tái) arXiv [1]。


圖片

BEiT-3 論文


隨著大模型的發(fā)展,語(yǔ)言、視覺(jué)等多模態(tài)領(lǐng)域的預(yù)訓(xùn)練模型已呈現(xiàn)出“大一統(tǒng)”趨勢(shì)。模型在大規(guī)模、海量數(shù)據(jù)上預(yù)訓(xùn)練之后,能順利遷移至各種下游任務(wù)中。因此,預(yù)訓(xùn)練一個(gè)能夠處理多種模態(tài)的通用基礎(chǔ)模型,也成為目前人工智能研究的一個(gè)關(guān)鍵課題。


BEiT-3 正是這樣一種通用的多模態(tài)基礎(chǔ)模型,在廣泛的視覺(jué)和視覺(jué)-語(yǔ)言任務(wù)上,都實(shí)現(xiàn)了最好的遷移性能。


圖片

BEiT-3 預(yù)訓(xùn)練概述


在 BEiT-3 中,研究人員從骨干網(wǎng)絡(luò)、預(yù)訓(xùn)練方法和模型規(guī)?;齻€(gè)方面出發(fā),推動(dòng)了視覺(jué)-語(yǔ)言預(yù)訓(xùn)練任務(wù)的融合。


首先,研究人員使用 Multiway Transformer 作為骨干模型來(lái)編碼不同的模態(tài)。每一個(gè) Multiway Transformer 模塊都由一個(gè)共享的自注意力模塊和一組用于不同模態(tài)的前饋網(wǎng)絡(luò)池(即模態(tài)專家)組成,從而可以同時(shí)編碼多種模態(tài)。


此外,通過(guò)模塊化的設(shè)計(jì),統(tǒng)一架構(gòu)可以用于不同的視覺(jué)及視覺(jué)-語(yǔ)言下游任務(wù)。其中,Multiway Transformer 每一層都包括一個(gè)視覺(jué)專家和一個(gè)語(yǔ)言專家。


最上面的三層有專門(mén)為融合編碼器設(shè)計(jì)的視覺(jué)-語(yǔ)言專家。共享的自注意力模塊可以對(duì)不同模態(tài)之間的對(duì)齊(即尋找對(duì)應(yīng)關(guān)系)進(jìn)行學(xué)習(xí),并能深度融合多模態(tài)(如視覺(jué)-語(yǔ)言)信息。


圖片

可以遷移到各種視覺(jué)和視覺(jué)-語(yǔ)言下游任務(wù)的 BEiT-3


統(tǒng)一的模型架構(gòu)使 BEiT-3 能遷移到各種視覺(jué)和視覺(jué)-語(yǔ)言下游任務(wù)中。它不僅可以應(yīng)用于圖像分類、目標(biāo)檢測(cè)、實(shí)例分割等視覺(jué)任務(wù)的骨干網(wǎng)絡(luò),還可以在模型微調(diào)后成為高效的圖像-文本檢索的雙編碼器,以及多模態(tài)理解和生成任務(wù)的融合編碼器等。


其次,在預(yù)訓(xùn)練 BEiT-3 的過(guò)程中,研究人員采用單模態(tài)和多模態(tài)數(shù)據(jù)的統(tǒng)一掩碼數(shù)據(jù)建模(Masked Data Modeling)方法。這種方法能夠隨機(jī)屏蔽一定比例的文本或像素塊,并訓(xùn)練模型去恢復(fù)被屏蔽的部分。統(tǒng)一的掩碼-預(yù)測(cè)任務(wù),不僅可以學(xué)習(xí)各模態(tài)的特征,還能學(xué)習(xí)它們之間的對(duì)齊。


其他視覺(jué)-語(yǔ)言模型一般采用圖像-文本對(duì)比、圖像-文本匹配等多種預(yù)訓(xùn)練任務(wù),而 BEiT-3 只使用了一種預(yù)訓(xùn)練任務(wù),這不僅有利于擴(kuò)大模型規(guī)模,還有助于實(shí)現(xiàn) GPU 內(nèi)存等多方成本的降低。


最后,該團(tuán)隊(duì)從模型規(guī)模和數(shù)據(jù)規(guī)模兩方面出發(fā),將 BEiT-3 進(jìn)行規(guī)模化,從而提高基礎(chǔ)模型的泛化能力。


據(jù)悉,BEiT-3 由1408個(gè)隱藏神經(jīng)元、6144個(gè)中間層神經(jīng)元、16組注意力模塊的40層 Multiway Transformer 骨干網(wǎng)絡(luò)組成,模型共包含大約19億個(gè)參數(shù),其中視覺(jué)專家參數(shù)6.92億,語(yǔ)言專家參數(shù)6.92億,視覺(jué)-語(yǔ)言專家參數(shù)0.52億,共享自注意力模塊參數(shù)為3.17億個(gè)。


據(jù)介紹,微軟亞洲研究院在單模態(tài)和多模態(tài)數(shù)據(jù)上對(duì) BEiT-3 進(jìn)行了100萬(wàn)次迭代的預(yù)訓(xùn)練,每個(gè)批量的訓(xùn)練數(shù)據(jù)包含6144個(gè)樣本,其中有2048張圖像、2048個(gè)文本和2048個(gè)圖像-文本對(duì)。相比使用對(duì)比學(xué)習(xí)方法訓(xùn)練的模型來(lái)說(shuō), BEiT-3 的批量規(guī)模要小得多。值得一提的是,這里面所有數(shù)據(jù)都是開(kāi)源的。


圖片

BEiT-3 模型參數(shù)分布及預(yù)訓(xùn)練數(shù)據(jù)


同時(shí),在包含視覺(jué)問(wèn)答、視覺(jué)推理、圖像描述生成等在內(nèi)的視覺(jué)-語(yǔ)言任務(wù),以及包含目標(biāo)檢測(cè)與實(shí)例分割、語(yǔ)義分割、圖像分類等在內(nèi)的一共12個(gè)視覺(jué)-語(yǔ)言下游任務(wù)上,該團(tuán)隊(duì)評(píng)估了 BEiT-3 的泛化能力。結(jié)果表明,BEiT-3 在這些任務(wù)上都取得了 SOTA 的遷移性能。


圖片

與其他特定模型或基礎(chǔ)模型相比,BEiT-3 在廣泛任務(wù)中實(shí)現(xiàn)了最佳性能


圖片

“通用走向未來(lái)”:大規(guī)模預(yù)訓(xùn)練模型將朝“大一統(tǒng)”方向發(fā)展


目前,在開(kāi)發(fā)和訓(xùn)練大模型的過(guò)程中,仍然存在許多需要探討和深思的問(wèn)題。


例如,很多企業(yè)都會(huì)將數(shù)據(jù)收集類的工作外包處理,這個(gè)過(guò)程中不僅存在安全隱患,還會(huì)造成數(shù)據(jù)不均衡的問(wèn)題。對(duì)此,韋福如表示,數(shù)據(jù)是模型的重要組成部分。沒(méi)有好的數(shù)據(jù),就不可能有好的模型。數(shù)據(jù)本身就是大模型研究的一部分,因此這部分的工作需要更加重視。


從某種程度上看,對(duì)數(shù)據(jù)部分的研究更需要匯集聰明才智。如何收集、整理以及使用數(shù)據(jù),也是最值得投入和研究的課題之一。


又比如,研發(fā)大模型時(shí)不僅會(huì)消耗大量成本,甚至也會(huì)對(duì)氣候造成一定影響。談及這個(gè)問(wèn)題,韋福如表示大模型的能效(efficiency)很重要,這也是接下來(lái)需要研究的重要部分之一。但另一方面,因?yàn)橥ㄓ么竽P偷某霈F(xiàn),相關(guān)領(lǐng)域的特定任務(wù)和模型將變得更加簡(jiǎn)單,這也有利于降低重復(fù)建設(shè)的成本。


在韋福如看來(lái),未來(lái)大規(guī)模預(yù)訓(xùn)練模型向“大一統(tǒng)”方向發(fā)展,已經(jīng)成為必然。這個(gè)“大一統(tǒng)”主要可從兩個(gè)層面理解:


第一,從技術(shù)層面看,如何用相同的技術(shù)構(gòu)建不同領(lǐng)域的基礎(chǔ)模型?這包括構(gòu)建通用骨干網(wǎng)絡(luò)、生成式自監(jiān)督學(xué)習(xí)為主的學(xué)習(xí)方式,以及持續(xù)擴(kuò)大(scaling up)模型規(guī)模。


第二,從模型和應(yīng)用層面看,如何構(gòu)建一個(gè)能夠處理不同語(yǔ)言和模態(tài)任務(wù)的基礎(chǔ)模型?隨著技術(shù)的統(tǒng)一,未來(lái)將會(huì)出現(xiàn)能夠應(yīng)用于各種領(lǐng)域的通用基礎(chǔ)大模型。


韋福如認(rèn)為:“只有模型標(biāo)準(zhǔn)化,才可能實(shí)現(xiàn)規(guī)?;?,進(jìn)而為大范圍產(chǎn)業(yè)化提供基礎(chǔ)和可能?!笠唤y(tǒng)’中很重要的一點(diǎn)是,技術(shù)會(huì)變得越來(lái)越通用,只有通用才有可能更接近本質(zhì),也更利于不同領(lǐng)域的深度合作和相互促進(jìn)。”


而對(duì)于 BEiT-3 來(lái)說(shuō),其核心思想就是把圖像作為一種外語(yǔ)進(jìn)行建模和學(xué)習(xí),從而實(shí)現(xiàn)以統(tǒng)一的方式完成圖像、文本和圖像-文本的掩碼“語(yǔ)言”建模,這也在自然語(yǔ)言處理領(lǐng)域被證實(shí)為最有效的擴(kuò)大模型規(guī)模的技術(shù)方向和方案,這也將成為規(guī)模化基礎(chǔ)模型一個(gè)頗有前景的方向。


未來(lái),韋福如和團(tuán)隊(duì)將繼續(xù)開(kāi)展多模態(tài)預(yù)訓(xùn)練方面的工作,并將在其中加入包括音頻、多語(yǔ)言在內(nèi)的更多模態(tài),在促進(jìn)跨語(yǔ)言和跨模態(tài)轉(zhuǎn)換的同時(shí),推動(dòng)跨任務(wù)、跨語(yǔ)言和跨模態(tài)的大規(guī)模預(yù)訓(xùn)練融合。


支持:王貝貝


參考資料:


1.W. Wang, H. Bao, L. Dong, J. Bjorck.et al. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks. arXiv (2022).https://doi.org/10.48550/arXiv.2208.10442

H. Bao, L. Dong, S. Piao. F. Wei, BEiT:BERT Pre-Training of Image Transformers. arXiv (2021).https://doi.org/10.48550/arXiv.2106.08254

Z. Peng, L. Dong, H. Bao, Q. Ye, F. Wei, BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers. arXiv (2022)https://doi.org/10.48550/arXiv.2208.06366



*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

電子管相關(guān)文章:電子管原理


模擬信號(hào)相關(guān)文章:什么是模擬信號(hào)


可控硅相關(guān)文章:可控硅工作原理


比較器相關(guān)文章:比較器工作原理


低通濾波器相關(guān)文章:低通濾波器原理


電子負(fù)載相關(guān)文章:電子負(fù)載原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉