博客專欄

EEPW首頁 > 博客 > ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(1)

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(1)

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2023-07-04 來源:工程師 發(fā)布文章
筆者個(gè)人體會(huì)

這篇論文的動(dòng)機(jī)是解決3D數(shù)據(jù)表示學(xué)習(xí)中存在的挑戰(zhàn),即3D數(shù)據(jù)與2D圖像或語言具有不同的結(jié)構(gòu),使得在細(xì)粒度知識(shí)的關(guān)聯(lián)方面存在困難。作者希望通過自監(jiān)督學(xué)習(xí)的方式,將來自圖像領(lǐng)域的豐富知識(shí)應(yīng)用于3D數(shù)據(jù)的表示學(xué)習(xí)中,從而提高3D任務(wù)的性能。作者提出一種自監(jiān)督學(xué)習(xí)框架,用于跨模態(tài)的知識(shí)傳遞和特征蒸餾,以改善3D數(shù)據(jù)的表示學(xué)習(xí)和下游任務(wù)性能。

核心創(chuàng)新點(diǎn)是框架中的ACT(Autoencoding Cross-Transformers),它將預(yù)訓(xùn)練的基礎(chǔ)Transformer模型轉(zhuǎn)化為跨模態(tài)的3D教師模型,并通過自編碼和掩碼建模將教師模型的特征蒸餾到3D Transformer學(xué)生模型中。

作者通過以下方式設(shè)計(jì)和實(shí)現(xiàn)ACT框架:

  1. 首先,使用3D自編碼器將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為3D教師模型。這個(gè)自編碼器通過自監(jiān)督訓(xùn)練從3D數(shù)據(jù)中學(xué)習(xí)特征表示,并生成語義豐富的潛在特征。
  2. 接著,設(shè)計(jì)了掩碼建模方法,其中教師模型的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標(biāo)。學(xué)生模型通過優(yōu)化掩碼建模任務(wù)來學(xué)習(xí)表示,以捕捉3D數(shù)據(jù)中的重要特征。
  3. 使用預(yù)訓(xùn)練的2D圖像Transformer作為教師模型,因?yàn)樗鼈冊(cè)?D圖像領(lǐng)域表現(xiàn)出色,并且作者認(rèn)為它們可以學(xué)習(xí)遷移的3D特征。

ACT框架包括以下主要部分:

  1. 預(yù)訓(xùn)練的2D圖像或語言Transformer:作為基礎(chǔ)Transformer模型,具有豐富的特征表示能力。作者選擇了先進(jìn)的2D Transformer模型作為基礎(chǔ)模型,例如Vision Transformers (ViTs) 或者語言模型(如BERT)。

    訓(xùn)練:使用大規(guī)模的2D圖像或語言數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,通過自監(jiān)督學(xué)習(xí)任務(wù)(如自編碼器或掩碼建模)來學(xué)習(xí)模型的特征表示能力。

  2. 3D自動(dòng)編碼器:通過自監(jiān)督學(xué)習(xí),將2D圖像或語言Transformer調(diào)整為3D自動(dòng)編碼器,用于學(xué)習(xí)3D幾何特征。作者將預(yù)訓(xùn)練的2D圖像或語言Transformer模型轉(zhuǎn)換為3D自動(dòng)編碼器。通過將2D模型的參數(shù)復(fù)制到3D模型中,并添加適當(dāng)?shù)膶踊蚰K來處理3D數(shù)據(jù)。

    使用3D數(shù)據(jù)集進(jìn)行自監(jiān)督學(xué)習(xí),例如預(yù)測(cè)點(diǎn)云數(shù)據(jù)的遮擋部分、點(diǎn)云重建或其他3D任務(wù)。通過自監(jiān)督學(xué)習(xí)任務(wù),3D自動(dòng)編碼器可以學(xué)習(xí)到3D數(shù)據(jù)的幾何特征。

  3. 跨模態(tài)教師模型:將預(yù)訓(xùn)練的3D自動(dòng)編碼器作為跨模態(tài)教師模型,通過掩碼建模的方式將潛在特征傳遞給3D Transformer學(xué)生模型。

    特征傳遞:通過掩碼建模的方式,將3D自動(dòng)編碼器的潛在特征傳遞給3D Transformer學(xué)生模型。教師模型生成的潛在特征被用作學(xué)生模型的蒸餾目標(biāo),以引導(dǎo)學(xué)生模型學(xué)習(xí)更好的3D表示。

  4. 3D Transformer學(xué)生模型:接收來自教師模型的潛在特征,并用于學(xué)習(xí)3D數(shù)據(jù)的表示。

    特征蒸餾:學(xué)生模型通過特征蒸餾的方式,利用教師模型的潛在特征作為監(jiān)督信號(hào),從而學(xué)習(xí)到更準(zhǔn)確和具有豐富語義的3D表示。

這種設(shè)計(jì)和實(shí)現(xiàn)帶來了多個(gè)好處:

  1. ACT框架能夠?qū)崿F(xiàn)跨模態(tài)的知識(shí)傳遞,將來自圖像領(lǐng)域的知識(shí)應(yīng)用于3D數(shù)據(jù)中的表示學(xué)習(xí),提高了3D任務(wù)的性能。
  2. 通過使用預(yù)訓(xùn)練的2D圖像Transformer作為教師模型,ACT能夠利用圖像領(lǐng)域已有的豐富特征表示,提供更有語義的特征編碼。
  3. 自編碼和掩碼建模任務(wù)使得學(xué)生模型能夠通過無監(jiān)督學(xué)習(xí)捕捉3D數(shù)據(jù)中的重要特征,從而更好地泛化到不同的下游任務(wù)。

總的來說,ACT框架的核心創(chuàng)新在于將自監(jiān)督學(xué)習(xí)和特征蒸餾方法應(yīng)用于3D數(shù)據(jù)中,實(shí)現(xiàn)了知識(shí)傳遞和表示學(xué)習(xí)的改進(jìn),為跨模態(tài)學(xué)習(xí)和深度學(xué)習(xí)模型的發(fā)展提供了新的思路和方法。



摘要

深度學(xué)習(xí)的成功在很大程度上依賴于具有全面標(biāo)簽的大規(guī)模數(shù)據(jù),在獲取3D數(shù)據(jù)方面比2D圖像或自然語言更昂貴且耗時(shí)。這促使我們有可能利用用于不同模態(tài)知識(shí)轉(zhuǎn)移的以3D數(shù)據(jù)為基礎(chǔ)的預(yù)訓(xùn)練模型作為教師。

本文以統(tǒng)一的知識(shí)蒸餾方式重新考慮了掩碼建模,并且展示了基于2D圖像或自然語言預(yù)訓(xùn)練的基礎(chǔ)Transformer模型如何通過訓(xùn)練作為跨模態(tài)教師的自編碼器(ACT)來幫助無監(jiān)督學(xué)習(xí)的3D表示學(xué)習(xí)。

  • 預(yù)訓(xùn)練的Transformer模型通過使用離散變分自編碼的自監(jiān)督來作為跨模態(tài)的3D教師進(jìn)行轉(zhuǎn)移,在此過程中,Transformer模型被凍結(jié)并進(jìn)行提示調(diào)整,以實(shí)現(xiàn)更好的知識(shí)傳承。
  • 由3D教師編碼的潛在特征被用作掩碼點(diǎn)建模的目標(biāo),其中暗知識(shí)被提煉到作為基礎(chǔ)幾何理解的3D Transformer學(xué)生中。

預(yù)訓(xùn)練的ACT 3D學(xué)習(xí)者在各種下游基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的泛化能力,例如在ScanObjectNN上的 %整體準(zhǔn)確率。

圖片

圖1 ACT框架的概述。

  • (a)ACT利用在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的Transformer模型,例如使用2D圖像預(yù)訓(xùn)練的ViT或使用語言預(yù)訓(xùn)練的BERT。
  • (b)ACT的第一階段(第4.1節(jié)),預(yù)訓(xùn)練的Transformer模型通過帶提示的自監(jiān)督3D自編碼進(jìn)行微調(diào)。
  • (c)ACT的第二階段(第4.2節(jié)),3D自編碼器編碼器被用作跨模態(tài)教師,將潛在特征編碼為掩碼點(diǎn)建模目標(biāo),用于3D Transformer學(xué)生的表示學(xué)習(xí)。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉