ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(2)
近年來,數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)在人工智能系統(tǒng)中得到廣泛應(yīng)用。計(jì)算硬件的進(jìn)步極大地推動(dòng)了機(jī)器智能的發(fā)展,并促進(jìn)了一種新興的范式,即基于廣泛數(shù)據(jù)訓(xùn)練的模型的知識(shí)轉(zhuǎn)移。
- 自然語言處理 (NLP) 取得了巨大的成功,其中的模型旨在通過對極大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)來獲取通用表示。
- 自從Transformer在視覺領(lǐng)域取得成功后,人們已經(jīng)做出了許多努力,將這種趨勢從NLP領(lǐng)域擴(kuò)展到基于2D視覺理解的基礎(chǔ)模型中。
與2D視覺和NLP相比,基于基礎(chǔ)的視覺計(jì)算在3D社區(qū)中發(fā)展滯后。提出以下問題:是什么使得3D表示學(xué)習(xí)比2D視覺或NLP更具挑戰(zhàn)性?
從以下三個(gè)角度提供一些分析性答案:
i. 架構(gòu)不統(tǒng)一。先驅(qū)性架構(gòu)如PointNet只能對3D坐標(biāo)進(jìn)行編碼,而無法應(yīng)用于在NLP和2D視覺中取得成功的掩碼去噪自編碼(DAE)。然而,Transformer架構(gòu)現(xiàn)在已經(jīng)彌補(bǔ)了這種架構(gòu)上的差距,實(shí)現(xiàn)了跨所有模態(tài)格式的統(tǒng)一表示,并為擴(kuò)展3D中的DAE帶來了巨大潛力。
ii. 數(shù)據(jù)稀缺。與圖像和自由形式語言相比,收集和標(biāo)注3D或4D數(shù)據(jù)更加困難,通常需要更昂貴且密集的工作。此外,考慮到數(shù)據(jù)規(guī)模,3D數(shù)據(jù)嚴(yán)重匱乏。這促使了跨模態(tài)知識(shí)轉(zhuǎn)移的使用。最近的研究要么與其他模態(tài)一起進(jìn)行聯(lián)合訓(xùn)練以實(shí)現(xiàn)更有效的對比,要么直接對在圖像數(shù)據(jù)上預(yù)訓(xùn)練的2D Transformers進(jìn)行微調(diào)。
iii. 模式差異。表1顯示了語言、2D圖像和3D點(diǎn)云的數(shù)據(jù)模式比較??梢杂^察到:
- (i)3D點(diǎn)云通常是非結(jié)構(gòu)化的,包含稀疏語義,不同于語言。這導(dǎo)致在點(diǎn)云上進(jìn)行掩碼去噪自編碼更加困難;
- (ii)2D圖像在網(wǎng)格上均勻分布,而3D點(diǎn)云則是從對象表面不規(guī)則采樣。這種結(jié)構(gòu)上的差異導(dǎo)致了單模態(tài)增強(qiáng)和跨模態(tài)對應(yīng)的對比目標(biāo)構(gòu)建的困難;
- (iii)如何設(shè)計(jì)具有豐富語義的更好表示成為自監(jiān)督3D理解的主要目標(biāo)。
在上述分析的推動(dòng)下,作者提出了將Autoencoders作為跨模態(tài)教師進(jìn)行訓(xùn)練。
- ACT利用基于2D圖像或自然語言預(yù)訓(xùn)練的基礎(chǔ)Transformers作為跨模態(tài)教師,具有豐富的知識(shí)和強(qiáng)大的表示能力。通過這種方式,3D中的數(shù)據(jù)稀缺問題得到緩解。
- Transformer被用作通用的3D學(xué)習(xí)器,彌補(bǔ)了掩碼建模表示學(xué)習(xí)方面的架構(gòu)差距。通過以自監(jiān)督的方式在3D數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練的Transformers作為自編碼器,Transformers可以將3D點(diǎn)云轉(zhuǎn)化為具有豐富語義的表示形式。為了保留和繼承預(yù)訓(xùn)練的基礎(chǔ)知識(shí),使用了提示微調(diào)。
因此,ACT使預(yù)訓(xùn)練的Transformers成為自發(fā)的跨模態(tài)教師,為3D點(diǎn)云提供了語義豐富的掩碼建模目標(biāo)。
- 由于預(yù)訓(xùn)練的Transformers被微調(diào)為3D自編碼器,在這種跨模態(tài)Transformer轉(zhuǎn)移過程中不需要任何圖像、語言數(shù)據(jù)或3D下游標(biāo)注。
- 此外,由于調(diào)整后的Transformers僅用作3D Transformer學(xué)生的教師,該方法在下游特征轉(zhuǎn)移過程中不會(huì)引入額外的計(jì)算或存儲(chǔ)成本。
此外,進(jìn)行了各種任務(wù)的大量實(shí)驗(yàn)證明了ACT預(yù)訓(xùn)練3D Transformers具有出色的泛化性能。
- 例如,在ScanObjectNN數(shù)據(jù)集上實(shí)現(xiàn)了平均準(zhǔn)確率提高%。
據(jù)知,本文首次證明了預(yù)訓(xùn)練的基礎(chǔ)Transformer可以幫助3D表示學(xué)習(xí),而無需訪問任何2D、語言數(shù)據(jù)或3D下游標(biāo)注。ACT是一個(gè)自監(jiān)督的框架,可以推廣到其他模態(tài)和任務(wù),期望這能夠推動(dòng)更多類似ACT風(fēng)格的表示學(xué)習(xí)的探索。
二、相關(guān)背景自監(jiān)督的3D幾何處理表示學(xué)習(xí)表1: 數(shù)據(jù)模式比較
自監(jiān)督的3D幾何處理表示學(xué)習(xí)目前在學(xué)術(shù)界引起了極大的興趣。
傳統(tǒng)方法是基于重建的幾何理解預(yù)任務(wù)構(gòu)建的,例如點(diǎn)云部分重排序,方向估計(jì),局部和全局重建,流一致性,變形和遮擋。
與此同時(shí),Xie等人在PointContrast中提出了學(xué)習(xí)增強(qiáng)點(diǎn)云之間的區(qū)分性視角一致性的方法。在這個(gè)方向上,還提出了許多相關(guān)工作。
最近,許多工作提出了應(yīng)用點(diǎn)云Transformer的自編碼器(DAE)預(yù)訓(xùn)練的方法,并取得了顯著的成功。
- Yu等人通過擴(kuò)展BERT-style預(yù)訓(xùn)練的思想,結(jié)合全局對比目標(biāo),開創(chuàng)了這個(gè)方向。
- Liu等人提出了添加一些噪聲點(diǎn),并對每個(gè)掩碼位置的掩碼標(biāo)記進(jìn)行真假分類的方法,這與Selfie的模式相似,后者對掩碼圖像塊進(jìn)行真假分類。
- Pang等人提出了通過對3D點(diǎn)云坐標(biāo)進(jìn)行掩碼建模,在點(diǎn)云上探索MAE的方法。
作者遵循這種DAE-style表示學(xué)習(xí)范式,但與之前的方法不同,工作旨在使用由預(yù)訓(xùn)練基礎(chǔ)Transformer編碼的潛在特征作為掩碼建模目標(biāo)。
跨模態(tài)的3D表示學(xué)習(xí)跨模態(tài)的3D表示學(xué)習(xí)旨在利用除了3D點(diǎn)云之外的更多模態(tài)內(nèi)在的學(xué)習(xí)信號(hào),例如,2D圖像被認(rèn)為具有豐富的上下文和紋理知識(shí),而自由形式的語言則具有密集的語義信息。主流方法基于全局特征匹配的對比學(xué)習(xí)進(jìn)行開發(fā)。
- 例如,Jing等人提出了一種判別性中心損失函數(shù),用于點(diǎn)云、網(wǎng)格和圖像的特征對齊。
- Afham等人提出了一種在增強(qiáng)的點(diǎn)云和相應(yīng)渲染的2D圖像之間進(jìn)行的模態(tài)內(nèi)和模態(tài)間對比學(xué)習(xí)框架。
通過利用幾何先驗(yàn)信息進(jìn)行密集關(guān)聯(lián),另一項(xiàng)工作探索了細(xì)粒度的局部特征匹配。
- Liu等人提出了一種對比知識(shí)蒸餾方法,用于對齊細(xì)粒度的2D和3D特征。
- Li等人提出了一個(gè)簡單的對比學(xué)習(xí)框架,用于模態(tài)內(nèi)和模態(tài)間的密集特征對比,并使用匈牙利算法進(jìn)行更好的對應(yīng)。
最近,通過直接使用經(jīng)過監(jiān)督微調(diào)的預(yù)訓(xùn)練2D圖像編碼器取得了很大的進(jìn)展。
- Image2Point 提出了通過卷積層膨脹來傳遞預(yù)訓(xùn)練權(quán)重的方法。
- P2P 提出了將3D點(diǎn)云投影到2D圖像,并通過可學(xué)習(xí)的上色模塊將其作為圖像主干網(wǎng)絡(luò)的輸入。
一些工作也探索了預(yù)訓(xùn)練基礎(chǔ)模型是否可以幫助3D學(xué)習(xí)。然而,本文作者的方法:
(1)不使用預(yù)訓(xùn)練的2D或語言模型作為推斷的主干模型;
(2)在無下游3D標(biāo)注的自監(jiān)督預(yù)訓(xùn)練過程中探索使用來自其他模態(tài)的預(yù)訓(xùn)練基礎(chǔ)模型;
(3)不需要成對的點(diǎn)-圖像或點(diǎn)-語言數(shù)據(jù)。
除了2D圖像之外,還有一些工作提出利用自然語言進(jìn)行對比的3D表示學(xué)習(xí),零樣本學(xué)習(xí),以及場景理解。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。