ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?(4)
圖2(a)展示了使用不同掩碼策略在ScanObjectNN上的平均微調(diào)準(zhǔn)確率。
- 可以觀察到,使用隨機掩碼的較高掩碼比例會產(chǎn)生更好的結(jié)果,而塊掩碼則對較低掩碼比例更為適用。
- 需要注意的是,當(dāng)掩碼比例為零時,對所有標(biāo)記使用基準(zhǔn)知識蒸餾,并且導(dǎo)致性能較差。
- 圖2(b)展示了使用不同教師Transformer的ACT在ScanObjectNN上的平均微調(diào)準(zhǔn)確率,包括Vision Transformers、全MLP架構(gòu)、語言模型和視覺語言模型。觀察到較大的教師模型始終能夠獲得更好的性能。
此外,令人驚訝的是,ACT使用語言模型BERTB(即BERTbase)作為跨模態(tài)教師,可以達(dá)到平均準(zhǔn)確率85.12±0.54%(最高可達(dá)85.88%),這表明ACT可以推廣到任何模態(tài)。
3D自編碼器訓(xùn)練表7: dVAE標(biāo)記器不同訓(xùn)練策略的消融研究。
- 報告了F-Score,使用l1范數(shù)和l2范數(shù)的倒角距離,即CD- l1和CD- l2
表7展示了使用預(yù)訓(xùn)練的2D圖像Transformer進行不同訓(xùn)練配置的3D自編碼器的重構(gòu)結(jié)果。觀察到:
(i)帶有預(yù)訓(xùn)練圖像Transformer的3D dVAE模型在重構(gòu)結(jié)果上明顯優(yōu)于Point-BERT。這表明預(yù)訓(xùn)練的2D圖像Transformer具有強大的對3D的表示能力。
(ii) 提示調(diào)整或凍結(jié)模型可以獲得比完全調(diào)整更好的結(jié)果,我們認(rèn)為這是因為某些預(yù)訓(xùn)練的2D知識被遺忘了,而提示調(diào)整有效地解決了這個問題。重構(gòu)可視化結(jié)果可以在附錄D中找到。
六、討論6.1 是所需要更強大的標(biāo)記器嗎?
為了了解預(yù)訓(xùn)練的2D圖像Transformer在3D dVAE模型中的必要性,我們用不同的dVAE教師和掩模建模配置進行了實驗。
從表8中,可以看到:
(i) 當(dāng)使用沒有預(yù)訓(xùn)練的2D圖像變壓器的Point-BERT dVAE模型時,通過提取潛在特征而不是離散令牌,可以實現(xiàn)+0.62%的改進。分析認(rèn)為,離散令牌識別學(xué)習(xí)起來更具挑戰(zhàn)性3D數(shù)據(jù)。
(ii) 當(dāng)使用Point-BERT離散標(biāo)記作為掩碼建模目標(biāo)時,通過應(yīng)用帶有預(yù)訓(xùn)練2D圖像Transformer的dVAE模型,得到了最差的性能。這表明,無論標(biāo)記器有多強大,離散標(biāo)記都不適用于語義稀疏的點云數(shù)據(jù)。
(iii) 當(dāng)使用ACT時,性能顯著提高。這表明,帶有預(yù)訓(xùn)練2D圖像Transformer`的3D dVAE能夠編碼具有豐富語義的特征,更適合于掩碼點建模。
6.2 ACT是否可以用作輔助知識蒸餾方法?表10: 二維圖像轉(zhuǎn)換器在dVAE模型中不同位置嵌入的研究。
(a)無:不使用位置嵌入。(b) 2D/z:僅使用2D xy平面坐標(biāo)的位置嵌入。
(c) 3D:所有3D xyz坐標(biāo)的位置嵌入。
報告了F-Score,使用l1范數(shù)和l2范數(shù)的倒角距離,即CD- l1和CD-l2,以及ScanObjectNN上的OA。
由于ACT使用編碼特征作為掩碼建模目標(biāo),它具有將我們的方法作為輔助特征蒸餾的潛力。
表9顯示了在Point-MAE模型中,使用ACT作為中間特征的輔助深度監(jiān)督訓(xùn)練的結(jié)果,其中ACT編碼的潛在特征被蒸餾到Point-MAE的編碼器特征中。
可以觀察到,ACT能夠顯著提高Point-MAE在ScanObjectNN上的準(zhǔn)確率,提高了0.87%,表明ACT作為一種知識蒸餾方法具有可擴展性和有效性。
6.3 2D Vision Transformer如何理解3D點云?為了更好地理解2D圖像Transformer如何通過自編碼器訓(xùn)練理解3D輸入,研究了ViT-B在我們的ACT dVAE模型中使用的位置嵌入的效果。從表10可以看出:
(i) 在沒有任何位置嵌入的情況下,預(yù)訓(xùn)練的ViT仍然可以學(xué)習(xí)可遷移的3D特征(準(zhǔn)確率為84.21±0.45%)。我們認(rèn)為這是因為位置幾何信息已經(jīng)包含在輸入的3D坐標(biāo)中,預(yù)訓(xùn)練的2D Transformer可以通過幾何特征純粹處理3D數(shù)據(jù),而不需要顯式的位置提示。
(ii) 當(dāng)僅使用2D xy平面坐標(biāo)的位置嵌入時,準(zhǔn)確率顯著提高了0.89%。我們認(rèn)為2D位置嵌入是為了適應(yīng)凍結(jié)的圖像Transformer而學(xué)習(xí)的,使圖像Transformer能夠?qū)?D輸入編碼為具有高語義的預(yù)訓(xùn)練2D特征空間。
(iii) 當(dāng)使用所有3D坐標(biāo)進行位置嵌入時,2D圖像Transformer成功利用了附加坐標(biāo)信息來進行更好的特征編碼。
七、總結(jié)
本文提出了一種自監(jiān)督學(xué)習(xí)框架ACT,通過預(yù)訓(xùn)練的基礎(chǔ)Transformer進行掩碼建模,將特征蒸餾傳遞給3D Transformer學(xué)生模型。ACT首先通過自監(jiān)督的3D自編碼將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為跨模態(tài)的3D教師模型。
然后,來自調(diào)整后的3D自編碼器的語義豐富的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標(biāo),展現(xiàn)了在各種下游3D任務(wù)上卓越的泛化性能。作為一種通用的自監(jiān)督學(xué)習(xí)框架,相信ACT可以輕松擴展到除3D數(shù)據(jù)之外的其他模態(tài)。
這種自監(jiān)督方式展示了跨模態(tài)知識轉(zhuǎn)移的巨大潛力,這可能在數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)時代極大地促進了基礎(chǔ)建模的發(fā)展。
附錄:可視化
圖3比較了基于2D圖像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建結(jié)果。
- 實驗結(jié)果表明,所設(shè)計的三維自編碼器能夠高質(zhì)量地重建物體細(xì)節(jié)。
- 對于一些相對簡單的物體,如第二行矩形表,我們的方法和Point-BERT都可以很好地重建它們。然而,對于細(xì)節(jié)相對復(fù)雜的點集,如第三排的薄架子和扶手椅,我們的方法仍然可以用詳細(xì)的局部幾何信息重建物體。
- 這些定性觀察結(jié)果與表7中的定量結(jié)果一致。
圖4顯示了t-SNE在ShapeNet上進行預(yù)訓(xùn)練并在ModelNet40和ScanObjectNN PB_T50_RS數(shù)據(jù)集上進行微調(diào)后的模型特征可視化。
可以觀察到:
(i) 在ShapeNet上進行預(yù)訓(xùn)練后,由于相對較小的域間隙,模型已經(jīng)可以在ModelNet上產(chǎn)生判別特征。
(ii) 在對下游數(shù)據(jù)集進行微調(diào)后,在ModelNet40和具有挑戰(zhàn)性的ScanObjectNN數(shù)據(jù)集上都獲得了判別特征。
(iii) Shapenet預(yù)訓(xùn)練ACT在ScanObjectNN上提取的特征分布看起來不那么判別性。我們認(rèn)為有兩個原因?qū)е滤? (i)合成的ShapeNet和真實的ScanObjectNN數(shù)據(jù)集之間的大域差距,以及(ii) ACT使用的不是對比損失,例如區(qū)分(例如,Point-BERT使用的MoCo損失)。有趣的是,這在ScanObjectNN上產(chǎn)生了更好的泛化性能(ACT的OA為88.21%,而Point-BERT為83.07%)。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。