ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？（3）

發(fā)布人：計算機(jī)視覺工坊時間：2023-07-04 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

三、預(yù)備知識3.1 基于Transformer的3D點(diǎn)云表示

與規(guī)則網(wǎng)格上的圖像不同，點(diǎn)云被認(rèn)為是不規(guī)則和結(jié)構(gòu)較弱的。許多工作致力于為點(diǎn)云數(shù)據(jù)設(shè)計深度學(xué)習(xí)架構(gòu)，利用點(diǎn)集的排列和平移不變性進(jìn)行特征學(xué)習(xí)。

不僅僅依賴于這樣的專門主干，還利用Transformer主干，這樣更容易與其他模態(tài)（如圖像和語言）統(tǒng)一，并促進(jìn)跨模態(tài)的知識傳遞。
使用專門的點(diǎn)網(wǎng)絡(luò)計算局部幾何塊嵌入，并將其饋送給Transformer以輸出更有效的幾何表示。

局部幾何塊嵌入

假設(shè)有一個點(diǎn)云，其中N個坐標(biāo)編碼在笛卡爾空間中，

按照Yu等人（2022）的方法，首先使用最遠(yuǎn)點(diǎn)采樣（FPS）選擇個種子點(diǎn)。
然后將點(diǎn)云 P 分組為個鄰域，其中種子點(diǎn)集的中心作為組的中心。每個鄰域包含 K 個點(diǎn)，這些點(diǎn)是通過搜索對應(yīng)種子點(diǎn)的K個最近鄰點(diǎn)生成的。
在每個種子點(diǎn) 周圍計算局部幾何特征，通過在鄰域內(nèi)對每個點(diǎn)的特征進(jìn)行最大池化得到：

其中：

是一個具有參數(shù) θ 的點(diǎn)特征提取器，例如中的逐點(diǎn)MLP，是鄰域中第 j 個鄰點(diǎn) 的特征。
將鄰域特征作為標(biāo)記特征，用于輸入接下來的Transformer塊。

Transformer點(diǎn)特征編碼

使用標(biāo)準(zhǔn)的Transformer塊作為編碼器，進(jìn)一步轉(zhuǎn)換局部塊嵌入，其中C是嵌入大小。

按照Yu等人的方法，使用一個具有可學(xué)習(xí)參數(shù)ρ的兩層MLP 作為位置嵌入，應(yīng)用于每個塊以實(shí)現(xiàn)穩(wěn)定的訓(xùn)練。

式中，MSA表示多頭自注意的交替層，LN表示分層范數(shù)，MLP為兩層，其中GELU為非線性。是一種可學(xué)習(xí)的全局表示嵌入，以作為其可學(xué)習(xí)的位置嵌入。

3.2 知識蒸餾：掩碼建模的統(tǒng)一視角

掩碼建?？梢钥醋魇墙?jīng)典自編碼器（DAE）的擴(kuò)展，其中采用了掩碼損失，最近已經(jīng)在語言模型和視覺領(lǐng)域進(jìn)行了探索。

形式上，給定一個由個 token 組成的序列，例如RGB圖像或點(diǎn)云數(shù)據(jù)的標(biāo)記嵌入。
目標(biāo)是訓(xùn)練一個學(xué)生編碼器來預(yù)測/重建來自教師編碼器的輸出，其中教師可以是離散變分自編碼器（dVAE）或簡單的恒等映射。

通過這種方式，學(xué)生在教師的指導(dǎo)下學(xué)習(xí)數(shù)據(jù)中的深層知識。

為了損壞輸入數(shù)據(jù)，為每個位置生成一組掩碼，指示標(biāo)記是否被掩碼。
使用可學(xué)習(xí)的損壞嵌入來替換被掩碼的位置，將損壞的表示輸入到編碼器或****。這里，表示Hadamard乘積，是指示函數(shù)。

在某個度量空間中定義了距離函數(shù) ，作為****，目標(biāo)是最小化以下距離：

****隨著建模目標(biāo)的不同而變化，例如，它是BERT的非線性投影，帶有softmax ，其中度量函數(shù)變成交叉熵?？梢钥醋魇茄谀＝５慕y(tǒng)一公式。

因此，考慮如何在掩碼3D建模中建立一個知識淵博的老師是很自然的。作者的想法是利用2D或語言基礎(chǔ)模型中的跨模式教師。

四、ACT: 自編碼器作為跨模態(tài)教師

目標(biāo)是通過預(yù)訓(xùn)練的2D圖像或語言Transformer來促進(jìn)3D表示學(xué)習(xí)，該模型具備從大規(guī)模數(shù)據(jù)中吸收的深層知識。

然而，3D點(diǎn)云與2D圖像或語言具有不同的結(jié)構(gòu)，這使得細(xì)粒度知識的關(guān)聯(lián)變得困難。

為了解決這個問題，采用了一個兩階段的訓(xùn)練過程。ACT框架的概述如圖1所示。

階段I：調(diào)整預(yù)訓(xùn)練的2D或語言Transformer作為3D自編碼器，通過自監(jiān)督的提示調(diào)整來學(xué)習(xí)理解3D幾何。
階段II：使用預(yù)訓(xùn)練的3D自編碼器作為跨模態(tài)教師，通過掩碼建模將潛在特征蒸餾到3D點(diǎn)云Transformer學(xué)生中。

4.1 3D自編碼與預(yù)訓(xùn)練基礎(chǔ)Transformer

Transformer是最近在各個領(lǐng)域中主導(dǎo)的架構(gòu)，可以以統(tǒng)一的方式對任何模態(tài)的序列數(shù)據(jù)進(jìn)行建模。

因此，可以直接使用預(yù)訓(xùn)練的Transformer塊，將順序標(biāo)記與輸入點(diǎn)云的3D位置嵌入一起進(jìn)行輸入。
本文使用輕量級的DGCNN對點(diǎn)云進(jìn)行處理，其中的邊緣卷積層通過參數(shù) θ 表示。

跨模態(tài)嵌入與提示

首先，使用DGCNN風(fēng)格的補(bǔ)丁嵌入網(wǎng)絡(luò)對點(diǎn)云進(jìn)行編碼，產(chǎn)生一組標(biāo)記嵌入：。
然后，通過提示這些標(biāo)記嵌入，并將其輸入到預(yù)訓(xùn)練且凍結(jié)的Transformer塊的D層中，例如2D Transformer：。在這里，使用來表示 2DTransformer 的第層。

使用個可學(xué)習(xí)的提示嵌入，應(yīng)用于Transformer 的每一層。具體來說，Transformer的第層將隱含表示從第層轉(zhuǎn)換為，如下所示:

使用這種參數(shù)高效的快速調(diào)整策略，能夠調(diào)整預(yù)訓(xùn)練的基礎(chǔ)Transformer，同時保留盡可能多的預(yù)訓(xùn)練知識。

點(diǎn)云自編碼

另一個DGCNN網(wǎng)絡(luò) 用于從基礎(chǔ)Transformer嵌入的隱藏表示中提取局部幾何特征。然后，利用FoldingNet 對輸入點(diǎn)云進(jìn)行重構(gòu)。

將以上3D自編碼器作為離散變分自編碼器（dVAE）進(jìn)行訓(xùn)練，以最大化對數(shù)似然。這里表示原始和重構(gòu)的點(diǎn)云。

整體優(yōu)化目標(biāo)是最大化證據(jù)下界（ELBO），當(dāng)時成立：

其中：

表示離散的3D dVAE tokenizer；
是給定離散點(diǎn)標(biāo)記的dVAE****；
以自編碼方式重構(gòu)輸入點(diǎn)云。

4.2 掩碼點(diǎn)建模作為跨模態(tài)的知識蒸餾

通過訓(xùn)練3D自編碼器，預(yù)訓(xùn)練Transformer的強(qiáng)表示被轉(zhuǎn)化為3D特征空間，使自編碼器自動成為一個跨模態(tài)教師。

將在4.1節(jié)中介紹的預(yù)訓(xùn)練點(diǎn)云編碼器作為教師，將3D Transformer 作為學(xué)生。

通過掩碼建模作為跨模態(tài)知識蒸餾，最小化編碼后的教師特征與學(xué)生特征之間的負(fù)余弦相似度 :

五、實(shí)驗5.1下游任務(wù)遷移學(xué)習(xí)遷移學(xué)習(xí)設(shè)置

在分類任務(wù)中使用遷移學(xué)習(xí)的三種變體:

(a) FULL: 通過更新所有骨干和分類頭來微調(diào)預(yù)訓(xùn)練模型。

(b) MLP- linear: 分類頭是單層線性MLP，只在微調(diào)時更新該分類頭參數(shù)。

3D真實(shí)數(shù)據(jù)集分類

首先展示了在具有挑戰(zhàn)性的現(xiàn)實(shí)數(shù)據(jù)集ScanObjectNN上對3D形狀識別的評估。結(jié)果如表2所示，其中可以觀察到:

(i) 與FULL調(diào)優(yōu)協(xié)議下從頭開始的Transformer基線相比，ACT在三個不同的ScanObjectNN基準(zhǔn)測試上平均獲得了+10.4%的顯著改進(jìn)。此外，通過簡單的點(diǎn)云旋轉(zhuǎn)，ACT實(shí)現(xiàn)了+11.9%的平均改進(jìn);

(ii) 與明確以三維幾何理解為目的設(shè)計的方法相比，ACT`始終取得更好的結(jié)果。

(iii) 與其他自監(jiān)督學(xué)習(xí)(SSL)方法相比，在ScanObjectNN上，ACT在所有方法中實(shí)現(xiàn)了最好的泛化。此外，在ScanObjectNN上使用純3D Transformer架構(gòu)的方法中，ACT成功地達(dá)到了最先進(jìn)(SOTA)的性能，例如，在最具挑戰(zhàn)性的PB_T50_RS基準(zhǔn)測試中，ACT比Point-MAE的準(zhǔn)確率高出+3.0%。

表2:ScanObjectNN上的分類結(jié)果。our1:沒有數(shù)據(jù)增強(qiáng)的訓(xùn)練結(jié)果。
Ours2:簡單點(diǎn)云旋轉(zhuǎn)訓(xùn)練的結(jié)果。DA:在微調(diào)訓(xùn)練期間使用數(shù)據(jù)增強(qiáng)。報告總體精度，即OA(%)。

3D場景分割

大規(guī)模3D場景的語義分割具有挑戰(zhàn)性，需要對上下文語義和局部幾何關(guān)系的理解。在表4中，報告了S3DIS數(shù)據(jù)集的結(jié)果。可以看到:

(i) ACT顯著提高了從零開始的基線，mAcc和mIoU分別提高了+2.5%和+1.2%。

(ii) ACT比SSL對應(yīng)的Point-MAE分別高出+1.2%和+0.4%的mAcc和mIoU，在大場景數(shù)據(jù)集上顯示出優(yōu)越的傳輸能力。

(iii) 僅使用幾何輸入xyz, ACT可以實(shí)現(xiàn)與使用xyz+rgb數(shù)據(jù)進(jìn)行細(xì)致設(shè)計的架構(gòu)相當(dāng)或更好的性能，包括3d特定的Transformer架構(gòu)。

表4:S3DIS區(qū)域5上的語義分割結(jié)果。報告了所有類別的平均準(zhǔn)確性和平均IoU，即mAcc(%)和mIoU(%)。使用Xyz:點(diǎn)云坐標(biāo)。xyz+rgb:同時使用坐標(biāo)和rgb顏色。

3D合成數(shù)據(jù)集分類

展示了在合成數(shù)據(jù)集ModelNet40上對三維形狀分類的評估。為了證明在有限的訓(xùn)練樣例下ACT的數(shù)據(jù)效率特性，首先遵循Sharma & Kaul(2020)來評估 few-shot 學(xué)習(xí)。

從表5中，可以看到:

(i) 與從頭開始的FULL轉(zhuǎn)移基線相比，ACT在四種設(shè)置下分別帶來了+9.0%，+4.7%，+8.7%，+6.2%的顯著改進(jìn)。

(ii) 與其他SSL方法相比，ACT始終實(shí)現(xiàn)最佳性能。

然后，在表3中展示了完整數(shù)據(jù)集上的結(jié)果，在表3中我們觀察到，與FULL協(xié)議下的從頭基線相比，ACT實(shí)現(xiàn)了+2.5%的準(zhǔn)確率提高，并且結(jié)果與所有協(xié)議中的其他自監(jiān)督學(xué)習(xí)方法相當(dāng)或更好。

表3:ModelNet40數(shù)據(jù)集上的分類結(jié)果。報告總體精度，即OA(%)。[ST]:標(biāo)準(zhǔn)Transformer架構(gòu)。

表5:在ModelNet40上的Few-shot分類，報告了總體準(zhǔn)確率(%)。

5.2 消融研究****深度

表6展示了使用不同****深度的ACT在ScanObjectNN上的平均微調(diào)準(zhǔn)確率?？梢钥闯?，性能對****深度不敏感，我們發(fā)現(xiàn)具有2個塊的****取得了最高的結(jié)果。

需要注意的是，當(dāng)****深度為0時，我們采用了類似BERT的掩碼建模架構(gòu)，其中沒有****，編碼器可以看到所有的標(biāo)記，包括被掩碼的標(biāo)記。
我們發(fā)現(xiàn)這導(dǎo)致了較差的結(jié)果，與在2D上觀察到的數(shù)據(jù)的低語義性需要一個非平凡****的觀察一致。