ICLR2023 | 阿卜杜拉國王科技大學最新發(fā)布，3D表示新網(wǎng)絡：多視圖+點云！(3)

發(fā)布人：計算機視覺工坊時間：2023-08-22 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發(fā)布文章

卷積——VointConv

VointConv是指對Voint空間上的操作進行卷積運算。

它是一個可學習的函數(shù)，具有共享權重，并且在所有的Voint上進行操作。
輸入是視圖特征大小為的數(shù)據(jù)，輸出是視圖特征大小為的數(shù)據(jù)，其中包含了層。

一個簡單的VointConv操作的示例是將共享的多層感知機 ( MLP ) 應用于可見視圖特征。

在第4.2節(jié)中，提供了更多關于這種操作的詳細信息，導致了VointNet 的不同的變體。

3D Voint clouds的學習VointNet

VointNet 模型的目標是：獲得可以隨后被任何點云處理 pipeline 使用的多視圖點云特征。

VointNet 模塊定義如下。

其中是任意點卷積運算（例如共享 MLP 或 EdgeConv）。在將 VointMax 應用于視圖特征以獲得點特征之前，VointNet 使用學習到的 VointConv 轉換各個視圖特征。

用于 3D 點云處理的 VointNet **pipeline ** —— VointNet Pipeline for 3D Point Cloud Processing

完整的 pipeline 如圖 2 所示。損失可描述如下：

其中：

L 是在所有訓練點上定義的交叉熵 (CE) 損失，定義了這些點的標簽。
其他組件均已在之前定義。

要聯(lián)合學習的權重是 2D 主干的權重和使用相同 3D 損失的 VointNet 的權重。可以選擇添加上的輔助 2D 損失以在圖像級別進行監(jiān)督。

對于分類，整個對象可以被視為單個 Voint，每個視圖的全局特征將是該 Voint 的視圖特征。

實驗 Experiments實驗設置 Experimental SetupDatasets 數(shù)據(jù)集

本文對VointNet 進行了基準測試，使用了具有挑戰(zhàn)性和現(xiàn)實性的ScanObjectNN數(shù)據(jù)集。該數(shù)據(jù)集包含三個變體，包括背景和遮擋，共有15個類別和2,902個點云。

對于形狀檢索任務，我們使用ShapeNet Core55作為ShapeNet的子集進行基準測試。該數(shù)據(jù)集包含51,162個帶有55個對象類別標簽的3D網(wǎng)格對象。根據(jù)MVTN的設置從每個網(wǎng)格對象中采樣5,000個點來生成點云。

另外，對于形狀部件分割任務，在ShapeNet Parts上進行了測試，它是ShapeNet的一個子集，包含來自16個類別和50個部分的16,872個點云對象。

對于遮擋魯棒性測試，遵循MVTN的方法，在ModelNet40數(shù)據(jù)集上進行測試，該數(shù)據(jù)集由40個類別和12,311個3D對象組成。

Metrics 評估指標

評估指標方面：

對于3D點云分類任務，展示了整體精度。
對于形狀檢索任務，使用測試查詢的平均精度（mAP）進行評估。
對于語義分割任務，使用點云上的平均交并比（mIoU）進行評估。
對于部件分割任務，展示了實例平均mIoU（Ins. mIoU）。

Baselines 基線

作為基線方法，包括 PointNet、PointNet++和DGCNN 作為使用點云的基線。

還與一些基于多視圖的方法進行了比較，包括 MVCNN、SimpleView和MVTN，用于分類和檢索任務，并使用了一些基于多視圖的分割方法（如標簽融合和Mean Fusion）用于部件分割任務。

VointNet 變量

等式 (3) 中的 VointNet 依賴于 VointConv 操作作為基本構建塊。

在這里，簡要描述了 VointNet 使用的三個操作示例。

共享多層感知器 (MLP)

這是最基本的 VointConv公式。

對于層，視圖處的 Voint 的特征被更新到層為：，其中 ρ 是共享 MLP，其權重為，然后是歸一化和非線性函數(shù)（例如 ReLU）。

此操作獨立應用于所有 Voint，并且僅涉及每個Voint 的可見視圖特征。該公式擴展了 PointNet 的共享MLP 公式，以處理 Voints 的視圖特征。

圖卷積（GCN）

通過創(chuàng)建一個連接到所有視圖特征的虛擬中心節(jié)點來聚合它們的信息（類似于 ViT 中的 “cls” token 來為每個 Voint 定義一個全連接的圖。

然后，圖卷積可以被定義為共享 MLP（如上所述）但在所有視圖特征之間的邊緣特征上，然后是圖形鄰居上的最大池化。在最終輸出之前使用額外的共享 MLP。

圖注意力（GAT）

圖注意力操作可以像上面的 GCN 操作一樣定義，但是在對它們進行平均之前，在圖鄰居的特征上學習注意力權重。共享 MLP 計算這些權重。

Implementation Details 實現(xiàn)細節(jié)Rendering and Unprojection. 渲染和非投影

在pipeline 中選擇來自 Pytorch3D的可微點云渲染器 R，因為它的速度和與Pytorch 庫的兼容性。在尺寸為的多視圖圖像上渲染點云。

根據(jù)點的法線值對點進行著色，如果法線不可用，則將它們保持為白色。按照與 (Wei et al, 2020;Hamdi et al, 2021) 類似的程序，視點設置在訓練期間隨機化（使用個視圖）并在測試中固定為球面視圖（使用個視圖）。

Architectures 架構

對于二維主干 C，使用 ViT-B（具有來自 TIMM 庫的預訓練權重）進行分類，使用 DeepLabV3進行分割。

在 3D 點云輸出上使用 3D CE 損失以及在像素上定義損失時的 2D CE 損失。VointNet 架構的特征維度為 d = 64，深度在中為 = 4 層。

主要結果基于VointNet (MLP)，除非在第 6 節(jié)中另有說明，在第6 節(jié)中詳細研究了 VointConv 和 C 的影響。

Training Setup 訓練設置

分兩個階段訓練，首先在點的2D 投影標簽上訓練 2D 主干，然后端到端地訓練整個pipeline，同時將訓練重點放在 VointNet 部分。

使用 AdamW 優(yōu)化器，初始學習率為，步長學習率為每 12 個epoch 33.3%，持續(xù) 40 個epoch 。

使用一個 NVIDIATesla V100 GPU 進行訓練。不使用任何數(shù)據(jù)擴充。

有關訓練設置（損失和渲染）、VointNet 和 2D 骨干架構的更多詳細信息，請參見附錄。

表3：3D 形狀檢索。
報告了 ShapeNet Core55 上的 3D 形狀檢索 mAP。
VointNet 在此基準測試中取得了最先進的結果。

表 4：ShapeNetPart 上的穩(wěn)健 3D 部件分割。
在 ShapeNetPart 的 3D 分割中，VointNet 的 mIoU 與其他方法的對比。

Results 結果

Voint 的主要測試結果總結在表 2、3、4 和 5 中。在 3D 分類、檢索和穩(wěn)健的 3D 零件分割任務中實現(xiàn)了最先進的性能。

更重要的是，在 ScanObjectNN 和 ShapeNetParts 的真實旋轉設置下，分別與點基線相比，提高了 7.2% 以上的Acc和 25% mIoU 。
按照 Hamdi 等人 (2021) 的慣例，在基準表中報告了四次運行中的最佳結果，但附錄中提供了詳細結果。

3D 形狀分類

表 2 報告了 ScanObjectNN 上 3D點云分類任務的分類精度。它將 VointNet 與其他最近的強大基線進行基準測試。

VointNet 展示了所有變體的最新結果，包括具有挑戰(zhàn)性的 Hardest (PB_T50_RS) 變體，其中包含具有挑戰(zhàn)性的旋轉和平移對象場景。
該變體的性能提升 (+2.6%)非常顯著，突出了 Voints 在具有挑戰(zhàn)性的場景中的優(yōu)勢，并在第 5.4 節(jié)中進一步證實了結果。遵循與MVTN 中完全相同的程序。

圖 3：部件分割的定性比較。
將 VointNet 3D 分割預測與使用相同訓練的 2D 主干的 Mean Fuse進行比較。
請注意 VointNet 如何區(qū)分細節(jié)部分（例如車窗框)。

表 5：3D 分類的遮擋穩(wěn)健性。
報告了 ModelNet40上針對不同數(shù)據(jù)遮擋率的測試準確性，以衡量不同 3D 方法的遮擋穩(wěn)健性。

3D 形狀檢索

表 3 在 ShapeNet Core55上對 3D 形狀檢索 mAP 進行了基準測試。

VointNet 在 ShapeNet Core55 上實現(xiàn)了最先進的性能。報告了基線結果。

穩(wěn)健的 3D 部件分割

表 4 報告了 VointNet 的實例平均分割 mIoU 與ShapeNet Parts 上的其他方法相比。報告了基準測試的兩個變體：未旋轉的歸一化設置和旋轉的真實設置。

對于旋轉設置，遵循之前的 3D 文獻通過在測試時（十次運行）隨機旋轉擾動 ShapeNet 部件中的形狀來測試訓練模型的穩(wěn)健性，并在表 4 中報告平均值。
注意 VointNet ，在未旋轉的設置上，盡管這兩個基線使用與 VointNet 相同的經(jīng)過訓練的 2D 主干。
此外，對于旋轉設置，點方法也不起作用。表 4 中的所有結果均由代碼在同一設置中重現(xiàn)（請參閱補充材料中隨附的代碼）。

圖 3 顯示了 VointNet 和 Mean Fuse 的定性 3D 分割結果與ground truth相比。

Occlusion Robustness 遮擋穩(wěn)健性

最近研究的 3D 分類模型的穩(wěn)健性方面之一是它們對遮擋的穩(wěn)健性，如 MVTN 所述。這些模擬遮擋在測試時引入，并報告每個裁剪率的平均測試精度。

將 VointNet 與表 5 中的最新基線進行了基準測試。
PointNet 和 DGCNN 被用作基于點的基線，MVTN 被用作多視圖基線。

圖 4：視圖數(shù)量的影響。繪制 Ins。
3D 分割的mIoU 與 ShapeNet 部件推理中使用的視圖數(shù) (M)。
請注意 VointNet 對 Mean Fuse 和 Label Fuse的持續(xù)改進。
兩個基線都使用與 VointNet 相同的經(jīng)過訓練的 2D 主干，并在相同的未旋轉設置上進行測試。

表 6：3D 分割的消融研究。
消融了 VointNet 的不同組件（2D 主干和VointConv 選擇）并報告 Ins。
mIoU 在 ShapeNetPart上的表現(xiàn)。

Analysis and Insights 分析和見解Number of Views 視圖數(shù)量

研究了視圖數(shù)量 M 對使用多個視圖的 3D 部件分割性能的影響。將 Mean Fuse 和 Label Fuse 與我們的VointNet 進行比較，因為它們都具有相同的訓練的2D 主干。

視圖是隨機選擇的，實驗重復四次。具有置信區(qū)間的 mIoU 如圖 4 所示。
觀察到VointNet 在不同數(shù)量的視圖中比其他兩個基線有一致的改進。

Choice of Backbones 骨干的選擇

消融了 2D 主干的選擇和 VointNet 中使用的VointConv 操作，并報告了分割 Ins。表 6 中的 mIoU結果。

請注意 2D 主干如何極大地影響性能，而VointConv 操作類型不會。
這種消融突出了 2D 主干在 VointNet 中的重要性，并激發(fā)了 VointNet (MLP) 最簡單變體的使用。

在附錄中提供了更多因素以及計算和內存成本的詳細研究。

Limitations and Acknowledgments 局限性和未來工作

這項工作介紹了 Voint cloud表示，它繼承了點云的優(yōu)點和多視圖投影的豐富視覺特征，導致增強的多視圖聚合和在許多 3D 視覺任務上的強大性能。

限制 Voints 性能的一個方面是 2D 主干對下游 3D 任務的訓練。在大多數(shù)情況下，必須使用足夠的數(shù)據(jù)對 2D 主干進行預訓練，以便為 VointNet 學習有意義的信息。
限制Voint-cloud 功能的另一個方面是如何正確選擇用于分割的視點。滿足于在訓練時隨機化視圖。

解決這些局限性是未來工作的重要方向。此外，將Voint 學習擴展到更多 3D 任務（如 3D 場景分割和 3D對象檢測）留給未來的工作。

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

ICLR2023 | 阿卜杜拉國王科技大學最新發(fā)布，3D表示新網(wǎng)絡：多視圖+點云！(3)

相關推薦

技術專區(qū)

博客專欄

ICLR2023 | 阿卜杜拉國王科技大學最新發(fā)布，3D表示新網(wǎng)絡：多視圖+點云！(3)

相關推薦

技術專區(qū)

ICLR2023 | 阿卜杜拉國王科技大學最新發(fā)布，3D表示新網(wǎng)絡：多視圖+點云！(3)