博客專欄

EEPW首頁 > 博客 > ICLR2023 | 阿卜杜拉國王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò):多視圖+點(diǎn)云!(1)

ICLR2023 | 阿卜杜拉國王科技大學(xué)最新發(fā)布,3D表示新網(wǎng)絡(luò):多視圖+點(diǎn)云!(1)

發(fā)布人:計算機(jī)視覺工坊 時間:2023-08-22 來源:工程師 發(fā)布文章

多視圖投影方法在 3D 分類和分割等 3D 理解任務(wù)上表現(xiàn)出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點(diǎn)云相結(jié)合。

人類視覺系統(tǒng)更接近于使用多個視角的間接方法來理解3D物體,而不是直接處理3D數(shù)據(jù)。相比之下,間接方法通常通過渲染對象或場景的多個2D視圖,并使用基于2D圖像的傳統(tǒng)架構(gòu)來處理每個圖像。人類視覺系統(tǒng)更接近于這種多視圖間接方法,因為它接收到的是渲染圖像流,而不是顯式的3D數(shù)據(jù)。

引入了Voint cloud這個新的3D數(shù)據(jù)表示形式,并設(shè)計了VointNet 模型來學(xué)習(xí)和處理這種表示。Voint cloud將每個3D點(diǎn)表示為從多個視角提取的特征集合,以融合點(diǎn)云表示的緊湊性和多視圖表示的自然感知能力。

作者通過定義在Voint級別的池化和卷積操作,構(gòu)建了Voint neural network (VointNet ),并利用該網(wǎng)絡(luò)在Voint空間學(xué)習(xí)3D表示。

簡介

多視圖投影方法在 3D 分類和分割等 3D 理解任務(wù)上表現(xiàn)出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點(diǎn)云相結(jié)合。以前的方法使用未學(xué)習(xí)的啟發(fā)式方法在點(diǎn)級別組合特征。

為此,本文引入了多視點(diǎn)云(Voint cloud)的概念,將每個 3D 點(diǎn)表示為從多個視點(diǎn)提取的一組特征。這種新穎的 3D Voint 云表示結(jié)合了 3D 點(diǎn)云表示的緊湊性和多視圖表示的自然視圖感知。自然地,可以為這個新的表示配備卷積和池化操作。

通過部署一個 Voint 神經(jīng)網(wǎng)絡(luò) (VointNet ) 來學(xué)習(xí)Voint 空間中的表征。學(xué)習(xí)的新穎表示在標(biāo)準(zhǔn)基準(zhǔn)(ScanObjectNN、ShapeNet Core55 和 ShapeNetParts)的 3D 分類、形狀檢索和穩(wěn)健的 3D 部件分割方面均實現(xiàn)了最先進(jìn)的性能。

圖片

圖1: 3D Voint clouds。本文提出了多視圖點(diǎn)云(Voint cloud),這是一種新穎的3D表示,它緊湊且自然地描述了3D點(diǎn)云的視圖投影。

  • 3D云中的每個點(diǎn)都被標(biāo)記為一個點(diǎn),它會累積該點(diǎn)的視圖特征。
  • 注意,并非所有的3D點(diǎn)在所有視圖中都可見。Voint 的集合構(gòu)成了一個Voint cloud。
筆者個人體會

作者的動機(jī)是解決在3D視覺任務(wù)中如何表示3D數(shù)據(jù)的問題。

  • 作者觀察到在2D計算機(jī)視覺中,直接采用圖像作為輸入的方法取得了巨大的成功,而在3D視覺中,如何表示和處理3D數(shù)據(jù)仍然是一個挑戰(zhàn)。

    盡管深度學(xué)習(xí)在2D計算機(jī)視覺中取得了巨大成功,但在3D視覺中,如何表示和處理3D數(shù)據(jù)仍然是一個挑戰(zhàn)。

    3D計算機(jī)視覺和計算機(jī)圖形學(xué)的一個基本問題是如何表示3D數(shù)據(jù)。深度學(xué)習(xí)在2D計算機(jī)視覺領(lǐng)域的成功,它在3D視覺和圖形領(lǐng)域的廣泛應(yīng)用變得尤為重要。深度網(wǎng)絡(luò)已經(jīng)在多個3D任務(wù)上取得了成功,包括3D分類、3D分割、3D檢測、3D重建和新穎視圖合成。這些方法可以依賴于直接的3D表示、圖像上的間接2D投影,或者兩者的混合。直接方法操作通常以點(diǎn)云、網(wǎng)格或體素的形式表示的3D數(shù)據(jù)。

  • 作者認(rèn)為間接的多視圖方法更符合人類視覺系統(tǒng)的工作方式,因為人類接收到的是一系列渲染圖像,而不是顯式的3D數(shù)據(jù)。

    人類視覺系統(tǒng)更接近于使用多個視角的間接方法來理解3D物體,而不是直接處理3D數(shù)據(jù)。

    相比之下,間接方法通常通過渲染對象或場景的多個2D視圖,并使用基于2D圖像的傳統(tǒng)架構(gòu)來處理每個圖像。人類視覺系統(tǒng)更接近于這種多視圖間接方法,因為它接收到的是渲染圖像流,而不是顯式的3D數(shù)據(jù)。

  • 多視圖方法在3D形狀分類和分割任務(wù)中已經(jīng)取得了令人印象深刻的性能。然而,在多視圖表示中,如何正確聚合每個視圖的特征是一個挑戰(zhàn)。

    使用間接方法處理3D視覺任務(wù)具有三個主要優(yōu)勢:(i) 成熟且可遷移的2D計算機(jī)視覺模型(如CNN、Transformers等),(ii) 大型和多樣化標(biāo)記圖像數(shù)據(jù)集的預(yù)訓(xùn)練支持(例如ImageNet),(iii) 多視圖圖像提供了豐富的上下文特征,根據(jù)視角提供信息,與幾何3D鄰域特征不同。

    多視圖方法在3D形狀分類和分割方面取得了令人印象深刻的性能。然而,多視圖表示(特別是在密集預(yù)測任務(wù)中)的挑戰(zhàn)在于如何正確地聚合每個視圖的特征以獲得具有代表性的3D點(diǎn)云。需要進(jìn)行適當(dāng)?shù)木酆喜僮鳎垣@得每個點(diǎn)具有適用于典型點(diǎn)云處理流程的單個特征。

  • 因此,動機(jī)是將多視圖的思想與常用的3D點(diǎn)云表示相結(jié)合,以提高3D理解任務(wù)的性能。

    以前的多視圖方法依賴于啟發(fā)式方法,例如將像素映射到點(diǎn)后進(jìn)行平均或池化,或者與體素進(jìn)行多視圖融合。然而,這種啟發(fā)式方法存在一些問題:(i) 這種方法可能會匯總來自不同視角的誤導(dǎo)性預(yù)測信息。例如,如果一個對象從底部視角獨(dú)立處理,而與其他視角結(jié)合時會產(chǎn)生錯誤的信息。(ii) 視圖缺乏幾何3D信息。

    為了解決這些問題,提出了一種新的混合3D數(shù)據(jù)結(jié)構(gòu),它繼承了點(diǎn)云的優(yōu)點(diǎn)(緊湊性、靈活性和3D描述性),并利用了多視圖投影豐富的感知特征。這種新的表示稱為多視圖點(diǎn)云(或Voint cloud)。

核心創(chuàng)新點(diǎn)

引入了Voint cloud這個新的3D數(shù)據(jù)表示形式,并設(shè)計了VointNet 模型來學(xué)習(xí)和處理這種表示。

  • Voint cloud將每個3D點(diǎn)表示為從多個視角提取的特征集合,以融合點(diǎn)云表示的緊湊性和多視圖表示的自然感知能力。

    作者通過將每個點(diǎn)表示為從多個視角提取的特征集合,構(gòu)建了Voint cloud這種新的表示形式。這種表示繼承了點(diǎn)云表示的緊湊性和3D描述能力,并利用了多視圖投影的豐富感知特征。

    Voint cloud是由一組Voint組成的,每個Voint都是與視圖相關(guān)的特征(視圖特征),對應(yīng)于3D點(diǎn)云中的相同點(diǎn)。每個Voint中的視圖特征的數(shù)量可能會有所不同。

    Voint cloud繼承了顯式3D點(diǎn)云的特性,這有助于學(xué)習(xí)適用于各種視覺任務(wù)(如點(diǎn)云分類和分割)的Voint表示。為了在新的Voint空間上應(yīng)用深度學(xué)習(xí),定義了一些基本操作,如池化和卷積。這些操作允許在Voint云上進(jìn)行特征提取和處理。

  • 作者通過定義在Voint級別的池化和卷積操作,構(gòu)建了Voint neural network (VointNet ),并利用該網(wǎng)絡(luò)在Voint空間學(xué)習(xí)表示。

    通過定義在Voint級別的池化和卷積操作,作者設(shè)計了VointNet 模型,可以學(xué)習(xí)和處理Voint cloud表示。通過這種方式,作者旨在提高3D視覺任務(wù)的性能,并在標(biāo)準(zhǔn)基準(zhǔn)測試中展示出最先進(jìn)的性能。

    基于這些操作,提出了一種實用方法來構(gòu)建Voint神經(jīng)網(wǎng)絡(luò),稱為VointNet 。VointNet 接受Voint cloud作為輸入,并輸出用于3D點(diǎn)云處理的點(diǎn)云特征。并展示了學(xué)習(xí)這種Voint cloud表示如何在ScanObjectNN和ShapeNet等數(shù)據(jù)集上產(chǎn)生良好的結(jié)果。通過VointNet 能夠有效地處理和分析3D點(diǎn)云數(shù)據(jù),并為各種任務(wù)提供豐富的特征表示。

設(shè)計思路
  • 通過將每個點(diǎn)從不同視角的特征進(jìn)行聚合,構(gòu)建一個點(diǎn)云的緊湊而豐富的表示形式。
  • 作者定義了Voint cloud的數(shù)據(jù)結(jié)構(gòu)和基本操作,并在此基礎(chǔ)上設(shè)計了VointNet 模型。
  • VointNet 接受Voint cloud作為輸入,輸出適用于3D點(diǎn)云處理的點(diǎn)云特征。
  • 為了實現(xiàn)這個方法,作者在大規(guī)模的數(shù)據(jù)集上進(jìn)行了實驗和評估,并與其他方法進(jìn)行了比較。

該方法的好處:

  1. 繼承了點(diǎn)云表示的緊湊性和3D描述能力,同時利用了多視圖投影的豐富感知特征。
  2. 可以利用現(xiàn)有的2D計算機(jī)視覺模型和大規(guī)模圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,從而實現(xiàn)模型的遷移和加速訓(xùn)練過程。
  3. 通過Voint cloud的池化和卷積操作,可以更好地融合來自多個視角的信息,從而提高3D理解任務(wù)的性能。
  4. 在標(biāo)準(zhǔn)基準(zhǔn)測試中,該方法取得了最先進(jìn)的性能,表明它在3D分類、檢索和分割等任務(wù)上具有優(yōu)越性能。
  5. 對于遮擋和旋轉(zhuǎn)等問題,該方法也展現(xiàn)出更好的魯棒性。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉