清華大學(xué)&英偉達(dá)最新｜Occ3D：通用全面的大規(guī)模3D Occupancy預(yù)測(cè)基準(zhǔn)（2）

發(fā)布人：計(jì)算機(jī)視覺(jué)工坊時(shí)間：2023-05-20 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

數(shù)據(jù)集統(tǒng)計(jì)

基于上述半自動(dòng)標(biāo)注pipeline，作者生成了兩個(gè)3D占用預(yù)測(cè)數(shù)據(jù)集，Occ3D Waymo和Occ3D nuScenes。Occ3D Waymo包含798個(gè)用于訓(xùn)練的序列，202個(gè)用于驗(yàn)證的序列。它有14個(gè)已知的目標(biāo)類(lèi)和一個(gè)額外的GO類(lèi)。Occ3D nuScenes包含600個(gè)用于訓(xùn)練的場(chǎng)景和150個(gè)用于驗(yàn)證的場(chǎng)景。它有16個(gè)GO類(lèi)。下表1將作者提出的Occ3D數(shù)據(jù)集與現(xiàn)有數(shù)據(jù)集在各個(gè)方面進(jìn)行了比較。

粗略到精細(xì)占用模型

為了解決具有挑戰(zhàn)性的3D占用預(yù)測(cè)問(wèn)題，作者提出了一種新的基于transformer的模型，稱(chēng)為粗略到精細(xì)占有（CTF-Occ）網(wǎng)絡(luò)。作者將在本節(jié)中詳細(xì)介紹模型設(shè)計(jì)。

總體架構(gòu)

下圖4顯示了CTF-Occ網(wǎng)絡(luò)架構(gòu)圖。

首先，利用圖像主干網(wǎng)絡(luò)從多視圖圖像中提取2D圖像特征。然后，3D體素通過(guò)交叉注意力操作將聚集的2D圖像特征queries到3D空間中。作者的方法涉及使用金字塔體素編碼器，該編碼器通過(guò)增量標(biāo)注選擇和空間交叉注意力以從粗到細(xì)的方式逐步改進(jìn)體素特征表示。這種方法提高了空間分辨率，并細(xì)化了目標(biāo)的詳細(xì)幾何結(jié)構(gòu)，最終實(shí)現(xiàn)了更準(zhǔn)確的3D占用預(yù)測(cè)。此外，作者使用了一個(gè)隱式占用****，它允許任意分辨率的輸出。

粗略到精細(xì)體素編碼器

與3D目標(biāo)檢測(cè)相比，3D占用預(yù)測(cè)任務(wù)涉及對(duì)更復(fù)雜的目標(biāo)幾何結(jié)構(gòu)進(jìn)行建模。為了說(shuō)明這一點(diǎn)，作者的方法在不壓縮高度的情況下預(yù)先服務(wù)于3D體素空間。最初，作者采用形狀為H×W×L的可學(xué)習(xí)體素嵌入來(lái)將多視圖圖像特征聚合到3D網(wǎng)格空間中。然后，作者堆疊多個(gè)CTF體素編碼器，以實(shí)現(xiàn)多尺度交互。每個(gè)金字塔級(jí)別的每個(gè)體素編碼器由三個(gè)組件組成：增量標(biāo)注選擇模塊、體素空間交叉注意力模塊和卷積特征提取器。

增量token選擇: 如前所述，預(yù)測(cè)3D占用任務(wù)需要詳細(xì)的幾何表示，但如果所有3D體素標(biāo)注都用于與多視圖圖像中的感興趣區(qū)域交互，這可能會(huì)導(dǎo)致顯著的計(jì)算和內(nèi)存成本。考慮到場(chǎng)景中大多數(shù)3D體素網(wǎng)格都是空的，作者提出了一種增量標(biāo)注選擇策略，該策略在交叉注意力計(jì)算中選擇性地選擇前景和不確定的體素標(biāo)注。這種策略能夠在不犧牲精度的情況下實(shí)現(xiàn)快速高效的計(jì)算。具體地，在每個(gè)金字塔級(jí)別的開(kāi)始，每個(gè)體素token被饋送到二元分類(lèi)器中，以預(yù)測(cè)該體素是否為空。作者使用二進(jìn)制真值占用圖作為監(jiān)督來(lái)訓(xùn)練分類(lèi)器。在作者的方法中，選擇K個(gè)最不確定的體素標(biāo)注用于后續(xù)的特征細(xì)化。有三種方法可以定義K個(gè)最不確定的體素：概率接近0.5的體素，得分最高的K個(gè)非空體素，或具有特定百分比的兩種體素的組合。消融研究表明，在早期選擇前景體素是一種更理想的選擇。

空間交叉注意力: 在金字塔的每個(gè)級(jí)別，作者首先選擇前K個(gè)體素標(biāo)注，然后聚合相應(yīng)的圖像特征。特別地，作者應(yīng)用空間交叉注意力來(lái)進(jìn)一步細(xì)化體素特征。3D空間交叉注意力定義為：

其中i，j是相機(jī)視圖和參考點(diǎn)的索引。對(duì)于每個(gè)選定的體素標(biāo)注查詢(xún)，投影實(shí)現(xiàn)以獲得第i個(gè)圖像上的第j個(gè)參考點(diǎn)。F表示第i個(gè)相機(jī)視圖的特征。作者計(jì)算與位于p=（x,y,z）處的查詢(xún)對(duì)應(yīng)的參考點(diǎn)的真實(shí)世界位置（x′,y′,z′）為：

其中H，W，L是當(dāng)前金字塔級(jí)別的3D網(wǎng)格空間形狀，s是體素網(wǎng)格的大小。

卷積特征提取器： 一旦作者將可變形的交叉注意力應(yīng)用于相關(guān)的圖像特征，就開(kāi)始更新前景體素標(biāo)注的特征。然后，使用一系列堆疊卷積來(lái)增強(qiáng)整個(gè)3D體素特征圖中的特征交互。在當(dāng)前級(jí)別結(jié)束時(shí)，作者使用三重線(xiàn)性插值對(duì)3D體素特征進(jìn)行上采樣。整個(gè)過(guò)程可以描述為：

隱式占用****

CTF體素編碼器生成體素化特征輸出，然后將體素特征輸入到多個(gè)MLP中，以獲得最終的占用預(yù)測(cè)′，其中C′是語(yǔ)義類(lèi)的數(shù)量。此外，作者介紹了一種隱式占用****，它可以通過(guò)利用隱式神經(jīng)表示提供任意分辨率的輸出。隱式****被實(shí)現(xiàn)為MLP，該MLP通過(guò)兩個(gè)輸入輸出語(yǔ)義標(biāo)簽：體素編碼器提取的體素特征向量和體素內(nèi)部的3D坐標(biāo)。該過(guò)程可以描述為

損失函數(shù)

為了優(yōu)化占用預(yù)測(cè)，作者使用OHEM[30]損失進(jìn)行模型訓(xùn)練，，，其中、和表示第k類(lèi)的損失權(quán)重、標(biāo)簽和預(yù)測(cè)結(jié)果。此外，作者使用二進(jìn)制體素掩碼來(lái)監(jiān)督每個(gè)金字塔級(jí)別中的二進(jìn)制分類(lèi)頭。二進(jìn)制體素掩碼是通過(guò)使用，處理每個(gè)空間分辨率si下的尾數(shù)占用標(biāo)簽來(lái)生成的，并且第i級(jí)中的二進(jìn)制分類(lèi)頭的輸出表示為pi。二元分類(lèi)的損失定義為，其中i表示第i個(gè)金字塔級(jí)。最后，總損失為。

實(shí)驗(yàn)實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集： Occ3D Waymo總共包含1000個(gè)公開(kāi)可用的序列，其中798個(gè)場(chǎng)景用于訓(xùn)練，202個(gè)場(chǎng)景用于驗(yàn)證。場(chǎng)景范圍沿X軸和Y軸設(shè)置為-40米至40米，沿Z軸設(shè)置為-5米至7.8米。Occ3D nuScenes包含700個(gè)訓(xùn)練場(chǎng)景和150個(gè)驗(yàn)證場(chǎng)景。X軸和Y軸的占用范圍定義為-40米至40米，Z軸為-1米至5.4米。作者選擇0.4m的體素大小在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

架構(gòu)： 作者使用在FCOS3D[36]上預(yù)訓(xùn)練的ResNet-101[13]作為圖像主干，對(duì)于Occ3D Waymo，圖像大小被調(diào)整為（640×960），對(duì)于Occ3D nuScenes，圖像大小調(diào)整為（928×1600）。除了z軸的分辨率外，作者對(duì)兩個(gè)數(shù)據(jù)集采用了相同的CTF-Occ網(wǎng)絡(luò)架構(gòu)設(shè)置。體素嵌入的形狀是（200×200），具有256個(gè)通道。體素嵌入將首先通過(guò)四個(gè)編碼器層，而不進(jìn)行token選擇。Occ3D Waymo數(shù)據(jù)集有三個(gè)金字塔級(jí)，每個(gè)級(jí)的z軸分辨率分別為8、16和32。Occ3D nuScenes數(shù)據(jù)集的每個(gè)階段的z軸分辨率分別為8和16（對(duì)于兩個(gè)金字塔階段）。每個(gè)階段包含一個(gè)SCA層，并且對(duì)于所有金字塔階段，增量token選擇策略的top-k比率都設(shè)置為0.2。

作者還將兩個(gè)主流BEV模型——BEVDet[14]和BEVFormer[18]擴(kuò)展到3D占用預(yù)測(cè)任務(wù)。作者用CTF-Occ網(wǎng)絡(luò)中采用的占用****取代了他們?cè)瓉?lái)的檢測(cè)****，并保留了他們的BEV特征編碼器。根據(jù)他們的原始設(shè)置，作者采用從FCOS3D[36]檢查點(diǎn)初始化的ResNet101 DCN作為圖像主干。

實(shí)施細(xì)節(jié)： 作者使用AdamW優(yōu)化器[23]和余弦學(xué)習(xí)速率調(diào)度器，學(xué)習(xí)速率設(shè)置為2e-4。除非另有規(guī)定，否則所有模型都訓(xùn)練了24個(gè)epoch進(jìn)行比較，8個(gè)epoch進(jìn)行消融研究。

6.2.與以前的方法進(jìn)行比較

Occ3D nuScenes： 下表2顯示了與Occ3D nuScenes數(shù)據(jù)集上的相關(guān)方法相比，3D占用預(yù)測(cè)的性能?？梢杂^察到，在IoU度量下，作者的方法在所有類(lèi)中的性能都比以前的基線(xiàn)方法好。這些觀測(cè)結(jié)果與Occ3D Waymo數(shù)據(jù)集中的觀測(cè)結(jié)果一致。

Occ3D Waymo： 作者將CTF-Occ網(wǎng)絡(luò)的性能與新提出的Occ3D Waymo數(shù)據(jù)集上最先進(jìn)的模型進(jìn)行了比較。結(jié)果如下表4所示。作者的方法比以前的方法有顯著的優(yōu)勢(shì)，即將mIoU增加了3.11。特別是對(duì)于一些小目標(biāo)，如行人和自行車(chē)，方法分別超過(guò)基線(xiàn)方法4.11和13.0 IoU。這是因?yàn)樽髡咴诓粔嚎s高度的情況下捕捉3D體素空間中的特征，這將保留目標(biāo)的詳細(xì)幾何結(jié)構(gòu)。結(jié)果表明了作者的從粗到細(xì)體素編碼器的有效性。

消融研究

在本節(jié)中，作者消融了增量token選擇和OHEM損失的選擇。結(jié)果如下表3所示。CC代表交通錐，PED代表行人。作者專(zhuān)注于CC和PED，以驗(yàn)證作者在小目標(biāo)上實(shí)現(xiàn)。這兩種技術(shù)都能提高性能。使用OHEM損失和top-k token選擇可產(chǎn)生最佳性能。如果沒(méi)有OHEM損失，作者只能得到10.06 mIoU。將OHEM損失與隨機(jī)token選擇策略相結(jié)合，可實(shí)現(xiàn)14.75 mIoU。使用OHEM損失的不確定token選擇策略可實(shí)現(xiàn)17.37mIoU。對(duì)于token選擇，不確定選擇和前k選擇不相上下，它們顯著優(yōu)于隨機(jī)選擇。

定性結(jié)果

作者將CTF-Occ網(wǎng)絡(luò)輸出與圖5中Occ3D Waymo數(shù)據(jù)集上的最先進(jìn)方法BEVFormer Occ進(jìn)行了比較。作者可以看到，CTF-Occ網(wǎng)絡(luò)輸出了比BEVFormer-Occ結(jié)果更詳細(xì)的體素幾何結(jié)構(gòu)。此外，作者的體素****能夠以任何分辨率產(chǎn)生輸出，而不受真值數(shù)據(jù)分辨率的限制。

結(jié)論

作者提出了Occ3D，一個(gè)用于視覺(jué)感知的大規(guī)模3D占用預(yù)測(cè)基準(zhǔn)。該基準(zhǔn)測(cè)試包括一個(gè)數(shù)據(jù)生成協(xié)議、兩個(gè)數(shù)據(jù)集和用于該任務(wù)的模型CTF-Occ網(wǎng)絡(luò)。它們都將開(kāi)源，以促進(jìn)未來(lái)的研究。研究表明，語(yǔ)義占用為目標(biāo)提供了更具表現(xiàn)力和豐富的表示。此外，它提供了已知和未知目標(biāo)的統(tǒng)一表示，這對(duì)戶(hù)外自動(dòng)駕駛感知至關(guān)重要。除了直接使用外，這個(gè)基準(zhǔn)為未來(lái)的研究開(kāi)辟了幾個(gè)途徑。例如，將實(shí)例ID添加到語(yǔ)義體素將從本質(zhì)上改變?nèi)蝿?wù)為全景分割，并提供更豐富的信息。

參考

[1] Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving

開(kāi)源地址：https://tsinghua-mars-lab.github.io/Occ3D/

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專(zhuān)欄

清華大學(xué)&英偉達(dá)最新｜Occ3D：通用全面的大規(guī)模3D Occupancy預(yù)測(cè)基準(zhǔn)（2）

相關(guān)推薦

技術(shù)專(zhuān)區(qū)