CVPR 2020 | 基于深度引導(dǎo)卷積的單目3D目標(biāo)檢測

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2021-07-10 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

參考論文：D4LCN:Learning Depth-Guided Convolutions for Monocular 3D Object Detection(CVPR2020)

論文、代碼地址：在公眾號「計(jì)算機(jī)視覺工坊」，后臺回復(fù)「D4LCN」，即可直接下載。

參考paddle復(fù)現(xiàn)：3D目標(biāo)檢測（單目）D4LCN論文復(fù)現(xiàn)（https://aistudio.baidu.com/aistudio/projectoverview/public）

Abstract

單目3D目標(biāo)檢測最大的挑戰(zhàn)在于無法得到精確的深度信息,傳統(tǒng)的二維卷積算法不適合這項(xiàng)任務(wù),因?yàn)樗荒懿东@局部目標(biāo)及其尺度信息,而這對三維目標(biāo)檢測至關(guān)重要.為了更好地表示三維結(jié)構(gòu),現(xiàn)有技術(shù)通常將二維圖像估計(jì)的深度圖轉(zhuǎn)換為偽激光雷達(dá)表示,然后應(yīng)用現(xiàn)有3D點(diǎn)云的物體檢測算法.因此他們的結(jié)果在很大程度上取決于估計(jì)深度圖的精度,從而導(dǎo)致性能不佳.在本文中,作者通過提出一種新的稱為深度引導(dǎo)的局部卷積網(wǎng)絡(luò)(LCN),更改了二維全卷積 (D4LCN),其中的filter及其感受野可以從基于圖像的深度圖中自動學(xué)習(xí),使不同圖像的不同像素具有不同的filter.克服了傳統(tǒng)二維卷積的局限性,縮小了圖像表示與三維點(diǎn)云表示的差距.D4LCN對于最先進(jìn)的KITTI的相對改進(jìn)是9.1%,單目3D檢測的SOTA方法.

Introduction

3D目標(biāo)檢測有許多應(yīng)用,如自動駕駛和機(jī)器人技術(shù).LiDAR設(shè)備可以獲得三維點(diǎn)云,從而獲得精確的深度信息.但是,LiDAR高成本和稀疏輸出的特點(diǎn)讓人們希望尋找到更便宜的替代品,這些替代品的其中之一維單目相機(jī).雖然單目相機(jī)引起了人們的廣泛關(guān)注,但在很大程度上不能夠解決3D目標(biāo)檢測問題.實(shí)現(xiàn)上述目標(biāo)的方法通常是分為基于2圖像的方法和基于偽激光雷達(dá)點(diǎn)的方法兩種.基于圖像的方法通常利用幾何體約束,包括對象形狀、地平面和關(guān)鍵點(diǎn).這些約束條件在損失函數(shù)中用不同的項(xiàng)表示,以提高檢測結(jié)果.基于偽激光雷達(dá)的圖像深度變換方法是通過模擬激光雷達(dá)信號的點(diǎn)云表示.如圖1所示,這兩種方法各有缺點(diǎn),都導(dǎo)致了性能不理想.

1、.png

圖1.（a）和（b）分別顯示了監(jiān)督深度估計(jì)器DORN和無監(jiān)督單深度生成的偽激光雷達(dá)點(diǎn).綠色框表示groundtruth（GT）3D框.如（b）所示,由于深度不準(zhǔn)確而產(chǎn)生的偽激光雷達(dá)點(diǎn)與GTbox有較大的偏移量（c）和（d）顯示了我們的方法和偽激光雷達(dá)使用粗深度圖的探測結(jié)果.效果在很大程度上取決于估計(jì)深度圖的精度,而我們的方法在缺少精確深度圖的情況下可以獲得準(zhǔn)確的檢測結(jié)果

基于圖像的方法通常無法獲取有意義的局部對象尺度和結(jié)構(gòu)信息,這主要是由于以下兩個(gè)因素,遠(yuǎn)近距離的單眼視覺會引起物體尺度的顯著變化.傳統(tǒng)的二維卷積核很難同時(shí)處理不同尺度的對象（見圖2）.二維卷積的局部鄰域定義在攝像機(jī)平面上,其中深度維數(shù)丟失.在這個(gè)非度量空間（e像素之間的距離沒有一個(gè)明確的物理意義）,過濾器無法區(qū)分對象和背景.在這種情況下,汽車區(qū)域和背景區(qū)域?qū)⒈煌葘Υ?

雖然基于偽激光雷達(dá)點(diǎn)的方法已經(jīng)取得了一些進(jìn)展,但它們?nèi)匀淮嬖趦蓚€(gè)關(guān)鍵問題,這些方法的性能在很大程度上依賴于估計(jì)深度圖的精度（見圖1）.從單目圖像中提取的深度圖通常是粗糙的（使用它們估計(jì)的點(diǎn)云具有錯(cuò)誤的坐標(biāo)）,導(dǎo)致不準(zhǔn)確的三維預(yù)測.換句話說,深度圖的精度限制了三維目標(biāo)檢測的性能.偽激光雷達(dá)方法不能有效地利用從RGB圖像中提取的高層語義信息,導(dǎo)致大量的虛警,這是因?yàn)辄c(diǎn)云提供了空間信息,卻丟失了語義信息.

為了解決上述問題,我們提出了一種新的卷積網(wǎng)絡(luò)D4LCN,其中卷積核由深度映射生成,并局部應(yīng)用于單個(gè)圖像樣本的每個(gè)像素和通道,而不是學(xué)習(xí)全局內(nèi)核來應(yīng)用于所有圖像.如圖2所示,D4LCN以深度圖為指導(dǎo),從RGB圖像中學(xué)習(xí)局部動態(tài)深度擴(kuò)展核,以填補(bǔ)二維和三維表示之間的空白,其中每個(gè)核都有自己的擴(kuò)張率.

圖2.不同卷積方法的比較（a）是傳統(tǒng)的二維卷積,它在每個(gè)像素上使用一個(gè)卷積核來卷積整個(gè)圖像（b）對圖像的不同區(qū)域（切片）應(yīng)用多個(gè)固定卷積核.（c）使用深度圖為每個(gè)像素生成具有相同接收場的動態(tài)核（d）表示我們的方法,其中濾波器是動態(tài)的,深度圖為每個(gè)像素和通道特性圖具有自適應(yīng)接收場.它可以用比（C）更少的參數(shù)更有效地實(shí)現(xiàn).

我們的貢獻(xiàn)（1）提出了一種新的三維目標(biāo)檢測組件D4LCN,其中深度圖指導(dǎo)了單目圖像的動態(tài)深度擴(kuò)展局部卷積的學(xué)習(xí)（2）設(shè)計(jì)了一個(gè)基于D4LCN的單級三維物體檢測框架,以更好的學(xué)習(xí)三維特征,以縮小二維卷積和基于三維點(diǎn)云的運(yùn)算之間的差距（3）大量實(shí)驗(yàn)表明,D4LCN優(yōu)于最先進(jìn)的單眼3D檢測方法,并在KITTIbenchmark上取得第一名.

網(wǎng)絡(luò)結(jié)構(gòu)

我們的框架由三個(gè)關(guān)鍵組件組成：網(wǎng)絡(luò)主干、深度引導(dǎo)濾波模塊和2D-3D head

圖3.單目三維物體檢測框架.首先從RGB圖像中估計(jì)出深度圖,并與RGB圖像一起作為輸出兩個(gè)分支網(wǎng)絡(luò)的輸入.然后利用深度引導(dǎo)濾波模塊對每個(gè)殘差塊的信息進(jìn)行融合.最后,采用一級非最大抑制探測頭（NMS）進(jìn)行預(yù)測

損失函數(shù)

比較結(jié)果

我們在kitti數(shù)據(jù)集的官方測試集和兩組驗(yàn)證集上進(jìn)行了實(shí)驗(yàn).表一包括排名前14位的方法,其中我們的方法排名第一.可以觀察到：

（1）我們的方法比第二個(gè)最好的競爭對手三維汽車檢測的提高9.1%

（2）大多數(shù)競爭對手在COCO/KITTI上預(yù)先訓(xùn)練的檢測器（例如更快的rcnn）或采用多階段訓(xùn)練來獲得更好的2D檢測和穩(wěn)定的3D結(jié)果.而我們的模型是使用標(biāo)準(zhǔn)的ImageNet預(yù)訓(xùn)練模型進(jìn)行端到端訓(xùn)練的.然而,我們?nèi)匀蝗〉昧俗顑?yōu)異的三維檢測結(jié)果,驗(yàn)證了我們的D4LCN學(xué)習(xí)三維結(jié)構(gòu)的有效性.

表1.KITTI 3D目標(biāo)檢測數(shù)據(jù)集的比較結(jié)果.

因?yàn)槿耸欠莿傮w.其形狀多變,深度信息難以準(zhǔn)確估計(jì).因此,對行人和騎自行車的人進(jìn)行三維檢測變得尤為困難,所有基于偽激光雷達(dá)的方法都無法檢測到這兩種類型的傳感器,如表2所示.該方法在行人和騎車人的三維檢測中仍取得了令人滿意的效果.此外,我們還在圖4中顯示了與我們的D4LCN的不同濾波器相對應(yīng)的活動映射.我們模型的同一層上的不同濾波器使用不同大小的感受野來處理不同規(guī)模的物體,包括行人（?。┖推嚕ù螅?以及遠(yuǎn)處的汽車（小）和附近的汽車（大）.

表2.D4LCN在三個(gè)數(shù)據(jù)分割上的多類3D檢測結(jié)果.

圖4.D4LCN的不同濾波器對應(yīng)的活動,分別表示1,2,3的擴(kuò)張率.不同的濾波器在模型中有不同的函數(shù)來自適應(yīng)地處理尺度問題.

總結(jié)

本文提出了一種用于單眼三維目標(biāo)檢測D4LCN,其卷積核和感受野（擴(kuò)張率）對于不同圖像的不同像素和通道是不同的.這些核是在深度映射的基礎(chǔ)上動態(tài)生成的,以彌補(bǔ)二維卷積的局限性,縮小二維卷積與基于點(diǎn)云的三維算子之間的差距.結(jié)果表明,該算法不僅能解決二維卷積的尺度敏感和無意義的局部結(jié)構(gòu)問題,而且能充分利用RGB圖像的高級語義信息.而且D4LCN能更好地捕獲KITTI數(shù)據(jù)集上的三維信息,并能在KITTI數(shù)據(jù)集上進(jìn)行單目三維目標(biāo)檢測.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

助聽器原理相關(guān)文章:助聽器原理

博客專欄

CVPR 2020 | 基于深度引導(dǎo)卷積的單目3D目標(biāo)檢測

相關(guān)推薦

技術(shù)專區(qū)