3D目標(biāo)檢測中點(diǎn)云的稀疏性問題及解決方案
來源|自動(dòng)駕駛之心
編輯|深藍(lán)學(xué)院
1. 點(diǎn)云稀疏性的定義
點(diǎn)云的稀疏性指激光雷達(dá)的采樣點(diǎn)覆蓋相對于場景的尺度來講,具有很強(qiáng)的稀疏性。例如,將目前主流的戶外3D目標(biāo)檢測數(shù)據(jù)集KITTI[1]的點(diǎn)云投影到對應(yīng)的RGB圖像上,大約只有3%的像素才有對應(yīng)的點(diǎn)云;VoxelNet[2]將獲取的點(diǎn)云等間距的劃分到體素空間,超過90%的體素是空的。稀疏性產(chǎn)生的原因包括遠(yuǎn)距離、遮擋和反光等。
仍然以KITTI數(shù)據(jù)集為例,KITTI數(shù)據(jù)集將不同目標(biāo)的檢測難度劃分為"Easy"、"Moderate"和"Hard"三類,我們統(tǒng)計(jì)了KITTI數(shù)據(jù)集中不同難度GT框內(nèi)的點(diǎn)云數(shù)目分布情況,如下圖所示,可以看出,"Moderate"和"Hard"目標(biāo)中分別有超過47%和54%的點(diǎn)云數(shù)少于60個(gè)points,其對應(yīng)的形狀和結(jié)構(gòu)是極其不完整的,進(jìn)而給3D目標(biāo)檢測帶來困難。
2. 點(diǎn)云稀疏性給3D目標(biāo)檢測帶來的難點(diǎn)2.1 待檢測目標(biāo)形狀不完整,語義信息缺失對于遠(yuǎn)距離或者遮擋的目標(biāo),點(diǎn)云密度隨著距離增大而減小,當(dāng)距離增大或者發(fā)生遮擋時(shí),獲取的目標(biāo)點(diǎn)云很少,導(dǎo)致目標(biāo)的結(jié)構(gòu)信息和語義信息不完整。如下圖所示,我們可視化了KITTI數(shù)據(jù)集中的”Car“目標(biāo)在真實(shí)場景中的點(diǎn)云情況,可以看出:Easy難度目標(biāo)的可視化形狀是比較完整的,這類目標(biāo)便于網(wǎng)絡(luò)檢出,SOTA方法的檢測精度可以達(dá)到90%左右;而Moderate和Hard難度目標(biāo)的可視化形狀缺失比較嚴(yán)重,目標(biāo)的結(jié)構(gòu)信息和語義信息不完整,這類目標(biāo)的檢測精度較低。
2.2 待檢測目標(biāo)容易與背景混淆,造成誤檢對于遠(yuǎn)距離目標(biāo),傳感器獲取的目標(biāo)點(diǎn)云較少,在這種情況下,待檢測目標(biāo)可能與場景中的背景混淆,造成誤檢。
如下圖所示,待檢測目標(biāo)"Pedestrian"和直桿(背景)距離傳感器25米,獲取的點(diǎn)云稀疏,幾乎呈現(xiàn)相同的幾何形狀。這種相似的幾何表示給檢測帶來困難。
42.3 待檢測目標(biāo)的點(diǎn)云相較場景點(diǎn)云占比少相較于整個(gè)場景點(diǎn)云,待檢測目標(biāo)的點(diǎn)云的占比較少。PV-RCNN[3]指出在KITTI數(shù)據(jù)集中,待檢測目標(biāo)的點(diǎn)云(point of interest)的個(gè)數(shù)大約為2K,而整體場景的點(diǎn)云個(gè)數(shù)大約為15K;這種差距在后續(xù)的點(diǎn)云下采樣過程可能會(huì)進(jìn)一步擴(kuò)大,進(jìn)而導(dǎo)致可用的前景點(diǎn)特征少,導(dǎo)致檢測精度降低。
3. 點(diǎn)云稀疏性的解決方案針對點(diǎn)云稀疏性帶來3D目標(biāo)檢測上的困難,涌現(xiàn)了一系列方法來緩解該問題,包括多模態(tài)數(shù)據(jù)融合、點(diǎn)云下采樣方法的改進(jìn)、基于知識(shí)蒸餾的特征學(xué)習(xí)和點(diǎn)云補(bǔ)全等。下面,本文將對當(dāng)前研究較多的解決點(diǎn)云稀疏性的方法進(jìn)行匯總和總結(jié),希望可以給大家?guī)硪恍﹩l(fā)。
3.1 改進(jìn)點(diǎn)云下采樣方法整個(gè)場景的點(diǎn)云數(shù)很多,且背景點(diǎn)占比較大,將整個(gè)場景的點(diǎn)云全部送入網(wǎng)絡(luò)提取特征會(huì)極大的增大計(jì)算量,不能保證實(shí)時(shí)性。因此,現(xiàn)有的基于點(diǎn)云的3D目標(biāo)檢測方法會(huì)先對場景點(diǎn)云進(jìn)行下采樣,再將下采樣后的點(diǎn)云送入網(wǎng)絡(luò)提取特征和檢測。例如PointRCNN[4]在處理KITTI數(shù)據(jù)時(shí),會(huì)先將場景點(diǎn)云隨機(jī)下采樣到16384個(gè),再處理這16384個(gè)點(diǎn)云,用于特征提取和檢測。
但是,由于前景點(diǎn)在整個(gè)場景中占比較少,隨機(jī)下采樣點(diǎn)云可能會(huì)導(dǎo)致前景點(diǎn)的占比進(jìn)一步較少,加劇前景點(diǎn)的稀疏性問題,降低檢測精度。因此,一些工作提出基于特征或基于語義感知的下采樣等方法來緩解該問題。
論文標(biāo)題:3DSSD: Point-based 3D Single Stage Object Detector (2020CVPR oral)
論文地址:https://arxiv.org/pdf/2002.10187.pdf
作者單位:Zetong Yang等,港中文和港科技
核心思想:作者首先分析了基于點(diǎn)云的二階段3D檢測網(wǎng)絡(luò),第一部分利用SA層下采樣和提取點(diǎn)云的語義特征,F(xiàn)P層用于上采樣,并將特征廣播到下采樣期間所丟棄的點(diǎn),再利用3D RPN生成proposals;第二部分利用refinement模塊進(jìn)一步提高初始proposals的精度;而作者認(rèn)為FP層和refinement模塊耗時(shí)較多,可以移除;基于此,作者結(jié)合距離下采樣和特征下采樣,提出了一種融合的下采樣策略,從而平衡前背景點(diǎn)數(shù)量,保證足夠的前景點(diǎn)。
方法簡述:
- 為了盡可能保留前景點(diǎn),刪除背景點(diǎn),必須同時(shí)考慮距離信息和語義信息。而在深度學(xué)習(xí)框架中,很容易得到點(diǎn)云的語義信息,因此作者首先提出Feature-FPS(F-FPS),充分利用點(diǎn)云的特征信息進(jìn)行下采樣,以保留目標(biāo)的前景點(diǎn);同時(shí),考慮到背景點(diǎn)囊括了周圍的語義信息,有助于提升分類精度,因此進(jìn)一步結(jié)合Distance-FPS(D-FPS),將距離信息考慮在內(nèi),提出了Fusion-FPS,進(jìn)行場景點(diǎn)云下采樣。分別采樣N/2個(gè)點(diǎn);
- 進(jìn)一步提取采樣點(diǎn)特征,送入CG層,對于邊界框回歸任務(wù)而言,背景點(diǎn)是無用的,因此僅使用F-FPS的點(diǎn)作為初始中心點(diǎn),這些初始中心點(diǎn)在其相對位置的監(jiān)督下移動(dòng)到其相應(yīng)的實(shí)例中,得到候選點(diǎn)。然后,將候選點(diǎn)當(dāng)做CG層的中心點(diǎn),再通過預(yù)先設(shè)置的閾值從F-FPS和D-FPS的集合點(diǎn)中找到他們的周圍點(diǎn),最后采用MLP提取它們的特征,這些特征用來預(yù)測最后的3D邊界框。
- 該方法在保證實(shí)時(shí)性(25FPS)的同時(shí),在KITTI數(shù)據(jù)集和nuscene數(shù)據(jù)集上取得了不錯(cuò)的精度。
論文標(biāo)題:SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection (2022 AAAI)
論文地址:https://arxiv.org/pdf/2201.01976.pdf
作者單位:Chen Chen等,悉尼大學(xué)等
核心思想:現(xiàn)有的Set Abstraction通常以距離作為標(biāo)準(zhǔn)(如FPS),來選擇較遠(yuǎn)的點(diǎn)來盡可能覆蓋整個(gè)場景,但是這樣會(huì)導(dǎo)致keypoints包含過多的背景點(diǎn),從而導(dǎo)致pedestrian等點(diǎn)云數(shù)較少的object漏檢。針對該問題,作者對PointNet++做了兩處改進(jìn):增加一個(gè)前景背景點(diǎn)分割模塊來識(shí)別前景點(diǎn)作為輸入;提出S-FPS采樣策略來選擇關(guān)鍵點(diǎn)。
方法簡述:
- 給定輸入點(diǎn)云,先提取場景點(diǎn)云特征,再將其送入點(diǎn)云分割模塊,進(jìn)行前背景點(diǎn)分割(二分類網(wǎng)絡(luò),通過2層MLP實(shí)現(xiàn)),得到前景點(diǎn)分割得分;前背景點(diǎn)的標(biāo)注信息通過3D標(biāo)注的檢測框可以直接得到,即檢測框內(nèi)的點(diǎn)為前景點(diǎn),檢測外的點(diǎn)為背景點(diǎn);
- 利用S-FPS(Semantics-guided Farthest Point Sampling),綜合考慮目標(biāo)點(diǎn)的語義特征(分割得分)和距離信息,使得下采樣過程中前景點(diǎn)的權(quán)重比背景點(diǎn)更大,更容易采樣到前景點(diǎn),將這部分前景點(diǎn)作為新的關(guān)鍵點(diǎn),送入pointnet++提取更高維的特征,再送入已有的3D檢測框架完成檢測任務(wù);
- S-FPS潛在劃分前景目標(biāo)出現(xiàn)的區(qū)域,有助于后續(xù)網(wǎng)絡(luò)檢出目標(biāo);此外,由于S-FPS是從分割得分最高的點(diǎn)開始下采樣,對于點(diǎn)云的排列順序不敏感;該方法在KITTI和nuscene數(shù)據(jù)集上取得了不錯(cuò)的精度。
3.2 基于知識(shí)蒸餾的特征遷移
對于現(xiàn)實(shí)場景中的點(diǎn)云,由于遮擋、遠(yuǎn)距離等原因,采集的點(diǎn)云是稀疏的,導(dǎo)致模型提取的特征不完整,不利于3D檢測;但是,現(xiàn)實(shí)場目標(biāo)存在某些共性特征,例如:車是對稱物體,車都有四個(gè)輪子等,對于人類而言,我們只要看到目標(biāo)的某個(gè)部分,我們就可以知道該目標(biāo)的類別和大概的位置。因此,一些工作考慮通過知識(shí)蒸餾、遷移學(xué)習(xí)等方法,利用完整目標(biāo)的完整特征指導(dǎo)真實(shí)場景中殘缺目標(biāo)的進(jìn)行特征學(xué)習(xí),或者將點(diǎn)云的深度信息引入到基于RGB圖像的3D目標(biāo)檢測中。
論文標(biāo)題:AGO-Net: Association-Guided 3D Point Cloud Object Detection Network (2022TPAMI)
論文地址:https://arxiv.org/pdf/2208.11658.pdf
作者單位:Liang Du等,復(fù)旦大學(xué)等
核心思想:作者將現(xiàn)實(shí)場景的不完整的稀疏點(diǎn)云定義為感知域,將對應(yīng)場景補(bǔ)全的完整點(diǎn)云定義為概念域,通過孿生網(wǎng)絡(luò)輔助稀疏點(diǎn)云從完整點(diǎn)云學(xué)習(xí)特征,從而生成更完整的特征,進(jìn)行目標(biāo)檢測任務(wù),且在測試階段不會(huì)引入額外的計(jì)算。
方法簡述:
- AGO網(wǎng)絡(luò)由一對孿生網(wǎng)絡(luò)組成,包括PFE(perceptual feature encoder)和CFG(conceptual feature generator),可以采用已有的3D檢測框架替換;以及SC-weight模塊,輔助網(wǎng)絡(luò)對加強(qiáng)場景的前景特征的學(xué)習(xí);
- 首先,單獨(dú)訓(xùn)練感知域的網(wǎng)絡(luò)(CFG)。該網(wǎng)絡(luò)的輸入數(shù)據(jù)是真實(shí)場景的稀疏點(diǎn)云(上圖中的Perceptual)補(bǔ)全后的完整點(diǎn)云(上圖中的Conceptual),經(jīng)過3D BEV encoder后得到的是完整的目標(biāo)特征,該特征送入檢測頭可以得到接近100%的檢測精度,當(dāng)CFG訓(xùn)練完成后,凍結(jié)該網(wǎng)絡(luò),用于給后續(xù)PFE的訓(xùn)練提供完整且穩(wěn)定的特征;
- 再訓(xùn)練整個(gè)AGO網(wǎng)絡(luò)。具體而言,將真實(shí)場景的稀疏點(diǎn)云輸入PFE,經(jīng)過與CFG相同結(jié)構(gòu)的3D BEV encoder,抽取特征;同時(shí),補(bǔ)全后的點(diǎn)云輸入已經(jīng)訓(xùn)練過且凍結(jié)參數(shù)的CFG,用于產(chǎn)生完整的特征;再利用CFG產(chǎn)生的完整特征指導(dǎo)PFE進(jìn)行特征學(xué)習(xí),MSE損失函數(shù)作為約束函數(shù),促使PEF產(chǎn)生完整的目標(biāo)特征;此外,作者還引入SC-weight模塊輔助PFE 更好的學(xué)習(xí)完整特征,該模塊通過前景mask將前景特征摳出來,使得網(wǎng)絡(luò)聚焦于前景特征的學(xué)習(xí);
- 測試階段,去除CFG模塊,只留下PFE模塊,在測試階段不會(huì)增加額外的計(jì)算;而且,由于PFE模塊在訓(xùn)練階段有了CFG模塊的指導(dǎo),可以生成更完整的特征,因而可以取得不錯(cuò)的檢測結(jié)果。
論文標(biāo)題:MONODISTILL: LEARNING SPATIAL FEATURES FOR MONOCULAR 3D OBJECT DETECTION (2022 ICLR)
論文地址:https://arxiv.org/pdf/2201.10830.pdf
作者單位:Zhiyu Chong等,大連理工大學(xué)等
核心思想:基于單目圖像的3D目標(biāo)檢測由于缺乏深度信息,其3D檢測的性能一直差強(qiáng)人意;因此,作者考慮通過teacher-student框架,將點(diǎn)云的深度信息(spatial cues)引入到單目圖像的3D目標(biāo)檢測網(wǎng)絡(luò),提升檢測精度;對于點(diǎn)云和RGB圖像不同的特征表示,作者將點(diǎn)云投影到圖像平面,進(jìn)行特征對齊。
方法簡述:
- 基于單目圖像的3D檢測模塊(即student網(wǎng)絡(luò)):首先,將單目圖像輸入到已有的3D目標(biāo)檢測框架,提取RGB圖像特征,具體而言,采用DLA-34 作為 backbone,一些并行的 heads 用于預(yù)3d 目標(biāo)檢測,
- 基于點(diǎn)云的3D檢測模塊(即teacher網(wǎng)絡(luò)):為了保證點(diǎn)云和RGB圖像的特征的一致性,使用和student一樣的模型結(jié)構(gòu),只是將輸入換成深度補(bǔ)全后的點(diǎn)云深度圖,即先將點(diǎn)云輸入投影到RGB圖像平面,得到sparse深度圖,再利用插值算法得到dense深度圖,將其輸入到與student相同的3D目標(biāo)檢測網(wǎng)絡(luò),提取“點(diǎn)云”特征,該網(wǎng)絡(luò)作為teacher網(wǎng)絡(luò);
- 作者進(jìn)一步在特征層面和結(jié)果層面提出scene-level、object-level知識(shí)蒸餾,以幫助student網(wǎng)絡(luò)更好的從teacher學(xué)習(xí)到點(diǎn)云的深度信息;
- 同樣,在測試階段,去除teacher網(wǎng)絡(luò),只保留student網(wǎng)絡(luò),沒有引入額外的計(jì)算量;且沒有改變原始的單目圖像的3D檢測框架。
3.3 多模態(tài)數(shù)據(jù)融合
基于多模態(tài)數(shù)據(jù)融合的3D目標(biāo)檢測主要指利用跨模態(tài)數(shù)據(jù)提升模型的檢測精度。一般而言,多模態(tài)數(shù)據(jù)包含:圖像數(shù)據(jù)、激光雷達(dá)數(shù)據(jù)、毫米波雷達(dá)數(shù)據(jù)、雙目深度數(shù)據(jù)等,本文主要關(guān)注當(dāng)前研究較多的圖像+點(diǎn)云融合的3D目標(biāo)檢測模型。點(diǎn)云數(shù)據(jù)具備目標(biāo)的幾何信息和深度信息,但缺乏目標(biāo)的顏色和紋理信息,而這些信息對于目標(biāo)的識(shí)別分類十分重要;圖像數(shù)據(jù)顏色和紋理信息豐富,但缺乏深度信息,不能很好的定位目標(biāo)。因此,一些工作考慮結(jié)合二者數(shù)據(jù)的優(yōu)點(diǎn),進(jìn)行3D目標(biāo)檢測任務(wù)。
論文標(biāo)題:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection (2020 IROS)
論文地址:https://arxiv.org/pdf/2009.00784.pdf
作者單位:Su Pang等,Michigan State University
核心思想:作者認(rèn)為,對于決策級的融合而言,多模態(tài)數(shù)據(jù)不需要與其他模態(tài)進(jìn)行同步或?qū)R,且利用二者的檢測結(jié)果排除了大部分冗余背景區(qū)域,因此更有助于網(wǎng)絡(luò)學(xué)習(xí);方法相對而言比較簡單,CLOCs是利用檢測結(jié)果進(jìn)行的跨模態(tài)融合,屬于決策級融合的范疇。
方法簡述:
- 將RGB圖像輸入到已有的2D目標(biāo)檢測模型中,得到k個(gè)2D檢測框,表示2D圖像中潛在含有目標(biāo)的區(qū)域;
- 同時(shí)將點(diǎn)云輸入到已有的3D目標(biāo)檢測模型中,得到n個(gè)3D檢測框,表示3D場景中潛在含有目標(biāo)的區(qū)域;
- 對于2D和3D檢測結(jié)果k和n,構(gòu)建新的矩陣T,包括描述二者幾何一致性的IoU(IoU=0的檢測框直接去除)、2D檢測框的置信度得分、3D檢測框的置信度得分和3D檢測框到地面的歸一化距離d;
- 進(jìn)一步對保留的候選框進(jìn)行特征提取,得到最終的檢測結(jié)果。
論文標(biāo)題:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion (2022CVPR)
論文地址:https://arxiv.org/pdf/2203.09780.pdf
作者單位:Xiaopei Wu等,Zhejiang University
核心思想:作者認(rèn)為目前戶外點(diǎn)云+圖像的方法沒有純點(diǎn)云的方法效果好的原因包括2個(gè),(1)多模態(tài)的數(shù)據(jù)增廣困難以及(2)現(xiàn)在方法大多是從點(diǎn)云找對應(yīng)的圖像融合特征,但是點(diǎn)云能對應(yīng)上的像素點(diǎn)比較少,沒有完全利用好圖像的特征。因此,作者考慮多模態(tài)特征加權(quán)融合,以及跨模態(tài)對齊問題;SFD利用的是3D場景預(yù)測出的候選框,并在不同模態(tài)數(shù)據(jù)上進(jìn)行特征提取,因此屬于RoI-level的融合范疇
方法簡述:
- 先利用深度補(bǔ)全網(wǎng)絡(luò),將原始RGB圖像映射到3D場景中,對圖像上的像素點(diǎn)進(jìn)行深度補(bǔ)全,在KITTI數(shù)據(jù)集上預(yù)訓(xùn)練后再訓(xùn)練目標(biāo)檢測網(wǎng)絡(luò)時(shí)不再改變參數(shù),進(jìn)一步生成偽點(diǎn)云;補(bǔ)全后的點(diǎn)云就由sparse變?yōu)閐ense了,且每個(gè)像素都有了對應(yīng)的點(diǎn)云;
- 再利用dense且包含顏色信息的偽點(diǎn)云進(jìn)行特征提取,再和原始點(diǎn)云特征融合,進(jìn)一步生成候選框;
- 在fusion模塊,對每一個(gè)候選框,分別提取點(diǎn)云特征和偽點(diǎn)云特征;對點(diǎn)云特征和偽點(diǎn)云特征,利用attention進(jìn)行重新加權(quán),并輸出最后的檢測結(jié)果;
- 此外,作者還提出了一種適用于多模態(tài)的數(shù)據(jù)增強(qiáng)方法SynAugment,包括Manipulate Images like Point Clouds(多模態(tài)數(shù)據(jù)增強(qiáng)的最大挑戰(zhàn)是如何處理像點(diǎn)云這樣的圖像。作者通過深度補(bǔ)全的方法,將2D圖像轉(zhuǎn)換為偽點(diǎn)云,此時(shí)偽點(diǎn)云承載了圖像的所有信息,然后像處理原始點(diǎn)云一樣處理偽點(diǎn)云),和Extract Image Features in 3D Space(即將2D圖像轉(zhuǎn)化為偽點(diǎn)云,然后在3D空間中提取偽點(diǎn)云特征)
論文標(biāo)題:Pointpainting: Sequential Fusion for 3D Object Detection (2020CVPR)
論文地址:https://arxiv.org/pdf/1911.10150.pdf
作者單位:Sourabh Vora等,nuTonomy
核心思想:利用細(xì)粒度圖像分割信息對3D點(diǎn)云進(jìn)行補(bǔ)全,即將點(diǎn)云投影到圖像語義分割網(wǎng)絡(luò)的輸出中,并將分類分?jǐn)?shù)附加到每個(gè)點(diǎn)云上,從而增加點(diǎn)云的語義信息;
方法簡述:
- 2D語義分割網(wǎng)絡(luò):使用一個(gè)基于圖像的分割網(wǎng)絡(luò)來計(jì)算pixel-wise分割分?jǐn)?shù);
- Painting/Fusion:將2D中預(yù)測出的分割結(jié)果投影到對應(yīng)的3D point中,對原始3D信息進(jìn)行補(bǔ)全;
- 3D目標(biāo)檢測:利用補(bǔ)全后的3D點(diǎn)云進(jìn)行預(yù)測,不需要改變原始3D目標(biāo)檢測框架,只需要改變輸入的維度即可,由N變?yōu)镹+1;
3.4 點(diǎn)云補(bǔ)全
針對稀疏點(diǎn)云的目標(biāo),一些方法直接采用點(diǎn)云補(bǔ)全的方式,先將目標(biāo)補(bǔ)充為較為完整的目標(biāo),再進(jìn)行3D目標(biāo)檢測。
論文標(biāo)題:Spatial information enhancement network for 3D object detection from point cloud (2022 PR)
論文地址:https://arxiv.org/pdf/2012.12397.pdf
作者單位:Ziyu Li等,東南大學(xué)等
核心思想:作者考慮到距離傳感器遠(yuǎn)近目標(biāo)中點(diǎn)云數(shù)量的不平衡的問題,即距離LiDAR較遠(yuǎn)的目標(biāo)收集到的點(diǎn)數(shù)相對較少,作者認(rèn)為網(wǎng)絡(luò)是難以處理這種不平衡性;進(jìn)而提出一種空間信息增強(qiáng)的模塊,從稀疏的、不完整點(diǎn)云預(yù)測密集的、完整的空間表示,來緩解這種不平衡性。
方法簡述:
- RPN模塊:首先,對輸入點(diǎn)云體素化,使用SPConv卷積學(xué)習(xí)體素特征,然后Keypoint分支使用注意力機(jī)制動(dòng)態(tài)編碼體素特征,作者還提出一個(gè)輔助模塊(將坐標(biāo)轉(zhuǎn)換為真實(shí)場景坐標(biāo),再使用PointNet++特征傳播層進(jìn)行插值,將每一塊得到的特征進(jìn)行結(jié)合用以學(xué)習(xí)結(jié)構(gòu)信息)用于學(xué)習(xí)結(jié)構(gòu)信息;
- Spatial information enhancement(SIE)模塊:來預(yù)測完整的空間表示。首先,對于proposal中不完整的點(diǎn)云,將其輸入到一個(gè)成熟的3D補(bǔ)全框架(如PCN[5]),來生成完整的目標(biāo)形狀;然后,對于預(yù)測的點(diǎn)云,使用FPS采用m個(gè)點(diǎn)云,利用pointnet++提出多尺度特征,再利用全連接層將其轉(zhuǎn)化為全局特征;
- 特征融合和3D檢測模塊:將生成的全局特征與原始點(diǎn)云pooling后的特征進(jìn)行加權(quán)融合,得到enhanced feature,進(jìn)行檢測任務(wù),并在KITTI數(shù)據(jù)集上取得了目前最好的精度;
論文標(biāo)題: Multimodal Virtual Point 3D Detection(2021 NeurIPS)
論文地址:https://arxiv.org/pdf/2111.06881.pdf
作者單位:Tianwei Yin等,UT Austin等
核心思想:作者結(jié)合實(shí)例分割網(wǎng)絡(luò),先對2D圖像進(jìn)行分割,利用分割結(jié)果生成虛擬點(diǎn)云,對原始場景補(bǔ)全,得到完整的目標(biāo)進(jìn)行3D檢測。
方法簡述:
- 首先對2D圖像進(jìn)行實(shí)例分割,得到分割結(jié)果,本文采用的是CenterNet2作為實(shí)例分割網(wǎng)絡(luò);
- 再將點(diǎn)云投影到2D圖像上,每個(gè)實(shí)例上都會(huì)有一些投影的點(diǎn)云,如(b)所示,mask內(nèi)的點(diǎn)云為黑色,其余的點(diǎn)云為灰色;
- 根據(jù)前景區(qū)域內(nèi)點(diǎn)云的深度信息生成虛擬點(diǎn)云,生成虛擬點(diǎn)的方法是在2D實(shí)例分割區(qū)域中進(jìn)行隨機(jī)采樣K個(gè)點(diǎn),根據(jù)周圍點(diǎn)云的深度插值得到這K個(gè)點(diǎn)的深度值;
- 最后再將這K個(gè)點(diǎn)投影到點(diǎn)云坐標(biāo)系,得到虛擬點(diǎn)云,達(dá)到了對原始場景補(bǔ)全的目的,再進(jìn)行3D檢測。
4. 參考文獻(xiàn)
A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the KITTI vision benchmark suite,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2012, pp. 3354–3361.
Zhou Y, Tuzel O. Voxelnet: End-to-end learning for point cloud based 3d object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4490-4499.
Shi S, Guo C, Jiang L, et al. Pv-rcnn: Point-voxel feature set abstraction for 3d object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10529-10538.
S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2019, pp. 770–779.
W. Yuan, T. Khot, D. Held, C. Mertz, M. Hebert, PCN: point completion network, in: 3DV, 2018, pp. 728–737.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。