博客專欄

EEPW首頁 > 博客 > PPCNN:細(xì)粒度特征提取和定位用于目標(biāo)檢測

PPCNN:細(xì)粒度特征提取和定位用于目標(biāo)檢測

發(fā)布人:CV研究院 時間:2022-04-14 來源:工程師 發(fā)布文章
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò)以精確地分類目標(biāo)信息而聞名,并采用了簡單的卷積體系結(jié)構(gòu)來降低圖層的復(fù)雜性。今天給大家分享一個簡單的檢測網(wǎng)絡(luò)。

圖片


1

 簡要


近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò)以精確地分類目標(biāo)信息而聞名,并采用了簡單的卷積體系結(jié)構(gòu)來降低圖層的復(fù)雜性。基于深度卷積神經(jīng)網(wǎng)絡(luò)概念設(shè)計的VGG網(wǎng)絡(luò)。VGGNet在對大規(guī)模圖像進(jìn)行分類方面取得了巨大的性能。該網(wǎng)絡(luò)設(shè)計了一堆小卷積濾波器,使網(wǎng)絡(luò)結(jié)構(gòu)非常簡單,但網(wǎng)絡(luò)有一些定位錯誤。

圖片

就有研究者提出了獨特的網(wǎng)絡(luò)架構(gòu),PPCNN(金字塔池化卷積神經(jīng)網(wǎng)絡(luò)),以減少定位誤差,并提取高級特征圖。該網(wǎng)絡(luò)由改進(jìn)的VGGNet和U-shape特征金字塔網(wǎng)絡(luò)組成。介紹了一種提取和收集目標(biāo)的小特征信息并從源圖像中檢測小物體的網(wǎng)絡(luò)。該方法在定位和檢測任務(wù)中取得了更高的精度。


2

 背景


Facebook的特征金字塔網(wǎng)絡(luò)Feature Pyramid Networks(FPN)。FPN主要解決的是物體檢測中的多尺度問題,通過簡單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計算量情況下,大幅度提升了小物體檢測的性能。我們將從論文背景,論文思想,結(jié)果與結(jié)論幾方面探討此論文。

在物體檢測里面,有限計算量情況下,網(wǎng)絡(luò)的深度(對應(yīng)到感受野)與stride通常是一對矛盾的東西,常用的網(wǎng)絡(luò)結(jié)構(gòu)對應(yīng)的stride一般會比較大(如32),而圖像中的小物體甚至?xí)∮趕tride的大小,造成的結(jié)果就是小物體的檢測性能急劇下降。傳統(tǒng)解決這個問題的思路包括:

  • 多尺度訓(xùn)練和測試,又稱圖像金字塔,如圖1(a)所示。目前幾乎所有在ImageNet和COCO檢測任務(wù)上取得好成績的方法都使用了圖像金字塔方法。然而這樣的方法由于很高的時間及計算量消耗,難以在實際中應(yīng)用。

  • 特征分層,即每層分別預(yù)測對應(yīng)的scale分辨率的檢測結(jié)果。如圖1(c)所示。SSD檢測框架采用了類似的思想。這樣的方法問題在于直接強行讓不同層學(xué)習(xí)同樣的語義信息。而對于卷積神經(jīng)網(wǎng)絡(luò)而言,不同深度對應(yīng)著不同層次的語義特征,淺層網(wǎng)絡(luò)分辨率高,學(xué)的更多是細(xì)節(jié)特征,深層網(wǎng)絡(luò)分辨率低,學(xué)的更多是語義特征。

圖片

因而,目前多尺度的物體檢測主要面臨的挑戰(zhàn)為:

  • 如何學(xué)習(xí)具有強語義信息的多尺度特征表示?

  • 如何設(shè)計通用的特征表示來解決物體檢測中的多個子問題?如object proposal, box localization, instance segmentation.

  • 如何高效計算多尺度的特征表示?

針對這些問題,提出了特征金字塔網(wǎng)絡(luò)FPN,如上圖(d)所示,網(wǎng)絡(luò)直接在原來的單網(wǎng)絡(luò)上做修改,每個分辨率的feature map引入后一分辨率縮放兩倍的feature map做element-wise相加的操作。通過這樣的連接,每一層預(yù)測所用的feature map都融合了不同分辨率、不同語義強度的特征,融合的不同分辨率的feature map分別做對應(yīng)分辨率大小的物體檢測。這樣保證了每一層都有合適的分辨率以及強語義特征。同時,由于此方法只是在原網(wǎng)絡(luò)基礎(chǔ)上加上了額外的跨層連接,在實際應(yīng)用中幾乎不增加額外的時間和計算量。將FPN應(yīng)用在Faster RCNN上的性能,在COCO上達(dá)到了state-of-the-art的單模型精度。

圖片

具體而言,F(xiàn)PN分別在RPN和Fast RCNN兩步中起到作用。其中RPN和Fast RCNN分別關(guān)注的是召回率和正檢率,在這里對比的指標(biāo)分別為Average Recall(AR)和Average Precision(AP)。分別對比了不同尺度物體檢測情況,小中大物體分別用s,m,l表示。

在RPN中,區(qū)別于原論文直接在最后的feature map上設(shè)置不同尺度和比例的anchor,本文的尺度信息對應(yīng)于相應(yīng)的feature map(分別設(shè)置面積為32^2, 64^2, 128^2, 256^2, 512^2),比例用類似于原來的方式設(shè)置{1:2, 1:1,, 2:1}三種。

與RPN一樣,F(xiàn)PN每層feature map加入3*3的卷積及兩個相鄰的1*1卷積分別做分類和回歸的預(yù)測。在RPN中,實驗對比了FPN不同層feature map卷積參數(shù)共享與否,發(fā)現(xiàn)共享仍然能達(dá)到很好性能,說明特征金字塔使得不同層學(xué)到了相同層次的語義特征。


3

 新框架


圖片

金字塔池化網(wǎng)絡(luò)允許從不同卷積層中的多尺度特征作為輸入,并提取相同尺度的輸出特征圖,如上圖所示。研究者提出用VGGNet在u-shape特征金字塔網(wǎng)絡(luò)中構(gòu)建的改進(jìn)的網(wǎng)絡(luò)架構(gòu)來提取高級特征圖。該特征金字塔網(wǎng)絡(luò)的特征提取過程如下圖所示。

圖片


4

 實驗


圖片

圖片

可視化結(jié)果

圖片

Experimental results of conventional VGG network and proposed PPCNN (VGG network with u-shape feature pyramid network) on MS COCO dataset. The top row contains results of the conventional VGG network, and the bottom row contains the detection results of the proposed network.


圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉