博客專(zhuān)欄

EEPW首頁(yè) > 博客 > PPCNN:細(xì)粒度特征提取和定位用于目標(biāo)檢測(cè)

PPCNN:細(xì)粒度特征提取和定位用于目標(biāo)檢測(cè)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2021-12-15 來(lái)源:工程師 發(fā)布文章

近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò)以精確地分類(lèi)目標(biāo)信息而聞名,并采用了簡(jiǎn)單的卷積體系結(jié)構(gòu)來(lái)降低圖層的復(fù)雜性。今天給大家分享一個(gè)簡(jiǎn)單的檢測(cè)網(wǎng)絡(luò)。

1.png

1簡(jiǎn)要

近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò)以精確地分類(lèi)目標(biāo)信息而聞名,并采用了簡(jiǎn)單的卷積體系結(jié)構(gòu)來(lái)降低圖層的復(fù)雜性。基于深度卷積神經(jīng)網(wǎng)絡(luò)概念設(shè)計(jì)的VGG網(wǎng)絡(luò)。VGGNet在對(duì)大規(guī)模圖像進(jìn)行分類(lèi)方面取得了巨大的性能。該網(wǎng)絡(luò)設(shè)計(jì)了一堆小卷積濾波器,使網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)單,但網(wǎng)絡(luò)有一些定位錯(cuò)誤。

2.jpg

就有研究者提出了獨(dú)特的網(wǎng)絡(luò)架構(gòu),PPCNN(金字塔池化卷積神經(jīng)網(wǎng)絡(luò)),以減少定位誤差,并提取高級(jí)特征圖。該網(wǎng)絡(luò)由改進(jìn)的VGGNet和U-shape特征金字塔網(wǎng)絡(luò)組成。介紹了一種提取和收集目標(biāo)的小特征信息并從源圖像中檢測(cè)小物體的網(wǎng)絡(luò)。該方法在定位和檢測(cè)任務(wù)中取得了更高的精度。

2 背景

Facebook的特征金字塔網(wǎng)絡(luò)Feature Pyramid Networks(FPN)。FPN主要解決的是物體檢測(cè)中的多尺度問(wèn)題,通過(guò)簡(jiǎn)單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量情況下,大幅度提升了小物體檢測(cè)的性能。我們將從論文背景,論文思想,結(jié)果與結(jié)論幾方面探討此論文。

在物體檢測(cè)里面,有限計(jì)算量情況下,網(wǎng)絡(luò)的深度(對(duì)應(yīng)到感受野)與stride通常是一對(duì)矛盾的東西,常用的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)應(yīng)的stride一般會(huì)比較大(如32),而圖像中的小物體甚至?xí)∮趕tride的大小,造成的結(jié)果就是小物體的檢測(cè)性能急劇下降。傳統(tǒng)解決這個(gè)問(wèn)題的思路包括:

多尺度訓(xùn)練和測(cè)試,又稱(chēng)圖像金字塔,如圖1(a)所示。目前幾乎所有在ImageNet和COCO檢測(cè)任務(wù)上取得好成績(jī)的方法都使用了圖像金字塔方法。然而這樣的方法由于很高的時(shí)間及計(jì)算量消耗,難以在實(shí)際中應(yīng)用。

特征分層,即每層分別預(yù)測(cè)對(duì)應(yīng)的scale分辨率的檢測(cè)結(jié)果。如圖1(c)所示。SSD檢測(cè)框架采用了類(lèi)似的思想。這樣的方法問(wèn)題在于直接強(qiáng)行讓不同層學(xué)習(xí)同樣的語(yǔ)義信息。而對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,不同深度對(duì)應(yīng)著不同層次的語(yǔ)義特征,淺層網(wǎng)絡(luò)分辨率高,學(xué)的更多是細(xì)節(jié)特征,深層網(wǎng)絡(luò)分辨率低,學(xué)的更多是語(yǔ)義特征。

4.jpg

因而,目前多尺度的物體檢測(cè)主要面臨的挑戰(zhàn)為:

如何學(xué)習(xí)具有強(qiáng)語(yǔ)義信息的多尺度特征表示?

如何設(shè)計(jì)通用的特征表示來(lái)解決物體檢測(cè)中的多個(gè)子問(wèn)題?如object proposal, box localization, instance segmentation.

如何高效計(jì)算多尺度的特征表示?

針對(duì)這些問(wèn)題,提出了特征金字塔網(wǎng)絡(luò)FPN,如上圖(d)所示,網(wǎng)絡(luò)直接在原來(lái)的單網(wǎng)絡(luò)上做修改,每個(gè)分辨率的feature map引入后一分辨率縮放兩倍的feature map做element-wise相加的操作。通過(guò)這樣的連接,每一層預(yù)測(cè)所用的feature map都融合了不同分辨率、不同語(yǔ)義強(qiáng)度的特征,融合的不同分辨率的feature map分別做對(duì)應(yīng)分辨率大小的物體檢測(cè)。這樣保證了每一層都有合適的分辨率以及強(qiáng)語(yǔ)義特征。同時(shí),由于此方法只是在原網(wǎng)絡(luò)基礎(chǔ)上加上了額外的跨層連接,在實(shí)際應(yīng)用中幾乎不增加額外的時(shí)間和計(jì)算量。將FPN應(yīng)用在Faster RCNN上的性能,在COCO上達(dá)到了state-of-the-art的單模型精度。

5.jpg

具體而言,F(xiàn)PN分別在RPN和Fast RCNN兩步中起到作用。其中RPN和Fast RCNN分別關(guān)注的是召回率和正檢率,在這里對(duì)比的指標(biāo)分別為Average Recall(AR)和Average Precision(AP)。分別對(duì)比了不同尺度物體檢測(cè)情況,小中大物體分別用s,m,l表示。

在RPN中,區(qū)別于原論文直接在最后的feature map上設(shè)置不同尺度和比例的anchor,本文的尺度信息對(duì)應(yīng)于相應(yīng)的feature map(分別設(shè)置面積為32^2, 64^2, 128^2, 256^2, 512^2),比例用類(lèi)似于原來(lái)的方式設(shè)置{1:2, 1:1,, 2:1}三種。

與RPN一樣,F(xiàn)PN每層feature map加入3*3的卷積及兩個(gè)相鄰的1*1卷積分別做分類(lèi)和回歸的預(yù)測(cè)。在RPN中,實(shí)驗(yàn)對(duì)比了FPN不同層feature map卷積參數(shù)共享與否,發(fā)現(xiàn)共享仍然能達(dá)到很好性能,說(shuō)明特征金字塔使得不同層學(xué)到了相同層次的語(yǔ)義特征。

3 新框架

6.png

金字塔池化網(wǎng)絡(luò)允許從不同卷積層中的多尺度特征作為輸入,并提取相同尺度的輸出特征圖,如上圖所示。研究者提出了用VGGNet在u-shape特征金字塔網(wǎng)絡(luò)中構(gòu)建的改進(jìn)的網(wǎng)絡(luò)架構(gòu)來(lái)提取高級(jí)特征圖。該特征金字塔網(wǎng)絡(luò)的特征提取過(guò)程如下圖所示。

7.png

4 實(shí)驗(yàn)

8.png9.png可視化結(jié)果:

10.png

Experimental results of conventional VGG network and proposed PPCNN (VGG network with u-shape feature pyramid network) on MS COCO dataset. The top row contains results of the conventional VGG network, and the bottom row contains the detection results of the proposed network.

11.png

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

低通濾波器相關(guān)文章:低通濾波器原理


高通濾波器相關(guān)文章:高通濾波器原理
數(shù)字濾波器相關(guān)文章:數(shù)字濾波器原理


關(guān)鍵詞: 深度學(xué)習(xí)

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉