細(xì)粒度特征提取和定位用于目標(biāo)檢測(cè)（附論文下載）

發(fā)布人：CV研究院時(shí)間：2023-01-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

1 簡(jiǎn)要

近年來，深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺上取得了優(yōu)異的性能。深度卷積神經(jīng)網(wǎng)絡(luò)以精確地分類目標(biāo)信息而聞名，并采用了簡(jiǎn)單的卷積體系結(jié)構(gòu)來降低圖層的復(fù)雜性。基于深度卷積神經(jīng)網(wǎng)絡(luò)概念設(shè)計(jì)的VGG網(wǎng)絡(luò)。VGGNet在對(duì)大規(guī)模圖像進(jìn)行分類方面取得了巨大的性能。該網(wǎng)絡(luò)設(shè)計(jì)了一堆小卷積濾波器，使網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)單，但網(wǎng)絡(luò)有一些定位錯(cuò)誤。

就有研究者提出了獨(dú)特的網(wǎng)絡(luò)架構(gòu)，PPCNN（金字塔池化卷積神經(jīng)網(wǎng)絡(luò)），以減少定位誤差，并提取高級(jí)特征圖。該網(wǎng)絡(luò)由改進(jìn)的VGGNet和U-shape特征金字塔網(wǎng)絡(luò)組成。介紹了一種提取和收集目標(biāo)的小特征信息并從源圖像中檢測(cè)小物體的網(wǎng)絡(luò)。該方法在定位和檢測(cè)任務(wù)中取得了更高的精度。

2 背景

Facebook的特征金字塔網(wǎng)絡(luò)Feature Pyramid Networks(FPN)。FPN主要解決的是物體檢測(cè)中的多尺度問題，通過簡(jiǎn)單的網(wǎng)絡(luò)連接改變，在基本不增加原有模型計(jì)算量情況下，大幅度提升了小物體檢測(cè)的性能。我們將從論文背景，論文思想，結(jié)果與結(jié)論幾方面探討此論文。

在物體檢測(cè)里面，有限計(jì)算量情況下，網(wǎng)絡(luò)的深度（對(duì)應(yīng)到感受野）與stride通常是一對(duì)矛盾的東西，常用的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)應(yīng)的stride一般會(huì)比較大（如32），而圖像中的小物體甚至?xí)∮趕tride的大小，造成的結(jié)果就是小物體的檢測(cè)性能急劇下降。傳統(tǒng)解決這個(gè)問題的思路包括：

多尺度訓(xùn)練和測(cè)試，又稱圖像金字塔，如圖1(a)所示。目前幾乎所有在ImageNet和COCO檢測(cè)任務(wù)上取得好成績(jī)的方法都使用了圖像金字塔方法。然而這樣的方法由于很高的時(shí)間及計(jì)算量消耗，難以在實(shí)際中應(yīng)用。
特征分層，即每層分別預(yù)測(cè)對(duì)應(yīng)的scale分辨率的檢測(cè)結(jié)果。如圖1(c)所示。SSD檢測(cè)框架采用了類似的思想。這樣的方法問題在于直接強(qiáng)行讓不同層學(xué)習(xí)同樣的語義信息。而對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言，不同深度對(duì)應(yīng)著不同層次的語義特征，淺層網(wǎng)絡(luò)分辨率高，學(xué)的更多是細(xì)節(jié)特征，深層網(wǎng)絡(luò)分辨率低，學(xué)的更多是語義特征。

因而，目前多尺度的物體檢測(cè)主要面臨的挑戰(zhàn)為：

如何學(xué)習(xí)具有強(qiáng)語義信息的多尺度特征表示？
如何設(shè)計(jì)通用的特征表示來解決物體檢測(cè)中的多個(gè)子問題？如object proposal, box localization, instance segmentation.
如何高效計(jì)算多尺度的特征表示？

針對(duì)這些問題，提出了特征金字塔網(wǎng)絡(luò)FPN，如上圖(d)所示，網(wǎng)絡(luò)直接在原來的單網(wǎng)絡(luò)上做修改，每個(gè)分辨率的feature map引入后一分辨率縮放兩倍的feature map做element-wise相加的操作。通過這樣的連接，每一層預(yù)測(cè)所用的feature map都融合了不同分辨率、不同語義強(qiáng)度的特征，融合的不同分辨率的feature map分別做對(duì)應(yīng)分辨率大小的物體檢測(cè)。這樣保證了每一層都有合適的分辨率以及強(qiáng)語義特征。同時(shí)，由于此方法只是在原網(wǎng)絡(luò)基礎(chǔ)上加上了額外的跨層連接，在實(shí)際應(yīng)用中幾乎不增加額外的時(shí)間和計(jì)算量。將FPN應(yīng)用在Faster RCNN上的性能，在COCO上達(dá)到了state-of-the-art的單模型精度。

具體而言，F(xiàn)PN分別在RPN和Fast RCNN兩步中起到作用。其中RPN和Fast RCNN分別關(guān)注的是召回率和正檢率，在這里對(duì)比的指標(biāo)分別為Average Recall(AR)和Average Precision(AP)。分別對(duì)比了不同尺度物體檢測(cè)情況，小中大物體分別用s,m,l表示。

在RPN中，區(qū)別于原論文直接在最后的feature map上設(shè)置不同尺度和比例的anchor，本文的尺度信息對(duì)應(yīng)于相應(yīng)的feature map（分別設(shè)置面積為32^2, 64^2, 128^2, 256^2, 512^2），比例用類似于原來的方式設(shè)置{1:2, 1:1,, 2:1}三種。

與RPN一樣，F(xiàn)PN每層feature map加入3*3的卷積及兩個(gè)相鄰的1*1卷積分別做分類和回歸的預(yù)測(cè)。在RPN中，實(shí)驗(yàn)對(duì)比了FPN不同層feature map卷積參數(shù)共享與否，發(fā)現(xiàn)共享仍然能達(dá)到很好性能，說明特征金字塔使得不同層學(xué)到了相同層次的語義特征。

3 新框架

金字塔池化網(wǎng)絡(luò)允許從不同卷積層中的多尺度特征作為輸入，并提取相同尺度的輸出特征圖，如上圖所示。研究者提出了用VGGNet在u-shape特征金字塔網(wǎng)絡(luò)中構(gòu)建的改進(jìn)的網(wǎng)絡(luò)架構(gòu)來提取高級(jí)特征圖。該特征金字塔網(wǎng)絡(luò)的特征提取過程如下圖所示。

4 實(shí)驗(yàn)

可視化結(jié)果：

Experimental results of conventional VGG network and proposed PPCNN (VGG network with u-shape feature pyramid network) on MS COCO dataset. The top row contains results of the conventional VGG network, and the bottom row contains the detection results of the proposed network.

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

細(xì)粒度特征提取和定位用于目標(biāo)檢測(cè)（附論文下載）

相關(guān)推薦

技術(shù)專區(qū)