博客專欄

EEPW首頁 > 博客 > SSFENet | 增強(qiáng)空間和語義特征用于目標(biāo)檢測

SSFENet | 增強(qiáng)空間和語義特征用于目標(biāo)檢測

發(fā)布人:CV研究院 時間:2021-06-14 來源:工程師 發(fā)布文章

簡要

目前最先進(jìn)的目標(biāo)檢測器通常使用預(yù)先訓(xùn)練好的分類網(wǎng)絡(luò)來提取特征,然后利用特征金字塔來檢測不同尺度的目標(biāo)。然而,分類網(wǎng)絡(luò)更喜歡平移不變性,而忽略了位置信息,因此直接使用提取的特征進(jìn)行融合會影響性能。

1.jpg

在今天分享中,研究者提出了一個新的網(wǎng)絡(luò)來解決這個困境,即空間和語義特征增強(qiáng)網(wǎng)絡(luò)(SSFENet)。首先,引入了空間特征增強(qiáng)塊來利用空洞卷積和加權(quán)特征融合來增強(qiáng)特征中的空間信息。其次,在低級階段,框架中的語義特征增強(qiáng)塊利用高級階段的主干網(wǎng)絡(luò)來獲得具有更豐富語義信息的特征,并且由于使用了共享的卷積層,只引入了很少的計(jì)算成本。在MS-COCO基準(zhǔn)測試上的實(shí)驗(yàn)結(jié)果表明,該SSFENet顯著提高了常用目標(biāo)探測器的MAP性能。

2

 簡單背景介紹

Two-stage:

對于Two-stage的目標(biāo)檢測網(wǎng)絡(luò),主要通過一個卷積神經(jīng)網(wǎng)絡(luò)來完成目標(biāo)檢測過程,其提取的是CNN卷積特征,在訓(xùn)練網(wǎng)絡(luò)時,其主要訓(xùn)練兩個部分,第一步是訓(xùn)練RPN網(wǎng)絡(luò),第二步是訓(xùn)練目標(biāo)區(qū)域檢測的網(wǎng)絡(luò)。網(wǎng)絡(luò)的準(zhǔn)確度高、速度相對One-stage慢。

2.png

One-stage:

3.png

直接通過主干網(wǎng)絡(luò)給出類別和位置信息,沒有使用RPN網(wǎng)路。這樣的算法速度更快,但是精度相對Two-stage目標(biāo)檢測網(wǎng)絡(luò)了略低。

目前常用的典型的One-stage目標(biāo)檢測網(wǎng)絡(luò)

YOLOv1、YOLOv2、YOLOv3

SSD、DSSD等

Retina-Net等

Feature enhancement:

4.png

Feature Enhancement Network: A Refined Scene Text Detector

地址: https://arxiv.org/abs/1711.04249

3

 新框架

Spatial Feature Enhancement Block

5.png

大多數(shù)最先進(jìn)的目標(biāo)檢測器都使用預(yù)先訓(xùn)練好的分類網(wǎng)絡(luò)來提取特征。然而,分類網(wǎng)絡(luò)在前幾個卷積層之后進(jìn)行多個下采樣。此操作將丟失目標(biāo)檢測所必需的位置信息。直接的解決方案不執(zhí)行下采樣,但這將大大增加內(nèi)存和計(jì)算成本,并且需要重新設(shè)計(jì)主干網(wǎng)絡(luò)。

新出了一種有效的空間特征增強(qiáng)(SpaFE)塊來擴(kuò)展感受野,并了解不同感受野的重要性,如上圖所示。首先,SpaFE塊采用多分支形式來提取具有不同感受野的特征,每個分支都使用具有不同擴(kuò)張率的空洞卷積。其次,SpaFE塊使用元素級添加而不是連接,這將減少一些計(jì)算開銷。此外,由不同感受野提取的特征的重要性是不相同的,即不同分支的輸入對輸出的貢獻(xiàn)并不平等。為了解決這個問題,研究者為每個輸入引入了一個額外的權(quán)重,并讓網(wǎng)絡(luò)了解每個分支的重要性。研究者使用快速標(biāo)準(zhǔn)化的融合:

6.jpg

Semantic Feature Enhancement Network

研究者將SemFE塊與綜合特征增強(qiáng)(CFE)模塊進(jìn)行了比較。CFE模塊利用多分支和分組卷積來增強(qiáng)語義信息,需要從頭開始進(jìn)行訓(xùn)練。這將增加模型的復(fù)雜性和訓(xùn)練的難度。實(shí)驗(yàn)結(jié)果表明,SpaFE塊的性能優(yōu)于CFE。

7.png

SSFENet框架

4

 實(shí)驗(yàn)

 Ablation study of SSFENet. The baseline is FPN Faster RCNN with ResNet-50 and the detection results are evaluated on minival set.

8.png

Detection performance of different architectures on MS-COCO minival set. Faster RCNN and Mask RCNN both utilize FPN.

9.png

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 深度學(xué)習(xí)

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉