多尺度深度特征(上):多尺度特征學(xué)習(xí)才是目標(biāo)檢測精髓
深度特征學(xué)習(xí)方案將重點(diǎn)從具有細(xì)節(jié)的具體特征轉(zhuǎn)移到具有語義信息的抽象特征。它通過構(gòu)建多尺度深度特征學(xué)習(xí)網(wǎng)絡(luò) (MDFN) 不僅考慮單個(gè)對象和局部上下文,還考慮它們之間的關(guān)系。
1 前言
目前深度學(xué)習(xí)用于目標(biāo)檢測已經(jīng)習(xí)以為常。從SSD到Y(jié)olo系列,其中:
深層網(wǎng)絡(luò)的感受野比較大,語義信息表征能力強(qiáng),但是特征圖的分辨率低,幾何信息的表征能力弱(空間幾何特征細(xì)節(jié)缺乏);
低層網(wǎng)絡(luò)的感受野比較小,幾何細(xì)節(jié)信息表征能力強(qiáng),雖然分辨率高,但是語義信息表征能力弱。
高層的語義信息能夠幫助我們準(zhǔn)確的檢測出目標(biāo)。
SSD框架
ASPP網(wǎng)絡(luò)
Cascaded
下采樣倍數(shù)?。ㄒ话闶菧\層)的特征感受野小,適合處理小目標(biāo),小尺度特征圖(深層)分辨率信息不足不適合小目標(biāo)。在yolov3中對多尺度檢測的理解是,1/32大小的特征圖(深層)下采樣倍數(shù)高,所以具有大的感受野,適合檢測大目標(biāo)的物體,1/8的特征圖(較淺層)具有較小的感受野,所以適合檢測小目標(biāo)。FPN中的處理在下面。對于小目標(biāo),小尺度feature map無法提供必要的分辨率信息,所以還需結(jié)合大尺度的feature map。還有個(gè)原因是在深層圖做下采樣損失過多信息,小目標(biāo)信息或許已經(jīng)被忽略。
2 背 景
Feature Extraction
作為許多視覺和多媒體處理任務(wù)的基礎(chǔ)步驟,特征提取和表示得到了廣泛的研究,特別是在網(wǎng)絡(luò)結(jié)構(gòu)層面,這在深度學(xué)習(xí)領(lǐng)域引起了很多關(guān)注。更深或更廣的網(wǎng)絡(luò)放大了體系結(jié)構(gòu)之間的差異,并在許多計(jì)算機(jī)視覺應(yīng)用中充分發(fā)揮了提高特征提取能力的作用。skip-connection技術(shù)通過在網(wǎng)絡(luò)的不同層級(jí)之間傳播信息,縮短它們的連接,在一定程度上解決了梯度消失的問題,這激發(fā)了構(gòu)建更深網(wǎng)絡(luò)的熱點(diǎn)研究,并獲得了性能的提升。從5層的LeNet5到16層的VGGNet,再到1000層以上的ResNet,網(wǎng)絡(luò)的深度急劇增加。ResNet-101顯示了其在特征提取和表示方面的優(yōu)勢,尤其是在用作對象檢測任務(wù)的基礎(chǔ)網(wǎng)絡(luò)時(shí)。許多研究人員試圖用ResNet-101替換基礎(chǔ)網(wǎng)絡(luò)。
SSD在PASCAL VOC2007上使用Residual-101取得了更好的性能。RRC采用ResNet作為其預(yù)訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò),并通過提出的循環(huán)滾動(dòng)卷積架構(gòu)產(chǎn)生了具有競爭力的檢測精度。然而,SSD通過將VGG-16替換為Residual-101,對于mAP僅獲得1%的提升,而其檢測速度從19 FPS下降到6.6 FPS,幾乎下降了3倍。VGG網(wǎng)絡(luò)在ImageNet Large Scale Visual Recognition Challenge(ILSVRC) 2014中獲得第二名。它淺薄,只有16層,是另一個(gè)廣泛使用的基礎(chǔ)網(wǎng)絡(luò)。它的優(yōu)勢在于提供了精度和運(yùn)行速度之間的權(quán)衡。SSD通過將VGG-16作為特征提取器與端到端網(wǎng)絡(luò)結(jié)構(gòu)中提出的多目標(biāo)檢測器相結(jié)合,實(shí)現(xiàn)了最佳的總體性能。
如上圖所示,深度特征圖上的多尺度感受野將激活對象的語義和上下文信息。紅色、黃色、藍(lán)色和綠色分量代表四種尺寸的過濾器,分別對應(yīng)不同的對象表達(dá)。例如,紅色的往往只對中間的紅色車輛敏感,而黃色和藍(lán)色的也可能覆蓋周圍的小型汽車,這是由于不同目標(biāo)汽車之間相關(guān)性的語義表達(dá)。綠色的激活范圍最大,它不僅可以檢測所有車輛,還可以通過利用對象與其背景之間關(guān)系的語義描述來檢測道路。這個(gè)提取各種語義信息的過程可以在深層實(shí)現(xiàn),其中感受野能夠覆蓋更大的場景和深層產(chǎn)生的特征圖,已經(jīng)擁有語義表達(dá)的抽象能力。
我們發(fā)現(xiàn)大多數(shù)可用的經(jīng)典網(wǎng)絡(luò)都是強(qiáng)大的足夠的特征提取,并能夠提供必要的細(xì)節(jié)特征。受這些觀察的啟發(fā),研究者采用遷移學(xué)習(xí)模型,并在靠近網(wǎng)絡(luò)頂部的深層設(shè)計(jì)了一個(gè)高效的多尺度特征提取單元。提取的深層特征信息直接饋送到預(yù)測層。
研究者提出了四個(gè)inception模塊,并在四個(gè)連續(xù)的深層中incept它們,用于提取上下文信息。這些模塊顯著擴(kuò)展了各種特征表達(dá)的能力,由此實(shí)現(xiàn)了基于深度特征學(xué)習(xí)的多尺度目標(biāo)檢測器。
Attention to Deep Features
基于隨機(jī)深度的ResNet通過隨機(jī)dropping 層來改進(jìn)深度CNN的訓(xùn)練,這凸顯了傳播過程中存在大量冗余。 有研究者實(shí)驗(yàn)證明,ResNet-101中的大多數(shù)梯度僅來自10到34層的深度。另一方面,基于小物體檢測依賴于較早層產(chǎn)生的細(xì)節(jié)信息的論點(diǎn),許多方法從不同的淺層中提取多尺度信息。雖然實(shí)驗(yàn)表明語義特征和目標(biāo)的上下文也有助于小目標(biāo)檢測以及遮擋檢測。DSSD采用反卷積層和skip connections來注入額外的上下文,從而在學(xué)習(xí)候選區(qū)域和池化特征之前增加特征圖分辨率。Mask R-CNN添加了從目標(biāo)的更精細(xì)空間布局中提取的掩碼輸出。它由深度卷積產(chǎn)生的小特征圖提供的像素到像素對應(yīng)關(guān)系解決。
3 新框架
假設(shè):
這些特征圖應(yīng)該能夠提供更加精確的細(xì)節(jié)特征,尤其是對于剛開始的淺層較;
轉(zhuǎn)換特征圖的功能應(yīng)擴(kuò)展到足夠深的層,以便可以將目標(biāo)的高級(jí)抽象語義信息構(gòu)建到特征圖中;
特征圖應(yīng)包含適當(dāng)?shù)纳舷挛男畔?,以便可以?zhǔn)確推斷出被遮擋的目標(biāo),小目標(biāo),模糊或重疊的目標(biāo)并對其進(jìn)行穩(wěn)健的定位。
因此,淺層和深層的特征對于目標(biāo)識(shí)別和定位起著必不可少的作用。為了有效地利用檢測到的特征信息,應(yīng)考慮另一約束條件,以防止特征被改變或覆蓋。
今天內(nèi)容暫時(shí)到這里,下一期我們將帶領(lǐng)大家一起對新框架詳細(xì)分析!
下面我通過一小段視頻展示下多尺度深度特征學(xué)習(xí)的效果,主要基于單分支的YoloV3-Tiny網(wǎng)絡(luò),效果如下:
小型的籃球被檢測到
科比投出的籃球被檢測到
觀眾席的觀眾的領(lǐng)帶被檢測到
簡單訓(xùn)練后,不同尺寸都是可以檢測到,部分錯(cuò)檢是因?yàn)闆]有該類型數(shù)據(jù),被錯(cuò)檢為相似目標(biāo)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。