基礎(chǔ)知識(shí) | 目標(biāo)檢測(cè)中Anchor的認(rèn)識(shí)及理解

發(fā)布人：CV研究院時(shí)間：2022-12-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

背景

近期好多同學(xué)在私信讓我說一些基礎(chǔ)性的知識(shí)。好多入門的同學(xué)在糾結(jié)Anchor的設(shè)置，而且部分同學(xué)私信，可不可以把這個(gè)基礎(chǔ)知識(shí)詳細(xì)說一次，今天就單獨(dú)開一次小課，一起來學(xué)習(xí)Faster R-CNN中的RPN及Anchor。

說到RPN和Anchor，應(yīng)該立馬就能想到Faster R-CNN網(wǎng)絡(luò)框架，這個(gè)我平臺(tái)在之前就有詳細(xì)的介紹過。

往期回顧

● 深度學(xué)習(xí)近期總結(jié)分析

有興趣的可以點(diǎn)擊進(jìn)入看看，當(dāng)作復(fù)習(xí)一下。首先我先將幾類經(jīng)典的目標(biāo)檢測(cè)網(wǎng)絡(luò)做一個(gè)對(duì)比，然后開始說說今天要講的知識(shí)。

最開始出現(xiàn)的是R-CNN，如下圖：

從上圖可以看出其框架做了很多重復(fù)的計(jì)算，在第二步之后，如果有2k個(gè)proposals，那后面就要執(zhí)行2k邊，太低效。于是，出現(xiàn)了改進(jìn)的SSP-Net，如下圖：

SSP-Ne框架組合了Classification和Regression，做成單個(gè)網(wǎng)絡(luò)，并且可以Een-to-End進(jìn)行訓(xùn)練，速度上提高許多。但是，SSP-Net還是基于Selective Search產(chǎn)生proposal，之后就出現(xiàn)了Fast R-CNN，其是融合了R-CNN和SPP-Net的創(chuàng)新，并且引入多任務(wù)損失函數(shù)，使整個(gè)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試變得十分方便。

但是Region proposal的提取還是使用了Selective Search，目標(biāo)檢測(cè)時(shí)間大多消耗在這上面（大約region proposal需2~3s，而提特征分類只需0.32s），這種是無法滿足實(shí)時(shí)應(yīng)用，而且并沒有實(shí)現(xiàn)真正意義上的端到端訓(xùn)練測(cè)試（因?yàn)閞egion proposal使用了Selective Search先提取處來）。

于是就有了直接使用CNN產(chǎn)生region proposal并對(duì)其分類，這就是Faster R-CNN框架，如下圖：

Faster R-CNN將proposals交給了CNN去生成，這樣Region Proposal Network（RPN）應(yīng)運(yùn)而生。

Faster RCNN

仔細(xì)看看Faster R-CNN框架，其實(shí)還保留了Fast R-CNN的框架，其主要就是CNN+RPN。其中RPN主要就是負(fù)責(zé)生成proposals，然后與最后一層的feature map一起使用，用ROI Pooling生成固定長(zhǎng)度的feature vector。具體如下：

那接下來開始好好的說一下RPN和Anchor！下圖是我從網(wǎng)絡(luò)copy過來的，應(yīng)該更加能理解整體的流程及內(nèi)容。

在上圖中，紅色的3x3紅框是其中一個(gè)滑窗的操作過程，注意這里的Anchor是原圖像像素空間中的，而不是feature map上的。這樣的話，就可以很好去知道Anchor的意思，而且Anchor對(duì)于RPN非常重要。

現(xiàn)在，我們假設(shè)現(xiàn)在的feature map尺寸為W x H x C（13x13x256就是feature map的Width=13，Height=13和Channel=256），在feature map使用滑動(dòng)窗口的操作方式，當(dāng)前滑窗的中心在原像素空間的映射點(diǎn)就稱為Anchor，并且以Anchor為中心去生成K（paper中default K=9，3個(gè)尺寸和3個(gè)縮放比例）個(gè)proposals。

在feature map上滑動(dòng)一次，得到一個(gè)小網(wǎng)絡(luò)，該網(wǎng)絡(luò)輸入是3x3x256，經(jīng)過3x3x256x256的卷積，就可以得到1x1x256的低維特征向量。

然后就得到上圖的兩個(gè)分支。

Classification：經(jīng)過1x1x256x18的卷積核，得到1x1x18的特征向量，分別代表9個(gè)proposals的Object的概率（是或不是）；
Regression：經(jīng)過1x1x256x36的卷積核，得到1x1x36的特征向量，分別代表9個(gè)proposals的（長(zhǎng)寬及中心點(diǎn)坐標(biāo)）。

注意，上面只是一個(gè)小網(wǎng)絡(luò)，也就是一個(gè)3x3滑窗的過程及結(jié)果，在網(wǎng)絡(luò)整體運(yùn)行的過程中，要將整個(gè)feature map都要滑動(dòng)一遍，最終就會(huì)得到兩個(gè)損失函數(shù)：

其中就是Classification（Lcls）和Regression（Lreg）兩個(gè)損失。對(duì)于邊界框的回歸，其是采用以下4個(gè)坐標(biāo)的參數(shù)化：

綜上，通過滑窗和Anchor機(jī)制就可以找到固定比例、一定大小的proposals，這樣RPN就可以完美替代低效的Selective Search去產(chǎn)生proposals。

最終，在目標(biāo)檢測(cè)領(lǐng)域中，這個(gè)框架算是一個(gè)里程碑，值得大家學(xué)習(xí)與深入探索。最后的檢測(cè)結(jié)果也是不錯(cuò)的。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

高通濾波器相關(guān)文章:高通濾波器原理
隔離器相關(guān)文章:隔離器原理

博客專欄

基礎(chǔ)知識(shí) | 目標(biāo)檢測(cè)中Anchor的認(rèn)識(shí)及理解

相關(guān)推薦

技術(shù)專區(qū)