選擇性細(xì)化網(wǎng)絡(luò)用于高性能人臉檢測(cè)

發(fā)布人：CV研究院時(shí)間：2022-12-22 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

人臉檢測(cè)

人臉檢測(cè)是自動(dòng)人臉識(shí)別系統(tǒng)中的一個(gè)關(guān)鍵環(huán)節(jié)。早期的人臉識(shí)別研究主要針對(duì)具有較強(qiáng)約束條件的人臉圖象（如無(wú)背景的圖象），往往假設(shè)人臉位置一直或者容易獲得，因此人臉檢測(cè)問(wèn)題并未受到重視。隨著電子商務(wù)等應(yīng)用的發(fā)展，人臉識(shí)別成為最有潛力的生物身份驗(yàn)證手段，這種應(yīng)用背景要求自動(dòng)人臉識(shí)別系統(tǒng)能夠?qū)σ话銏D象具有一定的識(shí)別能力，由此所面臨的一系列問(wèn)題使得人臉檢測(cè)開(kāi)始作為一個(gè)獨(dú)立的課題受到研究者的重視。今天，人臉檢測(cè)的應(yīng)用背景已經(jīng)遠(yuǎn)遠(yuǎn)超出了人臉識(shí)別系統(tǒng)的范疇，在基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測(cè)等方面有著重要的應(yīng)用價(jià)值。導(dǎo)讀

高性能人臉檢測(cè)仍然是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題，特別是在有很多小尺度人臉的情況下。今天分享的作者就提出了一種新的single-shot人臉檢測(cè)方法-選擇性細(xì)化網(wǎng)絡(luò)(SRN)，它將新的兩步分類和回歸操作選擇性地引入到基于錨點(diǎn)的人臉檢測(cè)器中，以減少假陽(yáng)性，同時(shí)提高定位精度。

特別是SRN由兩個(gè)模塊組成：選擇性兩步分類(STC)模塊和選擇性兩步回歸(STR)模塊。STC的目的是從低層檢測(cè)層中篩選出大多數(shù)簡(jiǎn)單的負(fù)樣本錨，以減少后續(xù)分類器的搜索空間，而STR的目的是粗略地調(diào)整高層次檢測(cè)層中錨的位置和大小，以便為后續(xù)的回歸器提供更好的初始化。

此外，還設(shè)計(jì)了一個(gè)感受野增強(qiáng)(RFE)模塊，以提供更多樣化的感受野，這有助于更好地捕捉一些極端姿勢(shì)的面孔。因此，所提出的SRN檢測(cè)器在所有廣泛使用的人臉檢測(cè)基準(zhǔn)(包括AFW、PASCAL人臉、FDDB和WIDER FACE數(shù)據(jù)集)上都取得了最優(yōu)的性能。

相關(guān)工作背景

上世紀(jì)90年代，人臉檢測(cè)就是一個(gè)極具挑戰(zhàn)性的研究領(lǐng)域。Viola和Jones首先使用Haar特征和Adaboost對(duì)人臉檢測(cè)器進(jìn)行訓(xùn)練，具有很好的準(zhǔn)確性和效率，之后激發(fā)了幾種不同的方法(【1】Liao, S.; Jain, A. K.; and Li, S. Z. 2016. A fast and accurate unconstrained face detector. TPAMI；【2】Brubaker, S. C.; Wu, J.; Sun, J.; Mullin, M. D.; and Rehg, J. M. 2008. On the design of cascades of boosted ensembles
for face detection. IJCV）。除了那些之外，另一個(gè)重要的工作是引入可變形的部件模型（DPM）。

最近，基于CNN的方法已經(jīng)在人臉檢測(cè)占據(jù)了重要位置。Cascade CNN通過(guò)訓(xùn)練一個(gè)復(fù)雜的CNN提高了檢測(cè)精度。Qin等人建議對(duì)級(jí)聯(lián)的CNNs進(jìn)行聯(lián)合訓(xùn)練，實(shí)現(xiàn)端到端優(yōu)化（Qin, H.; Yan, J.; Li, X.; and Hu, X. 2016. Joint training of cascaded CNN for face detection. In CVPR.）。MTCN提出了多任務(wù)級(jí)聯(lián)的檢測(cè)和對(duì)齊方法。Faceness將人臉檢測(cè)作為對(duì)人臉部件進(jìn)行評(píng)分，以檢測(cè)嚴(yán)重遮擋下的人臉。UnitBox引入IoU損失用于邊界框預(yù)測(cè)。EMO提出了一個(gè)預(yù)期的最大重疊分?jǐn)?shù)，以評(píng)估錨匹配質(zhì)量。SAFD開(kāi)發(fā)了一個(gè)尺度候選階段，該階段自動(dòng)標(biāo)準(zhǔn)化檢測(cè)前的人臉尺寸。SSAP注意力在圖像金字塔中的特定比例和每個(gè)刻度層中的有效位置。最近的工作(Bai, Y.; Zhang, Y.; Ding, M.; and Ghanem, B. 2018. Finding tiny faces in the wild with generative adversarial network. In CVPR)設(shè)計(jì)了一種新的網(wǎng)絡(luò)，從一個(gè)很小的模糊中以直接產(chǎn)生清晰的超分辨率人臉。

此外，人臉檢測(cè)還繼承了一般目標(biāo)檢測(cè)器的一些成就，如 Faster RCNN、SSD、FPN和RetinaNet 。

Face R-CNN（Ren, S.; He, K.; Girshick, R. B.; and Sun, J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. TPAMI）將Faster R-CNN 與難樣本挖掘結(jié)合起來(lái)，并取得了優(yōu)秀的結(jié)果。Face Boxes引入了一種基于SSD的CPU實(shí)時(shí)檢測(cè)器。Face R-FCN在人臉檢測(cè)中應(yīng)用R-FCN ，并做出相應(yīng)的進(jìn)行改進(jìn)。人臉檢測(cè)模型為了尋找微小人臉為不同的尺度訓(xùn)練單獨(dú)的探測(cè)器。S3FD在SSD上提出了多種策略，以補(bǔ)償小面孔的匹配問(wèn)題。SSH在每個(gè)預(yù)測(cè)模塊上使用大型過(guò)濾器對(duì)上下文信息進(jìn)行建模。PyramidBox利用具有改進(jìn)的SSD網(wǎng)絡(luò)結(jié)構(gòu)的上下文信息。FAB提出了一個(gè)anchor-level的注意力引入RetinaNet，以檢測(cè)被遮擋的人臉。

作者受RefineDet中的多步分類和回歸啟發(fā)和RetinaNet的focal loss，開(kāi)發(fā)了一種最先進(jìn)的人臉檢測(cè)器。

主框架

Backbone

框架的主干是ResNet-50，有著6層特征金字塔結(jié)構(gòu)用于SRN。特征圖主要從C2、C3、C4和C5提取獲得，C6和C7僅僅通過(guò)兩個(gè)簡(jiǎn)單的下采樣得到。自下而上和自上而下通道之間的橫向結(jié)構(gòu)是相同的。

Dedicated Modules

STC模塊選擇C2、C3、C4、p2、p3和p4執(zhí)行兩步分類，而STR模塊選擇C5、C6、C7、p5、p6和p7進(jìn)行兩步回歸。RFE模塊負(fù)責(zé)豐富特征的感受野用于預(yù)測(cè)目標(biāo)的類別和位置。

Loss Function作者在深層結(jié)構(gòu)的末尾附加了一個(gè)混合損失，它利用focal loss和平滑的L1損失的優(yōu)點(diǎn)，促使模型專注于更多的難訓(xùn)練樣本，并學(xué)習(xí)更好的回歸結(jié)果。

Selective Two-Step Classification

STC的損失函數(shù)由兩部分組成，即第一步損失和第二步損失。對(duì)于第一步，計(jì)算這些樣本的focal loss選擇以執(zhí)行兩步分類；對(duì)于第二步，只關(guān)注那些在第一步過(guò)濾后仍然存在的樣本。根據(jù)這些定義，將損失函數(shù)定義如下：

Selective Two-Step Regression

在檢測(cè)任務(wù)中，如何使邊界框的定位更加準(zhǔn)確一直是一個(gè)具有挑戰(zhàn)性的問(wèn)題。現(xiàn)有的一步回歸方法依賴于基于不同特征層的回歸，這在一些具有挑戰(zhàn)性的場(chǎng)景中是不準(zhǔn)確的，如Ms COCO的評(píng)價(jià)標(biāo)準(zhǔn)。近年來(lái)，采用級(jí)聯(lián)結(jié)構(gòu)進(jìn)行多步回歸是提高檢測(cè)邊界框準(zhǔn)確性的有效方法。

然而，盲目地在特定任務(wù)（即人臉檢測(cè)）中添加多步回歸往往適得其反，實(shí)驗(yàn)結(jié)果（見(jiàn)下表）表明三個(gè)較低金字塔水平的兩步回歸損害了性能。

這種現(xiàn)象背后的原因有兩個(gè)： 1) 三個(gè)較低的金字塔層次是相關(guān)的，有大量的小錨來(lái)探測(cè)小面孔。這些小面孔的特征是非常粗糙的特征表示，因此這些小錨很難進(jìn)行兩步回歸； 2) 在訓(xùn)練階段，如果讓網(wǎng)絡(luò)太關(guān)注難樣本的回歸，在低金字塔水平上的任務(wù)，它會(huì)導(dǎo)致更大的回歸損失和阻礙更重要的分類任務(wù)。

在上述分析的基礎(chǔ)上，我們選擇性地對(duì)三個(gè)較高的金字塔水平進(jìn)行了兩步回歸。這種設(shè)計(jì)背后的動(dòng)機(jī)是充分利用三個(gè)較高金字塔層次上大面的詳細(xì)特征來(lái)回歸更精確的邊界框位置，并使三個(gè)較低的金字塔層次更加關(guān)注分類任務(wù)。這種分而治之的策略使整個(gè)框架更加有效。STR損失如下：