選擇性細(xì)化網(wǎng)絡(luò)用于高性能人臉檢測(cè)
人臉檢測(cè)
人臉檢測(cè)是自動(dòng)人臉識(shí)別系統(tǒng)中的一個(gè)關(guān)鍵環(huán)節(jié)。早期的人臉識(shí)別研究主要針對(duì)具有較強(qiáng)約束條件的人臉圖象(如無背景的圖象),往往假設(shè)人臉位置一直或者容易獲得,因此人臉檢測(cè)問題并未受到重視。 隨著電子商務(wù)等應(yīng)用的發(fā)展,人臉識(shí)別成為最有潛力的生物身份驗(yàn)證手段,這種應(yīng)用背景要求自動(dòng)人臉識(shí)別系統(tǒng)能夠?qū)σ话銏D象具有一定的識(shí)別能力,由此所面臨的一系列問題使得人臉檢測(cè)開始作為一個(gè)獨(dú)立的課題受到研究者的重視。今天,人臉檢測(cè)的應(yīng)用背景已經(jīng)遠(yuǎn)遠(yuǎn)超出了人臉識(shí)別系統(tǒng)的范疇,在基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測(cè)等方面有著重要的應(yīng)用價(jià)值。導(dǎo)讀
高性能人臉檢測(cè)仍然是一個(gè)非常具有挑戰(zhàn)性的問題,特別是在有很多小尺度人臉的情況下。今天分享的作者就提出了一種新的single-shot人臉檢測(cè)方法-選擇性細(xì)化網(wǎng)絡(luò)(SRN),它將新的兩步分類和回歸操作選擇性地引入到基于錨點(diǎn)的人臉檢測(cè)器中,以減少假陽性,同時(shí)提高定位精度。
特別是SRN由兩個(gè)模塊組成:選擇性兩步分類(STC)模塊和選擇性兩步回歸(STR)模塊。STC的目的是從低層檢測(cè)層中篩選出大多數(shù)簡(jiǎn)單的負(fù)樣本錨,以減少后續(xù)分類器的搜索空間,而STR的目的是粗略地調(diào)整高層次檢測(cè)層中錨的位置和大小,以便為后續(xù)的回歸器提供更好的初始化。
此外,還設(shè)計(jì)了一個(gè)感受野增強(qiáng)(RFE)模塊,以提供更多樣化的感受野,這有助于更好地捕捉一些極端姿勢(shì)的面孔。因此,所提出的SRN檢測(cè)器在所有廣泛使用的人臉檢測(cè)基準(zhǔn)(包括AFW、PASCAL人臉、FDDB和WIDER FACE數(shù)據(jù)集)上都取得了最優(yōu)的性能。
相關(guān)工作背景上世紀(jì)90年代,人臉檢測(cè)就是一個(gè)極具挑戰(zhàn)性的研究領(lǐng)域。Viola和Jones首先使用Haar特征和Adaboost對(duì)人臉檢測(cè)器進(jìn)行訓(xùn)練,具有很好的準(zhǔn)確性和效率,之后激發(fā)了幾種不同的方法(【1】Liao, S.; Jain, A. K.; and Li, S. Z. 2016. A fast and accurate unconstrained face detector. TPAMI;【2】Brubaker, S. C.; Wu, J.; Sun, J.; Mullin, M. D.; and Rehg, J. M. 2008. On the design of cascades of boosted ensembles
for face detection. IJCV)。除了那些之外,另一個(gè)重要的工作是引入可變形的部件模型(DPM)。
最近,基于CNN的方法已經(jīng)在人臉檢測(cè)占據(jù)了重要位置。Cascade CNN通過訓(xùn)練一個(gè)復(fù)雜的CNN提高了檢測(cè)精度。Qin等人建議對(duì)級(jí)聯(lián)的CNNs進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)端到端優(yōu)化(Qin, H.; Yan, J.; Li, X.; and Hu, X. 2016. Joint training of cascaded CNN for face detection. In CVPR.)。MTCN提出了多任務(wù)級(jí)聯(lián)的檢測(cè)和對(duì)齊方法。Faceness將人臉檢測(cè)作為對(duì)人臉部件進(jìn)行評(píng)分,以檢測(cè)嚴(yán)重遮擋下的人臉。UnitBox引入IoU損失用于邊界框預(yù)測(cè)。EMO提出了一個(gè)預(yù)期的最大重疊分?jǐn)?shù),以評(píng)估錨匹配質(zhì)量。SAFD開發(fā)了一個(gè)尺度候選階段,該階段自動(dòng)標(biāo)準(zhǔn)化檢測(cè)前的人臉尺寸。SSAP注意力在圖像金字塔中的特定比例和每個(gè)刻度層中的有效位置。最近的工作(Bai, Y.; Zhang, Y.; Ding, M.; and Ghanem, B. 2018. Finding tiny faces in the wild with generative adversarial network. In CVPR)設(shè)計(jì)了一種新的網(wǎng)絡(luò),從一個(gè)很小的模糊中以直接產(chǎn)生清晰的超分辨率人臉。
此外,人臉檢測(cè)還繼承了一般目標(biāo)檢測(cè)器的一些成就,如 Faster RCNN、SSD、FPN和RetinaNet 。
Face R-CNN(Ren, S.; He, K.; Girshick, R. B.; and Sun, J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. TPAMI)將Faster R-CNN 與難樣本挖掘結(jié)合起來,并取得了優(yōu)秀的結(jié)果。Face Boxes引入了一種基于SSD的CPU實(shí)時(shí)檢測(cè)器。Face R-FCN在人臉檢測(cè)中應(yīng)用R-FCN ,并做出相應(yīng)的進(jìn)行改進(jìn)。人臉檢測(cè)模型為了尋找微小人臉為不同的尺度訓(xùn)練單獨(dú)的探測(cè)器。S3FD在SSD上提出了多種策略,以補(bǔ)償小面孔的匹配問題。SSH在每個(gè)預(yù)測(cè)模塊上使用大型過濾器對(duì)上下文信息進(jìn)行建模。PyramidBox利用具有改進(jìn)的SSD網(wǎng)絡(luò)結(jié)構(gòu)的上下文信息。FAB提出了一個(gè)anchor-level的注意力引入RetinaNet,以檢測(cè)被遮擋的人臉。
作者受RefineDet中的多步分類和回歸啟發(fā)和RetinaNet的focal loss,開發(fā)了一種最先進(jìn)的人臉檢測(cè)器。
主框架Backbone框架的主干是ResNet-50,有著6層特征金字塔結(jié)構(gòu)用于SRN。特征圖主要從C2、C3、C4和C5提取獲得,C6和C7僅僅通過兩個(gè)簡(jiǎn)單的下采樣得到。自下而上和自上而下通道之間的橫向結(jié)構(gòu)是相同的。
Dedicated Modules
STC模塊選擇C2、C3、C4、p2、p3和p4執(zhí)行兩步分類,而STR模塊選擇C5、C6、C7、p5、p6和p7進(jìn)行兩步回歸。RFE模塊負(fù)責(zé)豐富特征的感受野用于預(yù)測(cè)目標(biāo)的類別和位置。
Loss Function作者在深層結(jié)構(gòu)的末尾附加了一個(gè)混合損失,它利用focal loss和平滑的L1損失的優(yōu)點(diǎn),促使模型專注于更多的難訓(xùn)練樣本,并學(xué)習(xí)更好的回歸結(jié)果。
Selective Two-Step Classification
STC的損失函數(shù)由兩部分組成,即第一步損失和第二步損失。對(duì)于第一步,計(jì)算這些樣本的focal loss選擇以執(zhí)行兩步分類;對(duì)于第二步,只關(guān)注那些在第一步過濾后仍然存在的樣本。根據(jù)這些定義,將損失函數(shù)定義如下:
Selective Two-Step Regression
在檢測(cè)任務(wù)中,如何使邊界框的定位更加準(zhǔn)確一直是一個(gè)具有挑戰(zhàn)性的問題。現(xiàn)有的一步回歸方法依賴于基于不同特征層的回歸,這在一些具有挑戰(zhàn)性的場(chǎng)景中是不準(zhǔn)確的,如Ms COCO的評(píng)價(jià)標(biāo)準(zhǔn)。近年來,采用級(jí)聯(lián)結(jié)構(gòu)進(jìn)行多步回歸是提高檢測(cè)邊界框準(zhǔn)確性的有效方法。
然而,盲目地在特定任務(wù)( 即人臉檢測(cè))中添加多步回歸往往適得其反,實(shí)驗(yàn)結(jié)果(見下表 )表明三個(gè)較低金字塔水平的兩步回歸損害了性能。
這種現(xiàn)象背后的原因有兩個(gè): 1) 三個(gè)較低的金字塔層次是相關(guān)的,有大量的小錨來探測(cè)小面孔。 這些小面孔的特征是非常粗糙的特征表示,因此這些小錨很難進(jìn)行兩步回歸; 2) 在訓(xùn)練階段,如果讓網(wǎng)絡(luò)太關(guān)注難樣本的回歸,在低金字塔水平上的任務(wù),它會(huì)導(dǎo)致更大的回歸損失和阻礙更重要的分類任務(wù)。
在上述分析的基礎(chǔ)上,我們選擇性地對(duì)三個(gè)較高的金字塔水平進(jìn)行了兩步回歸。這種設(shè)計(jì)背后的動(dòng)機(jī)是充分利用三個(gè)較高金字塔層次上大面的詳細(xì)特征來回歸更精確的邊界框位置,并使三個(gè)較低的金字塔層次更加關(guān)注分類任務(wù)。這種分而治之的策略使整個(gè)框架更加有效。STR損失如下:
Receptive Field Enhancement
實(shí)驗(yàn)結(jié)果各種設(shè)計(jì)的有效性
在不同數(shù)據(jù)集上的評(píng)估
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。