博客專欄

EEPW首頁 > 博客 > 人臉專題知識鞏固 (一) | 級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)用于人臉檢測

人臉專題知識鞏固 (一) | 級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)用于人臉檢測

發(fā)布人:CV研究院 時間:2021-04-27 來源:工程師 發(fā)布文章

1.png

01 簡  要

說到人臉檢測,應(yīng)該是近幾年不老的話題了,如果要將這技術(shù)真的落實到現(xiàn)在產(chǎn)品,其實還有很長的路,不知道大家有沒有發(fā)現(xiàn),很多無人超市開始走下坡路,也許不僅僅是技術(shù)的原因之一吧,但是我們只針對技術(shù)來說,其實還是有很多不足需要去解決,這也是之后我們?nèi)四樳@個專集和大家要說的,那我們就開始吧!

級聯(lián)算法在人臉檢測中得到了廣泛的應(yīng)用,其中首先可以使用計算量小的分類器來縮小大部分背景,同時保持召回。

今天說的這個技術(shù)就是提出了一種由兩個主要步驟組成的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)方法。第一階段采用低像素候選窗口作為輸入,使淺層卷積神經(jīng)網(wǎng)絡(luò)快速提取候選窗口;在第二階段,調(diào)整來自前一階段的窗口的大小,并將其分別用作對應(yīng)網(wǎng)絡(luò)層的輸入。在訓(xùn)練期間,對hard-樣本進行聯(lián)合在線訓(xùn)練,并采用soft非極大抑制算法對數(shù)據(jù)集進行測試。整個網(wǎng)絡(luò)在FDDB上實現(xiàn)了更好的性能。

開始詳細講解,先和大家回憶經(jīng)典網(wǎng)絡(luò)

02 Fully Convolution Network

2.jpg3.jpg

如上圖所示,不知道細心的同學(xué)有發(fā)現(xiàn)差別所在不???

差別:全連接結(jié)構(gòu)和完全卷積結(jié)構(gòu)之間的區(qū)別表現(xiàn)在每一層的圖像大小上。

經(jīng)過兩次卷積和池化運算后,原始圖像的分辨率由227×227變?yōu)?5×55,第二次池化后圖像大小為27×27,輸出到第五層,圖像大小減小到13×13。然而,在FCN中,以H×W大小的圖像為輸入,經(jīng)過兩次卷積和池化運算后,圖像質(zhì)量下降到原來圖像的四分之一。然后,在每個池化層之后,圖像的長度和寬度減少一半。

因此,卷積特征是原來尺寸輸出的第五層的十六分之一。最后,將特征縮小到原來大小的三十二分之一。結(jié)果表明,經(jīng)過多次卷積和池化運算后,圖像大小明顯減小。上面提到的最后一層可以得到最小尺寸的熱圖。它可以看作是重要的高維特征圖。隨后,對圖像進行上采樣并將其放大到原始圖像大小,所述位置的像素結(jié)果與分類結(jié)果相對應(yīng)。由于無條件圖像大小的顯著優(yōu)勢,在三個多分辨率網(wǎng)絡(luò)中分別采用全卷積層,使得輸入圖像大小不再受限。

03 Spatial Pyramid Pooling

SPP-Net只在整個圖像上運行一次CNN模型。然后,將通過選擇性搜索得到的候選區(qū)域映射到特征映射。利用空間金字塔池化和支持向量機對候選目標進行分類。通過不固定尺寸的輸入圖像可以獲得任意大小的卷積特征,只需保證輸入到全連接層的大小是固定的。

使用FCN結(jié)構(gòu),這樣就不能再限制輸入圖像的大小了。它將產(chǎn)生一個固定大小的輸出。因此,總體結(jié)構(gòu)不同于RCNN。下圖給出了空間金字塔池層結(jié)構(gòu)的流程圖。

4.jpg

04  Cascade Structure

級聯(lián)結(jié)構(gòu)在人臉檢測中得到了廣泛的應(yīng)用,首先可以利用計算量小的分類器來去除大部分背景,同時保持召回。

級聯(lián)分類器在多個AdaBoost弱分類器或強分類器上對不同的特征進行順序處理。級聯(lián)結(jié)構(gòu)如下圖所示。該流程圖不僅通過對多個弱分類器的組合,生成了一個強級聯(lián)分類器,而且提高了分類器的速度。然而,以往方法的每個階段都是獨立訓(xùn)練的。因此,不同CNN的優(yōu)化是相互獨立的。

5.jpg

接下來開始今天技術(shù)的詳解

結(jié)構(gòu)設(shè)計

在這一部分中,我們將描述一個級聯(lián)CNN的人臉檢測使用三種不同分辨率的輸入圖像(12×12,24×24和48×48)。將輸入圖像調(diào)整到不同的尺度,形成圖像金字塔。

首先,通過微網(wǎng)絡(luò)(全卷積候選網(wǎng)絡(luò),F(xiàn)CPN)消除大量的非人臉窗口;然后,將候選窗口的其余部分輸入到第二階段(多尺度網(wǎng)絡(luò),MSN)。MSN-24表示輸入大小為24×24的分支,而MSN-48表示輸入大小為48×48的分支。將MSN-24第五層的卷積特征(即概率分布信息)與MSN-48融合。對不同級聯(lián)階段進行hard-樣本挖掘和聯(lián)合訓(xùn)練,完成人臉分類和邊界框回歸兩項任務(wù)。

6.jpg

在工作中,輸入圖像被調(diào)整到不同尺度,以創(chuàng)建一個圖像金字塔。檢測過程分為兩個階段。第一階段是全卷積候選網(wǎng)絡(luò)(FCPN),它采用低分辨率淺卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),快速有效地消除大量背景窗口,如下圖所示。

7.jpg

第二階段是多尺度網(wǎng)絡(luò)(MSN),它結(jié)合了加權(quán)閾值兩種高分辨率卷積神經(jīng)網(wǎng)絡(luò)的特點,進一步濾除hard-樣本,細化邊界框。結(jié)構(gòu)如下圖。這兩個階段詳細說明見“計算機視覺協(xié)會”知識星球。

8.jpg

接下來詳細說說難樣本挖掘!

與傳統(tǒng)分類器訓(xùn)練中的難樣本挖掘不同,在訓(xùn)練過程中自適應(yīng)地選擇難樣本。在每一批中,計算候選區(qū)域的損失函數(shù),并根據(jù)損失值對它們進行排序。選取損失值最高70%的目標區(qū)域作為難樣本,忽略其余30%的簡單樣本。

為了評估該方法的有效性,訓(xùn)練了兩種不同的比較模型(w/和w/o難樣本的在線訓(xùn)練),并對測試集的性能進行了評估。下圖給出了兩個不同的結(jié)果。實線顯示了難樣品的挖掘性能。虛線顯示不使用此方法的效果。實驗結(jié)果表明,難樣本的在線訓(xùn)練有助于提高檢測性能,在FDDB上提供1.5%的性能增益。

9.jpg

Soft極大抑制也會”計算機視覺協(xié)會“知識星球詳細講解,為啥會有如此高的性能提升!

實  驗

10.jpg

圖 在Pascal Faces數(shù)據(jù)集上的結(jié)果

11.jpg

圖 在FDDB人臉數(shù)據(jù)集上discROC的結(jié)果

12.jpg

圖 在FDDB人臉數(shù)據(jù)集上contROC的結(jié)果

檢測可視化

13.jpg14.jpg15.jpg16.jpg

Best Paper:https://link.springer.com/journal/11042

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。




相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉