用于精確目標檢測的多網(wǎng)格冗余邊界框標注
現(xiàn)在領(lǐng)先的目標檢測器是從基于深度CNN的主干分類器網(wǎng)絡(luò)重新調(diào)整用途的兩級或單級網(wǎng)絡(luò)。
一、前言
現(xiàn)在領(lǐng)先的目標檢測器是從基于深度CNN的主干分類器網(wǎng)絡(luò)重新調(diào)整用途的兩級或單級網(wǎng)絡(luò)。YOLOv3就是這樣一種眾所周知的最先進的單級檢測器,它接收輸入圖像并將其劃分為大小相等的網(wǎng)格矩陣。具有目標中心的網(wǎng)格單元負責檢測特定目標。
今天分享的,就是提出了一種新的數(shù)學(xué)方法,該方法為每個目標分配多個網(wǎng)格,以實現(xiàn)精確的tight-fit邊界框預(yù)測。研究者還提出了一種有效的離線復(fù)制粘貼數(shù)據(jù)增強來進行目標檢測。新提出的方法顯著優(yōu)于一些當前最先進的目標檢測器,并有望獲得更好的性能。
二、背景
目標檢測網(wǎng)絡(luò)旨在使用緊密匹配的矩形邊界框在圖像上定位對象并正確標記它。如今,有兩種不同的方法可以實現(xiàn)這一目的。第一個也是性能方面,最主要的方法是兩階段目標檢測,最好的代表RCNN及其衍生物[Faster r-cnn: Towards real-time object detection with region proposal networks]、[Fast r-cnn]。相比之下,第二組目標檢測實現(xiàn)因其出色的檢測速度和輕量級而廣為人知,被稱為單階段網(wǎng)絡(luò),代表性示例為[You only look once: Unified, real-time object detection]、[Ssd: Single shot multibox detector]、[Focal loss for dense object detection]。兩階段網(wǎng)絡(luò)依賴于一個潛在的區(qū)域建議網(wǎng)絡(luò),該網(wǎng)絡(luò)生成可能包含感興趣對象的圖像的候選區(qū)域,第二個檢測頭處理分類和邊界框回歸。在單階段目標檢測中,檢測是一個單一的、完全統(tǒng)一的回歸問題,它在一個完整的前向傳遞中同時處理分類和定位。因此,通常,單階段網(wǎng)絡(luò)更輕、更快且易于實現(xiàn)。
今天的研究依然是堅持YOLO的方法,特別是YOLOv3,并提出了一種簡單的hack,可以同時使多個網(wǎng)格單元預(yù)測目標坐標、類別和目標置信度。每個對象的多網(wǎng)格單元分配背后的基本理論是通過強制多個單元在同一對象上工作來增加預(yù)測緊密擬合邊界框的可能性。
多網(wǎng)格分配的一些優(yōu)點包括:
(a)為目標檢測器提供它正在檢測的對象的多視角視圖,而不是僅依靠一個網(wǎng)格單元來預(yù)測對象的類別和坐標;
(b ) 較少隨機和不穩(wěn)定的邊界框預(yù)測,這意味著高精度和召回率,因為附近的網(wǎng)格單元被訓(xùn)練來預(yù)測相同的目標類別和坐標;
(c) 減少具有感興趣對象的網(wǎng)格單元與沒有感興趣對象的網(wǎng)格之間的不平衡。
此外,由于多網(wǎng)格分配是對現(xiàn)有參數(shù)的數(shù)學(xué)利用,并且不需要額外的關(guān)鍵點池化層和后處理來將關(guān)鍵點重新組合到其對應(yīng)的目標,如CenterNet和CornerNet,可以說它是一個更實現(xiàn)無錨或基于關(guān)鍵點的目標檢測器試圖實現(xiàn)的自然方式。除了多網(wǎng)格冗余注釋,研究者還引入了一種新的基于離線復(fù)制粘貼的數(shù)據(jù)增強技術(shù),用于準確的目標檢測。
三、MULTI-GRID ASSIGNMENT
上圖包含三個目標,即狗、自行車和汽車。為簡潔起見,我們將解釋我們在一個對象上的多網(wǎng)格分配。上圖顯示了三個對象的邊界框,其中包含更多關(guān)于狗的邊界框的細節(jié)。下圖顯示了上圖的縮小區(qū)域,重點是狗的邊界框中心。包含狗邊界框中心的網(wǎng)格單元的左上角坐標用數(shù)字0標記,而包含中心的網(wǎng)格周圍的其他八個網(wǎng)格單元的標簽從1到8。
到目前為止,我已經(jīng)解釋了包含目標邊界框中心的網(wǎng)格如何注釋目標的基本事實。這種對每個對象僅一個網(wǎng)格單元的依賴來完成預(yù)測類別的困難工作和精確的tight-fit邊界框引發(fā)了許多問題,例如:
(a)正負網(wǎng)格之間的巨大不平衡,即有和沒有對象中心的網(wǎng)格坐標
(b)緩慢的邊界框收斂到GT
(c)缺乏要預(yù)測的對象的多視角(角度)視圖。
所以這里要問的一個自然問題是,“顯然,大多數(shù)對象包含一個以上網(wǎng)格單元的區(qū)域,因此是否有一種簡單的數(shù)學(xué)方法來分配更多這些網(wǎng)格單元來嘗試預(yù)測對象的類別和坐標連同中心網(wǎng)格單元?”。這樣做的一些優(yōu)點是(a)減少不平衡,(b)更快的訓(xùn)練以收斂到邊界框,因為現(xiàn)在多個網(wǎng)格單元同時針對同一個對象,(c)增加預(yù)測tight-fit邊界框的機會(d) 為YOLOv3等基于網(wǎng)格的檢測器提供多視角視圖,而不是對象的單點視圖。新提出的多重網(wǎng)格分配試圖回答上述問題。
Ground-truth encoding
四、訓(xùn)練
A. The Detection Network: MultiGridDet
MultiGridDet是一個目標檢測網(wǎng)絡(luò),通過從YOLOv3中刪除六個darknet卷積塊來使其更輕、更快。一個卷積塊有一個Conv2D+Batch Normalization+LeakyRelu。移除的塊不是來自分類主干,即Darknet53。相反,將它們從三個多尺度檢測輸出網(wǎng)絡(luò)或頭中刪除,每個輸出網(wǎng)絡(luò)兩個。盡管通常深度網(wǎng)絡(luò)表現(xiàn)良好,但太深的網(wǎng)絡(luò)也往往會快速過度擬合或大幅降低網(wǎng)絡(luò)速度。
B. The Loss function
Coordinate activation function plot with different β values
C. Data Augmentation
離線復(fù)制粘貼人工訓(xùn)練圖像合成工作如下:首先,使用簡單的圖像搜索腳本,使用地標、雨、森林等關(guān)鍵字從谷歌圖像下載數(shù)千張背景無對象圖像,即沒有我們感興趣的對象的圖像。然后,我們從整個訓(xùn)練數(shù)據(jù)集的隨機q個圖像中迭代地選擇p個對象及其邊界框。然后,我們生成使用它們的索引作為ID選擇的p個邊界框的所有可能組合。從組合集合中,我們選擇滿足以下兩個條件的邊界框子集:
if arranged in some random order side by side, they must fit within a given target background image area
and should efficiently utilize the background image space in its entirety or at least most part of it without the objects overlap.
五、實驗及可視化
Pascal VOC 2007上的性能比較
coco數(shù)據(jù)集上的性能比較
從圖中可以看出,第一行顯示了六個輸入圖像,而第二行顯示了網(wǎng)絡(luò)在非極大抑制(NMS)之前的預(yù)測,最后一行顯示了MultiGridDet在NMS之后對輸入圖像的最終邊界框預(yù)測。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。