目標檢測創(chuàng)新:一種基于區(qū)域的半監(jiān)督方法,部分標簽即可
研究表明,當訓練數(shù)據(jù)缺少注釋(即注釋稀疏的數(shù)據(jù))時,目標檢測器的性能會顯著下降。
一、前言
研究表明,當訓練數(shù)據(jù)缺少注釋(即注釋稀疏的數(shù)據(jù))時,目標檢測器的性能會顯著下降。現(xiàn)在的方法側(cè)重于以偽標簽的形式或通過在訓練期間重新加權(quán)未標記框的梯度來解決缺失真實標注的問題。
在這項工作中,研究者重新審視了稀疏注釋目標檢測的公式。研究者觀察到稀疏注釋的目標檢測可以被認為是區(qū)域級別的半監(jiān)督目標檢測問題?;谶@一見解,研究者們提出了一種基于區(qū)域的半監(jiān)督算法,該算法可以自動識別包含未標記前景對象的區(qū)域。然后,提出的算法以不同方式處理標記和未標記的前景區(qū)域,這是半監(jiān)督方法中的常見做法。為了評估所提出方法的有效性,對PASCAL-VOC和COCO數(shù)據(jù)集上稀疏注釋方法常用的五個分割進行了詳盡的實驗,并實現(xiàn)了最先進的性能。除此之外,還表明新提出的方法在標準半監(jiān)督設(shè)置上實現(xiàn)了競爭性能,證明了新方法的強度和廣泛適用性。
二、背景
傳統(tǒng)的目標檢測方法假設(shè)訓練數(shù)據(jù)集被詳盡地標記。這種檢測器的性能對標記數(shù)據(jù)的質(zhì)量很敏感。用于訓練目標檢測器的數(shù)據(jù)中的噪聲可能是由于噪聲類標簽或不正確/丟失的邊界框而產(chǎn)生的。在這項工作中,研究者處理了缺少類標簽和邊界框注釋的更難的問題,即稀疏注釋的存在。稀疏注釋目標檢測(SAOD)是在訓練數(shù)據(jù)中存在缺失注釋的情況下提高目標檢測魯棒性的問題。這個問題在當前至關(guān)重要,因為獲取眾多數(shù)據(jù)集可能既昂貴又費力。另一種方法是使用計算機輔助協(xié)議來收集注釋。然而,這些方法受到嘈雜/缺失標簽的影響。因此,必須調(diào)整當前的目標檢測器來解決稀疏注釋的問題。
問題的癥結(jié)在于訓練期間分配標簽的方式。稀疏注釋減少了真正的正樣本并將假負樣本引入訓練,從而降低了網(wǎng)絡(luò)性能。雖然這過于簡單化了,但它可以更好地了解正在處理的問題。研究者建立在一個簡單的觀察之上,即SAOD是區(qū)域級別的半監(jiān)督目標檢測(SSOD)。然而,未標記的數(shù)據(jù),在我們的例子中是包含前景對象的區(qū)域,是先驗未知的,必須被識別。因此,SSOD方法不能直接應(yīng)用于SAOD,因為當前的方法假設(shè)一個已知的未標記集以及一個詳盡標記的訓練集。同樣,最近提出的SAOD方法在訓練期間丟棄所有沒有單個注釋的圖像,并且不能像SSOD方法那樣真正利用未標記數(shù)據(jù)的力量。分別在上圖的第1行和第2行中說明了SSOD和SAOD。
假設(shè)稀疏注釋的目標檢測方法應(yīng)該是一個很好的半監(jiān)督學習器,因為SSOD中的未標記圖像可以被視為SAOD的缺失注釋。我們在上圖的第3行展示了這個公式。
三、新框架分析
所提出的方法如下圖所示,由一個標準的骨干網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)從圖像的原始視圖和增強視圖中提取特征。
一個通用的RPN將骨干網(wǎng)絡(luò)提取的特征連接起來,生成一組通用的候選區(qū)域。候選區(qū)域b可以屬于三個組之一,即:
標記區(qū)域b∈ Bl
未標記區(qū)域b∈Bul
背景區(qū)域b∈ Bbg
對于給定的一組真實標注,可以自動識別第一組,即標記區(qū)域。然后問題就變成了從背景區(qū)域中識別和分離第二組,即未標記區(qū)域。給定所有候選區(qū)域,pseudo-positive mining(PPM)步驟識別未標記區(qū)域并將它們與背景區(qū)域分離。受半監(jiān)督方法的啟發(fā),標記和未標記區(qū)域分別受到監(jiān)督和非監(jiān)督損失的監(jiān)督。我們在下面詳細描述每個階段。
Feature Extraction
給定圖像I,計算表示為A(I)的I的增強版本。在這項工作中,我們使用隨機對比度、亮度、飽和度、光照和邊界框以級聯(lián)方式擦除以生成A(I)。 一個檢測器骨干網(wǎng)絡(luò)用于分別從I和A(I)中提取兩個特征fo和fa。
Common RPN (C-RPN)
傳統(tǒng)的兩階段目標檢測器使用區(qū)域提議網(wǎng)絡(luò)(RPN)來生成感興趣區(qū)域(ROI)。fo和fa這兩個特征使用RPN生成兩組不同的ROI。對兩組ROI進行操作增加了識別標記區(qū)域、未標記區(qū)域和背景區(qū)域的難度,同時增加了處理時間。此外,對于關(guān)聯(lián),必須執(zhí)行匹配算法,如基于IoU)分數(shù)的Kuhn-Munkres算法,以獲得輸入圖像的一組通用標記、未標記和背景框。由于不完美的匹配,此過程可能會很嘈雜。為了避免這種情況,提出了一種連接fo和fa以獲得ROI的C-RPN。
Pseudo Positive Mining
給定來自C-RPN的ROI,下一步是從標記區(qū)域和背景區(qū)域中識別未標記區(qū)域。基于我們的觀察,即使在使用稀疏注釋進行訓練時,RPN也可以可靠地區(qū)分前景和背景區(qū)域,我們廣泛依賴RPN的分數(shù)來識別未標記區(qū)域。
首先,根據(jù)可用的Ground Truth,所有分配為正的ROI都從C-RPN的輸出中刪除。接下來,所有具有大于閾值(本工作中為0.5和IoU小于閾值(本工作中為0.2)且具有任何GT的ROI都被視為未標記區(qū)域。剩余的ROI分配給負樣本。我們稍后會證明這個簡單的步驟可以提高RPN的召回率。請注意,由于閾值不同,一些未標記的區(qū)域可能會被錯誤地分配給負樣本。這些地區(qū)將在后續(xù)階段得到照顧。
Losses
在pseudo positive mining步驟之后,來自C-RPN的ROI被分為標記、未標記和背景區(qū)域。首先,ROI池化層從特征fo中提取標記區(qū)域和背景區(qū)域的區(qū)域特征,然后將其饋送到檢測頭。檢測頭預(yù)測每個區(qū)域的類別概率和邊界框。稀疏GT用于監(jiān)督這些預(yù)測,方法是將交叉熵損失應(yīng)用于標記和背景區(qū)域的分類,以及平滑L1用于標記區(qū)域的邊界框回歸:
最后,對未標記區(qū)域執(zhí)行與類別無關(guān)的NMS,以刪除導致Nu唯一區(qū)域的重復(fù)項。Nu未標記區(qū)域與fo和fa一起通過ROI池化層和檢測頭,分別獲得fdo和fda。應(yīng)用了如下所示的一致性正則化損失,它強制原始區(qū)域和增強區(qū)域的特征彼此一致。
四、實驗
Sparsely annotated object detection在COCO的結(jié)果
Sparsely annotated object detection在VOC結(jié)果
Qualitative results showing the unlabeled regions identified by the pseudo-positive mining step. The red boxes correspond to the available ground truth. A class agnostic NMS was performed on the regions and the result is shown in white.
將使用可用的GT(頂部)訓練的“普通”模型的輸出與使用新提出的方法訓練的模型(底部)進行比較的定性結(jié)果。顯示類別置信度分數(shù)大于0.9的預(yù)測。紅色:人,青色:狗,紫色:馬,黃色:時鐘,綠色:停車標志,藍色:停車計時器,紫色:長頸鹿,橙色:盆栽,黑色:沖浪板,深綠色:船。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。