目標檢測創(chuàng)新：一種基于區(qū)域的半監(jiān)督方法，部分標簽即可

發(fā)布人：CV研究院時間：2023-05-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

研究表明，當訓(xùn)練數(shù)據(jù)缺少注釋（即注釋稀疏的數(shù)據(jù)）時，目標檢測器的性能會顯著下降。

一、前言

研究表明，當訓(xùn)練數(shù)據(jù)缺少注釋（即注釋稀疏的數(shù)據(jù)）時，目標檢測器的性能會顯著下降?，F(xiàn)在的方法側(cè)重于以偽標簽的形式或通過在訓(xùn)練期間重新加權(quán)未標記框的梯度來解決缺失真實標注的問題。

在這項工作中，研究者重新審視了稀疏注釋目標檢測的公式。研究者觀察到稀疏注釋的目標檢測可以被認為是區(qū)域級別的半監(jiān)督目標檢測問題?；谶@一見解，研究者們提出了一種基于區(qū)域的半監(jiān)督算法，該算法可以自動識別包含未標記前景對象的區(qū)域。然后，提出的算法以不同方式處理標記和未標記的前景區(qū)域，這是半監(jiān)督方法中的常見做法。為了評估所提出方法的有效性，對PASCAL-VOC和COCO數(shù)據(jù)集上稀疏注釋方法常用的五個分割進行了詳盡的實驗，并實現(xiàn)了最先進的性能。除此之外，還表明新提出的方法在標準半監(jiān)督設(shè)置上實現(xiàn)了競爭性能，證明了新方法的強度和廣泛適用性。

二、背景

傳統(tǒng)的目標檢測方法假設(shè)訓(xùn)練數(shù)據(jù)集被詳盡地標記。這種檢測器的性能對標記數(shù)據(jù)的質(zhì)量很敏感。用于訓(xùn)練目標檢測器的數(shù)據(jù)中的噪聲可能是由于噪聲類標簽或不正確/丟失的邊界框而產(chǎn)生的。在這項工作中，研究者處理了缺少類標簽和邊界框注釋的更難的問題，即稀疏注釋的存在。稀疏注釋目標檢測（SAOD）是在訓(xùn)練數(shù)據(jù)中存在缺失注釋的情況下提高目標檢測魯棒性的問題。這個問題在當前至關(guān)重要，因為獲取眾多數(shù)據(jù)集可能既昂貴又費力。另一種方法是使用計算機輔助協(xié)議來收集注釋。然而，這些方法受到嘈雜/缺失標簽的影響。因此，必須調(diào)整當前的目標檢測器來解決稀疏注釋的問題。

問題的癥結(jié)在于訓(xùn)練期間分配標簽的方式。稀疏注釋減少了真正的正樣本并將假負樣本引入訓(xùn)練，從而降低了網(wǎng)絡(luò)性能。雖然這過于簡單化了，但它可以更好地了解正在處理的問題。研究者建立在一個簡單的觀察之上，即SAOD是區(qū)域級別的半監(jiān)督目標檢測(SSOD)。然而，未標記的數(shù)據(jù)，在我們的例子中是包含前景對象的區(qū)域，是先驗未知的，必須被識別。因此，SSOD方法不能直接應(yīng)用于SAOD，因為當前的方法假設(shè)一個已知的未標記集以及一個詳盡標記的訓(xùn)練集。同樣，最近提出的SAOD方法在訓(xùn)練期間丟棄所有沒有單個注釋的圖像，并且不能像SSOD方法那樣真正利用未標記數(shù)據(jù)的力量。分別在上圖的第1行和第2行中說明了SSOD和SAOD。

假設(shè)稀疏注釋的目標檢測方法應(yīng)該是一個很好的半監(jiān)督學(xué)習(xí)器，因為SSOD中的未標記圖像可以被視為SAOD的缺失注釋。我們在上圖的第3行展示了這個公式。

三、新框架分析

所提出的方法如下圖所示，由一個標準的骨干網(wǎng)絡(luò)組成，該網(wǎng)絡(luò)從圖像的原始視圖和增強視圖中提取特征。

一個通用的RPN將骨干網(wǎng)絡(luò)提取的特征連接起來，生成一組通用的候選區(qū)域。候選區(qū)域b可以屬于三個組之一，即：

標記區(qū)域b∈ Bl
未標記區(qū)域b∈Bul
背景區(qū)域b∈ Bbg

對于給定的一組真實標注，可以自動識別第一組，即標記區(qū)域。然后問題就變成了從背景區(qū)域中識別和分離第二組，即未標記區(qū)域。給定所有候選區(qū)域，pseudo-positive mining(PPM)步驟識別未標記區(qū)域并將它們與背景區(qū)域分離。受半監(jiān)督方法的啟發(fā)，標記和未標記區(qū)域分別受到監(jiān)督和非監(jiān)督損失的監(jiān)督。我們在下面詳細描述每個階段。

Feature Extraction

給定圖像I，計算表示為A(I)的I的增強版本。在這項工作中，我們使用隨機對比度、亮度、飽和度、光照和邊界框以級聯(lián)方式擦除以生成A(I)。一個檢測器骨干網(wǎng)絡(luò)用于分別從I和A(I)中提取兩個特征fo和fa。

Common RPN (C-RPN)

傳統(tǒng)的兩階段目標檢測器使用區(qū)域提議網(wǎng)絡(luò)（RPN）來生成感興趣區(qū)域（ROI）。fo和fa這兩個特征使用RPN生成兩組不同的ROI。對兩組ROI進行操作增加了識別標記區(qū)域、未標記區(qū)域和背景區(qū)域的難度，同時增加了處理時間。此外，對于關(guān)聯(lián)，必須執(zhí)行匹配算法，如基于IoU)分數(shù)的Kuhn-Munkres算法，以獲得輸入圖像的一組通用標記、未標記和背景框。由于不完美的匹配，此過程可能會很嘈雜。為了避免這種情況，提出了一種連接fo和fa以獲得ROI的C-RPN。

Pseudo Positive Mining

給定來自C-RPN的ROI，下一步是從標記區(qū)域和背景區(qū)域中識別未標記區(qū)域。基于我們的觀察，即使在使用稀疏注釋進行訓(xùn)練時，RPN也可以可靠地區(qū)分前景和背景區(qū)域，我們廣泛依賴RPN的分數(shù)來識別未標記區(qū)域。

首先，根據(jù)可用的Ground Truth，所有分配為正的ROI都從C-RPN的輸出中刪除。接下來，所有具有大于閾值（本工作中為0.5和IoU小于閾值（本工作中為0.2）且具有任何GT的ROI都被視為未標記區(qū)域。剩余的ROI分配給負樣本。我們稍后會證明這個簡單的步驟可以提高RPN的召回率。請注意，由于閾值不同，一些未標記的區(qū)域可能會被錯誤地分配給負樣本。這些地區(qū)將在后續(xù)階段得到照顧。

Losses

在pseudo positive mining步驟之后，來自C-RPN的ROI被分為標記、未標記和背景區(qū)域。首先，ROI池化層從特征fo中提取標記區(qū)域和背景區(qū)域的區(qū)域特征，然后將其饋送到檢測頭。檢測頭預(yù)測每個區(qū)域的類別概率和邊界框。稀疏GT用于監(jiān)督這些預(yù)測，方法是將交叉熵損失應(yīng)用于標記和背景區(qū)域的分類，以及平滑L1用于標記區(qū)域的邊界框回歸：

最后，對未標記區(qū)域執(zhí)行與類別無關(guān)的NMS，以刪除導(dǎo)致Nu唯一區(qū)域的重復(fù)項。Nu未標記區(qū)域與fo和fa一起通過ROI池化層和檢測頭，分別獲得fdo和fda。應(yīng)用了如下所示的一致性正則化損失，它強制原始區(qū)域和增強區(qū)域的特征彼此一致。

四、實驗

Sparsely annotated object detection在COCO的結(jié)果

Sparsely annotated object detection在VOC結(jié)果

Qualitative results showing the unlabeled regions identified by the pseudo-positive mining step. The red boxes correspond to the available ground truth. A class agnostic NMS was performed on the regions and the result is shown in white.

將使用可用的GT（頂部）訓(xùn)練的“普通”模型的輸出與使用新提出的方法訓(xùn)練的模型（底部）進行比較的定性結(jié)果。顯示類別置信度分數(shù)大于0.9的預(yù)測。紅色：人，青色：狗，紫色：馬，黃色：時鐘，綠色：停車標志，藍色：停車計時器，紫色：長頸鹿，橙色：盆栽，黑色：沖浪板，深綠色：船。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

目標檢測創(chuàng)新：一種基于區(qū)域的半監(jiān)督方法，部分標簽即可

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

目標檢測創(chuàng)新：一種基于區(qū)域的半監(jiān)督方法，部分標簽即可

相關(guān)推薦

技術(shù)專區(qū)

目標檢測創(chuàng)新：一種基于區(qū)域的半監(jiān)督方法，部分標簽即可