博客專欄

EEPW首頁 > 博客 > Label,Verify,Correct:一種簡單的Few Shot 目標檢測方法

Label,Verify,Correct:一種簡單的Few Shot 目標檢測方法

發(fā)布人:CV研究院 時間:2022-02-10 來源:工程師 發(fā)布文章

少樣本目標檢測(few-shot object detection,F(xiàn)SOD)——僅在少數(shù)訓(xùn)練實例的情況下為新類別擴展目標檢測器的任務(wù)


01 前言

今天分享的目標是少樣本目標檢測(few-shot object detection,F(xiàn)SOD)——僅在少數(shù)訓(xùn)練實例的情況下為新類別擴展目標檢測器的任務(wù)。引入了一種簡單的偽標記方法,從訓(xùn)練集中為每個新類別獲取高質(zhì)量的偽注釋,大大增加了訓(xùn)練實例的數(shù)量并減少了類不平衡;新提出的方法會找到以前未標記的實例。

使用模型預(yù)測進行Na¨?vely training會產(chǎn)生次優(yōu)性能;研究者提出了兩種新方法來提高偽標記過程的精度:首先,引入了一種驗證技術(shù)來刪除具有不正確類標簽的候選檢測;其次,訓(xùn)練了一個專門的模型來糾正質(zhì)量差的邊界框。

微信圖片_20220210171354.png

在這兩個新步驟之后,獲得了大量高質(zhì)量的偽注釋,允許最終檢測器進行端到端的訓(xùn)練。此外,研究者展示了新方法保持了基類性能,以及FSOD中簡單增強的實用性。在對PASCAL VOC和MS-COCO進行基準測試時,與所有shots數(shù)量的現(xiàn)有方法相比,新提出的方法實現(xiàn)了最先進或次優(yōu)的性能。


02背景及相關(guān)技術(shù)

目標檢測是指確定圖像是否包含特定類別的對象的任務(wù),如果是,則對它們進行定位。近年來,通過為一組預(yù)定義的目標類訓(xùn)練計算模型,在目標檢測方面取得了巨大的成功,其中包含大量人工注釋標簽,例如MS-COCO和PASCAL VOC。然而,這樣的訓(xùn)練范式限制了模型只能在有大量訓(xùn)練數(shù)據(jù)的封閉的小類別上表現(xiàn)良好。

相比之下,人類可以不斷擴展他們的詞匯表,學習檢測更多的類別,即使只能訪問幾個例子。這也是現(xiàn)代計算機視覺系統(tǒng)的理想能力,并在少樣本目標檢測 (FSOD) 任務(wù)中進行了研究。

研究者工作的目標是FSOD:給定一個現(xiàn)有的目標檢測器,該檢測器已經(jīng)在某些類別的大量數(shù)據(jù)(稱為基本類別)上進行了訓(xùn)練,我們希望學習僅使用一些注釋來檢測新類別,例如每個類別1-30個,同時保持原始基本類別的性能。


03新框架分析

image.png

Problem Definition

在今天分享中,我們考慮與TFA[Few-shot object detection via feature reweighting]中相同的問題設(shè)置。具體來說,假設(shè)我們有一個圖像數(shù)據(jù)集D和兩個注釋集。首先是 Ybase,對一組基本類別Cbase進行了詳盡的注釋。其次YKNOVEL,在一組小類別 CNOVEL上只有K個注釋。請注意,基本類別的注釋是詳盡的,但對于新類別,大多數(shù)實例都沒有標記,因為在少樣本設(shè)置下,僅為圖像數(shù)據(jù)集D提供了K個注釋。

為了解決“監(jiān)督崩潰”的問題,我們采用了一種簡單的偽標簽方法來挖掘新類別的實例,有效地擴展了它們的注釋集。然而,來自檢測器的偽注釋(在Novel訓(xùn)練之后)是不可靠的,包含大量誤報。在這里,我們建立了一種方法來提高這些候選偽注釋的精度,方法是自動過濾掉具有不正確類標簽的候選,并為剩余的那些改進邊界框坐標。我們的方法為新類別產(chǎn)生了大量高精度偽注釋,允許最終檢測器在基礎(chǔ)和新類別數(shù)據(jù)上進行端到端訓(xùn)練。

微信圖片_20220210171409.jpg

主要講解下Label Verification!我們從Chum等人的查詢擴展工作中獲得靈感[Total recall: Automatic query expansion with a generative feature model for object retrieval]。它使用空間驗證在檢索期間接受或拒絕新實例。這里的目標是驗證每個候選檢測的預(yù)測類標簽。具體來說,我們考慮為具有非常有限的few-shot注釋的新穎類別構(gòu)建分類器。僅使用少量注釋構(gòu)建分類器顯然不是一項簡單的任務(wù),因為它通常需要高質(zhì)量的特征表示。在這里,我們受益于自監(jiān)督模型的最新發(fā)展,例如MoCo、SwAV、DINO,并使用這些模型產(chǎn)生的高質(zhì)量特征構(gòu)建kNN分類器。在實踐中,這項工作使用了通過自監(jiān)督DINO方法訓(xùn)練的ViT模型的輸出CLS,其中NN性能被證明特別強。

為了執(zhí)行標簽驗證(上圖),我們首先使用自監(jiān)督模型計算每個給定的新類 ground-truth注釋的特征。這些特征在kNN分類器中用作訓(xùn)練數(shù)據(jù)。同樣,我們使用相同的自監(jiān)督模型計算候選檢測集中每個實例的特征。具體來說,為了計算給定注釋/候選檢測的特征,首先使用邊界框來裁剪相關(guān)圖像。然后調(diào)整該作物的大小并作為輸入傳遞給自監(jiān)督模型。


04實驗及可視化

COCO數(shù)據(jù)上的性能比較

微信圖片_20220210171414.png

PASCAL VOC性能比較

微信圖片_20220210171417.pngimage.png

左上:在標簽驗證期間驗證的預(yù)測實例;來自我們的基線檢測器和我們的kNN分類器的預(yù)測類標簽匹配。右上:在標簽驗證期間被拒絕的預(yù)測實例;我們的基線檢測器(誤報)和kNN預(yù)測的類標簽不匹配。左下:經(jīng)過驗證的質(zhì)量非常差的邊界框)藍色虛線)在框校正期間得到了顯著改善(石灰實心)。右下:經(jīng)過驗證的可接受的邊界框(藍色虛線)得到進一步改進(石灰實心)。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉