零樣本目標(biāo)檢測(cè):魯棒的區(qū)域特征合成器用于目標(biāo)檢測(cè)
零樣本目標(biāo)檢測(cè)(Zero-shot object detection)旨在結(jié)合類語(yǔ)義向量來(lái)實(shí)現(xiàn)在給定無(wú)約束測(cè)試圖像的情況下檢測(cè)(可見(jiàn)和)未見(jiàn)過(guò)的類。
一、前言
在這項(xiàng)研究中,研究者揭示了該研究領(lǐng)域的核心挑戰(zhàn):如何合成與真實(shí)樣本一樣具有類內(nèi)多樣性和類間可分性的魯棒區(qū)域特征(對(duì)于未見(jiàn)對(duì)象),從而可以實(shí)現(xiàn)強(qiáng)大的未見(jiàn)目標(biāo)檢測(cè)器。
為了應(yīng)對(duì)這些挑戰(zhàn),研究者構(gòu)建了一個(gè)新穎的零樣本目標(biāo)檢測(cè)框架,其中包含一個(gè)類內(nèi)語(yǔ)義發(fā)散組件和一個(gè)類間結(jié)構(gòu)保留組件。前者用于實(shí)現(xiàn)一對(duì)多映射,從每個(gè)類語(yǔ)義向量中獲取不同的視覺(jué)特征,防止將真實(shí)的看不見(jiàn)的物體誤分類為圖像背景。而后者用于避免合成特征過(guò)于分散而混淆類間和前景-背景關(guān)系。
為了證明所提出方法的有效性,對(duì)PASCAL VOC、COCO和DIOR數(shù)據(jù)集進(jìn)行了綜合實(shí)驗(yàn)。值得注意的是,新提出的方法在PASCAL VOC和COCO上實(shí)現(xiàn)了最先進(jìn)的性能,并且是第一個(gè)在遙感圖像中進(jìn)行零樣本目標(biāo)檢測(cè)的研究。
二、背景
隨著CNN和Transformer等深度學(xué)習(xí)技術(shù)的快速發(fā)展,目標(biāo)檢測(cè)研究領(lǐng)域取得了訊飛的進(jìn)步。盡管現(xiàn)有方法實(shí)現(xiàn)的檢測(cè)性能看起來(lái)很有希望和令人鼓舞,但在實(shí)際場(chǎng)景中應(yīng)用它們存在一個(gè)隱藏的缺點(diǎn)——主流檢測(cè)方法對(duì)要檢測(cè)的類別有嚴(yán)格的限制。
一旦模型被訓(xùn)練,它只能識(shí)別出現(xiàn)在訓(xùn)練數(shù)據(jù)中的物體,而其他出現(xiàn)在測(cè)試圖像中但在訓(xùn)練過(guò)程中看不到的物體會(huì)極大地混淆模型,導(dǎo)致無(wú)法避免的檢測(cè)結(jié)果錯(cuò)誤。為了解決這個(gè)問(wèn)題,近年來(lái)提出了零樣本目標(biāo)檢測(cè)(ZSD)的任務(wù)。目標(biāo)是使檢測(cè)模型能夠預(yù)測(cè)在訓(xùn)練期間沒(méi)有任何可用樣本的看不見(jiàn)的對(duì)象。
三、新框架分析
在這項(xiàng)工作中研究問(wèn)題的插圖。在實(shí)際情況下,樣本構(gòu)建的特征空間顯示出較高的類內(nèi)多樣性,但仍具有類間可分離性,如a所示,而現(xiàn)有方法學(xué)習(xí)的合成視覺(jué)特征空間要么類內(nèi)多樣性不足(如b所示),或具有過(guò)多的類內(nèi)多樣性,使類間不可分割(如c所示)。
上圖顯示了提出的ZSD總體框架。可以看出,它包含一個(gè)目標(biāo)檢測(cè)模塊和一個(gè)域變換模塊。目標(biāo)檢測(cè)模塊是一個(gè)Faster-RCNN模型,以ResNet-101作為主干。
首先,我們用看到的圖像及其相應(yīng)的groundtruth注釋來(lái)訓(xùn)練Faster-RCNN模型。獲得模型后,可以用它來(lái)使用RPN為所見(jiàn)類提取區(qū)域特征。其次,我們訓(xùn)練區(qū)域特征合成器來(lái)學(xué)習(xí)語(yǔ)義詞向量和視覺(jué)特征之間的映射。然后,使用學(xué)習(xí)到的特征合成器為看不見(jiàn)的類生成區(qū)域特征。通過(guò)這些合成的未見(jiàn)區(qū)域特征及其相應(yīng)的類別標(biāo)簽,我們可以為未見(jiàn)類別訓(xùn)練未見(jiàn)分類器。最后,我們更新Faster-RCNN模型中的分類器,以實(shí)現(xiàn)ZSD任務(wù)的新檢測(cè)器。
整個(gè)訓(xùn)練過(guò)程也在Algorithm 1中進(jìn)行了詳細(xì)說(shuō)明。請(qǐng)注意,新提出的方法核心是如何學(xué)習(xí)統(tǒng)一的生成模型來(lái)學(xué)習(xí)視覺(jué)域和語(yǔ)義域之間的關(guān)系。具體來(lái)說(shuō),研究者設(shè)計(jì)了一個(gè)統(tǒng)一的區(qū)域特征合成器,用于在現(xiàn)實(shí)世界檢測(cè)場(chǎng)景中進(jìn)行特征合成,其中包含一個(gè)類內(nèi)語(yǔ)義發(fā)散組件和一個(gè)類間結(jié)構(gòu)保持組件。
四、實(shí)驗(yàn)及可視化
Comparison of mAP at IoU=0.5, under ZSD and GZSD settings on PASCAL VOC dataset
Comparison of Recall@100 and mAP at IoU=0.5 over two seen/unseen splits, under GZSD setting on MS COCO dataset
PASCAL VOC、MS COCO(48/17和65/15)和DIOR數(shù)據(jù)集的定性結(jié)果。對(duì)于每個(gè)數(shù)據(jù)集,第一列和第二列分別是ZSD和GZSD的結(jié)果??吹降念愑镁G色表示,看不見(jiàn)的用紅色表示。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。