新目標檢測框架 | 基于改進的one-shot的目標檢測
目前在目標檢測方面的進展依賴于大規(guī)模的數據集來獲得良好的性能。然而,在許多場景下可能并不總是有足夠的樣本,從而導致當前基于深度學習的目標檢測模型的性能下降。
一、簡要
為了克服上述的問題,有研究者提出了一種新的one-shot條件檢測框架(OSCD)。給予一個含有target object的support image和query image作為輸入,OSCD可以在查詢圖像中檢測屬于目標對象類別的所有目標。
具體來說,OSCD由一個Siamese網絡和一個two-stages檢測模型組成。在two-stages檢測的每個階段,分別設計了一個特征融合模塊和一個可學習的度量模塊來進行有效的條件檢測。一旦訓練,OSCD可以在不需要進一步訓練的情況下檢測可見和看不見類的對象,這也有優(yōu)勢,包括classagnostic, training-free for unseen classes和without catastrophic forgetting。實驗表明,該方法在基于Fashion-MNIST和Pascal VOC的數據集上取得了最先進的性能
二、背景
如下圖所示。[S.K. Biswas, P. Milanfar, One shot detection with laplacian object and fast matrix cosine similarity, IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI)]中提出的傳統(tǒng)one-shot檢測框架,將onr-shot檢測問題視為具有滑動窗口方案的經典檢測問題,并選擇了最適合的窗口。特別是使用一個度量學習模塊,而不是經典的分類器,來計算來自新感興趣的類的support image和query image的標記窗口之間的相似性。另一種方法如下圖(b),LSTD框架選擇利用來自新感興趣的類的support樣本來優(yōu)化區(qū)域候選網絡(RPN,即取代傳統(tǒng)的滑動窗口方案)和基于深度學習的檢測器,并期望原始檢測流能夠以有限的支持樣本數量自適應地識別新類。
由于這兩種方法的基本相似性,結果表明,這兩種方法通過將新類的support圖像作為條件處理,可以與條件目標檢測模型相等。
然后,研究者就提出了將檢測問題更好地命名為one-shot條件目標檢測。并設計了一個基于可學習度量和two-stages檢測模型的通用one-shot條件目標檢測框架(OSCD),如上圖(c)。
條件目標檢測與目標檢測之間存在一些區(qū)別。
首先,他們有不同的目標。條件目標檢測的目的是檢測與測試圖像中給定的條件圖像相似的對象。因此,條件目標檢測可以檢測到屬于不可見類別的對象。而目標檢測是檢測所有屬于訓練類別的對象,不能檢測看不見類對象;其次,這兩種方法有不同的訓練方式。條件目標檢測的訓練是基于support和query圖像對。而目標檢測是標準的監(jiān)督學習,并有足夠的訓練樣本;第三,這兩種方法有不同的評價標準,在各種support和query圖像對上評估了條件目標檢測模型,而目標檢測模型則在許多檢測圖像上進行了評估。
三、新框架
在one-shot條件目標檢測的設置中,數據通常成對組織,由support和query圖像組成。support圖像通常包含一個主導的目標對象(人或馬),并且模型應該能夠在query圖像中檢測到屬于目標對象類別的對象。
對于目標檢測,假設在感興趣的類中沒有足夠的樣本,從而導致公共監(jiān)督學習方法的性能較差。此外,我們可能不知道在未來的任務中存在哪些類別。更嚴重的挑戰(zhàn)是,“目標”可以是任何令人感興趣的模式。所有這些問題都使得目標檢測任務對傳統(tǒng)方法來說極其困難。因此,提出了one-shot的條件目標檢測方法來解決上述問題。
如下圖所示。One-shot條件檢測的目標是根據查詢圖像中的給定條件(目標對象的單個支持圖像)來檢測對象。在one-shot條件檢測的情況下,在許多支持查詢的可見類圖像對上訓練一個模型,以獲得強先驗。一旦訓練,模型可以從具有單一支持圖像的看不見類中檢測屬于目標類別的所有對象。
通用目標檢測器(Faster R-CNN)和提出的OSCD。Faster R-CNN可以定位和識別可見類(人)的對象,但無法對看不見類(馬)的對象進行分類。相比之下,所提出的OSCD實現了C-RPN和C-Detector的條件目標檢測,以更加關注支持類的對象,并過濾掉其他類的無關對象。
上圖,(a)C-RPN:S操作連接全局平均和最大池support features,并通過卷積層生成顯著support features,然后T平鋪突出support features使平鋪support features具有與query features相同的空間大小,因此F可以連接平鋪support features來查詢特征。C1、C2是兩個卷積層。(b)C-Detector:從C-RPN中選擇候選區(qū)域的query features,然后將它們與support features結合起來。R表示調整大小的操作,F表示深度上的連接??蓪W習的度量模塊由一個用于降維的卷積層和兩個用于檢測的全連接層組成。
四、實驗及可視化
(a) The generation process of support-query image pairs on the FashionOSCD dataset.
(b) Examples for the Fashion-OSCD dataset. Green boxes denote ground truth bounding boxes. Each image contains as much as 3 objects with multiple scales and aspect ratios.
五、分析總結
研究者提出了一種新的one-shot條件目標檢測框架。一個精心設計的C-RPN和C-Detector已經被實現,以形成一個粗到細的two-stages條件檢測通道。在這two-stages,模型通過所提出的特征融合模塊和可學習的度量模塊來學習識別和定位支持類對象。在兩個數據集上的實驗證明了新方法在one-shot條件目標檢測方面取得了最先進的性能。
雖然模型取得了良好的結果,但仍然有一些局限性:模型和具有足夠訓練樣本的傳統(tǒng)監(jiān)督學習檢測器之間的性能差距很大,模型的計算開銷大于傳統(tǒng)的監(jiān)督學習檢測器。研究者需要繼續(xù)改進所提出的框架,如利用triplet loss來提取更具表現力的深度特征和探索更好的Siamese networks。
感覺研究者進行本研究時,還缺乏相關的OSCD研究。SiamFC and SiamRPN是研究者們所能找到的最相關的方法。在未來,可以把新方法與更多的one-shot目標檢測方法進行比較。
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
高通濾波器相關文章:高通濾波器原理