博客專欄

EEPW首頁 > 博客 > ECCV 2022 | AirDet: 無需微調(diào)的小樣本目標檢測方法

ECCV 2022 | AirDet: 無需微調(diào)的小樣本目標檢測方法

發(fā)布人:計算機視覺工坊 時間:2022-08-14 來源:工程師 發(fā)布文章
作者丨Jaraxxus@知乎(已授權(quán))

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/545249730編輯丨極市平臺

導讀

 

本文提出無需微調(diào)的小樣本目標檢測方法AirDet,針對機器人自主探索任務設計。基訓練后,未經(jīng)微調(diào)的AirDet表現(xiàn)甚至優(yōu)于部分微調(diào)后的方法。論文、項目代碼、ROS部署接口均已開源。

AirDet圖片

項目網(wǎng)站:https://jaraxxus-me.github.io/ECCV2022_AirDet/

開源論文:https://arxiv.org/pdf/2112.01740.pdf

開源代碼:https://github.com/Jaraxxus-Me/AirDet

ROS部署:https://github.com/Jaraxxus-Me/AirDet_ROS

引言

小樣本目標檢測(FSOD)是近年興起的一項計算機視覺任務,其基本設定是,僅提供少量(通常少于等于10個)新類樣本情況下,方法即需檢測基訓練集之外類別的目標。

由于其在自主探索中的重要作用,F(xiàn)SOD受到了機器人界越來越多的關(guān)注。這是因為我們通常期望機器人在未知環(huán)境中檢測到(模型訓練過程中未見過的)新物體,然而在線探索的過程中,用戶只能在線標注提供少量的新類樣本。譬如圖一(a)中,用戶提供少量標注后,方法需要檢測鉆孔機、頭盔等未見過的新穎類別目標。

盡管FSOD最近有了很顯著的發(fā)展,但是大多數(shù)現(xiàn)有的方法在應用前都遵循基訓練、小樣本微調(diào)兩階段范式。然而微調(diào)階段并不適用于機器人在線探索的應用場合,因為:

  1. 探索過程中待檢測的新類別是可以動態(tài)變化的(如不斷增加的)。如果每次改變類別都重新微調(diào)模型,一方面對于時間緊迫的探索任務而言效率極低,另一方面也會為有限的機器人機載算力帶來過高負荷。
  2. 微調(diào)階段的許多超參數(shù)都需要驗證集進行調(diào)節(jié),如微調(diào)學習率、模型收斂epoch等。然而對于在線探索任務而言,驗證集是不存在的,超參調(diào)節(jié)自然也就難以進行。

為此,我們提出了一種無需微調(diào)的小樣本目標檢測方法AirDet。如圖一(b)所示,未經(jīng)微調(diào)的AirDet甚至能取得比一些微調(diào)后的方法更好的結(jié)果。

圖片圖一. 來自機器人探索(DARPA Subt 挑戰(zhàn)賽)的代表性圖像和性能比較。實線表示沒有微調(diào)的結(jié)果,虛線表示在少樣本數(shù)據(jù)上微調(diào)后的結(jié)果。貢獻
  1. 本文提出在機器人自主探索任務中可行的,無需微調(diào)的小樣本檢測模型,AirDet。
  2. 本文提出“與類別無關(guān)的關(guān)聯(lián)性(class-agnostic relation)”,包含空間關(guān)聯(lián)性與通道關(guān)聯(lián)性,這是AirDet的模型設計核心。
  3. 在COCO,VOC,LVIS數(shù)據(jù)集與DARPA Subt挑戰(zhàn)賽真實數(shù)據(jù)中的詳盡實驗評估證明了AirDet的優(yōu)越性與可行性。
  4. 我們也提供了AirDet的ROS接口與AGX上的部署指南。
方法介紹圖片圖二. 自主探索任務的流程和 AirDet 的算法框架。

圖二展示了機器人自主探索任務的流程和AirDet的宏觀模型結(jié)構(gòu)。

任務流程

在探索未知環(huán)境過程中,機器人首先將可能包含重要物體(如頭盔)的原始圖片發(fā)送給用戶。用戶會在線給出標注并提供少量樣本。此后,機器人便可_立即_ 通過對后續(xù)環(huán)境的感知檢測這些新類樣本。

宏觀結(jié)構(gòu)

AirDet宏觀上包含四個模塊

  1. 共享的骨干網(wǎng)絡,用于特征提取
  2. 由支持樣本引導的多層特征融合的區(qū)域建議網(wǎng)絡,用于在測試圖片上生成候選框
  3. 基于全局-局部聯(lián)系的樣本融合網(wǎng)絡,用于生成更具表征能力,更可靠的類原型特征
  4. 基于關(guān)聯(lián)性的檢測頭,分為分類分支和檢測框回歸分支
核心理念

AirDet的模塊設計理念均基于“與類別無關(guān)的關(guān)聯(lián)性(class-agnostic relation)”。

具體而言,我們定義了如下兩種關(guān)聯(lián)性:空間尺度關(guān)聯(lián)性  和特征通道關(guān)聯(lián)性

空間尺度關(guān)聯(lián)性: 目標的類別與其外觀緊密相關(guān), 而目標的外觀由特征的空間維度描述。因此, 兩 個特征的空間關(guān)聯(lián)性可以很大程度上反映兩個特征的相關(guān)程度(如相似性)。我們定義  如下:

其中,  是兩個任意張量。Flatten 意味著將特征在空間尺度下展平。MLP 是常用的多層感知機, 故而  可以生成帶有  的空間 信息的核, 此后使用逐通道卷積  便可計算  間的空間關(guān)聯(lián)性  。

特征通道關(guān)聯(lián)性: 在以往的研究中表明, 圖片的類別信息通常存于特征通道中。譬如, 考慮兩輛汽 車的深度特征, 其沿通道的分布是相似的。受此啟發(fā), 我們提出特征通道關(guān)聯(lián)性模塊  :

其中,  代表沿通道維度串聯(lián)兩個特征。

與類別無關(guān)的關(guān)聯(lián)性貫穿AirDet每個子模塊的設計,這使得AirDet無需微調(diào)即可工作。每個子模塊的設計細節(jié)請有興趣的讀者參閱我們的原文或代碼。

實驗條件設定

基訓練集:

COCO2017 train數(shù)據(jù)集中非VOC的60類數(shù)據(jù)(等價于COCO2014 trainval中剔除5k測試圖片)

測試集:

  • COCO2017 val數(shù)據(jù)集中屬于VOC的20個新類數(shù)據(jù)(提供1,2,3,5shot 支持樣本)
  • Pascal VOC2012 val數(shù)據(jù)集
  • LVIS 數(shù)據(jù)集中四組非常規(guī)類別
  • DARPA Subt 挑戰(zhàn)賽中的真實數(shù)據(jù)

值得一提的是,由于AirDet無需微調(diào),在所有測試數(shù)據(jù),不同shot的設定中,我們都可采用同一個基訓練出來的模型(而不需要針對不同的場景調(diào)整不同的微調(diào)超參數(shù))。

COCO圖片COCO數(shù)據(jù)集上的結(jié)果比較。

COCO上的結(jié)果顯示,無需微調(diào)的AirDet已經(jīng)比肩,甚至優(yōu)于許多微調(diào)后的方案,微調(diào)后,AirDet的性能更加可觀。無需微調(diào)的條件下,方法的結(jié)果對支持樣本較敏感,故而我們隨機采樣了3-5組樣本,展示了其平均結(jié)果和標準差,表中由 \dagger\dagger 表示。

圖片COCO數(shù)據(jù)集上不同尺度的目標檢測結(jié)果比較

得益于AirDet中由支持樣本引導,可學習多層特征聯(lián)系的SCS模塊(詳見原文),AirDet在多尺度目標檢測中也比已有的方案更優(yōu)(優(yōu)于采納FPN的方案)。

值得一提的是,對于多尺度目標的檢測,微調(diào)后的模型表現(xiàn)不一定更好。

圖片COCO 10-shot 結(jié)果比較

大多現(xiàn)有方案對于COCO數(shù)據(jù)集采納10-shot場景,我們也給出AirDet 10-shot的結(jié)果如上表。(不過最新的CVPR2022中,COCO 10-shot已經(jīng)能達到17-18 AP,不得不感慨CV發(fā)展的迅猛)

VOC圖片VOC 跨領域結(jié)果比較

通常機器人的工作環(huán)境與訓練集有較大差別,我們展示的跨領域性能(COCO訓練,VOC測試)如上表。

Subt 挑戰(zhàn)賽圖片圖三. DARPA SubT挑戰(zhàn)賽中的定性結(jié)果

感覺放了好多表,SUBT就放一些定性圖。左側(cè)是提供給AirDet的新類樣本,右側(cè)是AirDet的檢測結(jié)果,可見AirDet對真實探索環(huán)境中的尺度變化、照度變化等挑戰(zhàn)因素較為魯棒。

局限性

無需微調(diào)的小樣本目標檢測研究甚少,目前可以不微調(diào)直接工作的僅有A-RPN和AirDet兩個方法,而這個任務對機器人在位置環(huán)境中的探索感知又比較重要。為了這個領域未來能得到關(guān)注并發(fā)展的更好,我們也真誠擺出AirDet的局限性:

  1. AirDet目前模型參數(shù)較多,運行速度不快,我們在AGX Xavier上如果不做TensorRT加速,運行速度僅有1~2FPS。更輕量化的模型是可優(yōu)化的方向。
  2. 我們觀察到AirDet的failure case主要是由分類導致的,具體問題有兩個。第一,類間variance大,有些類AP高達30,有些類低至0.5。第二,AirDet對正樣本分類不夠好。舉例來說,如果給貓(新類)的支持樣本,AirDet在測試圖片上:在貓的區(qū)域生成候選框,和將含有貓的候選框分類為貓,這兩個任務表現(xiàn)不佳(體現(xiàn)為loss大)。所以設計更有效地分類策略是提升AirDet性能的可觀方向。
  3. AirDet對于多類檢測的效率較低。AirDet的SCS和檢測頭內(nèi)部會對支持類跑循環(huán),最后在所有類下找到得分最高的,這種跑法會導致類別過多時推理速度變慢。(這應該也是大多數(shù)基于元學習(meta-learning)的FSOD的局限性)
  4. 最后坦白的說,未經(jīng)微調(diào)的AirDet與微調(diào)的方法在某些情況下仍有一些差距,這也說明AirDet的性能仍有較大提升空間。
致謝

本文是我參加CMU RISS2021暑研期間的工作,從第一次討論這個方向,到至今論文中稿已逾一年。非常感謝期間王晨博士和Scherer教授對我的指導幫助,也非常感謝pranay和Seungchan學長的協(xié)助合作。本文主要受A-RPN與《learning to compare》兩篇文章啟發(fā),在此向文章的作者們致以真摯的謝意(代碼基于FewX)。

本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉