ECCV 2022 | AirDet: 無需微調(diào)的小樣本目標檢測方法
來源丨h(huán)ttps://zhuanlan.zhihu.com/p/545249730編輯丨極市平臺 導讀
本文提出無需微調(diào)的小樣本目標檢測方法AirDet,針對機器人自主探索任務設計。基訓練后,未經(jīng)微調(diào)的AirDet表現(xiàn)甚至優(yōu)于部分微調(diào)后的方法。論文、項目代碼、ROS部署接口均已開源。
AirDet項目網(wǎng)站:https://jaraxxus-me.github.io/ECCV2022_AirDet/
開源論文:https://arxiv.org/pdf/2112.01740.pdf
開源代碼:https://github.com/Jaraxxus-Me/AirDet
ROS部署:https://github.com/Jaraxxus-Me/AirDet_ROS
引言小樣本目標檢測(FSOD)是近年興起的一項計算機視覺任務,其基本設定是,僅提供少量(通常少于等于10個)新類樣本情況下,方法即需檢測基訓練集之外類別的目標。
由于其在自主探索中的重要作用,F(xiàn)SOD受到了機器人界越來越多的關(guān)注。這是因為我們通常期望機器人在未知環(huán)境中檢測到(模型訓練過程中未見過的)新物體,然而在線探索的過程中,用戶只能在線標注提供少量的新類樣本。譬如圖一(a)中,用戶提供少量標注后,方法需要檢測鉆孔機、頭盔等未見過的新穎類別目標。
盡管FSOD最近有了很顯著的發(fā)展,但是大多數(shù)現(xiàn)有的方法在應用前都遵循基訓練、小樣本微調(diào)兩階段范式。然而微調(diào)階段并不適用于機器人在線探索的應用場合,因為:
- 探索過程中待檢測的新類別是可以動態(tài)變化的(如不斷增加的)。如果每次改變類別都重新微調(diào)模型,一方面對于時間緊迫的探索任務而言效率極低,另一方面也會為有限的機器人機載算力帶來過高負荷。
- 微調(diào)階段的許多超參數(shù)都需要驗證集進行調(diào)節(jié),如微調(diào)學習率、模型收斂epoch等。然而對于在線探索任務而言,驗證集是不存在的,超參調(diào)節(jié)自然也就難以進行。
為此,我們提出了一種無需微調(diào)的小樣本目標檢測方法AirDet。如圖一(b)所示,未經(jīng)微調(diào)的AirDet甚至能取得比一些微調(diào)后的方法更好的結(jié)果。
圖一. 來自機器人探索(DARPA Subt 挑戰(zhàn)賽)的代表性圖像和性能比較。實線表示沒有微調(diào)的結(jié)果,虛線表示在少樣本數(shù)據(jù)上微調(diào)后的結(jié)果。貢獻- 本文提出在機器人自主探索任務中可行的,無需微調(diào)的小樣本檢測模型,AirDet。
- 本文提出“與類別無關(guān)的關(guān)聯(lián)性(class-agnostic relation)”,包含空間關(guān)聯(lián)性與通道關(guān)聯(lián)性,這是AirDet的模型設計核心。
- 在COCO,VOC,LVIS數(shù)據(jù)集與DARPA Subt挑戰(zhàn)賽真實數(shù)據(jù)中的詳盡實驗評估證明了AirDet的優(yōu)越性與可行性。
- 我們也提供了AirDet的ROS接口與AGX上的部署指南。
圖二展示了機器人自主探索任務的流程和AirDet的宏觀模型結(jié)構(gòu)。
任務流程在探索未知環(huán)境過程中,機器人首先將可能包含重要物體(如頭盔)的原始圖片發(fā)送給用戶。用戶會在線給出標注并提供少量樣本。此后,機器人便可_立即_ 通過對后續(xù)環(huán)境的感知檢測這些新類樣本。
宏觀結(jié)構(gòu)AirDet宏觀上包含四個模塊
- 共享的骨干網(wǎng)絡,用于特征提取
- 由支持樣本引導的多層特征融合的區(qū)域建議網(wǎng)絡,用于在測試圖片上生成候選框
- 基于全局-局部聯(lián)系的樣本融合網(wǎng)絡,用于生成更具表征能力,更可靠的類原型特征
- 基于關(guān)聯(lián)性的檢測頭,分為分類分支和檢測框回歸分支
AirDet的模塊設計理念均基于“與類別無關(guān)的關(guān)聯(lián)性(class-agnostic relation)”。
具體而言,我們定義了如下兩種關(guān)聯(lián)性:空間尺度關(guān)聯(lián)性 和特征通道關(guān)聯(lián)性
空間尺度關(guān)聯(lián)性: 目標的類別與其外觀緊密相關(guān), 而目標的外觀由特征的空間維度描述。因此, 兩 個特征的空間關(guān)聯(lián)性可以很大程度上反映兩個特征的相關(guān)程度(如相似性)。我們定義 如下:
其中, 是兩個任意張量。Flatten 意味著將特征在空間尺度下展平。MLP 是常用的多層感知機, 故而 可以生成帶有 的空間 信息的核, 此后使用逐通道卷積 便可計算 間的空間關(guān)聯(lián)性 。
特征通道關(guān)聯(lián)性: 在以往的研究中表明, 圖片的類別信息通常存于特征通道中。譬如, 考慮兩輛汽 車的深度特征, 其沿通道的分布是相似的。受此啟發(fā), 我們提出特征通道關(guān)聯(lián)性模塊 :
其中, 代表沿通道維度串聯(lián)兩個特征。
與類別無關(guān)的關(guān)聯(lián)性貫穿AirDet每個子模塊的設計,這使得AirDet無需微調(diào)即可工作。每個子模塊的設計細節(jié)請有興趣的讀者參閱我們的原文或代碼。
實驗條件設定基訓練集:
COCO2017 train數(shù)據(jù)集中非VOC的60類數(shù)據(jù)(等價于COCO2014 trainval中剔除5k測試圖片)
測試集:
- COCO2017 val數(shù)據(jù)集中屬于VOC的20個新類數(shù)據(jù)(提供1,2,3,5shot 支持樣本)
- Pascal VOC2012 val數(shù)據(jù)集
- LVIS 數(shù)據(jù)集中四組非常規(guī)類別
- DARPA Subt 挑戰(zhàn)賽中的真實數(shù)據(jù)
值得一提的是,由于AirDet無需微調(diào),在所有測試數(shù)據(jù),不同shot的設定中,我們都可采用同一個基訓練出來的模型(而不需要針對不同的場景調(diào)整不同的微調(diào)超參數(shù))。
COCOCOCO數(shù)據(jù)集上的結(jié)果比較。COCO上的結(jié)果顯示,無需微調(diào)的AirDet已經(jīng)比肩,甚至優(yōu)于許多微調(diào)后的方案,微調(diào)后,AirDet的性能更加可觀。無需微調(diào)的條件下,方法的結(jié)果對支持樣本較敏感,故而我們隨機采樣了3-5組樣本,展示了其平均結(jié)果和標準差,表中由 \dagger\dagger 表示。
COCO數(shù)據(jù)集上不同尺度的目標檢測結(jié)果比較得益于AirDet中由支持樣本引導,可學習多層特征聯(lián)系的SCS模塊(詳見原文),AirDet在多尺度目標檢測中也比已有的方案更優(yōu)(優(yōu)于采納FPN的方案)。
值得一提的是,對于多尺度目標的檢測,微調(diào)后的模型表現(xiàn)不一定更好。
COCO 10-shot 結(jié)果比較大多現(xiàn)有方案對于COCO數(shù)據(jù)集采納10-shot場景,我們也給出AirDet 10-shot的結(jié)果如上表。(不過最新的CVPR2022中,COCO 10-shot已經(jīng)能達到17-18 AP,不得不感慨CV發(fā)展的迅猛)
VOCVOC 跨領域結(jié)果比較通常機器人的工作環(huán)境與訓練集有較大差別,我們展示的跨領域性能(COCO訓練,VOC測試)如上表。
Subt 挑戰(zhàn)賽圖三. DARPA SubT挑戰(zhàn)賽中的定性結(jié)果感覺放了好多表,SUBT就放一些定性圖。左側(cè)是提供給AirDet的新類樣本,右側(cè)是AirDet的檢測結(jié)果,可見AirDet對真實探索環(huán)境中的尺度變化、照度變化等挑戰(zhàn)因素較為魯棒。
局限性無需微調(diào)的小樣本目標檢測研究甚少,目前可以不微調(diào)直接工作的僅有A-RPN和AirDet兩個方法,而這個任務對機器人在位置環(huán)境中的探索感知又比較重要。為了這個領域未來能得到關(guān)注并發(fā)展的更好,我們也真誠擺出AirDet的局限性:
- AirDet目前模型參數(shù)較多,運行速度不快,我們在AGX Xavier上如果不做TensorRT加速,運行速度僅有1~2FPS。更輕量化的模型是可優(yōu)化的方向。
- 我們觀察到AirDet的failure case主要是由分類導致的,具體問題有兩個。第一,類間variance大,有些類AP高達30,有些類低至0.5。第二,AirDet對正樣本分類不夠好。舉例來說,如果給貓(新類)的支持樣本,AirDet在測試圖片上:在貓的區(qū)域生成候選框,和將含有貓的候選框分類為貓,這兩個任務表現(xiàn)不佳(體現(xiàn)為loss大)。所以設計更有效地分類策略是提升AirDet性能的可觀方向。
- AirDet對于多類檢測的效率較低。AirDet的SCS和檢測頭內(nèi)部會對支持類跑循環(huán),最后在所有類下找到得分最高的,這種跑法會導致類別過多時推理速度變慢。(這應該也是大多數(shù)基于元學習(meta-learning)的FSOD的局限性)
- 最后坦白的說,未經(jīng)微調(diào)的AirDet與微調(diào)的方法在某些情況下仍有一些差距,這也說明AirDet的性能仍有較大提升空間。
本文是我參加CMU RISS2021暑研期間的工作,從第一次討論這個方向,到至今論文中稿已逾一年。非常感謝期間王晨博士和Scherer教授對我的指導幫助,也非常感謝pranay和Seungchan學長的協(xié)助合作。本文主要受A-RPN與《learning to compare》兩篇文章啟發(fā),在此向文章的作者們致以真摯的謝意(代碼基于FewX)。
本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。