ECCV 2022 | 自支持少樣本語義分割
來源丨 CV技術指南
前言 針對有限的覆蓋范圍內(nèi)的類內(nèi)變化,提供的支持很少?;诤唵蔚?Gestalt法則,論文提出了一種新的自支持匹配策略來緩解這一問題。這種策略可以有效地捕獲查詢對象的一致底層特征,從而適當?shù)仄ヅ洳樵兲卣鳌?/span>此外,還提出了自適應的自支持背景原型生成模塊和自支持丟失模塊,以進一步促進自支持匹配過程。本文的自支持網(wǎng)絡大大提高了原型的質(zhì)量,并實現(xiàn)了多個數(shù)據(jù)集上的SOTA。
論文:https://arxiv.org/pdf/2207.11549.pdf
代碼:https://github.com/fanq15/SSP
創(chuàng)新思路
語義分割在深度學習網(wǎng)絡和大規(guī)模數(shù)據(jù)集中取得了顯著的進展。然而,目前的高性能語義分割方法嚴重依賴繁瑣的像素級標注,這加速了近年來少樣本語義分割(FSS)的發(fā)展。
少樣本語義分割的目的是利用少量的支持樣本來分割任意的新類。少樣本學習存在兩個長期存在的問題:
1.支持圖像是有限的和固定的,而查詢圖像可以是大量的和任意的。
2.由于固有的數(shù)據(jù)稀缺性和多樣性,有限的少樣本支持很容易無法覆蓋查詢圖像中目標類的底層外觀變化,無論支持質(zhì)量如何。
因此,作者提出了一種新的自支持匹配策略來縮小匹配的外觀差異。這種策略使用查詢原型來匹配查詢特性。由于查詢原型具有自匹配屬性,將其稱為自支持原型。這一新的想法是由經(jīng)典Gestalt法則激發(fā)的,即屬于同一對象的像素比屬于不同對象的像素更相似。
首先,通過直接匹配支持原型和查詢特征來生成初始掩碼預測。在初始查詢掩碼的基礎上,收集高置信度區(qū)域的查詢特征,生成自支持原型,用于與查詢特征進行匹配。如圖1所示,自支持模塊(SSM)收集了貓頭部的高置信度區(qū)域特征,用于對整個黑貓進行分割。模型在基類上進行優(yōu)化,檢索對象片段所支持的其他對象部分,即self-support prototype。
圖1所示。左圖說明了自我支持匹配的核心思想。右上方的圖片說明了自我支持匹配的動機:相同物體的像素/區(qū)域比不同物體的像素/區(qū)域更相似。右下角的圖片說明了自我支持匹配與傳統(tǒng)的匹配方法有根本的不同。
雖然SSM直接有利于前景原型,但背景通常是混亂的,它沒有所有背景像素之間共享的全局語義共性。因此,本文提出通過動態(tài)聚合查詢圖像中的相似背景像素,自適應生成每個查詢像素的自支持背景原型,而不是通過聚合所有背景像素來生成全局背景原型。
本文的自支持匹配策略與傳統(tǒng)的支持-查詢匹配有本質(zhì)上的不同。本文使用靈活的自支持原型來匹配查詢特征,它可以有效地捕獲查詢對象的一致底層特征,從而適合地匹配查詢特征。
如圖1所示,查詢和支持圖像中的貓在顏色、部位和比例上都有很大的差異,加菲貓支持與黑貓查詢存在較大的外觀差異,傳統(tǒng)的支持-查詢匹配無疑會產(chǎn)生較差的分割效果。在我們的自助匹配中,本文的自支持原型(黑貓頭)與查詢(整個黑貓)更加一致。
雖然PANet和CRNet也提出了查詢原型,但它們使用查詢原型來匹配支持特征,作為一種僅用于輔助訓練的查詢-支持匹配,無法解決外觀差異。本文的自支持方法通過緩解類內(nèi)外觀差異問題顯著提高了原型質(zhì)量,實驗驗證表明在多個數(shù)據(jù)集上的性能提升。
本文的主要貢獻
1. 提出了一種新的自支持匹配,并構建了一種新的自支持網(wǎng)絡來解決FSS中的外觀差異問題。
2. 提出了自支持原型、自適應自支持背景原型和自支持損失。
3. 本文的自我支持方法受益于更強的backbone,并以許多可取的優(yōu)勢在多個數(shù)據(jù)集上優(yōu)于以前的SOTA。
方法
自支持少樣本語義分割
在給定少量支持圖像的情況下,少量樣本語義分割旨在利用從基類中推廣的模型對新類中的對象進行分割。現(xiàn)有主流的少樣本語義分割方案可以表述為:輸入支持和查詢圖像{Is, Iq}通過權重共享的backbone處理,提取圖像特征{f, Fq}。然后將支持特征Fs及其groundtruth掩碼Ms送入掩碼平均池化層,分別生成前景和背景區(qū)域的支持原型向量Ps。最后,通過對Ps和Fq的余弦相似度進行評估,生成兩個距離圖D ,然后通過softmax操作進行處理,作為最終預測M1 = softmax(D)。
動機
目前的FSS方法嚴重依賴于支持原型來分割查詢對象,將每個查詢像素與支持原型密集匹配。然而,這種跨對象匹配嚴重地受到類內(nèi)外觀差異的影響,其中支持和查詢中的對象即使屬于同一個類,看起來也可能非常不同。類內(nèi)的差異,僅靠少量的支持是無法調(diào)和的,查詢與支持之間的外觀差距較大,會導致匹配結果不佳。
為了驗證 Gestalt法則能夠縮小這種外觀差異,作者統(tǒng)計分析了Pascal VOC跨對象和對象內(nèi)像素的特征余弦相似度。如表1顯示,屬于同一對象的像素比跨對象的像素更相似。
表1。交叉/內(nèi)部物體像素的余弦相似度。
自支持原型
本文的核心思想(圖2)是聚合查詢特性來生成查詢原型,并用它來自支持查詢特性本身。
圖2所示。自支持網(wǎng)絡架構。
首先使用傳統(tǒng)的基于支持原型的匹配網(wǎng)絡生成初始掩碼預測。然后利用初始查詢掩碼聚合查詢特征,生成自支持原型,即自支持前景原型(SSFP)和自適應自支持背景原型(ASBP)。最后,結合支持原型和自支持原型來執(zhí)行與查詢特征的匹配。
作者發(fā)現(xiàn),即使估計的查詢掩碼并不完美,但只要覆蓋了一些有代表性的對象片段,就足以檢索到同一對象的其他區(qū)域。為了驗證部分對象或?qū)ο笃文軌蛑С终麄€對象,使用基于ground truth 掩碼標簽隨機選擇特征聚合的部分原型訓練和評估模型。如表2所示,本文的self-support prototype在減少用于原型生成的聚合對象區(qū)域的同時,始終保持較高的分割性能。相比之下,傳統(tǒng)的支持原型即使使用了整個對象的完美支持特征,也始終獲得較差的性能。
表2。由完整/部分對象聚合的支持/自我支持原型的1次匹配結果(mIoU)。
自適應自支持背景原型
前景像素具有語義共性,這構成了對前景對象的查詢特征與支持原型之間的自支持原型生成和匹配過程的基本原理。因此,可以使用掩碼平均池來生成自我支持的前景原型(圖3 (a)):
圖3。原型分為(a)自我支持(SS)前景原型和(b)自適應自我支持背景原型。
另一方面,背景可能是雜亂的,其中的共性將減少到不相交區(qū)域的局部語義相似性,而沒有在所有背景像素之間共享全局語義共性。一個簡單的解決方案是使用聚類算法直接將多個背景原型分組,然后在每個查詢像素上選擇最相似的原型進行背景匹配。這種顯式的背景分組嚴重依賴于聚類算法,不穩(wěn)定且耗時。
因此,作者提出了一種更靈活高效的方法,自適應生成每個查詢像素的自支持背景原型(圖3 (b))。其思想是為每個查詢像素動態(tài)聚合相似的背景像素,以生成自適應的自支持背景原型。首先將查詢特征Fq與背景掩碼fMq,b進行掩碼乘法,收集背景查詢特征Fq,b。然后通過矩陣乘法運算MatMul,生成重構后的背景查詢特征Fq、b和全查詢特征Fq的像素之間的親和力矩陣A:
通過一維softmax操作對親和矩陣進行歸一化,對每個查詢像素加權集合背景查詢特征,生成自適應的自支持背景原型P?q,b :
使用自適應自支持背景原型更新自支持原型:Pq。
自支持匹配
加權組合支持原型Ps和自支持原型Pq:
然后,計算增強支持原型P?s和查詢特征Fq之間的余弦距離,生成最終匹配預測:
然后,對生成的距離圖應用訓練監(jiān)督:
為了進一步促進自支持匹配過程,作者提出了一種新的查詢自支持丟失。對于查詢特征Fq及其原型Pq,采用以下訓練監(jiān)督:
對支持特征應用相同的過程引入支持自匹配損失Ls。
最后,通過聯(lián)合優(yōu)化所有上述損失,以端到端的方式訓練模型:
實驗
表3.PASCAL-5i數(shù)據(jù)集的定量比較結果。
表4.COCO-20i數(shù)據(jù)集的定量比較結果。
表5.自支持模型消融結果。
圖4.自我支持匹配工作機制的可視化。
圖5(a)自支持原型的掩模閾值變化結果。(b) 每個星號標記位置的自適應自支持背景原型(ASBP)特征聚集的可視化。
表6.分別移除前景支持原型(FP)、背景支持原型(BP)、自我支持前景原型(SFP)和自我支持背景原型(SBP)后的自我支持模塊(SSM)消融結果。
表7.與自我注意模塊的比較。
表11.本文的方法應用于其他模型的結果。
結論
在本文中,通過利用查詢特征生成自支持原型并與查詢特征進行自支持匹配,解決了少樣本分割中固有的關鍵類內(nèi)外觀差異問題。該策略有效地縮小了支持原型和查詢特性之間的差距。
此外,提出了一個自適應的自支持背景原型和一個自支持損失,以便于自支持過程。本文的自支持網(wǎng)絡具有各種理想特性,并在多個基準上實現(xiàn)SOTA。
本文僅做學術分享,如有侵權,請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
移動電源相關文章:移動電源是什么