位置感知的自監(jiān)督transformer
論文:https://arxiv.org/pdf/2212.02400.pdf
代碼:
https://github.com/google-research/scenic/tree/main/scenic/projects/loca
論文出發(fā)點(diǎn)
預(yù)訓(xùn)練通常用于提高像素級(jí)模型推理的性能和標(biāo)簽效率。然而,圖像級(jí)預(yù)訓(xùn)練是否是具有空間理解的識(shí)別任務(wù)的最佳策略尚不清楚。一項(xiàng)研究表明,一些經(jīng)過(guò)圖像分類預(yù)訓(xùn)練的模型,雖然在圖像級(jí)下游任務(wù)中表現(xiàn)出色,但在目標(biāo)檢測(cè)方面表現(xiàn)不佳,而目標(biāo)檢測(cè)需要空間推理。
預(yù)訓(xùn)練通常使用全局目標(biāo)的主要原因是:標(biāo)注在圖像級(jí)別上比在像素級(jí)別上更容易收集。事實(shí)上,在SOTA中通常使用的圖像分類或圖像-文本數(shù)據(jù)集比密集標(biāo)注的數(shù)據(jù)集大了幾個(gè)數(shù)量級(jí),涵蓋了更多的類別。因此,釋放大規(guī)模密集空間感知預(yù)訓(xùn)練潛力的一種方法可能是去掉標(biāo)注,正如自監(jiān)督學(xué)習(xí)(SSL)方法所提出的那樣。
SSL的一個(gè)成功分支,通常被稱為“對(duì)比學(xué)習(xí)”,其工作原理是通過(guò)數(shù)據(jù)增強(qiáng)來(lái)匹配從同一圖像中獲得的不同圖像的表示。Caron等人已經(jīng)表明,用對(duì)比方法訓(xùn)練的視覺(jué)transformer(ViT)的注意圖中出現(xiàn)了分割掩模。
然而,本文在初步實(shí)驗(yàn)中發(fā)現(xiàn),在對(duì)語(yǔ)義分割任務(wù)進(jìn)行微調(diào)后,顯著注意圖與優(yōu)異的表現(xiàn)并不相關(guān)。因此,作者假設(shè),這是因?yàn)閷?duì)比方法在全局層面上沒(méi)有明確使用空間關(guān)系。
本文的主要貢獻(xiàn)
1.本文探索了一種替代內(nèi)容重建的方法,以鼓勵(lì)空間Transformer特征的出現(xiàn),即預(yù)測(cè)相對(duì)圖像部分的位置。
2.將模型實(shí)現(xiàn)為一個(gè)分類問(wèn)題,其中查詢圖像中的每個(gè)patch都經(jīng)過(guò)訓(xùn)練,以預(yù)測(cè)其相對(duì)于參考圖像的位置。
3.可以通過(guò)掩碼查詢的參考patch特征來(lái)控制任務(wù)的難度和結(jié)果特征的屬性。
SSL與位置預(yù)測(cè)
SSL中的開(kāi)創(chuàng)性工作提出利用空間線索來(lái)生成pretext任務(wù)。值得注意的是,受word2vec的啟發(fā),Doersch等人訓(xùn)練了一個(gè)網(wǎng)絡(luò),以預(yù)測(cè)同一圖像中一對(duì)patch的相對(duì)位置,而Noroozi和Favaro通過(guò)重新排列圖像中的一組混疊作物,將這種方法擴(kuò)展到解決“拼圖”。Zhai等人提出對(duì)ViT進(jìn)行預(yù)處理,以預(yù)測(cè)其輸入patch的位置,僅考慮其視覺(jué)外觀,即通過(guò)丟棄位置嵌入。作者將該策略與本文的LOCA機(jī)制進(jìn)行了比較,如圖2所示。
圖2。單一與查詢-參考patch位置預(yù)測(cè)機(jī)制的概念比較:(a)在單一圖像中,如Zhai等人;(b)在查詢圖像中相對(duì)于LOCA中的參考圖像。
方法
查詢參考機(jī)制
本文提出了一種查詢參考機(jī)制來(lái)預(yù)測(cè)圖像部分的定位。具體來(lái)說(shuō),查詢通過(guò)預(yù)測(cè)一個(gè)查詢圖像相對(duì)于另一個(gè)參考圖像的位置來(lái)工作,如圖1所示。因?yàn)椴樵兒蛥⒖际怯蓛蓚€(gè)獨(dú)立的擴(kuò)增圖生成的,所以它們通常具有不同的圖像統(tǒng)計(jì)信息(即不同的比例、區(qū)域或顏色直方圖)。這迫使網(wǎng)絡(luò)更少地依賴低級(jí)線索(色差、顏色和邊緣一致性)來(lái)解決定位任務(wù),而更多地依賴于識(shí)別對(duì)象部分及其組織。
查詢的任務(wù)是在參考圖像中定位自己,因此損失僅在兩個(gè)圖像的相交處定義。此外,為了有利于圖像部分表示的出現(xiàn),限制了查詢的空間范圍。然后,選擇是對(duì)參考圖像進(jìn)行采樣,使其覆蓋原始圖像的大面積,而查詢圖像則覆蓋原始圖像中的一小部分。
圖1。LOCA通過(guò)預(yù)測(cè)查詢圖像相對(duì)于參考圖像的位置來(lái)工作。
查詢和參考之間的對(duì)應(yīng)關(guān)系
根據(jù)視覺(jué)transformer,查詢圖像和參考圖像被劃分為分辨率為P×P的非重疊patch。更準(zhǔn)確地說(shuō),參考圖像被平坦化為Nref。在查詢圖像上應(yīng)用“patch化”過(guò)程,生成一系列Nqpatch。
通過(guò)回溯生成xref和xq的數(shù)據(jù)擴(kuò)充圖,識(shí)別這兩個(gè)圖像之間的patch級(jí)別對(duì)應(yīng)關(guān)系。使用連續(xù)的最近插值實(shí)現(xiàn)函數(shù)h,因?yàn)閤q和xref的修補(bǔ)網(wǎng)格通常不完全對(duì)齊。這種效果可以在圖1的示例中看到。
patch位置預(yù)測(cè)
將查詢定位問(wèn)題實(shí)現(xiàn)為Nref -way分類任務(wù),其中每個(gè)查詢patch表示必須預(yù)測(cè)在參考圖像中覆蓋相同內(nèi)容的patch的位置。為此,查詢的patch表示需要能夠“查看”參考的patch表示。使用單個(gè)交叉注意轉(zhuǎn)換塊(用g表示)實(shí)現(xiàn)這種查詢參考交互,其查詢從Zq計(jì)算,鍵和值從Zref獲得。將查詢表示法表示為G = G (Zq, Zref)∈Rd×Nq,并將W∈Rd×Nref表示為最后的“位置分類”層。訓(xùn)練網(wǎng)絡(luò)使以下位置預(yù)測(cè)損失最小化:
平均不同查詢圖像和批處理的損失,并通過(guò)反向傳播學(xué)習(xí)f, g和W參數(shù)。還使用特征預(yù)測(cè)損失來(lái)鼓勵(lì)在不同圖像中覆蓋相似內(nèi)容的patch保持一致。
掩碼查詢可見(jiàn)的參考patch
在實(shí)踐中,作者發(fā)現(xiàn)該網(wǎng)絡(luò)可以近乎完美地解決問(wèn)題(見(jiàn)圖3中的驗(yàn)證精度)。
圖3。單一vs查詢參考patch位置預(yù)測(cè)機(jī)制。
對(duì)于這兩種機(jī)制,報(bào)告了位置預(yù)測(cè)精度(左)和轉(zhuǎn)移到ADE20k上的語(yǔ)義分割后的性能(右)對(duì)于不同的掩碼比η。由于查詢和參考之間的不同圖像統(tǒng)計(jì)量以及受約束的patch交互,查詢-參考使得訓(xùn)練前目標(biāo)更具挑戰(zhàn)性(位置預(yù)測(cè)任務(wù)的準(zhǔn)確性較低)。
patch特性預(yù)測(cè)
受UP-DETR框架的啟發(fā),作者在定位框架中增加了patch特征預(yù)測(cè)目標(biāo),以獲得更多的語(yǔ)義表示。patch功能不僅應(yīng)該能夠定位自己,而且還應(yīng)該能夠匹配不同上下文中處于相似位置的功能。使用基于patch的MSN框架來(lái)實(shí)現(xiàn)這一點(diǎn)。作者在初步實(shí)驗(yàn)中觀察到,這種選擇對(duì)最終性能的影響最小,選擇MSN是因?yàn)樗姆€(wěn)定性。
實(shí)驗(yàn)
表1 . Localization loss。
圖5??梢暬疞OCA的預(yù)測(cè)。
表2。與以往語(yǔ)義分割結(jié)果的比較。
表3。在ADE20k上進(jìn)行少量的語(yǔ)義分割。
表4。語(yǔ)義分割中的定位與分類。
表5。消融實(shí)驗(yàn)。
圖6。擴(kuò)展實(shí)驗(yàn)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。