博客專欄

EEPW首頁(yè) > 博客 > 位置感知的自監(jiān)督transformer

位置感知的自監(jiān)督transformer

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2023-01-19 來(lái)源:工程師 發(fā)布文章

圖片

論文:https://arxiv.org/pdf/2212.02400.pdf

代碼:

https://github.com/google-research/scenic/tree/main/scenic/projects/loca


論文出發(fā)點(diǎn)


預(yù)訓(xùn)練通常用于提高像素級(jí)模型推理的性能和標(biāo)簽效率。然而,圖像級(jí)預(yù)訓(xùn)練是否是具有空間理解的識(shí)別任務(wù)的最佳策略尚不清楚。一項(xiàng)研究表明,一些經(jīng)過(guò)圖像分類預(yù)訓(xùn)練的模型,雖然在圖像級(jí)下游任務(wù)中表現(xiàn)出色,但在目標(biāo)檢測(cè)方面表現(xiàn)不佳,而目標(biāo)檢測(cè)需要空間推理。

預(yù)訓(xùn)練通常使用全局目標(biāo)的主要原因是:標(biāo)注在圖像級(jí)別上比在像素級(jí)別上更容易收集。事實(shí)上,在SOTA中通常使用的圖像分類或圖像-文本數(shù)據(jù)集比密集標(biāo)注的數(shù)據(jù)集大了幾個(gè)數(shù)量級(jí),涵蓋了更多的類別。因此,釋放大規(guī)模密集空間感知預(yù)訓(xùn)練潛力的一種方法可能是去掉標(biāo)注,正如自監(jiān)督學(xué)習(xí)(SSL)方法所提出的那樣。

SSL的一個(gè)成功分支,通常被稱為“對(duì)比學(xué)習(xí)”,其工作原理是通過(guò)數(shù)據(jù)增強(qiáng)來(lái)匹配從同一圖像中獲得的不同圖像的表示。Caron等人已經(jīng)表明,用對(duì)比方法訓(xùn)練的視覺(jué)transformer(ViT)的注意圖中出現(xiàn)了分割掩模。

然而,本文在初步實(shí)驗(yàn)中發(fā)現(xiàn),在對(duì)語(yǔ)義分割任務(wù)進(jìn)行微調(diào)后,顯著注意圖與優(yōu)異的表現(xiàn)并不相關(guān)。因此,作者假設(shè),這是因?yàn)閷?duì)比方法在全局層面上沒(méi)有明確使用空間關(guān)系。


本文的主要貢獻(xiàn)


1.本文探索了一種替代內(nèi)容重建的方法,以鼓勵(lì)空間Transformer特征的出現(xiàn),即預(yù)測(cè)相對(duì)圖像部分的位置。

2.將模型實(shí)現(xiàn)為一個(gè)分類問(wèn)題,其中查詢圖像中的每個(gè)patch都經(jīng)過(guò)訓(xùn)練,以預(yù)測(cè)其相對(duì)于參考圖像的位置。

3.可以通過(guò)掩碼查詢的參考patch特征來(lái)控制任務(wù)的難度和結(jié)果特征的屬性。


SSL與位置預(yù)測(cè)

SSL中的開(kāi)創(chuàng)性工作提出利用空間線索來(lái)生成pretext任務(wù)。值得注意的是,受word2vec的啟發(fā),Doersch等人訓(xùn)練了一個(gè)網(wǎng)絡(luò),以預(yù)測(cè)同一圖像中一對(duì)patch的相對(duì)位置,而Noroozi和Favaro通過(guò)重新排列圖像中的一組混疊作物,將這種方法擴(kuò)展到解決“拼圖”。Zhai等人提出對(duì)ViT進(jìn)行預(yù)處理,以預(yù)測(cè)其輸入patch的位置,僅考慮其視覺(jué)外觀,即通過(guò)丟棄位置嵌入。作者將該策略與本文的LOCA機(jī)制進(jìn)行了比較,如圖2所示。

圖片

圖2。單一與查詢-參考patch位置預(yù)測(cè)機(jī)制的概念比較:(a)在單一圖像中,如Zhai等人;(b)在查詢圖像中相對(duì)于LOCA中的參考圖像。


方法


查詢參考機(jī)制

本文提出了一種查詢參考機(jī)制來(lái)預(yù)測(cè)圖像部分的定位。具體來(lái)說(shuō),查詢通過(guò)預(yù)測(cè)一個(gè)查詢圖像相對(duì)于另一個(gè)參考圖像的位置來(lái)工作,如圖1所示。因?yàn)椴樵兒蛥⒖际怯蓛蓚€(gè)獨(dú)立的擴(kuò)增圖生成的,所以它們通常具有不同的圖像統(tǒng)計(jì)信息(即不同的比例、區(qū)域或顏色直方圖)。這迫使網(wǎng)絡(luò)更少地依賴低級(jí)線索(色差、顏色和邊緣一致性)來(lái)解決定位任務(wù),而更多地依賴于識(shí)別對(duì)象部分及其組織。

查詢的任務(wù)是在參考圖像中定位自己,因此損失僅在兩個(gè)圖像的相交處定義。此外,為了有利于圖像部分表示的出現(xiàn),限制了查詢的空間范圍。然后,選擇是對(duì)參考圖像進(jìn)行采樣,使其覆蓋原始圖像的大面積,而查詢圖像則覆蓋原始圖像中的一小部分。

圖片

圖1。LOCA通過(guò)預(yù)測(cè)查詢圖像相對(duì)于參考圖像的位置來(lái)工作。

查詢和參考之間的對(duì)應(yīng)關(guān)系

根據(jù)視覺(jué)transformer,查詢圖像和參考圖像被劃分為分辨率為P×P的非重疊patch。更準(zhǔn)確地說(shuō),參考圖像被平坦化為Nref。在查詢圖像上應(yīng)用“patch化”過(guò)程,生成一系列Nqpatch。

通過(guò)回溯生成xref和xq的數(shù)據(jù)擴(kuò)充圖,識(shí)別這兩個(gè)圖像之間的patch級(jí)別對(duì)應(yīng)關(guān)系。使用連續(xù)的最近插值實(shí)現(xiàn)函數(shù)h,因?yàn)閤q和xref的修補(bǔ)網(wǎng)格通常不完全對(duì)齊。這種效果可以在圖1的示例中看到。

patch位置預(yù)測(cè)

將查詢定位問(wèn)題實(shí)現(xiàn)為Nref -way分類任務(wù),其中每個(gè)查詢patch表示必須預(yù)測(cè)在參考圖像中覆蓋相同內(nèi)容的patch的位置。為此,查詢的patch表示需要能夠“查看”參考的patch表示。使用單個(gè)交叉注意轉(zhuǎn)換塊(用g表示)實(shí)現(xiàn)這種查詢參考交互,其查詢從Zq計(jì)算,鍵和值從Zref獲得。將查詢表示法表示為G = G (Zq, Zref)∈Rd×Nq,并將W∈Rd×Nref表示為最后的“位置分類”層。訓(xùn)練網(wǎng)絡(luò)使以下位置預(yù)測(cè)損失最小化:

圖片

平均不同查詢圖像和批處理的損失,并通過(guò)反向傳播學(xué)習(xí)f, g和W參數(shù)。還使用特征預(yù)測(cè)損失來(lái)鼓勵(lì)在不同圖像中覆蓋相似內(nèi)容的patch保持一致。

掩碼查詢可見(jiàn)的參考patch

在實(shí)踐中,作者發(fā)現(xiàn)該網(wǎng)絡(luò)可以近乎完美地解決問(wèn)題(見(jiàn)圖3中的驗(yàn)證精度)。

圖片

圖3。單一vs查詢參考patch位置預(yù)測(cè)機(jī)制。

對(duì)于這兩種機(jī)制,報(bào)告了位置預(yù)測(cè)精度(左)和轉(zhuǎn)移到ADE20k上的語(yǔ)義分割后的性能(右)對(duì)于不同的掩碼比η。由于查詢和參考之間的不同圖像統(tǒng)計(jì)量以及受約束的patch交互,查詢-參考使得訓(xùn)練前目標(biāo)更具挑戰(zhàn)性(位置預(yù)測(cè)任務(wù)的準(zhǔn)確性較低)。

patch特性預(yù)測(cè)

受UP-DETR框架的啟發(fā),作者在定位框架中增加了patch特征預(yù)測(cè)目標(biāo),以獲得更多的語(yǔ)義表示。patch功能不僅應(yīng)該能夠定位自己,而且還應(yīng)該能夠匹配不同上下文中處于相似位置的功能。使用基于patch的MSN框架來(lái)實(shí)現(xiàn)這一點(diǎn)。作者在初步實(shí)驗(yàn)中觀察到,這種選擇對(duì)最終性能的影響最小,選擇MSN是因?yàn)樗姆€(wěn)定性。


實(shí)驗(yàn)

圖片 

表1 . Localization loss。

圖片

圖5??梢暬疞OCA的預(yù)測(cè)。

圖片

表2。與以往語(yǔ)義分割結(jié)果的比較。

圖片

表3。在ADE20k上進(jìn)行少量的語(yǔ)義分割。

圖片

表4。語(yǔ)義分割中的定位與分類。

 圖片

表5。消融實(shí)驗(yàn)。

圖片

圖6。擴(kuò)展實(shí)驗(yàn)。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉