NeurIPS'22|Hinton團(tuán)隊(duì)開源:用一個(gè)統(tǒng)一的接口處理四大視覺任務(wù)
論文鏈接:https://arxiv.org/pdf/2206.07669v2.pdf源碼鏈接:https://github.com/google-research/pix2seq
簡介
本文提出了一種將四個(gè)看似不同的視覺任務(wù)(目標(biāo)檢測,實(shí)例分割,關(guān)鍵點(diǎn)檢測,圖像描述)統(tǒng)一在單個(gè)像素到序列界面中的方法。本文方法是對(duì)在目標(biāo)檢測任務(wù)中使用的Pix2Seq模型到一系列任務(wù)的擴(kuò)展。
本文框架
本文方法提出一種對(duì)于四個(gè)關(guān)注任務(wù)的序列接口,即所有任務(wù)的描述和輸出都表示為若干離散令牌組成的序列。
- 目標(biāo)檢測:一個(gè)物體由五個(gè)離散令牌表示,。每次訓(xùn)練樣本時(shí)多個(gè)物體隨機(jī)采樣序列化后形成最終令牌。
- 實(shí)例分割:這里預(yù)測實(shí)例掩碼的多邊形描述,并將多邊形描述為一序列的坐標(biāo),并將坐標(biāo)轉(zhuǎn)為離散令牌。這里每次采樣訓(xùn)練圖片對(duì)應(yīng)的開始點(diǎn)的開始令牌是隨機(jī)的。如果存在相同實(shí)例的多個(gè)多邊形,通過一個(gè)分割令牌聚集每個(gè)多邊形的表示序列。
- 關(guān)鍵點(diǎn)檢測:類似地,這里也是用一系列坐標(biāo)表示關(guān)鍵點(diǎn)檢測結(jié)果,。這里為了簡潔省略了關(guān)鍵點(diǎn)類別標(biāo)簽。如果某個(gè)關(guān)鍵點(diǎn)被遮擋,相應(yīng)的坐標(biāo)令牌被一個(gè)特別的令牌取代。
- 圖像描述:直接預(yù)測離散的文本令牌。
統(tǒng)一的架構(gòu)和損失函數(shù)
與Pix2Seq方法只關(guān)注單一任務(wù)不同的是,****以一個(gè)任務(wù)的prompt為條件,直接為單個(gè)目標(biāo)檢測任務(wù)產(chǎn)生輸出token,以便模型可以產(chǎn)生適應(yīng)于關(guān)注任務(wù)的輸出。在訓(xùn)練期間,模型將prompt和期望的輸出連接到單個(gè)序列中,利用token加權(quán)方案確保****只被訓(xùn)練來預(yù)測期望的輸出,而不是prompt令牌。在推理過程中,prompt是給定的,并且是固定的,所以****只需要產(chǎn)生序列的其余部分。類似于Pix2Seq方法,訓(xùn)練目標(biāo)是最大化基于圖像的令牌和之前的令牌的似然性。
多個(gè)任務(wù)的訓(xùn)練
- 數(shù)據(jù)混合。合并不同任務(wù)的圖像和相應(yīng)輸出序列。優(yōu)點(diǎn)是構(gòu)建很簡單,但很難加入圖像增廣。
- 批混合。采樣不同任務(wù)的圖像,經(jīng)適合當(dāng)前任務(wù)的增廣處理,合并令牌化的輸出序列得到圖像-序列對(duì)。這種方法可以獨(dú)立地為了一個(gè)任務(wù)計(jì)算損失和梯度,并以合適的權(quán)重融合不同任務(wù)的梯度。
本文方法考慮使用批混合策略。
推斷
實(shí)驗(yàn)
圖4給出了如何選擇合適的各任務(wù)損失函數(shù)加權(quán)系數(shù)。這里使用貪心策略。圖4(a)給出了搜素目標(biāo)檢測與實(shí)例分割間權(quán)重比例的搜索結(jié)果。可以看出在一個(gè)較廣的范圍內(nèi),兩個(gè)任務(wù)的性能都接近峰值。之后實(shí)驗(yàn)簡單選擇2:8的權(quán)重比例。加入圖像描述任務(wù)后,在9:1的權(quán)重比例下是對(duì)當(dāng)前任務(wù)是較合適的。加入關(guān)鍵點(diǎn)檢測后發(fā)現(xiàn)權(quán)重能設(shè)置的較小,這里選擇為0.01。
部分圖片可視化結(jié)果:
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。