ICCV目標(biāo)檢測(cè):用圖特征金字塔提升精度(附論文下載)
最新方法側(cè)重于使用具有固定拓?fù)浣Y(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)跨空間和尺度執(zhí)行特征交互。
開(kāi)源代碼:https://arxiv.org/pdf/2108.00580.pdf
1前言&背景
特征金字塔在需要多尺度特征的圖像理解任務(wù)中已被證明是強(qiáng)大的。多尺度特征學(xué)習(xí)的最新方法側(cè)重于使用具有固定拓?fù)浣Y(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)跨空間和尺度執(zhí)行特征交互。
在今天分享中,研究者提出了圖特征金字塔網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠使其拓?fù)浣Y(jié)構(gòu)適應(yīng)不同的內(nèi)在圖像結(jié)構(gòu),并支持跨所有尺度的同步特征交互。
2特征金字塔
特征金字塔網(wǎng)絡(luò)相當(dāng)于先進(jìn)行傳統(tǒng)的bottom-up自上而下的特征卷積,然后FPN試圖融合左側(cè)特征圖的相鄰的特征圖。左側(cè)模型叫bottom-up,右側(cè)模型叫top-down,橫向的箭頭叫橫向連接lateral connections。這么做的目的是因?yàn)楦邔拥奶卣髡Z(yǔ)義多,低層的特征語(yǔ)義少但位置信息多。
左側(cè)模型特征圖大小相差1倍,但像AlexNet一樣,其實(shí)是每在同樣大小的feature上卷積幾次才進(jìn)行一次池化操作,我們把在同樣大小feature上的卷積稱(chēng)之為一個(gè)stage。上圖畫(huà)的圖是每個(gè)stage的最后一個(gè)卷積層,因?yàn)槊總€(gè)stage的最后一層feature語(yǔ)義信息最多。
具體做法是兩個(gè)特征層的較高層特征2倍上采樣(上采樣方法很多,上采樣幾乎都是采用內(nèi)插值方法,即在原有圖像像素的基礎(chǔ)上在像素點(diǎn)之間采用合適的插值算法插入新的元素,總之是把feature大小擴(kuò)大了一倍)。較低層特征通過(guò)1×1卷積改變一下低層特征的通道數(shù),然后簡(jiǎn)單地把將上采樣和1×1卷積后的結(jié)果對(duì)應(yīng)元素相加。為什么橫向連接要使用1×1卷積呢,為什么不能原地不動(dòng)地拿過(guò)來(lái)呢?原來(lái)在于作者想用1×1改變通道數(shù),以達(dá)到各個(gè)level處理結(jié)果的channel都為256-d,便于后面對(duì)加起來(lái)的特征進(jìn)行分類(lèi)。
3新框架分析
首先為每個(gè)輸入圖像定義一個(gè)特定于圖像的超像素層次結(jié)構(gòu),以表示其固有的圖像結(jié)構(gòu)。圖特征金字塔網(wǎng)絡(luò)從這個(gè)超像素層次結(jié)構(gòu)繼承了它的結(jié)構(gòu)。上下文層和hierarchical層旨在實(shí)現(xiàn)相同尺度內(nèi)和不同尺度之間的特征交互。為了使這些層更強(qiáng)大,研究者通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的全局通道注意力,為圖神經(jīng)網(wǎng)絡(luò)引入了兩種類(lèi)型的局部通道注意力。提出的圖特征金字塔網(wǎng)絡(luò)可以增強(qiáng)卷積特征金字塔網(wǎng)絡(luò)的多尺度特征。
主要貢獻(xiàn):
提出了一種新的圖特征金字塔網(wǎng)絡(luò),利用固有的圖像結(jié)構(gòu),支持所有尺度的同時(shí)特征交互。該圖特征金字塔網(wǎng)絡(luò)繼承了輸入圖像的超像素層次結(jié)構(gòu)。上下文層和hierarchical層的設(shè)計(jì)分別是為了促進(jìn)相同規(guī)模內(nèi)和跨不同規(guī)模的特性交互;
在現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)全局通道注意機(jī)制的基礎(chǔ)上,進(jìn)一步引入了圖神經(jīng)網(wǎng)絡(luò)的兩種局部通道注意機(jī)制;
在MSCOCO 2017驗(yàn)證和測(cè)試數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,無(wú)論是否基于特征金字塔,圖特征金字塔網(wǎng)絡(luò)都可以幫助實(shí)現(xiàn)比現(xiàn)有的最先進(jìn)的目標(biāo)檢測(cè)方法明顯更好的性能。
GraphFPN旨在通過(guò)在超像素層次上構(gòu)建多尺度圖神經(jīng)網(wǎng)絡(luò)來(lái)增強(qiáng)卷積特征金字塔網(wǎng)絡(luò)
Superpixel Hierarchy
首先一張圖片由一個(gè)個(gè)像素組成(可以看成網(wǎng)格),每個(gè)像素可以有一個(gè)灰度值(標(biāo)量)或RGB值(三維向量)。
現(xiàn)今一張圖片動(dòng)輒1024*1448>100w像素,因此對(duì)于圖像處理來(lái)說(shuō),是非常大的維度。超像素最大的功能之一,便是作為圖像處理其他算法的預(yù)處理,在不犧牲太大精確度的情況下降維!超像素最直觀的解釋?zhuān)闶前岩恍┚哂邢嗨铺匦缘南袼亍熬酆稀逼饋?lái),形成一個(gè)更具有代表性的大“元素”。而這個(gè)新的元素,將作為其他圖像處理算法的基本單位。
一來(lái)大大降低了維度;
二來(lái)可以剔除一些異常像素點(diǎn)。
Multi-scale Graph Pyramid
研究者構(gòu)建了一個(gè)圖金字塔,其級(jí)別對(duì)應(yīng)于超像素層次的級(jí)別。超像素層次中的每個(gè)超像素在圖金字塔的相應(yīng)層次上都有一個(gè)對(duì)應(yīng)的圖節(jié)點(diǎn)。因此,當(dāng)從圖金字塔的一層移動(dòng)到下一層時(shí),節(jié)點(diǎn)的數(shù)量也會(huì)減少4倍。
研究者為圖金字塔定義了2種類(lèi)型的邊。它們被稱(chēng)為contextual edges和hierarchical edges。contextual edges連接同一層次上的2個(gè)相鄰節(jié)點(diǎn),而hierarchical edges連接不同層次上的2個(gè)節(jié)點(diǎn),如果它們對(duì)應(yīng)的超像素之間存在ancestor-descendant關(guān)系。contextual edges用于傳播hierarchical edges用于彌合不同層次之間的語(yǔ)義差距。
特別需要注意的是,hierarchical edges是密集的,因?yàn)樵诿總€(gè)節(jié)點(diǎn)和它的每個(gè)ancestor和descendant之間都有這樣的邊緣。這些密集的連接會(huì)產(chǎn)生很大的計(jì)算和內(nèi)存成本。因此,每個(gè)hierarchical edges都與其節(jié)點(diǎn)特征之間的余弦相似度關(guān)聯(lián),研究者根據(jù)它們的余弦特征相似度對(duì)hierarchical edges進(jìn)行修剪。在所有關(guān)聯(lián)到節(jié)點(diǎn)的分層邊緣中,排在最后50%的邊緣將被刪除。
Graph Neural Network Layers
在圖金字塔的基礎(chǔ)上構(gòu)造了一個(gè)圖神經(jīng)網(wǎng)絡(luò)GraphFPN。在GraphFPN中有2種類(lèi)型的層: contextual layers和hierarchical layers。這2種類(lèi)型的層在圖金字塔中使用相同的節(jié)點(diǎn)集,但不同的圖邊集。contextual layers只使用上下文邊緣,而hierarchical layers只使用修剪過(guò)的層次邊緣。GraphFPN在最開(kāi)始有L1 contextual layers,在中間有L2 hierarchical layers,在最后有L3 contextual layers。更重要的是,每一層都有自己的可學(xué)習(xí)參數(shù),這些參數(shù)不會(huì)與任何其他層共享。
4實(shí)驗(yàn)
Comparison with state-of-the-art feature pyramid based methods on MS-COCO 2017 test-dev. “AH” and “MT” stand for augmented head and multi-scale training strategies respectively. The backbone of all listed methods is ResNet101.
Comparison with other popular object detectors on MS-COCO 2017 val set. The backbone of all listed methods is ResNet101.
Sample detection results from FPN, FPT, and our GraphFPN based method
The number of learnable parameters, the total computational cost, and the average test speed of a few detection models. All experiments are run on an NVidia TITAN 2080Ti GPU.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。