多尺度深度特征(下):多尺度特征學(xué)習(xí)才是目標(biāo)檢測(cè)精髓
深度特征學(xué)習(xí)方案將重點(diǎn)從具有細(xì)節(jié)的具體特征轉(zhuǎn)移到具有語(yǔ)義信息的抽象特征。它通過(guò)構(gòu)建多尺度深度特征學(xué)習(xí)網(wǎng)絡(luò) (MDFN) 不僅考慮單個(gè)對(duì)象和局部上下文,還考慮它們之間的關(guān)系。
1 前景回顧
如果想詳細(xì)知道上集我們具體說(shuō)了多尺度特征的重要性及其發(fā)展,請(qǐng)點(diǎn)擊下方鏈接,查閱相關(guān)內(nèi)容:
多尺度深度特征(上):多尺度特征學(xué)習(xí)才是目標(biāo)檢測(cè)精髓(干貨滿滿,建議收藏)
SSD框架
ASPP網(wǎng)絡(luò)
Cascaded
我們“計(jì)算機(jī)視覺(jué)研究院”還分享了更多與目標(biāo)檢測(cè)相關(guān)的干貨及實(shí)踐內(nèi)容,有興趣的同學(xué)可以查看歷史消息,也可以從下方部分鏈接中進(jìn)入:
CVPR21小樣本檢測(cè):蒸餾&上下文助力小樣本檢測(cè)(代碼已開(kāi)源)
ICCV 2021:煉丹師的福音,訓(xùn)練更快收斂的絕佳方案(附源代碼)
ICCV2021目標(biāo)檢測(cè):用圖特征金字塔提升精度(附論文下載)
Pad-YoloV5:在便攜終端上實(shí)時(shí)檢測(cè)不再是難題
高斯YoloV3目標(biāo)檢測(cè)(文中供源碼鏈接)
Yolo輕量級(jí)網(wǎng)絡(luò),超輕算法在各硬件可實(shí)現(xiàn)工業(yè)級(jí)檢測(cè)效果(附源代碼)
不再只有Yolo,現(xiàn)在輕量級(jí)檢測(cè)網(wǎng)絡(luò)層出不窮(框架解析及部署實(shí)踐)
2 新框架
那我們現(xiàn)在接著上一期的繼續(xù)說(shuō)多尺度深度特征學(xué)習(xí)。
上一期我們得出的結(jié)論是:淺層和深層的特征對(duì)于目標(biāo)識(shí)別和定位起著必不可少的作用。為了有效地利用檢測(cè)到的特征信息,應(yīng)考慮另一約束條件,以防止特征被改變或覆蓋。
新框架提出了一種創(chuàng)新的目標(biāo)檢測(cè)器,它利用在高級(jí)層中學(xué)習(xí)到的深層特征。與較早層產(chǎn)生的特征相比,深層特征更擅長(zhǎng)表達(dá)語(yǔ)義和上下文信息。所提出的深度特征學(xué)習(xí)方案將重點(diǎn)從具有細(xì)節(jié)的具體特征轉(zhuǎn)移到具有語(yǔ)義信息的抽象特征。它通過(guò)構(gòu)建多尺度深度特征學(xué)習(xí)網(wǎng)絡(luò) (MDFN) 不僅考慮單個(gè)目標(biāo)和局部上下文,還考慮它們之間的關(guān)系。MDFN通過(guò)將信息平方和立方初始模塊引入高層來(lái)有效地檢測(cè)目標(biāo),它采用參數(shù)共享來(lái)提高計(jì)算效率。
MDFN通過(guò)集成多邊界框、多尺度和多層次技術(shù)提供多尺度目標(biāo)檢測(cè)器。盡管MDFN采用了一個(gè)具有相對(duì)較小基礎(chǔ)網(wǎng)絡(luò)(VGG-16)的簡(jiǎn)單框架,但與具有更深或極寬的宏觀層次結(jié)構(gòu)的具有更強(qiáng)特征提取能力的那些相比,它獲得了更好或具有競(jìng)爭(zhēng)力的檢測(cè)結(jié)果。所提出的技術(shù)在KITTI、PASCAL VOC和COCO數(shù)據(jù)集上進(jìn)行了廣泛的評(píng)估,在KITTI上取得了最佳結(jié)果,在PASCAL VOC和COCO上取得了領(lǐng)先的性能。這項(xiàng)研究表明,深層特征提供了突出的語(yǔ)義信息和各種上下文內(nèi)容,這有助于其在檢測(cè)小目標(biāo)或被遮擋目標(biāo)方面的卓越性能。此外,MDFN 模型計(jì)算效率高,在精度和速度之間取得了很好的平衡。
Deep feature learning inception modules
深度特征學(xué)習(xí)初始模塊捕獲來(lái)自基礎(chǔ)網(wǎng)絡(luò)的直接輸出。新框架的基本初始模塊通過(guò)激活多尺度感受野來(lái)充分利用深度特征圖。在每個(gè)模塊中,通過(guò)1×1過(guò)濾直接利用來(lái)自前一層的輸出特征信息。然后進(jìn)行3×3、5×5和7×7過(guò)濾以激活特征圖上的各種感受野,從而在相應(yīng)的輸入圖像上捕獲不同范圍的場(chǎng)景。
研究者在實(shí)踐中僅使用1×1和3×3濾波器實(shí)現(xiàn)多尺度濾波,以盡量減少參數(shù)數(shù)量。為高層構(gòu)建了兩種類(lèi)型的冪運(yùn)算初始模塊:一種是信息方初始模塊,另一種是信息立方初始模塊,如上圖所示。通過(guò)為不同的過(guò)濾器分配權(quán)重來(lái)構(gòu)建這兩個(gè)模塊:在以下等式中給出:
上表達(dá)式實(shí)際上可以分別通過(guò)以下信息平方和三次運(yùn)算來(lái)近似。
Parameter Sharing:
通過(guò)共享參數(shù),可以有效地實(shí)現(xiàn)所提出的信息平方和立方初始模塊。例如,通過(guò)從5×5單元的第一個(gè)3×3過(guò)濾器中提取輸出并將其與3×3過(guò)濾單元的并行輸出連接起來(lái),在3×3和5×5過(guò)濾單元之間共享參數(shù)。然后,3×3過(guò)濾操作的輸出通道數(shù)量隱式加倍,而過(guò)濾器集僅使用一次,如上圖(b)中的紅色箭頭所示。這種參數(shù)共享可以進(jìn)一步用于cubic inception模塊,如上圖(c)所示。3×3濾波操作的輸出分別來(lái)自3×3、5×5和7×7濾波單元,如上圖(c)中三個(gè)紅色箭頭所示。同樣,5×5濾波操作的輸出分別來(lái)自5×5和7×7濾波單元,如兩個(gè)綠色箭頭所示。
Multi-Scale object detection scheme
在新框架模型中,給每個(gè)給定位置k個(gè)邊界框,計(jì)算c類(lèi)分?jǐn)?shù)和每個(gè)邊界框四個(gè)頂點(diǎn)相對(duì)于默認(rèn)邊界框的四個(gè)偏移量。最終,為特征圖內(nèi)的每個(gè)位置提供了總共k(c + 4)個(gè)過(guò)濾器。因此,每個(gè)尺寸為m×n的特征圖的輸出數(shù)量應(yīng)為k(c + 4)mn。已證實(shí),使用各種默認(rèn)的框形狀將有助于為單發(fā)網(wǎng)絡(luò)預(yù)測(cè)框的任務(wù),從而提高了目標(biāo)定位和分類(lèi)的準(zhǔn)確性。 研究者采用這種多邊界框技術(shù)作為多尺度方案的第一個(gè)屬性。
深度特征學(xué)習(xí)起始模塊被應(yīng)用在四個(gè)連續(xù)的高級(jí)層單元中。這四個(gè)層單元將其輸出深度特征直接傳輸?shù)阶罱K預(yù)測(cè)層,這將信息傳輸完全縮短。
從訓(xùn)練的角度來(lái)看,這些縮短的連接使網(wǎng)絡(luò)的輸入和輸出彼此更接近,這有益于模型的訓(xùn)練。高級(jí)層和最終預(yù)測(cè)層之間的直接連接緩解了梯度消失的問(wèn)題,并增強(qiáng)了特征傳播。另一方面,四個(gè)高級(jí)層單元的序列通過(guò)語(yǔ)義和上下文信息獲取兩種方式最大化了深度特征提取和表示的能力。首先,它使后三個(gè)高層從先前的較低層獲取上下文信息。其次,同一級(jí)別的層可以提供不同范圍的上下文信息,以及可以在當(dāng)前層輸出中自然構(gòu)建的更精確的語(yǔ)義表達(dá)。這個(gè)過(guò)程是多尺度方案的第二個(gè)特性。
研究者使用多尺度過(guò)濾器來(lái)激活各種大小的感受野,以增強(qiáng)語(yǔ)義和上下文信息的提取。要注意的另一個(gè)方面是要素圖的大小。在大多數(shù)網(wǎng)絡(luò)中,特征圖的大小會(huì)隨著深度的增加而逐漸減小。這考慮到系統(tǒng)的內(nèi)存有限以及功能的比例不變。因此,由于其輸入特征圖的分辨率比在較早的層中產(chǎn)生的分辨率小得多,因此在網(wǎng)絡(luò)深處接受的多尺度濾波器將具有較少的計(jì)算負(fù)擔(dān)。這抵消了濾波操作增加帶來(lái)的計(jì)算負(fù)擔(dān)。這是擬議的多尺度方案的第三個(gè)特性。
Layer structure of deep inception module
提出了兩種深度特征學(xué)習(xí)網(wǎng)絡(luò)體系結(jié)構(gòu),分別成為MDFN-I1和MDFN-I2. 它們都具有四個(gè)high-level deep feature Inception單元。
3 實(shí)驗(yàn)及可視化
Average precision(%) on KITTI validation set
from left to right, represent the results from SSD, MDFN-I1 and MDFN-I2
PASCAL VOC2007 test detection results
Detection results on COCO test-dev
從上往下分別是SSD、MDFN-I1和MDFN-I2檢測(cè)結(jié)果
基于作者提出的框架,在pytorch框架中實(shí)現(xiàn)了作者的基本思想,在COCO數(shù)據(jù)集中簡(jiǎn)單訓(xùn)練,最終結(jié)果比SSD結(jié)果好一點(diǎn),具體效果如下:
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。