大年初一也不忘檢測新框架!CBNetV2:復合主干網(wǎng)絡(luò)的目標檢測
現(xiàn)代性能最佳的目標檢測器在很大程度上依賴于主干網(wǎng)絡(luò),其進步通過探索更有效的網(wǎng)絡(luò)結(jié)構(gòu)帶來一致的性能提升。然而,設(shè)計或搜索新的主干并在ImageNet上對其進行預訓練可能需要大量的計算資源,這使得獲得更好的檢測性能成本很高。
論文:
https://arxiv.org/pdf/2107.00420.pdf
1 簡要
現(xiàn)代性能最佳的目標檢測器在很大程度上依賴于主干網(wǎng)絡(luò),其進步通過探索更有效的網(wǎng)絡(luò)結(jié)構(gòu)帶來一致的性能提升。然而,設(shè)計或搜索新的主干并在ImageNet上對其進行預訓練可能需要大量的計算資源,這使得獲得更好的檢測性能成本很高。
今天分享中,研究者通過構(gòu)建現(xiàn)有開源預訓練主干的組合,提出了一種新的主干網(wǎng)絡(luò),即 CBNetV2。特別是,CBNetV2 架構(gòu)將多個相同的主干分組,這些主干通過復合連接連接。研究者還為基于CBNet的檢測器提出了一個更好的訓練策略與輔助監(jiān)督。無需額外的預訓練,CBNetV2可以集成到主流檢測器中,包括一級和兩級檢測器,以及基于Anchor和Anchor Free的檢測器,并在COCO的基線上顯著提高其性能3.0%以上。此外,實驗提供了強有力的證據(jù),表明復合主干比預訓練的更廣泛和更深的網(wǎng)絡(luò)更高效和資源友好,包括基于手動和基于NAS的網(wǎng)絡(luò),以及基于CNN和基于Transformer。
2背景
如上圖所示,研究者的解決方案名為Composite Backbone Network V2 (CBNetV2),將多個相同的主干網(wǎng)絡(luò)組合在一起。具體而言,并行主干網(wǎng)絡(luò)(稱為輔助主干和引導主干)通過復合連接連接。在上圖中從左到右,輔助主干中每個階段的輸出流向其后續(xù)主干的并行和較低級別的階段。最后,將主干的特征饋送到neck和檢測頭,用于邊界框回歸和分類。與簡單的網(wǎng)絡(luò)深化或拓寬相反,CBNetV2 整合了多個主干網(wǎng)絡(luò)的高低層特征,逐漸擴大感受野以更高效地進行目標檢測。
3 新框架
Same Level Composition (SLC)
一種直觀而簡單的復合風格是融合來自主干同一階段的輸出特征。
Adjacent Higher-Level Composition (AHLC)
受特征金字塔網(wǎng)絡(luò)的啟發(fā),自上而下的pathway引入了空間上更粗糙但語義上更強大的高級特征,以增強自下而上pathway中的低級特征。在之前的CBNet中,研究者進行了相鄰的高級組合(AHLC),將前一個主干的相鄰更高級別階段的輸出饋送到后續(xù)的主干。
Adjacent Lower-Level Composition (ALLC)
與AHLC不同,研究者引入了一種自下而上的pathway,將前一個主干的相鄰低級階段的輸出提供給后續(xù)主干。
Dense Higher-Level Composition (DHLC)
在DenseNet中,每一層都連接到所有后續(xù)層以構(gòu)建綜合特征。受此啟發(fā),研究者在CBNet架構(gòu)中利用密集復合連接。
Full-connected Composition (FCC)
與DHLC不同,研究者將輔助主干網(wǎng)絡(luò)的所有階段的特征組合起來,并將它們饋送到主干中的每個階段。如上圖e所示,在比較DHLC的情況下,在低層次的情況下添加連接。
新提出的CBNet架構(gòu)(K = 2)與RCNN的展開架構(gòu)之間的比較。
CBNetV2的一個例子如上圖b所示。除了使用主干特征訓練檢測頭1的原始損失外,另一個檢測頭2將輔助主干特征作為輸入來產(chǎn)生輔助監(jiān)督。請注意,檢測頭1和檢測頭2是權(quán)重共享。輔助監(jiān)督有助于優(yōu)化學習過程,而開始的主干原始損失承擔了最多的責任。 研究者增加權(quán)重來平衡助理監(jiān)督,其中總損失表示為:
4 實驗
新提出的方法與最先進的檢測器在COCO目標檢測和實例分割方面的比較結(jié)果。
Visualization of class activation APping, using ResNet50 and Dual-ResNet50 as backbone. The baseline detector is Faster R-CNN ResNet50 with 800 × 500 input size. For each backbone, we visualize the stage 2 viewed in color.
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。