多尺度特征融合：為檢測(cè)學(xué)習(xí)更好的語(yǔ)義信息

發(fā)布人：CV研究院時(shí)間：2023-02-21 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

多尺度特征融合！

一、前言

本文提出了一種基于單模態(tài)語(yǔ)義分割的新型坑洼檢測(cè)方法。它首先使用卷積神經(jīng)網(wǎng)絡(luò)從輸入圖像中提取視覺(jué)特征，然后通道注意力模塊重新加權(quán)通道特征以增強(qiáng)不同特征圖的一致性。隨后，研究者采用了一個(gè)空洞空間金字塔池化模塊（由串聯(lián)的空洞卷積組成，具有漸進(jìn)的擴(kuò)張率）來(lái)整合空間上下文信息。

這有助于更好地區(qū)分坑洼和未損壞的道路區(qū)域。最后，使用研究者提出的多尺度特征融合模塊融合相鄰層中的特征圖，這進(jìn)一步減少了不同特征通道層之間的語(yǔ)義差距。在Pothole-600數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)，以證明提出的方法的有效性。定量比較表明，新提出的方法在RGB圖像和轉(zhuǎn)換后的視差圖像上均達(dá)到了最先進(jìn)的 (SoTA) 性能，優(yōu)于三個(gè)SoTA單模態(tài)語(yǔ)義分割網(wǎng)絡(luò)。

二、前言

在最先進(jìn)的（SoTA）語(yǔ)義分割CNN中，全卷積網(wǎng)絡(luò)(FCN)用卷積層替換了傳統(tǒng)分類網(wǎng)絡(luò)中使用的全連接層，以獲得更好的分割結(jié)果。上下文信息融合已被證明是一種有效的工具，可用于提高分割精度。ParseNet通過(guò)連接全局池化特征來(lái)捕獲全局上下文。PSPNet引入了空間金字塔池化(SPP)模塊來(lái)收集不同尺度的上下文信息。Atrous SPP(ASPP)應(yīng)用不同的空洞卷積來(lái)捕獲多尺度上下文信息，而不會(huì)引入額外的參數(shù)。

三、新框架

給定道路圖像，坑洼可以具有不同的形狀和尺度。我們可以通過(guò)一系列的卷積和池化操作獲得頂層的特征圖。雖然特征圖具有豐富的語(yǔ)義信息，但其分辨率不足以提供準(zhǔn)確的語(yǔ)義預(yù)測(cè)。不幸的是，直接結(jié)合低級(jí)特征圖只能帶來(lái)非常有限的改進(jìn)。為了克服這個(gè)缺點(diǎn)，研究者設(shè)計(jì)了一個(gè)有效的特征融合模塊。

研究者提出的道路坑洼檢測(cè)網(wǎng)絡(luò)的架構(gòu)如上圖所示。首先，采用預(yù)訓(xùn)練的dilated ResNet-101作為主干來(lái)提取視覺(jué)特征，還在最后兩個(gè)ResNet-101塊中用空洞卷積替換下采樣操作，因此最終特征圖的大小是輸入圖像的1/8。

該模塊有助于在不引入額外參數(shù)的情況下保留更多細(xì)節(jié)。此外，采用Deeplabv3中使用的ASPP模塊來(lái)收集頂層特征圖中的上下文信息。然后，采用CAM重新加權(quán)不同通道中的特征圖。它可以突出一些特征，從而產(chǎn)生更好的語(yǔ)義預(yù)測(cè)。最后，將不同級(jí)別的特征圖輸入到MSFFM中，以提高坑洼輪廓附近的分割性能。

Multi-scale feature fusion

頂部特征圖具有豐富的語(yǔ)義信息，但其分辨率較低，尤其是在坑洼邊界附近。另一方面，較低的特征圖具有低級(jí)語(yǔ)義信息但分辨率更高。為了解決這個(gè)問(wèn)題，一些框架直接將不同層的特征圖組合起來(lái)。然而，由于不同尺度的特征圖之間的語(yǔ)義差距，他們?nèi)〉玫母倪M(jìn)非常有限。

注意模塊已廣泛應(yīng)用于許多工作中。受一些成功應(yīng)用的空間注意力機(jī)制的啟發(fā)，研究者引入了MSFFM，它基于空間注意力來(lái)有效地融合不同尺度的特征圖。語(yǔ)義差距是特征融合的關(guān)鍵挑戰(zhàn)之一。

為了解決這個(gè)問(wèn)題，MSFFM通過(guò)矩陣乘法計(jì)算不同特征圖中像素之間的相關(guān)性，然后將相關(guān)性用作更高級(jí)別特征圖的權(quán)重向量。

總之，研究者利用矩陣乘法來(lái)測(cè)量來(lái)自不同層的特征圖中像素的相關(guān)性，將來(lái)自較低特征圖的詳細(xì)信息整合到最終輸出中，從而提高了坑洞邊界的語(yǔ)義分割性能。在最后兩層之間應(yīng)用這個(gè)模塊。

Channel-wise feature reweighing

眾所周知，高級(jí)特征具有豐富的語(yǔ)義信息，每個(gè)通道圖都可以看作是一個(gè)特定類別的響應(yīng)。每個(gè)響應(yīng)都會(huì)在不同程度上影響最終的語(yǔ)義預(yù)測(cè)。因此，研究者利用CAM，如下圖所示，通過(guò)改變每個(gè)通道中的特征權(quán)重來(lái)增強(qiáng)每一層中特征圖的一致性。

CAM旨在根據(jù)每個(gè)特征圖的整體像素重新加權(quán)每個(gè)通道。首先采用全局平均池化層來(lái)壓縮空間信息。隨后，使用修正線性單元(ReLU)和sigmoid函數(shù)生成權(quán)重向量，最終通過(guò)逐元素乘法運(yùn)算將權(quán)重向量與輸入特征圖組合以生成輸出特征圖。整體信息被整合到權(quán)重向量中，使得特征圖更可靠，坑洼檢測(cè)結(jié)果更接近GT實(shí)況。在最終的實(shí)驗(yàn)中，在第4層和第5層使用了CAM。

四、實(shí)驗(yàn)及可視化

*baseline network使用的是Deeplabv3

性能比較

坑洼檢測(cè)結(jié)果示例：(a) RGB圖像；(b)轉(zhuǎn)換后的視差圖像；(c)坑洼地面真相；(d)語(yǔ)義RGB圖像分割結(jié)果；(e)語(yǔ)義變換視差圖像分割結(jié)果。

在上圖中提供了提出的道路坑洼檢測(cè)方法的一些定性結(jié)果，其中可以觀察到CNN在轉(zhuǎn)換后的視差圖像上取得了準(zhǔn)確的結(jié)果。從綜合實(shí)驗(yàn)評(píng)估中獲得的結(jié)果證明了新提出的方法與其他SoTA技術(shù)相比的有效性和優(yōu)越性。由于提出了CAM和MSFFM，新方法在RGB和轉(zhuǎn)換后的視差圖像上實(shí)現(xiàn)了更好的坑洼檢測(cè)性能。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

多尺度特征融合：為檢測(cè)學(xué)習(xí)更好的語(yǔ)義信息

相關(guān)推薦

技術(shù)專區(qū)