CBAM注意力模型介紹
本文分享自天翼云開發(fā)者社區(qū)《CBAM注意力模型介紹》,作者:Liuzijia
近年來,注意力機(jī)制在各項(xiàng)深度學(xué)習(xí)任務(wù)中表現(xiàn)出色。研究表明,人類視覺感知過程中,注意力機(jī)制發(fā)揮了積極的效果,可以幫助人們高效和自適應(yīng)的處理視覺信息并聚焦于顯著的畫面區(qū)域,從而能夠做出最準(zhǔn)確的判斷。因此,通過模擬視覺注意力機(jī)制,在網(wǎng)絡(luò)結(jié)構(gòu)中加入注意力模塊,使模型可以更加關(guān)注待分類圖像中的關(guān)鍵信息,抑制不相關(guān)的特征信息,促使模型對(duì)重要的特征區(qū)域更加敏感,從而有效提升相關(guān)任務(wù)的性能。本文簡要介紹一種經(jīng)典的混合注意力模型CBAM。
CBAM[1]是一種結(jié)合了通道與空間注意力的混合注意力模塊,通過該模塊可以自適應(yīng)的強(qiáng)化特征提取過程。
圖1 CBAM結(jié)構(gòu)(引用自文獻(xiàn)[1])
圖1為CBAM的結(jié)構(gòu)。對(duì)于輸入特征圖,該模塊會(huì)依次推斷出一個(gè)通道注意力圖M_c和一個(gè)空間注意力圖M_s,如式1和式2所示:
其中,F(xiàn)表示輸入特征圖;M_c表示得到通道注意力圖;F'表示通道注意力模塊的輸出特征圖;M_s表示得到的空間注意力圖;F''表示該模塊的最終輸出;x表示矩陣對(duì)應(yīng)元素相乘。
圖2 通道注意力模塊(引用自文獻(xiàn)[1])
圖2為CBAM的通道注意力模塊結(jié)構(gòu)。對(duì)于輸入特征圖,首先利用在空間維度上的平均池化和最大值池化進(jìn)行壓縮,結(jié)合兩種池化是為了對(duì)特征權(quán)重的學(xué)習(xí)更加精細(xì),從而提升網(wǎng)絡(luò)的特征表示能力,然后將池化后的特征輸入到多層感知機(jī)中,為了減少計(jì)算參數(shù)量,會(huì)對(duì)隱藏層的大小進(jìn)行降維,最后經(jīng)激活函數(shù)得到注意力圖,其計(jì)算過程如式3所示:
其中,σ表示Sigmoid激活函數(shù);F_avg和F_max分別表示空間維度上的平均池化(AvgPool)和最大值池化(MaxPool);W_0和W_1表示多層感知機(jī)(MLP)的共享參數(shù);F表示輸入特征圖。
圖3 空間注意力模塊(引用自文獻(xiàn)[1])
圖3為CBAM的空間注意力模塊。首先利用在通道維度上的平均池化和最大值池化對(duì)輸入特征圖進(jìn)行操作,然后拼接大小均為H×W×1的兩個(gè)特征圖,這樣可以得到一個(gè)大小為H×W×2的特征圖,最后利用一個(gè)卷積操作并經(jīng)激活函數(shù)后得到空間注意力圖,其計(jì)算過程如式4所示:
其中,σ表示Sigmoid激活函數(shù);f(7×7)表示尺寸為7 的卷積核;F_avg和F_max分別表示在通道維度上的平均池化(AvgPool)和最大值池化(MaxPool);F表示輸入特征圖。
[1] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。