基于圖結(jié)構(gòu)的圖像注意力網(wǎng)絡(luò)

作者：曾金芳，封琳瑯，李婕妤，閆李丹（湘潭大學(xué)物理與光電工程學(xué)院，湖南湘潭 411105）時間：2022-07-26 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：雖然現(xiàn)已有許多關(guān)于圖像注意力機制的研究，但是現(xiàn)有的方法往往忽視了特征圖的全局空間結(jié)構(gòu)和空間注意力與通道注意力的聯(lián)系。所以本文提出了一種基于整個空間拓撲結(jié)構(gòu)的注意機制，將特征圖映射成結(jié)點與特征的形式，再借助圖卷積網(wǎng)絡(luò)的特性，得以從整個空間學(xué)習(xí)特征權(quán)重圖。其次空間注意力與通道注意力一體化結(jié)構(gòu)能夠更有效地學(xué)習(xí)特征權(quán)重。通過多個實驗測試表明，在圖像分類和人臉識別任務(wù)中，展現(xiàn)了優(yōu)異的性能和普遍適用性。

本文引用地址：http://m.butianyuan.cn/article/202207/436663.htm

關(guān)鍵詞：深度學(xué)習(xí)；注意力機制；圖像分類；人臉識別

隨著計算機性能的提升，卷積神經(jīng)網(wǎng)絡(luò) (convolu tional neural network, CNN) 廣泛地運用于圖像領(lǐng)域。經(jīng)過多年的研究，基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)取得了重大的成功。HE 等提出了殘差網(wǎng)絡(luò)，可以跳層連接的殘差單元有效地解決梯度消失與梯度爆炸問題，使得網(wǎng)絡(luò)的深度成倍增長，進而圖像注意力機制逐漸受到關(guān) 注。WANG 等使用編碼器 - 解碼器的結(jié)構(gòu)對殘差網(wǎng)絡(luò)進行了注意力機制的改造得到殘差注意力網(wǎng)絡(luò) (residual attention network, RAN)。HU 等使用通道注意和通道特征融合來抑制不重要通道的方式構(gòu)建了縮聚激發(fā)網(wǎng)絡(luò) (squeeze-and-excitation networks, SENet)。PARK 等構(gòu)建了瓶頸注意模塊 (bottleneck attention module, BAM)，該模塊依次使用通道注意力網(wǎng)絡(luò)和空間注意力網(wǎng)絡(luò)推理注意力圖。FUKUI 等構(gòu)建了復(fù)雜的注意力分支結(jié)構(gòu)網(wǎng)絡(luò) (attention branch network, ABN), 引入具有注意力機制的分支結(jié)構(gòu)來擴展基于響應(yīng)的視覺解釋模型。MISRA 等考慮了通道 - 空間相互作用，基于三個維度兩兩相關(guān)性構(gòu)建注意力網(wǎng)絡(luò) TAM (triplet attention module)。

雖然現(xiàn)已提出的許多注意都從通道注意力和空間注意力兩方面來設(shè)計模型，但是其空間結(jié)構(gòu)的尺度取決于卷積核的大小，而且沒有從圖像整體出發(fā)分析空間特性并忽視了通道與空間的關(guān)聯(lián)性。在研究中發(fā)現(xiàn)，圖卷積網(wǎng)絡(luò) (graph convolution network, GCN) 能夠充分地使用這些特性學(xué)習(xí)特征圖。因此本文基于圖卷積網(wǎng)絡(luò)提出了圖結(jié)構(gòu)注意力網(wǎng)絡(luò) (graph structure attention network, GSAN)，該模型既考慮了通道與空間的關(guān)聯(lián)性也考慮了圖像整個拓撲結(jié)構(gòu)。

1 圖結(jié)構(gòu)注意力網(wǎng)絡(luò)

在已有的研究表明，圖卷積網(wǎng)絡(luò)本身充分考慮了通道的影響并且在解決非歐幾里得數(shù)據(jù)展現(xiàn)了強大的性能。我們利用這些特性設(shè)計了一個通道注意力與空間注意力一體化的注意力網(wǎng)絡(luò)模型，而不用像其他注意力網(wǎng)絡(luò)模型一樣分別設(shè)計通道注意力分支和空間注意力分支。在模型中我們設(shè)計了一套由圖像到圖的數(shù)據(jù)映射關(guān)系，使得輸入特征與圖卷積網(wǎng)絡(luò)的輸入相匹配，并以圖卷積網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建了圖結(jié)構(gòu)注意力網(wǎng)絡(luò)。在研究中表明，本文所設(shè)計注意力模型分類性能與卷積層數(shù)有關(guān)，所以本文設(shè)計的卷積層數(shù)可調(diào)的注意力網(wǎng)絡(luò)，以下內(nèi)容均以兩層卷積層的網(wǎng)絡(luò)為例說明。

2 圖與圖卷積網(wǎng)絡(luò)

卷積網(wǎng)絡(luò)的卷積，本質(zhì)上利用濾波器對矩陣空間的某個區(qū)域內(nèi)的像素點進行加權(quán)求和，進而求得新的特征表示的過程。許多沒有明確規(guī)律的非歐幾里得數(shù)據(jù)并不適用于卷積網(wǎng)絡(luò)，而圖卷積的誕生者很好的解決這一問題。在已往的研究中，圖卷積網(wǎng)絡(luò)在具有拓撲結(jié)構(gòu)的數(shù)據(jù)上表現(xiàn)出了強大的分類性能，其依賴不變的鄰接矩陣對輸入的結(jié)點特征學(xué)習(xí)，如圖 3 所示。

圖3 圖卷積網(wǎng)絡(luò)

本文所搭建的圖結(jié)構(gòu)注意力網(wǎng)絡(luò)使用的圖卷積網(wǎng)絡(luò)模型如式 (1) 和式 (2) 所示。

3 圖結(jié)構(gòu)注意力網(wǎng)絡(luò)算法

圖4 圖結(jié)構(gòu)注意力網(wǎng)絡(luò)模型

圖結(jié)構(gòu)注意力網(wǎng)絡(luò)如圖 4 所示，該注意力網(wǎng)絡(luò)流程主要分成以下幾個。

步驟 1：對上一層網(wǎng)絡(luò)得到的輸出特征圖進行正則化 (Norm) 處理，并利用平均池化 (AvgPool) 操作將三個維度（C×H×W）的特征圖壓縮成兩個維度（C×H）。

步驟 2：對步驟 1 得到的向量組重新排列，得到特征矩陣。此外，對平均池化后得到的向量建立一維的歐式空間，計算兩點之間的歐氏距離，將其倒數(shù)作為結(jié)點之間連接的緊密程度，我們將其稱為弱連接，如等式 3 和等式 4 所示。經(jīng)過弱連接的映射后，將歐氏空間數(shù)據(jù)結(jié)構(gòu)映射成了滿足圖卷積輸入的拓撲結(jié)構(gòu)數(shù)據(jù)。最后經(jīng)過正則化后，得到概率描述的邊，進而得到鄰接矩陣。

步驟 3：將特征矩陣與正則化后的鄰接矩陣輸入多層的圖卷積網(wǎng)絡(luò) (GCN)，并設(shè)定一個減少系數(shù) r，該系數(shù)為在中間層中減少通道數(shù)的系數(shù)。最后經(jīng)過激活函數(shù)并恢復(fù)維度對原特征圖進行加權(quán)求解得到重新分配權(quán)重后的特征圖。

4 實驗結(jié)果與分析

4.1 實驗平臺

實驗環(huán)境為 Ubuntu18.04 操作系統(tǒng)，AMD3600x 處理器，RTX2070SUPER 顯卡，Pytorch 框架。本文所有實驗均使用上述平臺。

4.1.1 圖像分類實驗

在該實驗中我們在 CIFARr100 數(shù)據(jù)集對模型進行 Rank-1 準確度評估。我們在不同網(wǎng)絡(luò)模型上測試了 SENet、BAM、TAM 性能。分別設(shè)置了一項基準測試實驗和一項消融實驗。

CIFAR100 數(shù)據(jù)集：該數(shù)據(jù)集有 100 個類。每個類有 600 張大小為 32×32 的彩色圖像，在模型訓(xùn)練過程中將其中 500 張作為訓(xùn)練集，100 張作為測試集。對于每一張圖像，它有兩個標簽分別代表圖像的細粒度和粗粒度標簽。

參數(shù)設(shè)置：使用 SGD 優(yōu)化器（lr = 0.1，momentum = 0.9，weight_decay = 5e-4）和 Cross Entropy Loss 損失函數(shù)。學(xué)習(xí)率調(diào)整策略為迭代 200 次并在 60、120， 160 次迭代調(diào)整學(xué)習(xí)率為原來的 0.1 倍。為了確定圖卷積的層數(shù)對 GSAN 的影響，我們設(shè)計了一組不同層數(shù)的對比實驗。如表 1 所示，較低復(fù)雜度的 GSAN 更有利于避免過擬合。

為了測試本文的注意力網(wǎng)絡(luò)性能與普遍適用性，我們在 MobileNetV2、ResNet18 和 ResNet50 上均做了不同注意力模型的對比試驗。如表 2 所示，在 MobileNetV2 和 ResNet18 上相較于其它方法達到了最好的效果，在 ResNet50 上稍差于 BAM。

4.1.2 人臉分類實驗

在該實驗中我們使用余弦相似度計算準確率的策略。在 CASIA-WebFace 數(shù)據(jù)集上訓(xùn)練模型，并在 LFW 數(shù)據(jù)集和 CFP-FP 數(shù)據(jù)集上進行人臉識別測試。

CASIA-WebFace 數(shù)據(jù)集：CASIA-WebFace 數(shù)據(jù)集是經(jīng)過數(shù)據(jù)清洗的數(shù)據(jù)集，所以含有噪聲的圖像較少，常作為訓(xùn)練集使用。數(shù)據(jù)集有 10 575 個人的 494 414 張人臉圖像。

LFW 數(shù)據(jù)集：圖像源于生活中的自然場景，所以圖像受到表情、光照、多姿態(tài)、遮擋、年齡等因素影響而差異極大。數(shù)據(jù)集有 5 749 個人的 13 233 張人臉圖像。

CFP-FP 數(shù)據(jù)集：數(shù)據(jù)集對于每個人有 10 張正面圖像和 4 張側(cè)面圖像。CFP-FP 數(shù)據(jù)集有 500 個人的 7 000 張人臉圖像。

參數(shù)設(shè)置：使用 SGD 優(yōu)化器（lr = 0.1，momentum = 0.9，weight_decay = 5e-4）和 ArcFace[16] 損失函數(shù)。

學(xué)習(xí)率調(diào)整策略為迭代 18 次并在 6、11、16 次迭代調(diào) 整學(xué)習(xí)率為原來的 0.1 倍。

由于 ArcFace 損失函數(shù)的不同縮放系數(shù) s 會極大的影響實驗結(jié)果的準確率，因此我們先通過 ResNet50-IR 模型來確定準確率最高 s，如表 3 所示。

經(jīng)過縮放系數(shù)的對比實驗可以看出 ResNet50-IR 模型在 s 為 33 的時候準確率達到最大值，因此在其他實驗中將縮放系數(shù) s 固定為 33 進行訓(xùn)練和測試。實驗結(jié)果如表 4 和表 5 所示，在 ResNet50-IR 上，當圖卷積層為 2 時達到最好的效果，并且性能優(yōu)于其他注意力模塊。

5 結(jié)語

本文提出一種圖結(jié)構(gòu)注意力網(wǎng)絡(luò)，該方法壓縮寬度維度并有效地結(jié)合空間拓撲結(jié)構(gòu)和通道注意力。通過映射成拓撲結(jié)構(gòu)的方式學(xué)習(xí)空間注意力，有效地解決現(xiàn)有注意力感受野受限于卷積核大小的問題和卷積核過大導(dǎo)致性能下降的問題，并且更好地學(xué)習(xí)全局信息。實驗結(jié)果表明，本文注意力網(wǎng)絡(luò)在圖像分類和人臉識別任務(wù)中均展現(xiàn)了優(yōu)異的性能與普遍適用性。

參考文獻:

[1] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.

[2] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE Conference on Computer vision and Pattern Recognition. 2015: 3431–3440.

[3] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. In Advances in Neural Information Processing Systems. 2012:1097–1105.

[4] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv.2014:1409,1556.

[5] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:3156–3164.

[6] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:7132–7141.

[7] PARK J, WOO S, LEE J Y, et al. Bam: Bottleneck attention module[C]. arXiv preprint 2018.

[8] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:10705–10714.

[9] MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: Convolutional triplet attention module[C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.2021: 3139–3148.

[10] SANDLER M, HOWARD A, ZHU M L, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:4510–4520.

[11] HAN, DONGYOON, KIM J, et al. Deep pyramidal residual networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017: 6307-6315.

[12] KRIZHEVSKY A. Learning multiple layers of features from tiny images[C]. 2009.

[13] YI, DONG, LEI Z, et al. Learning face representation from scratch[C]. arXiv preprint 2014.

[14] HUANG G, MATTAR M, BERG T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[C]. 2008.

[15] SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]. In Proceedings of the IEEE Conference on Winter Conference on Applications of Computer Vision.2016:1-9.

[16] DENG, KANG J, GUO J et al. ArcFace: Additive angular margin loss for deep face recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019:4685-4694.

[17] N T, KIPF, MAX, et al. Semi-supervised classification with graph convolutional networks[C]. In Proceedings of the 5th International Conference on Learning Representations.2017.

[18] NIU Z Y, ZHONG G Q, and YU H. A review on the attention mechanism of deep learning[J]. Neuro computing.2017(452): 48-62.

(注：本文轉(zhuǎn)載自《電子產(chǎn)品世界》2022年7月期)

新聞中心

基于圖結(jié)構(gòu)的圖像注意力網(wǎng)絡(luò)

評論

相關(guān)推薦

技術(shù)專區(qū)