基于全局引導(dǎo)的行人序列重識(shí)別
摘要:行人序列重識(shí)別是對(duì)同一個(gè)人進(jìn)行跨攝像頭識(shí)別,要實(shí)現(xiàn)跨攝像頭行人精確識(shí)別必須充分利用行人序列的時(shí)空線索。為了解決這個(gè)問(wèn)題,本文提出了一種基于全局引導(dǎo)的行人序列重識(shí)別,首先利用ResNet-50提取行人序列特征;然后用全局引導(dǎo)網(wǎng)絡(luò)將行人序列特征分解為全局特征和局部特征,并提取行人序列全局特征和局部特征的時(shí)間相關(guān)性;最后對(duì)行人序列特征PCA降維后用JS散度計(jì)算相似度。實(shí)驗(yàn)結(jié)果表明本文算法在跨攝像頭行人序列重識(shí)別中識(shí)不僅識(shí)別率高,而且效率高。
本文引用地址:http://m.butianyuan.cn/article/202209/438503.htm關(guān)鍵詞:行人序列重識(shí)別;ResNet-50;全局引導(dǎo);PCA
1 介紹
行人序列重新識(shí)別是跨攝像頭識(shí)別同一個(gè)人,是智能監(jiān)控和平安承受研究的熱門(mén)課題。與單張行人圖片相比,行人序列提供更全面的全局信息、運(yùn)動(dòng)線索和時(shí)間關(guān)系,如果充分利用行人序列的時(shí)空關(guān)系,行人序列重識(shí)別的識(shí)別率會(huì)高于單張圖片的行人重識(shí)別。行人序列重識(shí)別以前的方法是利用卷積神經(jīng)網(wǎng)絡(luò)提取行人序列的空間特征和時(shí)間特征,然后對(duì)特征向量進(jìn)行相似度計(jì)算,這種方法沒(méi)有充分利用行人序列的全局信息,因此識(shí)別率不高。因此本文提出了一種基于全局引導(dǎo)的行人序列重識(shí)別,首先利用 ResNet-50 提取行人序列特征;然后用全局引導(dǎo)網(wǎng)絡(luò)來(lái)增加行人序列幀特征之間的相關(guān)性;最后對(duì)行人序列特征 PCA 降維后用 JS 散度計(jì)算相似度。
2 本文算法
2.1 本文架構(gòu)
1)ResNet-50 提取特征,用 ResNet-50 網(wǎng)絡(luò)提取行人序列候選集和查詢集特征。
2)全局引導(dǎo)網(wǎng)絡(luò),用全局引導(dǎo)網(wǎng)絡(luò)來(lái)增加行人序列幀特征之間的相關(guān)性。
3)PCA,用 PCA 對(duì)特征降維,減少計(jì)算量,提供識(shí)別速度。
4)JS 散度,對(duì)行人序列特征進(jìn)行相似性度量。
本文架構(gòu)如下圖 1 所示。
2.2 ResNet-50特征提取
ResNet-50網(wǎng)絡(luò)由49個(gè)卷積層和1個(gè)全連接層組成。 ResNet-50 網(wǎng)絡(luò)除了對(duì)輸入進(jìn)行卷積、正則化、激活函數(shù)、最大池化計(jì)算外,還增加了殘差塊。它對(duì)行人序列進(jìn)行時(shí)間和空間建模來(lái)表示行人序列的全局特征和局部特征,以及行人序列全局特征和局部特征之間的關(guān)系。也就是說(shuō)通過(guò) ResNet-50 網(wǎng)絡(luò)可以提取行人序列不同級(jí)別的特征。
2.3 全局引導(dǎo)網(wǎng)絡(luò)
全局引導(dǎo)網(wǎng)絡(luò)是用全局特征向量引導(dǎo),用增加行人序列幀特征之間的相關(guān)性。首先通過(guò) ResNet-50 提取行人序列的全局特征和局部特征,然后用時(shí)間平均池化和全局平均池化對(duì)行人特征的全局特征和局部特征進(jìn)一步處理,生成全局特征向量來(lái)引導(dǎo) ResNet-50 提取的行人序列特征,形成行人序列幀特征之間強(qiáng)相關(guān)特征和低相關(guān)特征。全局引導(dǎo)網(wǎng)絡(luò)框圖如下:
2.4 PCA降維
PCA又叫主成分分析,是Principal components analysis 的簡(jiǎn)寫(xiě),是機(jī)器學(xué)習(xí)中使用最廣泛的降維算法之一。圖像處理計(jì)算是矩陣相乘計(jì)算,維度高時(shí)計(jì)算量非常大,運(yùn)算速度非常慢,為了提升運(yùn)算速度,保持識(shí)別效率,我們通常使用 PCA 降維。PCA 降維的本質(zhì)就是把高維空間投影到低維空間,也就是說(shuō)在低維空間找一個(gè)新的正交坐標(biāo)系,把高維空間向量投影到低維坐標(biāo)系中,坐標(biāo)系選擇是原始數(shù)據(jù)方差最大的方向作為第一坐標(biāo)軸,以此類(lèi)推。因此 PCA 降維能保持高維空間最大的信息。本文在保證行人序列特征在 99% 的基礎(chǔ)上,行人序列的特征維度從 2048 維降低到 280 維,在確保識(shí)別率的情況下極大的提升了識(shí)別速率。
2.5 JS散度
KL 散度叫相對(duì)熵、信息散度或者信息增益。散度是兩個(gè)概率分布差別的非對(duì)稱性的度量。JS 散度解決了 KL 散度非對(duì)稱的問(wèn)題,因此本文采用 JS 散度進(jìn)行相似性度量。
3 實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)是在 MARS 和 iLIDS-VID 數(shù)據(jù)集上進(jìn)行的。MARS 數(shù)據(jù)庫(kù)是目前已公開(kāi)的最大視頻行人重識(shí)別數(shù)據(jù)集,包含 1 261 個(gè)行人,采集于 6 個(gè)不同的攝像頭,每個(gè)人被 2~3 個(gè)攝像頭捕捉到,每個(gè)行人平均含有 13.2 個(gè)視頻序列。iLIDS-VID 數(shù)據(jù)庫(kù)包含從兩個(gè)無(wú)交疊攝像頭采集的 300 個(gè)行人的 600 個(gè)視頻段,每個(gè)行人視頻段含有 23 到 192 幀圖像不止,平均含有 73 幀。
評(píng)測(cè)指標(biāo):采用行人重識(shí)別領(lǐng)域廣泛使用的累計(jì)匹配特性曲線(cumulative matching characteristic,CMC) CMC@Rank-1、5、10,分別表示在一次查詢結(jié)果中,排序列表的前 1、5、10 個(gè)排序樣本中含有正確樣本的概率;同時(shí)還采用檢索任務(wù)中另一個(gè)常用的評(píng)測(cè)指標(biāo)精度平均值(mean average precision, mAP),表示檢索結(jié)果的精度平均值。
上表可以看出,本文算法在 MARS 和 iLIDS-VID 數(shù)據(jù)上識(shí)別率明顯高于其它算法,說(shuō)明本文基于全局引導(dǎo)的行人序列重識(shí)別算法充分利用了行人序列的信息。
4 結(jié)語(yǔ)
本文提出的基于全局引導(dǎo)的行人序列重識(shí)別算法,充分利用了行人序列的全局信息和局部信息,用全局引導(dǎo)網(wǎng)絡(luò)來(lái)增加行人序列幀特征之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,本文算法識(shí)別率高,識(shí)別速度快。
參考文獻(xiàn):
[1] CHEN G Y, RAO Y M, LU J W et al. Temporal coherence or temporal motion: Which is more critical for video-based person re-identification[C].ECCV,2020,(6):660-676.
[2] DAI J, ZHANG P P, WANG D, et al. Video person reidentification by temporal residual learning[J].TIP,2019,(3) 28:1366-1377.
[3] FU Y, WANG X Y, WEI Y C, et al. Sta: Spatial-temporal attention for large-scale video based person re-identification [R].AAAI,2019,(2):6.
[4] HOU R B, CHANG H, MA B P et al. Temporal complementary learning for video person re-identification[J].2020,(6).
[5] HOU R B, MA B P, CHANG H, et al. Vrstc: Occlusion-free video person re-identification[C].CVPR,2019,(6):7183-7192.
[6] LI J N, WANG J D, TIAN Q et al. Global-local temporal representations for video per son re-identification[C].ICCV, 2019,(6):3958-3967.
[7] LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for video based person re-identification[C].CVPR,2018.
[8] YANG J R, ZHENG W S, YANG Q Z et al. Spatial-temporal graph convolutional network for video-based person reidentification[C].CVPR,2020,(6):3289-3299.
(注:本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年9月期)
評(píng)論