騰訊優(yōu)圖出品:P2P網(wǎng)絡(luò)的人群檢測與計(jì)數(shù)
人群計(jì)數(shù)是計(jì)算機(jī)視覺中的一項(xiàng)核心任務(wù),旨在估計(jì)靜止圖像或視頻幀中的行人數(shù)量。在過去的幾十年中,研究人員在該領(lǐng)域投入了大量精力,并在提升現(xiàn)有主流基準(zhǔn)數(shù)據(jù)集的性能方面取得了顯著進(jìn)展。
1背景
人群計(jì)數(shù)是計(jì)算機(jī)視覺中的一項(xiàng)核心任務(wù),旨在估計(jì)靜止圖像或視頻幀中的行人數(shù)量。 在過去的幾十年中,研究人員在該領(lǐng)域投入了大量精力,并在提升現(xiàn)有主流基準(zhǔn)數(shù)據(jù)集的性能方面取得了顯著進(jìn)展。然而,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)需要大規(guī)模和高質(zhì)量的標(biāo)記數(shù)據(jù)集,而注釋像素級行人位置的成本高得令人望而卻步。
此外,由于數(shù)據(jù)分布之間的域轉(zhuǎn)移,在標(biāo)簽豐富的數(shù)據(jù)域(源域)上訓(xùn)練的模型不能很好地泛化到另一個(gè)標(biāo)簽稀缺域(目標(biāo)域),這嚴(yán)重限制了現(xiàn)有方法的實(shí)際應(yīng)用。
2 引言
最近的ICCV2021,騰訊優(yōu)圖出品了一個(gè)人群基數(shù)相關(guān)論文《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》。
論文:https://arxiv.org/pdf/2107.12858.pdf
相比僅僅估計(jì)人群中的總?cè)藬?shù),在人群中定位每個(gè)個(gè)體更為切合后續(xù)高階人群分析任務(wù)的實(shí)際需求。但是,已有的基于定位的解決方法依賴于某些中間表示(如密度圖或者偽目標(biāo)框)作為學(xué)習(xí)目標(biāo),這不光容易引入誤差,而且是一種反直覺的做法。
優(yōu)圖團(tuán)隊(duì)提出了一種完全基于點(diǎn)的全新框架,可同時(shí)用于人群計(jì)數(shù)和個(gè)體定位。針對基于該全新框架的方法,我們不滿足于僅僅量化圖像級別的絕對計(jì)數(shù)誤差,因此研究者提出了一種全新的度量指標(biāo)即密度歸一化平均精度,來提供一個(gè)更全面且更精準(zhǔn)的性能評價(jià)方案。
此外,作為該框架一個(gè)直觀解法,研究者給出了一個(gè)示例模型,叫做點(diǎn)對點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet忽略了所有冗余步驟,直接預(yù)測一系列人頭點(diǎn)的集合來定位圖像中的人群個(gè)體,這完全與真實(shí)人工標(biāo)注保持一致。通過深入分析,研究者發(fā)現(xiàn)實(shí)現(xiàn)該方法的一個(gè)核心策略是為預(yù)測候選點(diǎn)分配最優(yōu)的學(xué)習(xí)目標(biāo),并通過基于匈牙利算法的一對一匹配策略來完成了這一關(guān)鍵步驟。實(shí)驗(yàn)證明,P2PNet不光在人群計(jì)數(shù)基準(zhǔn)上顯著超越了已有SOTA方法,還實(shí)現(xiàn)了非常高的定位精度。
今天我們“計(jì)算機(jī)視覺研究院”分享另一篇《計(jì)算機(jī)協(xié)會》收錄的一篇人群計(jì)數(shù)論文《Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring Network》。
3 框架分析
目標(biāo)域(下圖頂部)和源域(下圖底部)之間存在的域相似性的圖示。左:一些擁擠區(qū)域在像素級別跨域相似。右圖:部分源樣本可能與目標(biāo)樣本共享相似的圖像分布。
最近的深度網(wǎng)絡(luò)令人信服地展示了人群計(jì)數(shù)的高能力,這是一項(xiàng)因其各種工業(yè)應(yīng)用而引起廣泛關(guān)注的關(guān)鍵任務(wù)。盡管取得了這樣的進(jìn)展,但由于固有的領(lǐng)域轉(zhuǎn)移,訓(xùn)練有素的依賴于數(shù)據(jù)的模型通常不能很好地推廣到看不見的場景。
為了解決這個(gè)問題,有研究者提出了一種新穎的對抗性評分網(wǎng)絡(luò) (ASNet),以逐步彌合域之間從粗粒度到細(xì)粒度的差距。具體來說,在粗粒度階段,設(shè)計(jì)了一種雙鑒別器策略,通過對抗性學(xué)習(xí),從全局和局部特征空間的角度使源域接近目標(biāo)。兩個(gè)域之間的分布因此可以大致對齊。在細(xì)粒度階段,通過基于粗階段得出的生成概率對源樣本與來自多個(gè)級別的目標(biāo)樣本的相似程度進(jìn)行評分來探索源特征的可轉(zhuǎn)移性。由這些分層分?jǐn)?shù)引導(dǎo),正確選擇可轉(zhuǎn)移的源特征,以增強(qiáng)適應(yīng)過程中的知識傳輸。通過從粗到細(xì)的設(shè)計(jì),可以有效緩解由域差異引起的泛化瓶頸。
生成器將輸入圖像編碼為密度圖。然后雙鑒別器將密度圖分類為源域或目標(biāo)域。通過生成器和雙鑒別器之間的對抗訓(xùn)練,域分布接近。同時(shí),雙鑒別器進(jìn)一步產(chǎn)生四種類型的分?jǐn)?shù)作為信號來指導(dǎo)源數(shù)據(jù)的密度優(yōu)化,從而在適應(yīng)過程中實(shí)現(xiàn)細(xì)粒度轉(zhuǎn)移。
4實(shí)驗(yàn)及可視化
研究者考慮了從ShanghaiTech Part A到Trancos的實(shí)驗(yàn),如上表所示。顯然,所提出的方法比現(xiàn)有的適應(yīng)方法提高了2.9%。
由雙重鑒別器生成的不同級別(分別為像素、補(bǔ)丁像素、補(bǔ)丁、圖像)級別分?jǐn)?shù)的可視化。圖中的正方形代表一個(gè)標(biāo)量。注意白色方塊代表1,黑色方塊代表0。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。