目標(biāo)檢測(cè)新方法:Copy-Paste新方式解決擁擠的目標(biāo)檢測(cè)
文章地址:https://arxiv.org/pdf/2211.12110.pdf
01
概述
在今天分享中,研究者首先強(qiáng)調(diào)了擁擠問(wèn)題的兩個(gè)主要影響:1)IoU置信度相關(guān)干擾(ICD)和2)混淆重復(fù)數(shù)據(jù)消除(CDD)。然后,研究者從數(shù)據(jù)擴(kuò)充的角度探索破解這些。
首先,針對(duì)擁擠的場(chǎng)景提出了一種特殊的復(fù)制粘貼方案?;诖瞬僮?,研究者首先設(shè)計(jì)了一種“共識(shí)學(xué)習(xí)”策略,以進(jìn)一步抵抗ICD問(wèn)題,然后發(fā)現(xiàn)粘貼過(guò)程自然地揭示了場(chǎng)景中目標(biāo)的偽“深度”,這可能用于緩解CDD困境。這兩種方法都源自對(duì)復(fù)制粘貼的神奇使用,無(wú)需額外的處理。
實(shí)驗(yàn)表明,在典型的擁擠檢測(cè)任務(wù)中,新提出方法可以輕松地將最先進(jìn)的檢測(cè)器提高2%以上。此外,這項(xiàng)工作可以在擁擠場(chǎng)景中勝過(guò)現(xiàn)有的數(shù)據(jù)增強(qiáng)策略。
02
背景
目標(biāo)檢測(cè)的任務(wù)已經(jīng)被仔細(xì)研究了相當(dāng)長(zhǎng)的時(shí)間。在深度學(xué)習(xí)時(shí)代,近年來(lái),已經(jīng)提出了許多精心設(shè)計(jì)的方法,并將檢測(cè)性能提高到了令人驚訝的高水平。盡管如此,仍然存在許多根本性問(wèn)題沒(méi)有得到根本解決。其中之一是“擁擠問(wèn)題”,這通常表示屬于同一類別的目標(biāo)高度重疊在一起的現(xiàn)象。在幾何方式中,基本困難源于2D空間的語(yǔ)義歧義。如下圖所示,在我們的3D世界中,每個(gè)體素都有其“獨(dú)特的語(yǔ)義”,并位于“特定目標(biāo)”上。然而,投影到2D平面后,一個(gè)像素可能落在幾個(gè)碰撞的對(duì)象上。在將概念從“像素”演變?yōu)椤翱颉敝?,擁擠場(chǎng)景中的語(yǔ)義模糊導(dǎo)致了重疊的概念。
為了探究這個(gè)問(wèn)題的影響,研究者現(xiàn)在深入到檢測(cè)范式的本質(zhì)。通常,目標(biāo)檢測(cè)器讀取圖像并輸出一組邊界框,每個(gè)邊界框與置信度分?jǐn)?shù)相關(guān)。對(duì)于理想執(zhí)行的檢測(cè)器,得分值應(yīng)反映預(yù)測(cè)框與GT的重疊程度。換句話說(shuō),這兩個(gè)框之間的交集(IoU)應(yīng)與置信度得分呈正相關(guān)。在下圖中可視化了與IoU相關(guān)的得分的平均值和標(biāo)準(zhǔn)差后,結(jié)果表明,即使是像(Mask r-cnn)這樣的現(xiàn)成檢測(cè)器,這種正相關(guān)也會(huì)逐漸受到擁擠度增加的干擾。
這項(xiàng)實(shí)驗(yàn)研究清楚地表明了當(dāng)前檢測(cè)算法在面對(duì)超重重疊時(shí)的困難。我們將這種效應(yīng)體現(xiàn)為IoU置信度相關(guān)干擾(ICD)。另一方面,典型的檢測(cè)管道通常以重復(fù)數(shù)據(jù)消除模塊結(jié)束,例如,廣泛采用的非極大抑制(NMS)。由于前面提到的2D語(yǔ)義模糊,這些模塊經(jīng)常被嚴(yán)重重疊的預(yù)測(cè)所混淆,這導(dǎo)致在人群中嚴(yán)重缺失。我們將這種效果稱為混亂的重復(fù)數(shù)據(jù)消除(CDD)。
03
新框架
Copy-Paste Augmentation:
Copy-Paste增強(qiáng)技術(shù)于2017年首次提出。通過(guò)從源圖像中剪切目標(biāo)塊并粘貼到目標(biāo)圖像,可以輕松獲取組合數(shù)量的合成訓(xùn)練數(shù)據(jù),并顯著提高檢測(cè)/分割性能。這一驚人的魔力隨后被后續(xù)作品所驗(yàn)證,并通過(guò)上下文改編進(jìn)一步完善了該方法。Ghiasi等人聲稱只要訓(xùn)練足夠,簡(jiǎn)單的Copy-Paste可以帶來(lái)相當(dāng)大的改進(jìn)。他們的實(shí)驗(yàn)進(jìn)一步表明了這種增強(qiáng)策略在實(shí)例級(jí)圖像理解上的潛力。需要注意的是Copy-Paste的最初動(dòng)機(jī)是使樣本空間多樣化,特別是對(duì)于稀有類別或緩解復(fù)雜的掩模標(biāo)簽。然而,研究者利用這種操作來(lái)精確地解決擁擠問(wèn)題。盡管在以前的工作中有過(guò)簡(jiǎn)單的實(shí)踐,但從未系統(tǒng)地設(shè)計(jì)和研究過(guò)這種策略在處理?yè)頂D場(chǎng)景方面的實(shí)際效果。
Consensus Learning:
通過(guò)Copy-Paste工具包,使用專門的策略來(lái)抵抗ICD問(wèn)題,從而增強(qiáng)檢測(cè)器訓(xùn)練??紤]到上圖所示的觀察結(jié)果,預(yù)測(cè)分?jǐn)?shù)的不穩(wěn)定性來(lái)源于擁擠,一種新的解決方案是將擁擠環(huán)境中的一個(gè)目標(biāo)的分?jǐn)?shù)(被其他目標(biāo)覆蓋)與未覆蓋時(shí)的分?jǐn)?shù)對(duì)齊。由于Copy-Paste方法可以很容易地生成這種類型的目標(biāo)對(duì),其中兩個(gè)相同的目標(biāo)位于不同的環(huán)境中。下圖說(shuō)明了研究者的想法。
在前面的數(shù)據(jù)擴(kuò)充之后,研究者選擇了一組由其他目標(biāo)覆蓋的目標(biāo)。然后,將與中的目標(biāo)patch相同的目標(biāo)patch重新粘貼到圖像上,而不進(jìn)行覆蓋,從而構(gòu)建另一組。在訓(xùn)練期間,強(qiáng)制執(zhí)行每個(gè)目標(biāo)的預(yù)測(cè)分?jǐn)?shù)分布與其對(duì)應(yīng)的保持一致。將這一過(guò)程稱為共識(shí)學(xué)習(xí),通過(guò)對(duì)每一對(duì)中的“達(dá)成共識(shí)”進(jìn)行類比。具體來(lái)說(shuō),具體來(lái)說(shuō),讓是與匹配的建議集,是匹配的建議集,首先計(jì)算每個(gè)目標(biāo)得分的平均值和標(biāo)準(zhǔn)差:
Analyze the IoU-Confidence Disturbances:
現(xiàn)在,分析了方法在減輕上述ICD問(wèn)題上的有效性。為了重新審視提出的原始動(dòng)機(jī),在下圖中繪制了分?jǐn)?shù)的標(biāo)準(zhǔn)差(STD)。
清楚地表明,用提出的Crowdedness-oriented Copy-Paste(CCP)訓(xùn)練的模型的 STDs明顯低于基線模型(BL),并且通過(guò)提高擁擠程度(從圖(a)到(d))。其次,雖然CCP和CCP+CL的曲線似乎沒(méi)有明顯的區(qū)別,但通過(guò)計(jì)算它們的平均std(圖中的4個(gè)直方圖),研究者發(fā)現(xiàn)后者的值實(shí)際上低于前者。
Alleviate the Confused De-Duplications:
增強(qiáng)策略有一個(gè)自然的副產(chǎn)品:對(duì)于粘貼的這些重疊目標(biāo),相對(duì)的“深度順序”是先驗(yàn)的。換句話說(shuō),我們知道哪個(gè)在前面,哪個(gè)在后面。
基本上,2D空間中的歧義是由真實(shí)(3D)世界中缺少一維造成的。從這個(gè)角度來(lái)看,深度順序可以被視為額外第三維度的一些薄弱知識(shí),這有助于減輕模糊性。作為一種可行的實(shí)踐,在這項(xiàng)工作中利用深度順序信息來(lái)解決混淆的重復(fù)數(shù)據(jù)消除(CDD)問(wèn)題。
引入一個(gè)名為“overlay depth”(OD)的變量,該變量描述了目標(biāo)在視覺上被其他目標(biāo)覆蓋的程度。上圖顯示了計(jì)算OD的過(guò)程。首先假設(shè)一個(gè)目標(biāo)的覆蓋深度等于1.0,如果沒(méi)有其他目標(biāo)覆蓋它。設(shè)是由目標(biāo)覆蓋的目標(biāo)的區(qū)域,表示區(qū)域的大小。
04
實(shí)驗(yàn)及可視化
Results on CrowdHuman val setOD prediction可視化
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。