博客專欄

EEPW首頁 > 博客 > 深度目標(biāo)檢測【VALSE Webinar】Panel實(shí)錄

深度目標(biāo)檢測【VALSE Webinar】Panel實(shí)錄

發(fā)布人:深度學(xué)習(xí)大講堂 時間:2020-09-14 來源:工程師 發(fā)布文章

議題1:物體檢測是一個sovled problem嗎?現(xiàn)在SOTA系統(tǒng)還有什么不足需要繼續(xù)深挖?學(xué)術(shù)界、工業(yè)界和用戶對識別系統(tǒng)性能的評價有何不同理解?何時可以說一個問題是solved?

雷震:單純從物體檢測角度還遠(yuǎn)遠(yuǎn)談不上solved problem,雖然精度在提升,但相比人臉、行人檢測,物體檢測的精度還是比較低。實(shí)際上細(xì)分物體檢測的類別發(fā)現(xiàn),人或車輛相關(guān)的檢測精度比較高,但對像桌子、椅子、電腦以及沙發(fā)之類的物體,紋理比較小或形變比較大,檢測精度還是比較低。

物體檢測性能是否滿足需要還需從實(shí)際應(yīng)用的角度出發(fā)。在精度要求不苛刻的環(huán)境下,例如行人計數(shù),物體檢測能很好的應(yīng)用。對于精度要求比較高的環(huán)境,例如自動駕駛上的物體檢測,可能會因?yàn)橐粋€誤檢造成比較大的后果,這種情況物體檢測的性能仍需要不斷地提升。

什么時候可以說物體檢測是一個solved problem跟應(yīng)用場景有關(guān)。雖然在人臉行人檢測方面已有多年研究,但CVPR、ICCV上每年仍有很多這方面的論文。一方面,雖然精度上已經(jīng)比較高,但學(xué)術(shù)上仍可以挖掘問題;另一方面,計算機(jī)視覺很難說某個問題能夠達(dá)到終極解決。只要學(xué)術(shù)上還有可以挖掘的價值,就可以繼續(xù)研究。

ATSS算法中,用均值和方差作為閾值是不嚴(yán)謹(jǐn)?shù)?。假設(shè)一個分?jǐn)?shù)是高斯分布,那[均值+方差]的范圍正好有一個執(zhí)行度區(qū)間能夠保留大概16%的數(shù)量。初衷是給每個物體匹配差不多數(shù)量的Anchor,實(shí)際過程中發(fā)現(xiàn)用[均值+方差]作為閾值,每個物體的數(shù)量對應(yīng)的Anchor數(shù)量差不多。但這是非常不嚴(yán)謹(jǐn)?shù)模驗(yàn)镮OU值的分布不是一個高斯分布,所以現(xiàn)階段這只是一個經(jīng)驗(yàn)值,暫時沒有太深的理論上指導(dǎo)。


議題2:學(xué)術(shù)界應(yīng)該如何面對工業(yè)界靠數(shù)據(jù)/計算取勝的局面?除了靠數(shù)據(jù)/大規(guī)模計算,還有什么可以提高性能?是否未來檢測的發(fā)展要全面擁抱NAS(如EfficientDet)?

程明明:任何時候這個問題都不可避免。雖然學(xué)術(shù)界和工業(yè)界所依靠的資源不同,但很多研究并不是靠暴力堆出來的。物理學(xué)在早期的很多研究都是通過大量實(shí)驗(yàn)去歸納理論,而現(xiàn)在更多是用實(shí)驗(yàn)驗(yàn)證理論發(fā)展。靠暴力搜索不見得能解決所有問題。學(xué)術(shù)界應(yīng)該更多關(guān)注理論上、思想上的創(chuàng)新,而不是只靠大量計算去堆結(jié)果,兩個方面各有側(cè)重。

企業(yè)界可以更多的利用暴力計算將系統(tǒng)的性能推向極致,學(xué)術(shù)界可以做更多新的思想。只依靠搜索的計算過程需要搜索空間,這些搜索空間需要學(xué)術(shù)界提出新的理論和方法。有好的思想沒有大的算力,則可以考慮用非搜索的方法展現(xiàn)出來。學(xué)術(shù)界和工業(yè)界更多的互動推進(jìn)技術(shù)的發(fā)展。

吳慶波:工業(yè)界的算力優(yōu)勢主要體現(xiàn)在有足夠的資本能標(biāo)注更大的樣本,這些樣本能夠使訓(xùn)練集覆蓋盡量完備。這種基于機(jī)器學(xué)習(xí)方法的優(yōu)勢是訓(xùn)練樣本的多樣性越強(qiáng),覆蓋到實(shí)際測試環(huán)境的可能性就越大。至于算力優(yōu)勢,可以支撐構(gòu)建一個特征表達(dá)能力更強(qiáng)的模型。若需要提升算力,可以通過在學(xué)習(xí)的過程中設(shè)更大的batch size,收斂的穩(wěn)定性會更強(qiáng)。但這些方法無法實(shí)現(xiàn)本質(zhì)突破。對于非線性問題,用線性分類器數(shù)據(jù)再多,算力再強(qiáng),是不能得到理想效果的。檢測問題的本質(zhì)還是機(jī)器學(xué)習(xí)的問題。尋找下一步突破的方向,就要從檢測問題的本質(zhì)出發(fā),例如如何構(gòu)建特征、如何構(gòu)建分類器、構(gòu)建損失函數(shù),如何構(gòu)建對應(yīng)的訓(xùn)練策略。這種構(gòu)建包括正負(fù)樣本用新的測度選擇而非基于IOU 進(jìn)行選擇,或feature用多層嵌入特征而非單層特征。這是回歸到機(jī)器學(xué)習(xí)本身要解決的問題。

讓檢測問題本身做的更好就是從機(jī)器學(xué)習(xí)本身去思考這個問題,最早把L2的損失過渡到smooth L1就是要避免回歸中梯度爆炸問題。當(dāng)然L1損失函數(shù)也有自身缺陷,L1損失對所有樣本計算梯度是一樣的,無論樣本跟Anchor或非Anchor的方法距離遠(yuǎn)近。需要考慮設(shè)計構(gòu)建新的損失函數(shù)或構(gòu)建新的特征提取的方式去解決這些本質(zhì)問題。


議題3:Anchor-free檢測器是否能取代Anchor-based檢測器?

雷震:我認(rèn)為Anchor-free和Anchor-based各有優(yōu)勢,兩個方法取長補(bǔ)短整合成更高效、更高精度的方法,而不是兩者相互替代。在人臉檢測的時候,DenseBox最早是Anchor-free的方法。Anchor-free和Anchor-based本質(zhì)上沒太大的區(qū)別,檢測終極的目標(biāo)是精度和速度的平衡。

研究Anchor-free和Anchor-based可以在樣本選擇、特征選擇或回歸方式上下功夫,這兩種方法正好能夠互相對比、互相結(jié)合,取得更高精度、更加出色的工作。

諸宸辰:Anchor-free和Anchor-based各有優(yōu)劣勢。經(jīng)驗(yàn)來看,這兩者在各自領(lǐng)域做出的突破對另外一個方向存在啟發(fā)作用,兩者應(yīng)該長期共存。具體到細(xì)節(jié)上的優(yōu)劣勢,Anchor-free在檢測頭結(jié)構(gòu)上略簡單,回歸方式上不如Anchor-based易學(xué)。Anchor-based已有Anchor box這樣的先驗(yàn)知識,更易訓(xùn)練。而Anchor-free是沒有參考直接回歸的。

葉齊祥:用特征作為參考點(diǎn)或是讓Anchor手工設(shè)計作為參考點(diǎn)是這兩者存在的一個非本質(zhì)上的區(qū)別。Anchor-free的方法比較簡單,將來可能會越來越受歡迎。Anchor-based的方法中, Anchor是手工設(shè)計的,若換個數(shù)據(jù)集或數(shù)據(jù)分布不一樣,則需要重新設(shè)計Anchor。將來探索新的思路時,不僅僅停留在這兩個方面如何重新組織convolutional的feature上,而是要集思廣益組織成一種圖的形式。讓組織形式不僅僅是方框的Anchor。

廖勝才:相對而言我更喜歡anchor-free這一類方法,更簡潔的設(shè)置,不需要再預(yù)設(shè)Anchor,相信未來會有更多在Anchor-free檢測器方面的探索。事實(shí)上,不管是最早期的Viola-Jones式檢測器還是現(xiàn)在的深度學(xué)習(xí)檢測器,都是基于滑窗分類的思想,框出一部分再做分類的方法一直延續(xù)到深度學(xué)習(xí)。如果Anchor-free這種新的方法能夠取得成功,就會產(chǎn)生更簡潔的檢測方式。我最早做檢測時就是采用的Viola-Jones的方法,滑窗設(shè)定需要考慮很多方面,比如框的大小、尺度、長寬比、數(shù)量等,都是比較工程化的設(shè)定?;赼nchor的方法,數(shù)據(jù)庫越來越多之后會發(fā)現(xiàn)優(yōu)化好的一套Anchor的參數(shù),從這個數(shù)據(jù)庫上移到別的數(shù)據(jù)庫上,需要重新設(shè)置重新優(yōu)化,才能獲得一個最好的效果。甚至這一套Anchor的設(shè)定,在這個數(shù)據(jù)庫上訓(xùn)好之后,拿去另外的庫上測試泛化能力時,又會發(fā)現(xiàn)泛化性能不是太好。研究發(fā)現(xiàn),用Anchor-free檢測器,沒有受到Anchor設(shè)置的限定,泛化能力會更好。

總的來說,Anchor-free檢測器更輕便,更容易結(jié)合one-stage檢測器,檢測頭簡單,在檢測頭速度方面也有一定的優(yōu)勢。另外anchor-free檢測器在目標(biāo)形狀上也有優(yōu)勢。當(dāng)然也存在變形的Anchor,但傳統(tǒng)的Anchor全部是長方形的。基于回歸的話Anchor-free檢測器就會有更多的可能性,可能是傳統(tǒng)的長方形的形狀,也可能是各種不規(guī)則的形狀,都可以去回歸,在未來一些不常見的非長方形目標(biāo)檢測上面會更加流行。

葉齊祥:有一個領(lǐng)域叫operdata counting,一般的情況下,對于小目標(biāo),相比于識別,數(shù)數(shù)的目的更優(yōu)先。比如檢測臉或人,目的是為了識別,這樣的目標(biāo)很容易是counting??梢詤⒖糲ounting使用工具的方法,讓它們相互之間加入一些推理和聯(lián)系,例如現(xiàn)在流行的JCN方法,這也是一個有趣的研究方向。


議題4:學(xué)術(shù)界出現(xiàn)了很多新的benchmark,這些數(shù)據(jù)庫的優(yōu)劣?哪些更貼近現(xiàn)實(shí)應(yīng)用?

葉齊祥:例如object365等benchmark,使用大量資金人力做的數(shù)據(jù)庫都各有特點(diǎn)。目前COCO使用較多,COCO后面instance segmentation(實(shí)例分割)又標(biāo)了一個專門處理帶有l(wèi)ong tail的benchmark,更加接近于實(shí)際。將來COCO及LVIS這些數(shù)據(jù)庫會使用的更多。更貼近實(shí)際應(yīng)用的還有針對單類目標(biāo)的Caltech、 Citypersons人體目標(biāo)數(shù)據(jù)集合等。如果對于一般物體,像LVIS這種帶有類別非平衡的數(shù)據(jù)集更貼近于應(yīng)用。

吳慶波:現(xiàn)在的database相對來說標(biāo)注質(zhì)量談?wù)撦^少。Benchmark有很多,但標(biāo)注質(zhì)量的優(yōu)勢并不是特別明顯。因?yàn)橄馡mageNet這種最早做分類的數(shù)據(jù)集現(xiàn)在已經(jīng)在做含標(biāo)簽噪聲的分類任務(wù)了。在檢測以及分割的benchmark上,錯標(biāo)漏標(biāo)問題還是一樣普遍的。在傳統(tǒng)的圖像分類里,做的是圖像級的標(biāo)簽,圖像級標(biāo)簽存在噪聲問題怎么解決,這是個方向。但是在我們的檢測或者分割里面,已經(jīng)不是圖像級了,很有可能放在區(qū)域級,甚至是像素級的標(biāo)簽上,存在噪聲(noise)的情況下如何再做一個更加有效率的學(xué)習(xí)和檢測,這也是一個有趣的方向。


議題5:是否有必要以及如何提升物體檢測系統(tǒng)的可解釋性?

程明明:即使不考慮魯棒性,從對抗的角度,可解釋性也是非常重要的。提升物體檢測系統(tǒng)的可解釋性是有必要的,但更多的是討論如何增強(qiáng)。其中一個角度是解釋的定位和解釋的可視化。從哪些區(qū)域、哪些現(xiàn)象導(dǎo)致的結(jié)論,哪些區(qū)域是支撐當(dāng)前決策檢測出來的那個物體,哪些區(qū)域影響最大,這是指解釋的定位,跟這類相關(guān)的是類似于class activation mapping的技術(shù)。解釋的可視化是指某些東西對我有幫助,但是這些東西對哪些模式響應(yīng)最大,剛好與當(dāng)前這個圖像里面的哪些東西匹配。

另外一個角度是我們只能去處理好相對來說比較簡單的東西,比如一眼能夠數(shù)清楚的數(shù)一般不超過五六個。但是人很厲害,隨便一個東西有問題,很容易從那個最簡單的維度去把這個問題給看出來。最終一個可解釋的魯棒的系統(tǒng),一定是依賴于少量關(guān)鍵特征的,這些關(guān)鍵特征能夠從一定程度上很好地可視化出來,也能從一定程度上很好地定位出來,以形成一個檢測結(jié)果的支撐。


議題6:物體檢測與特征學(xué)習(xí)、物體識別的本質(zhì)性區(qū)別是什么,物體檢測有自己特定的研究方法論嗎?

雷震:物體檢測有兩個步驟,物體分類和回歸物體位置。實(shí)際上分辨率較低情況下的物體檢測,會因?yàn)槲矬w分類錯誤導(dǎo)致檢測結(jié)果錯誤。物體分類是用正負(fù)樣本進(jìn)行訓(xùn)練,從而得到較好的分類器。正負(fù)樣本對于提升物體分類的精度從而提升物體檢測的精度有很大的重要作用。

 葉齊祥:小目標(biāo)是一個非常難的題,關(guān)系到圖像的退化,ECCV我們組織了有一個專門檢測小目標(biāo)的challenge。對于那種一個或半個像素的小目標(biāo)檢測,這種往往有軍事應(yīng)用價值,或者海上搜救等非常遠(yuǎn)距離的目標(biāo),本身有意義,這超出了計算機(jī)視覺和圖像處理的范圍,也許結(jié)合傳感器能夠很好的對該問題進(jìn)行解決。

吳慶波:上下文算是小目標(biāo)里面一個突破的思路,小目標(biāo)最大難點(diǎn)在于信息的退化?;氐阶罨镜膯栴},考慮奈奎斯特采樣定律,如果信號采樣率過小,樣本之間已經(jīng)產(chǎn)生頻域混疊,信號是無法恢復(fù)的。同樣地,樣本很小的情況下,理論上可能已經(jīng)不可分了。既然目標(biāo)本身不可分的話,更多的是考慮,如果存在上下文的時候,能否通過周圍目標(biāo)之間的位置關(guān)系,或者常見的共生概率,而不僅僅是單純依靠目標(biāo)本身的描述性信息。例如有時候一個人的一個目標(biāo)在圖像當(dāng)中很小,但是可能人身邊有一些其他的物體,如果人跟這些物體的共生概率很高,就有可能借助這種互相關(guān)的信息,通過上下文,提升檢測效果。


議題7 :如何解決開放環(huán)境的檢測器學(xué)習(xí)問題,準(zhǔn)確定位和識別新類?不同的場景下,檢測的難度不同。如何根據(jù)場景難度自適應(yīng)地分配算力?

程明明:開放環(huán)境面臨的最大問題是存在一些新類別、未知類別或者不完全是未知但樣本量很小的類別。這些問題更多的需要知識去驅(qū)動。平時看到一個物體很容易搞清楚這個物體是什么,或者能通過特別少的樣例去學(xué)習(xí),原因是我們有知識。例如看到一個新的物體,看到一個斑馬,我看到那個斑馬,可以很容易認(rèn)出來,很快地學(xué)習(xí)到怎么認(rèn)識斑馬,因?yàn)榧扔旭R的特征,也有斑紋的特征,然后再把這些知識結(jié)合起來。

目前主流的檢測方法、學(xué)習(xí)方法,都是從頭到尾的學(xué)。就像研究組招學(xué)生,這個學(xué)生數(shù)學(xué)和編程都沒學(xué)過,再去訓(xùn)練他學(xué)計算機(jī)視覺是很難的?,F(xiàn)在很大程度上為了比較的公平性,各種東西的檢測識別都要求在某些特定的數(shù)據(jù)集上去做訓(xùn)練、測試,外部的知識受限。怎么樣把通用的知識運(yùn)用好是一個很重要的方向。

另外一方面,強(qiáng)調(diào)自適應(yīng)更多的是從尺度的角度去考慮場景的難度。一個場景里只有一個物體,這就需要在很大的尺度上分析。一個場景比較難,很大程度上是因?yàn)槲矬w聚集,這種情況更多的是需要分析場景的多尺度特征。我們的Res2Net在商湯開源的mmdetection庫上,能做到比之前最好的微軟HRNet大概少一半的參數(shù)量和一半的計算量,并且結(jié)果還比它最好的結(jié)果還要好,很大程度上得益于對這種多尺度信息的自適應(yīng)處理的能力。應(yīng)該利用好通用知識和多尺度信息。

葉齊祥:場景的適應(yīng)力除了開放環(huán)境,還有一個domain adaptive的問題。目前使用的方法都是transfer,把ImageNet上訓(xùn)練的模型導(dǎo)出transfer,那么detector本身的transfer還是可以有很多的研究?,F(xiàn)在的transfer就是A域到B域,刷刷性能,并沒有很好的解決模型自適應(yīng)問題。實(shí)際應(yīng)用中可能不是這樣。例如,某一個公司需要部署一個監(jiān)控攝像頭,可能面臨復(fù)雜的transfer場景,例如一天24小時的transfer,天氣的transfer,不同視角的transfer。場景自適應(yīng)面向真實(shí)的應(yīng)用還缺乏多場景transfer的數(shù)據(jù)集,這方面既有數(shù)據(jù)集的需求,也有實(shí)際應(yīng)用的需求。


議題8:通用的物體檢測之外,特殊類別的物體檢測(如人臉,行人)是否有其特殊的方法論?

程明明:確實(shí)特殊物體很難去收集大量樣本。分享一個之前做的項(xiàng)目,我們想去檢測一些特別貴的設(shè)備上的類似于劃痕的缺陷,設(shè)備一旦存在這種缺陷,就差不多快報廢了。一個樣例就對應(yīng)了幾百萬的損失,所以沒法找大量的訓(xùn)練樣本,這種情況下很大程度上依賴于通用知識。當(dāng)時處理那個問題利用的通用知識就是邊緣信息。雖然劃痕、裂紋很難找,但是邊緣相對容易。利用通用的邊緣檢測輔助做這些事情,因?yàn)檫@種劃痕的特殊物體,目標(biāo)本身應(yīng)該是人造的物體,劃痕是非規(guī)則的。對于這種特殊的物體,特別是當(dāng)信息不足的時候,更多的是需要想辦法把通用的屬性、通用的知識運(yùn)用起來。

廖勝才:特殊類別的物體檢測存在特殊的方法論。學(xué)術(shù)界遇到了人臉、行人檢測,很多其他特殊物體的檢測主要是來自工業(yè)界的需求。各種特殊物體的檢測都未必是通用物體檢測里面的方法能夠解決的。就個人經(jīng)驗(yàn)而言,即使人臉和行人的檢測,也有很多是跟通用物體檢測不太一樣的地方。比如一個典型的是速度問題,在通用物體檢測里面,有關(guān)注輕便檢測器的,但還不至于研究到非常極致的程度。像在人臉和行人中,特別是人臉,其實(shí)已經(jīng)把網(wǎng)絡(luò)做到非常極致了,就是非常輕便快速的檢測器,而且同時精度也能達(dá)到非常高的檢測器。這就是一個來自實(shí)際的需求導(dǎo)致的一個問題。還有一些特殊的問題,比如說遮擋、低分辨率、模糊等。通用物體里通常很難定義關(guān)鍵點(diǎn),但是像物體、人臉和行人,這些是非常典型的,能定義各種關(guān)鍵點(diǎn)。在實(shí)際運(yùn)用當(dāng)中,也是需要檢測這些關(guān)鍵點(diǎn)。還有一個點(diǎn)是泛化能力問題。雖然通用物體數(shù)據(jù)庫很大,人臉也不缺乏訓(xùn)練數(shù)據(jù),但是對于行人來說樣本相對比較缺乏,在一些常見的庫上訓(xùn)練出的行人監(jiān)測器,拿到別的地方去測的時候,泛化性能通常不會太好,因此泛化性是需要研究不是大規(guī)模數(shù)據(jù)訓(xùn)練時訓(xùn)出的檢測器能否在別的數(shù)據(jù)上用的一個問題。

雷震:從檢測難度上來說,人臉和行人作為通用物體的一種。通用物體的這個框架對人臉和行人有一定的指導(dǎo)作用,實(shí)際上目前做的很多東西就是從通用物體檢測里面直接過來的。人臉和行人的種類相對來說是單一物體,理論上能夠比通用物體做的更好,對精度和速度能夠提出更高的要求,把人臉行人用在嵌入式設(shè)備上面能夠達(dá)到既快又準(zhǔn)。同時這個行人和人臉,因?yàn)橛凶约旱男螤畲笮?,所以也可能從分塊上比較好地處理遮擋問題。另外關(guān)于樣本比較少的瑕疵問題,可以用通用的知識輔助檢測,也可以用圖像處理的方法人為地生成一些虛擬的樣本。對這種樣本比較少的場景,一是要開發(fā)處理小樣本的機(jī)器學(xué)習(xí)方法,二是圖像處理生成比較逼真的樣本,這對檢測器訓(xùn)練的精度也是比較有幫助的。

諸宸辰:特殊類別主要應(yīng)該考慮challenge的位置,例如人臉的challenge在于一方面經(jīng)常有非常小的目標(biāo),另一方面是人臉有時候會被高度遮擋,比如說戴口罩。對于這種狀態(tài)可以用特殊的方法論,一個人臉基本上可以確定一個人體是在那里,可以利用人臉和人體之間的相互關(guān)系,比如可以從人體的位置去推測人臉的位置。行人的challenge主要在于兩個行人之間會有高度重疊。近期工作中表明不是一個Anchor對應(yīng)一個目標(biāo),可以從一個Anchor去預(yù)測多個目標(biāo)。因?yàn)閿?shù)據(jù)自然而然就會呈現(xiàn)出long tail分布,所以總有一些類的樣本數(shù)量比較少,這方面可以通過比較樣本數(shù)量比較多的類和樣本數(shù)量少的類之間的相互關(guān)系,去做一個類別推理。


觀眾提問:在多目標(biāo)檢測的時候,非常容易出現(xiàn)類別不平衡的一個現(xiàn)象,有沒有什么思路?

諸宸辰:最近有關(guān)于few-shot方面的檢測,對于類別多的物體,可以正常地去按現(xiàn)有的方法去做,類別少的物體,通過類別多的物體和類別少的物體之間相互關(guān)系去作一個推理。另外可以借鑒最近few-shot方面利用meta-learning的方式,例如用episode learning的方式去做few-shot detection。

吳慶波:樣本不平衡的情況,常見的思路包括樣本的重采樣,因?yàn)橛械臉颖径?,有的樣本少,如果只是單純是想讓樣本在分布上比較均勻的話,在訓(xùn)練數(shù)據(jù)上可以通過重采樣的方式來處理,包括少量類別做特定的數(shù)據(jù)增廣。另外一種方法, learning過程中對不同樣本采用重加權(quán),對于特定樣本,為了防止樣本少的類別在訓(xùn)練過程當(dāng)中產(chǎn)生bias,可以在訓(xùn)練的過程當(dāng)中調(diào)整不同樣本類別之間的權(quán)重。



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉