CVPR2021佳作 | 重新標(biāo)記ImageNet:從全局標(biāo)簽到局部標(biāo)簽
ImageNet可以說(shuō)是最受歡迎的圖像分類(lèi)基準(zhǔn),但它也是一個(gè)具有顯著噪聲的標(biāo)簽。最近的研究表明,許多樣本包含多個(gè)類(lèi),盡管被假定為單個(gè)標(biāo)簽基準(zhǔn)。因此,他們建議將ImageNet評(píng)估變成一個(gè)多標(biāo)簽任務(wù),每個(gè)圖像都有詳盡的多標(biāo)簽注釋。然而,他們還沒(méi)有固定訓(xùn)練集,大概是因?yàn)閺?qiáng)大的注釋成本。
1.動(dòng)機(jī)
所以作者認(rèn)為在訓(xùn)練設(shè)置中,單標(biāo)簽注釋和有效的多標(biāo)簽圖像之間的不匹配是同樣的問(wèn)題。使用單標(biāo)簽注釋?zhuān)瑘D像的隨機(jī)裁剪可能包含與真值完全不同的目標(biāo),在訓(xùn)練過(guò)程中引入噪聲甚至不正確的監(jiān)督。因此,作者用多標(biāo)簽重新標(biāo)記ImageNet訓(xùn)練集。
通過(guò)讓一個(gè)強(qiáng)大的圖像分類(lèi)器,在額外的數(shù)據(jù)源上訓(xùn)練,生成多標(biāo)簽來(lái)解決注釋成本障礙。利用最終池化層之前的像素級(jí)多標(biāo)簽預(yù)測(cè),以利用額外的特定位置的監(jiān)督信號(hào)。對(duì)重新標(biāo)記的樣本進(jìn)行訓(xùn)練,可以全面提高模型性能。在ImageNet上,ResNet-50的分類(lèi)精度達(dá)到了78.9%,局部多標(biāo)簽,這可以進(jìn)一步提高到80.2%。作者表明,用局部多標(biāo)簽訓(xùn)練的模型也優(yōu)于遷移學(xué)習(xí)到目標(biāo)檢測(cè)和實(shí)例分割任務(wù)的基線(xiàn),以及各種魯棒性基準(zhǔn)。
2.引言
每個(gè)圖像的目標(biāo)類(lèi)的多樣性與單個(gè)標(biāo)簽的分配之間的不匹配不僅導(dǎo)致了評(píng)估問(wèn)題,而且還導(dǎo)致了訓(xùn)練問(wèn)題:監(jiān)督變的嘈雜。random crop augmentation的廣泛采用加劇了這一問(wèn)題。圖像的隨機(jī)裁剪可能包含與原始單個(gè)標(biāo)簽完全不同的對(duì)象,在訓(xùn)練過(guò)程中引入潛在的錯(cuò)誤監(jiān)督信號(hào),如下圖所示。
Random crop augmentation不僅對(duì)具有多個(gè)對(duì)象類(lèi)的圖像產(chǎn)生監(jiān)督噪聲。即使對(duì)于具有單個(gè)對(duì)象類(lèi)的圖像,隨機(jī)裁剪通常也不包含前景對(duì)象。據(jù)估計(jì),在標(biāo)準(zhǔn)的ImageNet訓(xùn)練設(shè)置下,8%的隨機(jī)裁剪與真實(shí)值沒(méi)有重疊。只有23.5%的隨機(jī)裁剪與真實(shí)的IoU大于50%(見(jiàn)下圖)。在ImageNet上訓(xùn)練模型不可避免地涉及到許多嘈雜的監(jiān)督信號(hào)。
3.問(wèn)題
Labeling issues in ImageNet
ImageNet有效地作為圖像分類(lèi)器的標(biāo)準(zhǔn)基準(zhǔn),Shankar等人認(rèn)為:“方法在這個(gè)基準(zhǔn)上的性能是活的還是死的”。
因此,基準(zhǔn)本身的可靠性已成為認(rèn)真研究和分析的主題。與許多其他數(shù)據(jù)集一樣,ImageNet包含許多標(biāo)簽噪聲。在ImageNet上最持久和系統(tǒng)的標(biāo)簽錯(cuò)誤類(lèi)型之一是錯(cuò)誤的單個(gè)標(biāo)簽,指的是在多個(gè)現(xiàn)有類(lèi)別中只有一個(gè)被注釋的情況。這種錯(cuò)誤很普遍,因?yàn)镮mageNet包含許多具有多個(gè)類(lèi)的圖像。
Shankar等人和Beyer等人為錯(cuò)誤的單個(gè)標(biāo)簽確定了三個(gè)子類(lèi)別:
(1) 圖像包含多個(gè)對(duì)象類(lèi),
(2 )存在多個(gè)同義或?qū)哟涡缘臉?biāo)簽,包括另一個(gè),
(3) 圖像中固有的模糊性使多個(gè)標(biāo)簽可信。
這些研究已經(jīng)將驗(yàn)證集標(biāo)簽細(xì)化為多標(biāo)簽,以對(duì)有效的多標(biāo)簽圖像建立真實(shí)和公平的模型評(píng)估。然而,[Vaishaal Shankar, Rebecca Roelofs, Horia Mania, Alex Fang, Benjamin Recht, and Ludwig Schmidt. Evaluating machine accuracy on imagenet. In Proceedings of the 37th International Conference on Machine Learning, 2020]關(guān)注的重點(diǎn)只是驗(yàn)證,而不是訓(xùn)練。[Lucas Beyer, Olivier J Henaff, Alexander Kolesnikov, Xiaohua Zhai, and Aaron van den Oord. Are we done with imagenet? arXiv preprint arXiv:2006.07159, 2020]引入了一種清理方案,通過(guò)使用強(qiáng)分類(lèi)器的預(yù)測(cè)來(lái)驗(yàn)證來(lái)刪除具有潛在錯(cuò)誤標(biāo)簽的訓(xùn)練樣本。
作者的工作重點(diǎn)是對(duì)ImageNet訓(xùn)練標(biāo)簽的清理策略。和[Lucas Beyer, Olivier J Henaff, Alexander Kolesnikov, Xiaohua Zhai, and Aaron van den Oord. Are we done with imagenet? arXiv preprint arXiv:2006.07159, 2020]一樣,作者也使用強(qiáng)分類(lèi)器來(lái)清理訓(xùn)練標(biāo)簽。與其不同的是,作者糾正了錯(cuò)誤的標(biāo)簽,而不是刪除。
作者提出的標(biāo)簽也是在每個(gè)地區(qū)給出的。在實(shí)驗(yàn)中表明,新的方案比[Lucas Beyer, Olivier J Henaff, Alexander Kolesnikov, Xiaohua Zhai, and Aaron van den Oord. Are we done with imagenet? arXiv preprint arXiv:2006.07159, 2020]提高了性能。
4.Re-labeling ImageNet
Training a Classifier with Dense Multi-labels
在獲得了如上所述的密集多標(biāo)簽L∈RW×H×C之后,我們?nèi)绾斡盟鼈冇?xùn)練分類(lèi)器?
為此,提出了一種新的訓(xùn)練方案,LabelPooling(標(biāo)簽池化),它考慮了局部真值。在上圖中顯示了標(biāo)簽池化和原始ImageNet訓(xùn)練之間的區(qū)別。在一個(gè)標(biāo)準(zhǔn)的ImageNet訓(xùn)練設(shè)置中,隨機(jī)裁剪的監(jiān)督是由每個(gè)圖像給出的單個(gè)標(biāo)簽真值給出的。另一方面,標(biāo)簽池加載一個(gè)預(yù)先計(jì)算的標(biāo)簽映射,并在標(biāo)簽映射上進(jìn)行與隨機(jī)裁剪坐標(biāo)對(duì)應(yīng)的區(qū)域池化操作。 作者采用RoIAlign區(qū)域池化方法,在集合預(yù)測(cè)映射上執(zhí)行全局平均池化和Softmax操作,以獲得[0,1]中的多標(biāo)簽真值向量,并與該模型進(jìn)行訓(xùn)練。使用交叉熵?fù)p失,訓(xùn)練計(jì)劃的偽代碼實(shí)施情況如下:
Which machine annotator should we select?
目標(biāo)模型的性能總體上遵循machine annotator的性能。當(dāng)機(jī)器監(jiān)督不夠強(qiáng)(例如,EfficientNet-B1)時(shí),經(jīng)過(guò)訓(xùn)練的模型表現(xiàn)出嚴(yán)重的性能下降(76.1%)。我們選擇EfficientNet-L2作為機(jī)器注釋器,在其余的實(shí)驗(yàn)中,ResNet-50(78.9%)的性能最好。
5.實(shí)驗(yàn)結(jié)果
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。