麻省理工研究:深度圖像分類器,居然還會(huì)過度解讀
作者 | 青蘋果
來源 | 數(shù)據(jù)實(shí)戰(zhàn)派
某些情況下,深度學(xué)習(xí)方法能識(shí)別出一些在人類看來毫無意義的圖像,而這些圖像恰恰也是醫(yī)療和自動(dòng)駕駛決策的潛在隱患所在。換句話說,深度圖像分類器可以使用圖像的邊界,而非對(duì)象本身,以超過 90% 的置信度確定圖像類別。
不過,麻省理工學(xué)院的科學(xué)家最近發(fā)現(xiàn)了一種新穎的、更微妙的圖像識(shí)別失敗類:“過度解讀”,即算法基于一些人類無法理解的細(xì)節(jié),如隨機(jī)模式或圖像邊界,而做出自信的預(yù)測(cè)。對(duì)于高風(fēng)險(xiǎn)的環(huán)境來說,這可能尤其令人擔(dān)憂,比如自動(dòng)駕駛汽車的瞬間決策,以及需要立即關(guān)注的疾病醫(yī)療診斷等,這都與生命安全息息相關(guān)。
研究團(tuán)隊(duì)發(fā)現(xiàn),在 CIFAR-10 和 ImageNet 等流行數(shù)據(jù)集上訓(xùn)練的神經(jīng)網(wǎng)絡(luò),就存在著過度解讀的問題。
例如,在 CIFAR-10 上訓(xùn)練的模型,即使輸入圖像存在 95% 缺失的情況下,也能做出自信的預(yù)測(cè)。也就是說,在未包含語義顯著特征的圖像區(qū)域中,分類器發(fā)現(xiàn)強(qiáng)有力的類證據(jù)時(shí),就會(huì)發(fā)生模型過度解釋。
過度解釋與過擬合有關(guān),但過擬合可以通過降低測(cè)試精度來診斷。過度解釋可能源于底層數(shù)據(jù)集分布中的真實(shí)統(tǒng)計(jì)信號(hào),而這些統(tǒng)計(jì)信號(hào)恰好來自數(shù)據(jù)源的特定屬性(如皮膚科醫(yī)生的臨床評(píng)分表)。
因此,過度解釋可能更難診斷,因?yàn)樗姓J(rèn)決策是由統(tǒng)計(jì)上有效的標(biāo)準(zhǔn)做出的,而使用這些標(biāo)準(zhǔn)的模型可以在基準(zhǔn)測(cè)試中表現(xiàn)的較為出色。
過度解釋發(fā)生在原始圖像的未修改子集上。與使用額外信息修改圖像的對(duì)抗性示例相反,過度解釋基于訓(xùn)練數(shù)據(jù)中已經(jīng)存在的真實(shí)模式,這些模式也可以泛化到測(cè)試分布。要想揭示過度解釋,則需要一種系統(tǒng)的方法來識(shí)別哪些特征被模型用來做出決策。
這篇研究論文被 NIPS 收錄,標(biāo)題為“Overinterpretation reveals image classificationmodel pathologies”,文中引入了一種新的方法——批處理梯度 SIS(Sufficient Input Subsets),用于發(fā)現(xiàn)復(fù)雜數(shù)據(jù)集的充足的輸入子集,并利用該方法在ImageNet中顯示邊界像素的充分性,用于訓(xùn)練和測(cè)試。
該文章的第一作者、MIT 計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室博士生Brandon Carter說,“過度解讀實(shí)質(zhì)上是一種數(shù)據(jù)集問題,由數(shù)據(jù)集中的無意義信號(hào)而引起的。這些高置信度圖像不僅無法識(shí)別,而且在邊界等不重要的區(qū)域,它們只包含不到 10% 的原始圖像。我們發(fā)現(xiàn)這些圖像對(duì)人類來說毫無意義,但模型仍然可以高度自信地對(duì)其進(jìn)行分類?!?/p>
比如,在用于癌癥檢測(cè)的醫(yī)學(xué)圖像分類器的示例中,可以通過找到描述標(biāo)尺的像素來識(shí)別病理行為,這足以讓模型自信地輸出相同的分類。
早先研究者便提出了 SIS 的概念,用于幫助人類解釋黑盒模型的決策。SIS 子集是特征(如像素)的最小子集,它足以在所有其他特征被掩蓋的情況下,產(chǎn)生高于某個(gè)閾值的類概率。
基準(zhǔn)數(shù)據(jù)集的隱藏統(tǒng)計(jì)信號(hào)可能導(dǎo)致模型過度解釋或不適用于來自不同分布的新數(shù)據(jù)。
CIFAR-10 和 ImageNet 已成為最流行的兩種圖像分類基準(zhǔn)。大多數(shù)圖像分類器由 CV 社區(qū)根據(jù)其在這些基準(zhǔn)之一中的準(zhǔn)確性進(jìn)行評(píng)估。
除此之外,團(tuán)隊(duì)還使用 CIFAR-10-C 數(shù)據(jù)集來評(píng)估 CIFAR-10 模型可以泛化到分布外(OOD,Out-Of-Distribution)數(shù)據(jù)的程度。在這里,團(tuán)隊(duì)成員分析了在這些基準(zhǔn)上流行的 CNN 架構(gòu)的過度解釋,以表征病理。通過一系列的實(shí)驗(yàn)證明,在 CIFAR-10 和 ImageNet 上訓(xùn)練的分類器,可以基于 SIS 子集進(jìn)行決策,哪怕只包含少量像素和缺乏人類可理解的語義內(nèi)容。
圖1 顯示了來自 CIFAR-10 測(cè)試圖像的示例 SIS 子集(閾值為 0.99)。對(duì)于這些 SIS 子集圖像,每個(gè)模型對(duì)預(yù)測(cè)類的置信度均≥99%,能夠自信且正確地進(jìn)行分類。
團(tuán)隊(duì)觀察到,這些 SIS 子集具有高度稀疏的特征,在此閾值下,SIS 的平均尺寸小于每幅圖像的 5%(如圖2 所示),這表明這些 CNNs 可以自信地對(duì)那些對(duì)人類來說似乎毫無意義的圖像進(jìn)行分類,隨之也就掀起了對(duì)魯棒性和泛化性的關(guān)注熱潮。此外,團(tuán)隊(duì)發(fā)現(xiàn), SIS 的尺寸大小也是影響類預(yù)測(cè)準(zhǔn)確性的重點(diǎn)因素。
到目前為止,深度圖像分類器應(yīng)用領(lǐng)域愈加廣泛,除了醫(yī)療診斷和增強(qiáng)自動(dòng)駕駛汽車技術(shù)外,在安全、游戲,甚至在一款可以告訴你某物是不是熱狗的小程序上也有所應(yīng)用。
考慮到機(jī)器學(xué)習(xí)模型能夠捕捉到這些無意義的微妙信號(hào),圖像分類的難度之大也就不言而喻。比如,在 ImageNet 數(shù)據(jù)集上訓(xùn)練圖像分類器時(shí),它們便可以基于這些信號(hào)做出看似可靠的預(yù)測(cè)。
盡管這些無意義的信號(hào)會(huì)削弱模型在真實(shí)世界中的魯棒性,但實(shí)際上,這些信號(hào)在數(shù)據(jù)集中是有效的,這也就意味著,基于該準(zhǔn)確性的典型評(píng)估方法無法診斷過度解釋。
為了找到模型對(duì)特定輸入的預(yù)測(cè)的基本原理,本研究中的方法從整幅圖像入手,反復(fù)研究,每一步究竟可以從圖像上刪除的內(nèi)容。
團(tuán)隊(duì)采用局部后向選擇(local backward selection),在每幅圖像中保留 5% 的像素且用零掩碼其余的 95%。從本質(zhì)上說,這個(gè)過程會(huì)一直掩蓋圖像,直到殘留的最小的部分仍然可以做出有把握的決定,讓這些像素子集的分類精度堪比完整圖像的分類精度。
如表1 所示,相比于從每幅圖像中均勻隨機(jī)選擇的像素子集,通過后向選擇所篩選的同樣大小的子集具有更強(qiáng)的預(yù)測(cè)性。
圖3a 顯示了所有 CIFAR-10 的測(cè)試圖像中,這些 5% 像素子集的像素位置和置信度。
研究發(fā)現(xiàn),ResNet20 的底部邊界上像素的集中是SIS向后選擇過程中“決勝”的結(jié)果。此外,團(tuán)隊(duì)成員還在 CIFAR-10 上運(yùn)行了分批梯度 SIS,并為 CIFAR-10 找到了充足的邊緣輸入子集。
而圖3b 顯示了來自 1000 張 ImageNet 驗(yàn)證圖像的隨機(jī)樣本的 SIS 像素位置。關(guān)注度沿圖像邊界分布,表明該模型嚴(yán)重依賴于圖像背景,存在嚴(yán)重的過度解釋問題。
圖4 顯示了,在經(jīng)過預(yù)訓(xùn)練的 Inception v3,通過批處理梯度 SIS 自信分類的圖像上發(fā)現(xiàn)的例子 SIS 子集(閾值 0.9)。這些 SIS 子集看起來毫無意義,但網(wǎng)絡(luò)將其分類的置信度≥90%。
CNNs 對(duì)圖像分類的過度自信可能會(huì)引發(fā)懷疑,在語義無意義的 SIS 子集上觀察到的過度自信是否是校準(zhǔn)的偽像,而非數(shù)據(jù)集中的真實(shí)統(tǒng)計(jì)信號(hào)呢?
實(shí)驗(yàn)結(jié)果如表1 所示,隨機(jī) 5% 的圖像子集仍然能夠捕捉到足夠的信號(hào),預(yù)測(cè)效果大約是盲猜的 5 倍,然而這并不足以捕捉到充足的信息,讓模型做出準(zhǔn)確的預(yù)測(cè)。
更多地,團(tuán)隊(duì)發(fā)現(xiàn),無論是 CIFAR-10 測(cè)試圖像(圖5)還是 CIFAR-10- C OOD 圖像,在所有 SIS 置信閾值上,正確分類圖像的 SIS 子集都顯著大于錯(cuò)誤分類圖像的 SIS 子集。
有研究表示,模型集成可以提高分類性能。由于團(tuán)隊(duì)發(fā)現(xiàn),像素子集的大小與人類像素子集分類的準(zhǔn)確性密切相關(guān),于是,用來衡量集成程度可以緩解過度解釋的指標(biāo)是 SIS 子集大小的增加。
結(jié)果顯示,集成測(cè)試一致地增加了預(yù)期的測(cè)試準(zhǔn)確性,與此同時(shí)也增加了 SIS 的大小,因此削弱了過度解釋的損害。
當(dāng)然,文中的方法也可以作為一種驗(yàn)證標(biāo)準(zhǔn)。
例如,如果你有一輛自動(dòng)駕駛汽車,它使用訓(xùn)練有素的機(jī)器學(xué)習(xí)方法來識(shí)別停車標(biāo)志,你可以通過識(shí)別構(gòu)成停車標(biāo)志的最小輸入子集來測(cè)試這種方法。
雖然看起來模型可能是罪魁禍?zhǔn)?,但?shù)據(jù)集的嫌疑更大。這可能意味著在更受控制的環(huán)境中創(chuàng)建數(shù)據(jù)集。
“存在一個(gè)問題,我們?nèi)绾涡薷臄?shù)據(jù)集,使模型能夠更接近地模仿人類對(duì)圖像分類的想法,從而有望在自動(dòng)駕駛和醫(yī)療診斷等現(xiàn)實(shí)場(chǎng)景中更好地推廣和應(yīng)用,這樣一來,模型就不會(huì)再產(chǎn)生荒謬的行為,” Carter 表示。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
回流焊相關(guān)文章:回流焊原理