魏云超:弱監(jiān)督語義分割研究的早期開拓者,推動(dòng)計(jì)算機(jī)視覺發(fā)展,或?qū)閿?shù)字農(nóng)業(yè)帶來巨大變革 | 創(chuàng)新35人專欄
1 月 22 日,由 DeepTech 攜手絡(luò)繹科學(xué)舉辦的“MEET35:創(chuàng)新者說”論壇暨“35 歲以下科技創(chuàng)新 35 人”2021 年中國線上發(fā)布儀式成功舉行。來自科學(xué)界和產(chǎn)業(yè)界的人士在云端共同見證了新一屆中國青年科技領(lǐng)軍人物登場。
絡(luò)繹科學(xué)邀請到了“創(chuàng)新 35 人” 2021 中國入選者北京交通大學(xué)教授魏云超,做客直播間,從面向非完美數(shù)據(jù)像素理解方面的研究工作與我們進(jìn)行了分享。
作為“先鋒者”入選的魏云超主要研究集中在開發(fā)基于不完美標(biāo)注數(shù)據(jù)的深度學(xué)習(xí)相關(guān)技術(shù),進(jìn)而幫助計(jì)算機(jī)“看到”和理解復(fù)雜場景中的各種物體。因其提出一系列原創(chuàng)的弱監(jiān)督語義分割解決方案,而成功入選“創(chuàng)新 35 人”。
獲獎(jiǎng)時(shí)年齡:35 歲
獲獎(jiǎng)時(shí)職位:北京交通大學(xué)教授
獲獎(jiǎng)理由:他是弱監(jiān)督語義分割研究的早期開拓者,推動(dòng)了非完美數(shù)據(jù)條件下視覺理解的發(fā)展。
人類認(rèn)知世界的信息中 83% 來自于視覺,而在人工智能時(shí)代,計(jì)算機(jī)視覺則是機(jī)器認(rèn)知世界的基礎(chǔ)。
計(jì)算機(jī)視覺的發(fā)展歷史可以追溯至 20 世紀(jì) 60 年代,隨著機(jī)器學(xué)習(xí)的興起,以及互聯(lián)網(wǎng)的崛起使得大量數(shù)據(jù)隨之產(chǎn)生,大規(guī)模數(shù)據(jù)集也隨之產(chǎn)生,這為機(jī)器學(xué)習(xí)應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域提供了一個(gè)良好的環(huán)境。2010 年左右,因深度學(xué)習(xí)的產(chǎn)生,人工智能迎來了一次大變革。在過去 10 年中,基于深度學(xué)習(xí)的監(jiān)督學(xué)習(xí)極大地提升了計(jì)算機(jī)視覺相關(guān)任務(wù)的性能。
監(jiān)督學(xué)習(xí)的成功主要?dú)w功于大規(guī)模標(biāo)注數(shù)據(jù)的出現(xiàn)和計(jì)算機(jī)硬件的發(fā)展。然而,這些監(jiān)督學(xué)習(xí)的算法通常都依賴大量完美標(biāo)注的數(shù)據(jù),即“data-hungry”。在很多真實(shí)場景中,往往很難獲得足夠多高質(zhì)量的標(biāo)注數(shù)據(jù),導(dǎo)致這些監(jiān)督算法很難被直接用于真實(shí)的工業(yè)級應(yīng)用中。
為了解決這個(gè)問題,魏云超自 2014 年開始從事基于不完美數(shù)據(jù)的相關(guān)研究,開發(fā)基于不完美標(biāo)注數(shù)據(jù)的深度學(xué)習(xí)相關(guān)技術(shù),是該領(lǐng)域早期的開拓者之一。他已經(jīng)在國際頂級期刊和頂級會(huì)議論文上發(fā)表了眾多具有國際影響力的研究論文,包括在模式識(shí)別和機(jī)器智能領(lǐng)域最好的國際期刊 IEEE TPAMI 上發(fā)表的 12 篇高質(zhì)量論文,并多次受邀作為專家參與研究領(lǐng)域的同行評審工作。
弱監(jiān)督語義分割早期開拓者,多種方案推動(dòng)計(jì)算機(jī)視覺發(fā)展
2013 年底,魏云超以訪問學(xué)者的身份進(jìn)入新加坡國立大學(xué)顏水成教授的機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺實(shí)驗(yàn)室。當(dāng)時(shí)由于深度學(xué)習(xí)的興起,大量計(jì)算機(jī)視覺基礎(chǔ)問題的解決方案被重新定義,魏云超在顏水成教授的指導(dǎo)下開始涉獵分類、檢測和分割等核心問題。
弱監(jiān)督語義分割
在研究過程中,魏云超發(fā)現(xiàn)所有跟深度學(xué)習(xí)相關(guān)的計(jì)算機(jī)視覺算法都依賴大量的標(biāo)注樣本,若沒有足夠多的訓(xùn)練樣本,結(jié)果就會(huì)很差。這個(gè)問題在語義分割上的表現(xiàn)尤為突出,因?yàn)橐粡埻昝赖南袼丶墭?biāo)注樣本往往需要消耗幾分鐘甚至一個(gè)小時(shí)?;诖?,魏云超提出了一系列弱監(jiān)督語義分割解決方案,利用相對容易獲取的圖像標(biāo)簽作為監(jiān)督信息進(jìn)行訓(xùn)練,在測試中完成復(fù)雜的圖像分割任務(wù),即像素級分類,這種方法比當(dāng)時(shí)最高的弱監(jiān)督的結(jié)果提高了 10%。
但在研究過程中,魏云超發(fā)現(xiàn)標(biāo)注數(shù)據(jù)并不直接含有標(biāo)簽和像素的對應(yīng)關(guān)系,存在語義關(guān)聯(lián)鴻溝。針對這些問題,魏云超提出了物體顯著性引導(dǎo)、識(shí)別-擦除相對抗、注意力遷移等多種解決方案,并在過去三年將模型在 PASCAL 數(shù)據(jù)集上的分類性能提升了 20%。
識(shí)別-擦除相對抗
在絡(luò)繹科學(xué) APP 上中國區(qū)第五屆“35 歲以下科技創(chuàng)新 35 人”的線上發(fā)布儀式中,魏云超重點(diǎn)分享了他在識(shí)別-擦除相對抗這一方案的工作。
分類網(wǎng)絡(luò)通常僅依賴于物體的某些判別區(qū)域。比如,在一張以狗為主體的圖片中,狗的頭部通常具有較強(qiáng)的判別力,可以使網(wǎng)絡(luò)識(shí)別出圖片中包含狗,從而忽略狗的其他區(qū)域。但對于弱監(jiān)督學(xué)習(xí)的語義分割任務(wù)而言,需要比較稠密和完整的定位圖去訓(xùn)練更好的模型,僅僅依賴于分類網(wǎng)絡(luò)直接生成的定位圖很難訓(xùn)練出有效模型。
受計(jì)算機(jī)輔助制造(CAM)的啟發(fā),魏云超先將包含狗的圖片輸入分類網(wǎng)絡(luò),通過訓(xùn)練得到對于狗而言最具判別力的區(qū)域,如狗的頭部。接下來,將狗的頭部從圖片中擦除掉,并將擦除后的圖片輸入分類網(wǎng)絡(luò)進(jìn)行再訓(xùn)練。網(wǎng)絡(luò)會(huì)尋找其他證據(jù)來使得圖像可以被正確分類,進(jìn)而找到狗的胸部。重復(fù)此操作后,狗的腳部區(qū)域也可以被發(fā)現(xiàn)。最后,將擦除掉的區(qū)域合并從而獲取相對完整的區(qū)域。通過挖掘出很多高質(zhì)量的物體的區(qū)域用來去訓(xùn)練分割網(wǎng)絡(luò)的方式,可以得到比之前更高的結(jié)果。
基于以上工作,魏云超發(fā)表了兩篇對該領(lǐng)域有重要推動(dòng)作用的文章,一篇利用顯著性分析圖來建立圖像類別標(biāo)簽和像素的關(guān)聯(lián),文章發(fā)表在 2016 年的 IEEE T-PAMI 上,他引次數(shù)為 275,這一工作將分割性能至少提升了 10%。另一篇是創(chuàng)新性地提出了對抗-擦除(adversarial erasing)這一概念,該文章 2017 年被 CVPR 接收為 oral 報(bào)告文章(錄用率僅2.67%),他引次數(shù)為 254,并在隨后影響了很多其它方向的研究人員。
為推動(dòng)相關(guān)研究,魏云超還組織了第一屆和第二屆 CVPR Learning from Imperfect Data (LID) 研討會(huì)和 ICCV Real-World Recognition from Low Quality Images and Videos (RLQ) 研討會(huì),吸引了數(shù)百位來自世界各地的研究人員,推動(dòng)了利用有限標(biāo)注或噪聲等不完美數(shù)據(jù)來解決計(jì)算機(jī)視覺及其應(yīng)用方面的相關(guān)研究。
創(chuàng)建免費(fèi)開放的高校標(biāo)注平臺(tái),將重點(diǎn)研究農(nóng)業(yè)圖像和無人機(jī)視覺
最近幾年,除了之前的研究方向外,魏云超主要針對視覺媒體的物體和場景分割展開研究,并在半監(jiān)督視頻分割、交互式圖像/視頻分割領(lǐng)域進(jìn)行了深入研究。他提出的 Inside-Outside Guidance (IOG) 交互分割方法,在 10 個(gè)數(shù)據(jù)集上都取得了國際領(lǐng)先的分割結(jié)果?;?IOG,魏云超快速且精準(zhǔn)地標(biāo)注國際知名的包含 1000 類物體的 ImageNet 數(shù)據(jù)集。
圖像/視頻分割具備非常廣闊的應(yīng)用場景,包括自動(dòng)駕駛、醫(yī)療圖像分割、農(nóng)業(yè)圖像分割、衛(wèi)星圖像識(shí)別及視頻編輯等。但所有的應(yīng)用場景目前都受制于數(shù)據(jù)的缺失,即很難獲取大量高精度的標(biāo)注數(shù)據(jù)。因此,魏云超計(jì)劃將自己在圖像和視頻分割上的研究成果整合成一個(gè)高效的標(biāo)注平臺(tái),利用深度學(xué)習(xí)技術(shù)輔助標(biāo)注,并免費(fèi)對外開放。
談到下一個(gè)階段的研究方向和目標(biāo)時(shí),魏云超表示,除之前的研究方向外,還將在農(nóng)業(yè)圖像和無人機(jī)視覺這兩個(gè)方向投入更多精力。
“中國是農(nóng)業(yè)大國,但針對農(nóng)業(yè)方面的計(jì)算機(jī)視覺相關(guān)研究,在國內(nèi)幾乎沒有。我今年同伊利諾伊大學(xué)厄本那香檳分校和美國 IntelinAir 公司合作推出了首個(gè)大規(guī)模的農(nóng)業(yè)圖像分割數(shù)據(jù)集 AGRICULTURE-VISION。但在構(gòu)建數(shù)據(jù)集過程中標(biāo)注非常困難,我們也引入了一些弱監(jiān)督和交互式物體分割技術(shù)來解決這一問題。后面希望這一方向能在中國得到更多重視和發(fā)展?!蔽涸瞥f道。
“隨著新冠疫情的全球爆發(fā),無人配送也得到了更多關(guān)注。如何使得無人機(jī)自動(dòng)感知整個(gè)場景實(shí)現(xiàn)自動(dòng)配送或定點(diǎn)投放,有可能會(huì)成為將來重要的實(shí)際應(yīng)用點(diǎn)。但由于無人機(jī)下真實(shí)場景的數(shù)據(jù)收集非常困難,我利用 Google Earth 的 3D 引擎構(gòu)建一個(gè)無人機(jī)目標(biāo)定位數(shù)據(jù)集 University-1652,目標(biāo)是希望通過衛(wèi)星圖或地面圖使得無人機(jī)自動(dòng)識(shí)別建筑。雖然圖像是虛擬的不完美數(shù)據(jù),但希望通過領(lǐng)域自適應(yīng)等技術(shù)在未來解決這一問題。”
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。