CV不存在了?Meta發(fā)布「分割一切」AI 模型,CV或迎來GPT-3時(shí)刻
CV 研究者接下來的路要怎么走?
「這下 CV 是真不存在了。< 快跑 >」這是知乎網(wǎng)友對(duì)于一篇 Meta 新論文的評(píng)價(jià)。
如標(biāo)題所述,這篇論文只做了一件事情:(零樣本)分割一切。類似 GPT-4 已經(jīng)做到的「回答一切」。
Meta 表示,這是第一個(gè)致力于圖像分割的基礎(chǔ)模型。自此,CV 也走上了「做一個(gè)統(tǒng)一某個(gè)(某些?全部?)任務(wù)的全能模型」的道路。
在此之前,分割作為計(jì)算機(jī)視覺的核心任務(wù),已經(jīng)得到廣泛應(yīng)用。但是,為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型通常需要技術(shù)專家進(jìn)行高度專業(yè)化的工作,此外,該項(xiàng)任務(wù)還需要大量的領(lǐng)域標(biāo)注數(shù)據(jù),種種因素限制了圖像分割的進(jìn)一步發(fā)展。
Meta 在論文中發(fā)布的新模型名叫 Segment Anything Model (SAM) 。他們?cè)诓┛椭薪榻B說,「SAM 已經(jīng)學(xué)會(huì)了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓(xùn)練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領(lǐng)域』上即開即用,無需額外的訓(xùn)練。」在深度學(xué)習(xí)領(lǐng)域,這種能力通常被稱為零樣本遷移,這也是 GPT-4 震驚世人的一大原因。
論文地址:https://arxiv.org/abs/2304.02643
項(xiàng)目地址:https://github.com/facebookresearch/segment-anything
Demo 地址:https://segment-anything.com/
除了模型,Meta 還發(fā)布了一個(gè)圖像注釋數(shù)據(jù)集 Segment Anything 1-Billion (SA-1B),據(jù)稱這是有史以來最大的分割數(shù)據(jù)集。該數(shù)據(jù)集可用于研究目的,并且 Segment Anything Model 在開放許可 (Apache 2.0) 下可用。
我們先來看看效果。如下面動(dòng)圖所示,SAM 能很好的自動(dòng)分割圖像中的所有內(nèi)容:
SAM 還能根據(jù)提示詞進(jìn)行圖像分割。例如輸入 Cat 這個(gè)提示詞,SAM 會(huì)在照片中的幾只貓周圍繪制框并實(shí)現(xiàn)分割:
SAM 還能用交互式點(diǎn)和框的方式進(jìn)行提示:
此外,SAM 還能為不明確的提示生成多個(gè)有效掩碼:
英偉達(dá)人工智能科學(xué)家 Jim Fan 表示:「對(duì)于 Meta 的這項(xiàng)研究,我認(rèn)為是計(jì)算機(jī)視覺領(lǐng)域的 GPT-3 時(shí)刻之一。它已經(jīng)了解了物體的一般概念,即使對(duì)于未知對(duì)象、不熟悉的場(chǎng)景(例如水下圖像)和模棱兩可的情況下也能進(jìn)行很好的圖像分割。最重要的是,模型和數(shù)據(jù)都是開源的。恕我直言,Segment-Anything 已經(jīng)把所有事情(分割)都做的很好了。」
推特地址:https://twitter.com/DrJimFan/status/1643647849824161792
還有網(wǎng)友表示,NLP 領(lǐng)域的 Prompt 范式,已經(jīng)開始延展到 CV 領(lǐng)域了,可以預(yù)想,今年這類范式在學(xué)術(shù)界將迎來一次爆發(fā)。
更是有網(wǎng)友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。
不過,也有人表示,該模型在生產(chǎn)環(huán)境下的測(cè)試并不理想?;蛟S,這個(gè)老大難問題的解決仍需時(shí)日?
方法介紹
此前解決分割問題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對(duì)象,但需要一個(gè)人通過迭代細(xì)化掩碼來指導(dǎo)該方法。第二種,自動(dòng)分割,允許分割提前定義的特定對(duì)象類別(例如,貓或椅子),但需要大量的手動(dòng)注釋對(duì)象來訓(xùn)練(例如,數(shù)千甚至數(shù)萬個(gè)分割貓的例子)。這兩種方法都沒有提供通用的、全自動(dòng)的分割方法。
SAM 很好的概括了這兩種方法。它是一個(gè)單一的模型,可以輕松地執(zhí)行交互式分割和自動(dòng)分割。該模型的可提示界面允許用戶以靈活的方式使用它,只需為模型設(shè)計(jì)正確的提示(點(diǎn)擊、boxes、文本等),就可以完成范圍廣泛的分割任務(wù)。
總而言之,這些功能使 SAM 能夠泛化到新任務(wù)和新領(lǐng)域。這種靈活性在圖像分割領(lǐng)域尚屬首創(chuàng)。
Meta 表示,他們受到語言模型中提示的啟發(fā),因而其訓(xùn)練完成的 SAM 可以為任何提示返回有效的分割掩碼,其中提示可以是前景、背景點(diǎn)、粗框或掩碼、自由格式文本,或者說能指示圖像中要分割內(nèi)容的任何信息。而有效掩碼的要求僅僅意味著即使提示不明確并且可能指代多個(gè)對(duì)象(例如,襯衫上的一個(gè)點(diǎn)可能表示襯衫或穿著它的人),輸出也應(yīng)該是一個(gè)合理的掩碼(就如上面動(dòng)圖「SAM 還能為為不明確的提示生成多個(gè)有效掩碼」所示)。此任務(wù)用于預(yù)訓(xùn)練模型并通過提示解決一般的下游分割任務(wù)。
如下圖所示 ,圖像編碼器為圖像生成一次性嵌入,而輕量級(jí)編碼器將提示實(shí)時(shí)轉(zhuǎn)換為嵌入向量。然后將這兩個(gè)信息源組合在一個(gè)預(yù)測(cè)分割掩碼的輕量級(jí)****中。在計(jì)算圖像嵌入后,SAM 可以在 50 毫秒內(nèi)根據(jù)網(wǎng)絡(luò)瀏覽器中的任何提示生成一個(gè)分割。
在 web 瀏覽器中,SAM 有效地映射圖像特征和一組提示嵌入以產(chǎn)生分割掩碼
1100 萬張圖片,1B+ 掩碼
數(shù)據(jù)集是使用 SAM 收集的。標(biāo)注者使用 SAM 交互地注釋圖像,之后新注釋的數(shù)據(jù)又反過來更新 SAM,可謂是相互促進(jìn)。
使用該方法,交互式地注釋一個(gè)掩碼只需大約 14 秒。與之前的大規(guī)模分割數(shù)據(jù)收集工作相比,Meta 的方法比 COCO 完全手動(dòng)基于多邊形的掩碼注釋快 6.5 倍,比之前最大的數(shù)據(jù)注釋工作快 2 倍,這是因?yàn)橛辛?SAM 模型輔助的結(jié)果。
最終的數(shù)據(jù)集超過 11 億個(gè)分割掩碼,在大約 1100 萬張經(jīng)過許可和隱私保護(hù)圖像上收集而來。SA-1B 的掩碼比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍,并且經(jīng)人工評(píng)估研究證實(shí),這些掩碼具有高質(zhì)量和多樣性,在某些情況下甚至在質(zhì)量上可與之前更小、完全手動(dòng)注釋的數(shù)據(jù)集的掩碼相媲美 。
Segment Anything 對(duì)使用數(shù)據(jù)引擎收集的數(shù)百萬張圖像和掩碼進(jìn)行訓(xùn)練的結(jié)果,得到一個(gè)包含 10 億個(gè)分割掩碼的數(shù)據(jù)集,是以往任何分割數(shù)據(jù)集的 400 倍。
SA-1B 的圖像來自跨不同地理區(qū)域和收入水平的多個(gè)國(guó)家或地區(qū)的照片提供者,在擁有更多圖像的同時(shí)對(duì)所有地區(qū)的總體代表性也更好。Meta 分析了其模型在感知性別表現(xiàn)、感知膚色和年齡范圍方面的潛在偏差,結(jié)果發(fā)現(xiàn) SAM 在不同群體中的表現(xiàn)類似。
SA-1B 可以幫助其他研究人員訓(xùn)練圖像分割的基礎(chǔ)模型。Meta 也進(jìn)一步希望這些數(shù)據(jù)能夠成為帶有附加注釋的新數(shù)據(jù)集的基礎(chǔ),例如與每個(gè) mask 相關(guān)的文本描述。
未來展望
通過研究和數(shù)據(jù)集共享,Meta 希望進(jìn)一步加速對(duì)圖像分割以及更通用圖像與視頻理解的研究??商崾镜姆指钅P涂梢猿洚?dāng)更大系統(tǒng)中的一個(gè)組件,執(zhí)行分割任務(wù)。作為一種強(qiáng)大的工具,組合(Composition)允許以可擴(kuò)展的方式使用單個(gè)模型,并有可能完成模型設(shè)計(jì)時(shí)未知的任務(wù)。
Meta 預(yù)計(jì),與專門為一組固定任務(wù)訓(xùn)練的系統(tǒng)相比,基于 prompt 工程等技術(shù)的可組合系統(tǒng)設(shè)計(jì)將支持更廣泛的應(yīng)用。SAM 可以成為 AR、VR、內(nèi)容創(chuàng)建、科學(xué)領(lǐng)域和更通用 AI 系統(tǒng)的強(qiáng)大組件。比如 SAM 可以通過 AR 眼鏡識(shí)別日常物品,為用戶提供提示。
SAM 還有可能在農(nóng)業(yè)領(lǐng)域幫助農(nóng)民或者協(xié)助生物學(xué)家進(jìn)行研究。
未來在像素級(jí)別的圖像理解與更高級(jí)別的視覺內(nèi)容語義理解之間,我們將看到更緊密的耦合,進(jìn)而解鎖更強(qiáng)大的 AI 系統(tǒng)。
來源:機(jī)器之心
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。