CV不存在了？Meta發(fā)布「分割一切」AI 模型，CV或迎來GPT-3時(shí)刻

發(fā)布人：傳感器技術(shù) 時(shí)間：2023-04-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

CV 研究者接下來的路要怎么走？

「這下 CV 是真不存在了。< 快跑 >」這是知乎網(wǎng)友對(duì)于一篇 Meta 新論文的評(píng)價(jià)。

如標(biāo)題所述，這篇論文只做了一件事情：（零樣本）分割一切。類似 GPT-4 已經(jīng)做到的「回答一切」。

Meta 表示，這是第一個(gè)致力于圖像分割的基礎(chǔ)模型。自此，CV 也走上了「做一個(gè)統(tǒng)一某個(gè)（某些？全部？）任務(wù)的全能模型」的道路。

在此之前，分割作為計(jì)算機(jī)視覺的核心任務(wù)，已經(jīng)得到廣泛應(yīng)用。但是，為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型通常需要技術(shù)專家進(jìn)行高度專業(yè)化的工作，此外，該項(xiàng)任務(wù)還需要大量的領(lǐng)域標(biāo)注數(shù)據(jù)，種種因素限制了圖像分割的進(jìn)一步發(fā)展。

Meta 在論文中發(fā)布的新模型名叫 Segment Anything Model (SAM) 。他們?cè)诓┛椭薪榻B說，「SAM 已經(jīng)學(xué)會(huì)了關(guān)于物體的一般概念，并且它可以為任何圖像或視頻中的任何物體生成 mask，甚至包括在訓(xùn)練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用，可以涵蓋廣泛的用例，并且可以在新的圖像『領(lǐng)域』上即開即用，無需額外的訓(xùn)練。」在深度學(xué)習(xí)領(lǐng)域，這種能力通常被稱為零樣本遷移，這也是 GPT-4 震驚世人的一大原因。

論文地址：https://arxiv.org/abs/2304.02643
項(xiàng)目地址：https://github.com/facebookresearch/segment-anything
Demo 地址：https://segment-anything.com/

除了模型，Meta 還發(fā)布了一個(gè)圖像注釋數(shù)據(jù)集 Segment Anything 1-Billion (SA-1B)，據(jù)稱這是有史以來最大的分割數(shù)據(jù)集。該數(shù)據(jù)集可用于研究目的，并且 Segment Anything Model 在開放許可 (Apache 2.0) 下可用。

我們先來看看效果。如下面動(dòng)圖所示，SAM 能很好的自動(dòng)分割圖像中的所有內(nèi)容：

SAM 還能根據(jù)提示詞進(jìn)行圖像分割。例如輸入 Cat 這個(gè)提示詞，SAM 會(huì)在照片中的幾只貓周圍繪制框并實(shí)現(xiàn)分割：

SAM 還能用交互式點(diǎn)和框的方式進(jìn)行提示：

此外，SAM 還能為不明確的提示生成多個(gè)有效掩碼：

英偉達(dá)人工智能科學(xué)家 Jim Fan 表示：「對(duì)于 Meta 的這項(xiàng)研究，我認(rèn)為是計(jì)算機(jī)視覺領(lǐng)域的 GPT-3 時(shí)刻之一。它已經(jīng)了解了物體的一般概念，即使對(duì)于未知對(duì)象、不熟悉的場(chǎng)景（例如水下圖像）和模棱兩可的情況下也能進(jìn)行很好的圖像分割。最重要的是，模型和數(shù)據(jù)都是開源的。恕我直言，Segment-Anything 已經(jīng)把所有事情（分割）都做的很好了。」

推特地址：https://twitter.com/DrJimFan/status/1643647849824161792

還有網(wǎng)友表示，NLP 領(lǐng)域的 Prompt 范式，已經(jīng)開始延展到 CV 領(lǐng)域了，可以預(yù)想，今年這類范式在學(xué)術(shù)界將迎來一次爆發(fā)。

更是有網(wǎng)友表示蚌不住了，SAM 一出，CV 是真的不存在了。投稿 ICCV 的要小心了。

不過，也有人表示，該模型在生產(chǎn)環(huán)境下的測(cè)試并不理想?；蛟S，這個(gè)老大難問題的解決仍需時(shí)日？

方法介紹

此前解決分割問題大致有兩種方法。第一種是交互式分割，該方法允許分割任何類別的對(duì)象，但需要一個(gè)人通過迭代細(xì)化掩碼來指導(dǎo)該方法。第二種，自動(dòng)分割，允許分割提前定義的特定對(duì)象類別（例如，貓或椅子），但需要大量的手動(dòng)注釋對(duì)象來訓(xùn)練（例如，數(shù)千甚至數(shù)萬個(gè)分割貓的例子）。這兩種方法都沒有提供通用的、全自動(dòng)的分割方法。

SAM 很好的概括了這兩種方法。它是一個(gè)單一的模型，可以輕松地執(zhí)行交互式分割和自動(dòng)分割。該模型的可提示界面允許用戶以靈活的方式使用它，只需為模型設(shè)計(jì)正確的提示（點(diǎn)擊、boxes、文本等），就可以完成范圍廣泛的分割任務(wù)。

總而言之，這些功能使 SAM 能夠泛化到新任務(wù)和新領(lǐng)域。這種靈活性在圖像分割領(lǐng)域尚屬首創(chuàng)。

Meta 表示，他們受到語言模型中提示的啟發(fā)，因而其訓(xùn)練完成的 SAM 可以為任何提示返回有效的分割掩碼，其中提示可以是前景、背景點(diǎn)、粗框或掩碼、自由格式文本，或者說能指示圖像中要分割內(nèi)容的任何信息。而有效掩碼的要求僅僅意味著即使提示不明確并且可能指代多個(gè)對(duì)象（例如，襯衫上的一個(gè)點(diǎn)可能表示襯衫或穿著它的人），輸出也應(yīng)該是一個(gè)合理的掩碼（就如上面動(dòng)圖「SAM 還能為為不明確的提示生成多個(gè)有效掩碼」所示）。此任務(wù)用于預(yù)訓(xùn)練模型并通過提示解決一般的下游分割任務(wù)。

如下圖所示，圖像編碼器為圖像生成一次性嵌入，而輕量級(jí)編碼器將提示實(shí)時(shí)轉(zhuǎn)換為嵌入向量。然后將這兩個(gè)信息源組合在一個(gè)預(yù)測(cè)分割掩碼的輕量級(jí)****中。在計(jì)算圖像嵌入后，SAM 可以在 50 毫秒內(nèi)根據(jù)網(wǎng)絡(luò)瀏覽器中的任何提示生成一個(gè)分割。

在 web 瀏覽器中，SAM 有效地映射圖像特征和一組提示嵌入以產(chǎn)生分割掩碼

1100 萬張圖片，1B+ 掩碼

數(shù)據(jù)集是使用 SAM 收集的。標(biāo)注者使用 SAM 交互地注釋圖像，之后新注釋的數(shù)據(jù)又反過來更新 SAM，可謂是相互促進(jìn)。

使用該方法，交互式地注釋一個(gè)掩碼只需大約 14 秒。與之前的大規(guī)模分割數(shù)據(jù)收集工作相比，Meta 的方法比 COCO 完全手動(dòng)基于多邊形的掩碼注釋快 6.5 倍，比之前最大的數(shù)據(jù)注釋工作快 2 倍，這是因?yàn)橛辛?SAM 模型輔助的結(jié)果。

最終的數(shù)據(jù)集超過 11 億個(gè)分割掩碼，在大約 1100 萬張經(jīng)過許可和隱私保護(hù)圖像上收集而來。SA-1B 的掩碼比任何現(xiàn)有的分割數(shù)據(jù)集多 400 倍，并且經(jīng)人工評(píng)估研究證實(shí)，這些掩碼具有高質(zhì)量和多樣性，在某些情況下甚至在質(zhì)量上可與之前更小、完全手動(dòng)注釋的數(shù)據(jù)集的掩碼相媲美。

Segment Anything 對(duì)使用數(shù)據(jù)引擎收集的數(shù)百萬張圖像和掩碼進(jìn)行訓(xùn)練的結(jié)果，得到一個(gè)包含 10 億個(gè)分割掩碼的數(shù)據(jù)集，是以往任何分割數(shù)據(jù)集的 400 倍。

SA-1B 的圖像來自跨不同地理區(qū)域和收入水平的多個(gè)國(guó)家或地區(qū)的照片提供者，在擁有更多圖像的同時(shí)對(duì)所有地區(qū)的總體代表性也更好。Meta 分析了其模型在感知性別表現(xiàn)、感知膚色和年齡范圍方面的潛在偏差，結(jié)果發(fā)現(xiàn) SAM 在不同群體中的表現(xiàn)類似。

SA-1B 可以幫助其他研究人員訓(xùn)練圖像分割的基礎(chǔ)模型。Meta 也進(jìn)一步希望這些數(shù)據(jù)能夠成為帶有附加注釋的新數(shù)據(jù)集的基礎(chǔ)，例如與每個(gè) mask 相關(guān)的文本描述。

未來展望

通過研究和數(shù)據(jù)集共享，Meta 希望進(jìn)一步加速對(duì)圖像分割以及更通用圖像與視頻理解的研究?？商崾镜姆指钅Ｐ涂梢猿洚?dāng)更大系統(tǒng)中的一個(gè)組件，執(zhí)行分割任務(wù)。作為一種強(qiáng)大的工具，組合（Composition）允許以可擴(kuò)展的方式使用單個(gè)模型，并有可能完成模型設(shè)計(jì)時(shí)未知的任務(wù)。

Meta 預(yù)計(jì)，與專門為一組固定任務(wù)訓(xùn)練的系統(tǒng)相比，基于 prompt 工程等技術(shù)的可組合系統(tǒng)設(shè)計(jì)將支持更廣泛的應(yīng)用。SAM 可以成為 AR、VR、內(nèi)容創(chuàng)建、科學(xué)領(lǐng)域和更通用 AI 系統(tǒng)的強(qiáng)大組件。比如 SAM 可以通過 AR 眼鏡識(shí)別日常物品，為用戶提供提示。

SAM 還有可能在農(nóng)業(yè)領(lǐng)域幫助農(nóng)民或者協(xié)助生物學(xué)家進(jìn)行研究。

未來在像素級(jí)別的圖像理解與更高級(jí)別的視覺內(nèi)容語義理解之間，我們將看到更緊密的耦合，進(jìn)而解鎖更強(qiáng)大的 AI 系統(tǒng)。

來源：機(jī)器之心

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

CV不存在了？Meta發(fā)布「分割一切」AI 模型，CV或迎來GPT-3時(shí)刻

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

CV不存在了？Meta發(fā)布「分割一切」AI 模型，CV或迎來GPT-3時(shí)刻

相關(guān)推薦

技術(shù)專區(qū)

CV不存在了？Meta發(fā)布「分割一切」AI 模型，CV或迎來GPT-3時(shí)刻