大模型時(shí)代下，普通科研人怎么辦？

發(fā)布人：計(jì)算機(jī)視覺工坊時(shí)間：2023-05-24 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

眾所周知，隨著ChatGPT的爆火，AI全面進(jìn)入大模型時(shí)代，NLP、CV大有統(tǒng)一之勢(shì)，回顧發(fā)布的各種大模型，Google BARD，openAI的GPT，Meta的SAM，百度的文心一言等等，這些基本都是有實(shí)力有技術(shù)的大公司引領(lǐng)著來(lái)研究的，但是作為一名普通的高校科研工作者，我們大多數(shù)基本上是沒(méi)有這么多資源算力去開發(fā)這樣的大模型的，但是大模型在各個(gè)方向效果精度幾乎是碾壓，導(dǎo)致很多領(lǐng)域方向就消失了，很多研究生也是很焦慮，可能在申的論文以及畢業(yè)答辯時(shí)肯定會(huì)comment你的性能差距大模型這么多，還有研究的必要嗎？

所以，大模型時(shí)代下，作為一名普普通通，沒(méi)有很多資源算力的科研人如何繼續(xù)研究呢？

最近在arXiv上刷到一篇文章，也許能提供一些思路。

論文名稱：

AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation

論文地址：

https://arxiv.org/abs/2305.01836

主要內(nèi)容：

首先，Segment Anything Model（SAM）大模型是Meta提出的一種CV大模型，在1100萬(wàn)張圖像中的10億個(gè)masks上進(jìn)行訓(xùn)練，并且在各種分割任務(wù)上具有很強(qiáng)的零樣本性能，它在打破分割邊界方面取得了重大進(jìn)展，極大地促進(jìn)了計(jì)算機(jī)視覺基礎(chǔ)模型的發(fā)展，這個(gè)視覺基礎(chǔ)模型由三個(gè)主要組件組成：圖像編碼器、提示編碼器和掩碼****。

SAM的項(xiàng)目地址：https://github.com/facebookresearch/segment-anything

我們普通科研人如果想重新設(shè)計(jì)訓(xùn)練這樣一個(gè)大模型顯然不現(xiàn)實(shí)，那么這篇論文的作者另辟蹊徑，雖然大模型的泛化性很好，在很多任務(wù)上做的不錯(cuò)，但是不可能面面俱到，往往是大而不精的，這篇論文就利用已經(jīng)預(yù)訓(xùn)練好的SAM大模型去做更具體的下游任務(wù)——視聽定位和分割。

視聽定位和分割：

視聽定位和分割是以熱圖或掩模的方式預(yù)測(cè)視頻中單個(gè)聲源的位置。

所以，這篇arXiv的論文提出了一個(gè)簡(jiǎn)單而有效的基于SAM大模型的視聽定位和分割框架，即AV-SAM，它可以生成與音頻相對(duì)應(yīng)的發(fā)聲對(duì)象掩碼。具體而言，利用SAM中預(yù)先訓(xùn)練的圖像編碼器的視覺特征，把它和音頻特征逐像素視聽融合來(lái)聚合跨模態(tài)表示，然后將聚合的跨模態(tài)特征輸入到提示編碼器和掩碼****以生成最終的視聽分割掩碼。

歡迎關(guān)注微信公眾號(hào)「3D視覺工坊」，加群/文章投稿/課程主講，請(qǐng)加微信：QYong2014，添加時(shí)請(qǐng)備注：加群/投稿/主講申請(qǐng)

Methods

給定圖像和音頻，目標(biāo)是預(yù)測(cè)圖像上聲音對(duì)象的像素掩碼。主要由兩個(gè)模塊組成，像素級(jí)視聽融合和視聽掩碼****。

讓表示聽覺和視覺數(shù)據(jù)對(duì)，T、F分別表示音頻頻譜圖的時(shí)間和頻率維度。

首先使用雙流編碼器和投影頭對(duì)音頻和視覺輸入進(jìn)行編碼，分別表示為,音頻編碼器計(jì)算全局音頻特征，視覺編碼器為每s階段生成多尺度空間級(jí)特征。

為了解決視聽分割問(wèn)題，引入了逐像素視聽融合模塊來(lái)對(duì)多尺度空間級(jí)視覺特征和全局音頻表示進(jìn)行編碼，以更新輸入到SAM的掩碼****。在跨模態(tài)融合之后，第s階段的視聽特征被更新為：

其中，表示全局音頻表示ai的復(fù)制版本，該復(fù)制版本在第s階段重復(fù)次。這里表示1×1×1的卷積。通過(guò)這種特殊的視聽融合，推動(dòng)學(xué)習(xí)到的視覺標(biāo)記嵌入與全局音頻特征有區(qū)別地對(duì)齊。

利用逐像素視聽融合的優(yōu)勢(shì)，使用多尺度特征圖的最后階段更新SAM中預(yù)訓(xùn)練圖像編碼器的原始視覺特征。然后這些更新的多級(jí)特征圖被傳遞到SAM中的掩碼****和提示編碼器，以生成最終的輸出掩碼,以像素級(jí)標(biāo)注Y作為監(jiān)督，將預(yù)測(cè)和標(biāo)簽之間的二進(jìn)制交叉熵（BCE）作為損失：

實(shí)驗(yàn)：

在VGG-Sound中使用144k對(duì)的子集進(jìn)行訓(xùn)練，并在Flickr SoundNet測(cè)試集上用250對(duì)聲音對(duì)象的視聽對(duì)測(cè)試模型。

使用在ImageNet上預(yù)訓(xùn)練的ResNet50通過(guò)特征圖的雙線性插值來(lái)生成偽掩碼。

對(duì)于輸入視覺幀，分辨率調(diào)整為1024×1024。對(duì)于輸入音頻，使用長(zhǎng)度為3s的對(duì)數(shù)頻譜圖，采樣率為22050Hz。

使用輕量級(jí)的ResNet18作為音頻編碼器，并使用SAM發(fā)布的權(quán)重初始化視覺模型。該模型使用128的batch size，學(xué)習(xí)率為1e?4的Adam優(yōu)化器進(jìn)行了100個(gè)epochs的訓(xùn)練。

與SAM相比，在兩個(gè)基準(zhǔn)的所有指標(biāo)方面都取得了最佳結(jié)果。

這表明了逐像素視聽融合對(duì)聚合跨模態(tài)輸入的重要性。

同時(shí)進(jìn)行了消融研究以證明SAM凍結(jié)和微調(diào)預(yù)訓(xùn)練重量的效果。

在表2中凍結(jié)/微調(diào)每個(gè)模塊（掩碼****、提示編碼器、圖像編碼器）參數(shù)。

可以觀察到，對(duì)掩碼****進(jìn)行微調(diào)會(huì)增加視聽分割的結(jié)果，表明視聽掩碼****在從聚合的跨模態(tài)特征生成準(zhǔn)確掩碼方面的優(yōu)勢(shì)。同時(shí)微調(diào)提示編碼器也提高了視覺聲源在所有指標(biāo)方面的分割性能。

總結(jié)：

本篇是一篇基于大模型來(lái)做研究的文章，針對(duì)大模型在視聽定位和分割上不夠魯棒準(zhǔn)確的問(wèn)題，設(shè)計(jì)模塊去聚合跨模態(tài)表示，顯著提高了在這一具體任務(wù)上的性能。這也許可以給我們普通科研工作者一些啟發(fā)，如果我們不能重新研究設(shè)計(jì)訓(xùn)練大模型情況下，我們可以在有限的資源算力下用大模型做一些具體的下游任務(wù)，擴(kuò)展大模型的應(yīng)用點(diǎn)，用他們已經(jīng)預(yù)訓(xùn)練好的模型權(quán)重去做更具體的任務(wù)，原始的大模型不可能面面俱到，其中很多點(diǎn)還是可以去做的。思考大模型如何在自己的研究方向上發(fā)揮它的價(jià)值，如何融合進(jìn)自己的研究。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

大模型時(shí)代下，普通科研人怎么辦？

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

大模型時(shí)代下，普通科研人怎么辦？

相關(guān)推薦

技術(shù)專區(qū)

大模型時(shí)代下，普通科研人怎么辦？