博客專(zhuān)欄

EEPW首頁(yè) > 博客 > CVPR 2022 | 一鍵解鎖微軟亞洲研究院計(jì)算機(jī)視覺(jué)領(lǐng)域前沿進(jìn)展!

CVPR 2022 | 一鍵解鎖微軟亞洲研究院計(jì)算機(jī)視覺(jué)領(lǐng)域前沿進(jìn)展!

發(fā)布人:MSRAsia 時(shí)間:2022-06-21 來(lái)源:工程師 發(fā)布文章
編者按:國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR)是人工智能領(lǐng)域最具學(xué)術(shù)影響力的頂級(jí)會(huì)議之一。微軟亞洲研究院也在4月成功舉辦了 CVPR 2022 論文分享會(huì)。今天,我們?yōu)榇蠹揖x了8篇微軟亞洲研究院被 CVPR 2022 收錄的優(yōu)秀論文,帶你探索計(jì)算機(jī)視覺(jué)領(lǐng)域的熱點(diǎn)前沿!歡迎感興趣的讀者閱讀論文原文。


01

基于神經(jīng)壓縮的視頻復(fù)原
圖片
論文鏈接:https://arxiv.org/abs/2203.09208
視頻復(fù)原任務(wù)非常依賴(lài)時(shí)序特征來(lái)獲得更好的重建質(zhì)量?,F(xiàn)有的視頻復(fù)原方法主要關(guān)注如何設(shè)計(jì)更好的網(wǎng)絡(luò)結(jié)構(gòu)去提取時(shí)序特征,例如雙向傳播。至于如何有效使用時(shí)序特征并和當(dāng)前幀融合,通常容易被忽視。實(shí)際上時(shí)序特征通常包含大量噪聲和不相關(guān)的信息,直接使用而不經(jīng)過(guò)任何特征提純,反而會(huì)干擾當(dāng)前幀的復(fù)原。
為此,微軟亞洲研究院的研究員們提出了一種基于神經(jīng)壓縮的算法來(lái)學(xué)習(xí)高效的時(shí)序特征表達(dá)。由于神經(jīng)壓縮為了節(jié)省比特會(huì)把無(wú)關(guān)的信息或者噪聲丟棄,是個(gè)天然的去噪者,因此本文利用神經(jīng)壓縮去有效地過(guò)濾噪聲的干擾并保留時(shí)序上最重要的信息。如圖1 (b) 所示, 研究員們會(huì)在特征融合之前,使用神經(jīng)壓縮去對(duì)時(shí)序特征提純。為了實(shí)現(xiàn)對(duì)噪聲的魯棒性,本文為壓縮模塊設(shè)計(jì)了一種自適應(yīng)并且可學(xué)習(xí)的量化機(jī)制,以便有效處理不同類(lèi)別和不同程度的噪聲干擾。在訓(xùn)練過(guò)程中,交叉熵?fù)p失函數(shù)和重建損失函數(shù)會(huì)引導(dǎo)量化模塊的學(xué)習(xí)。
圖1 (c) 展示了本文模型所學(xué)的特征有更強(qiáng)的噪聲魯棒性,并且更接近來(lái)自干凈視頻的特征。實(shí)驗(yàn)表明,這種特征學(xué)習(xí)方式幫助本文的模型在多個(gè)視頻恢復(fù)任務(wù)中取得了最好的性能,包括視頻去噪、視頻去雨和視頻去霧。而且本文的方法在復(fù)雜度上也優(yōu)于之前最好的方法。尤其是在視頻去噪任務(wù)上,本文的方法比 BasicVSR++ 提高了0.13 dB, 并且只有它0.23倍的復(fù)雜度。
圖片圖1:(a) 已有的視頻復(fù)原框架,(b) 本文提出的基于神經(jīng)壓縮的視頻復(fù)原框架,(c) t-SNE 可視化對(duì)比,(d) 性能對(duì)比

02

基于神經(jīng)輻射流形的三維可控圖像生成


圖片
論文鏈接:https://yudeng.github.io/GRAM/
傳統(tǒng)的生成對(duì)抗網(wǎng)絡(luò)(GAN)已經(jīng)具備生成以假亂真二維圖像的能力。但它們并不考慮生成圖像中物體背后的三維幾何性質(zhì),因此無(wú)法生成物體的多視角圖像。近兩年,一些能夠?qū)崿F(xiàn)三維視角控制的生成對(duì)抗網(wǎng)絡(luò)逐漸出現(xiàn)。給定一類(lèi)物體的單視角圖像集作為訓(xùn)練數(shù)據(jù),這些方法可以利用圖像上的對(duì)抗學(xué)習(xí)過(guò)程生成物體的多視角圖像。實(shí)現(xiàn)這一點(diǎn)的關(guān)鍵因素是將物體的三維表達(dá)與圖像生成過(guò)程相結(jié)合,其中最先進(jìn)的方法利用了神經(jīng)輻射場(chǎng)(NeRF)作為物體表達(dá)。
然而,已有的、基于 NeRF 的生成對(duì)抗網(wǎng)絡(luò)的圖像生成質(zhì)量與傳統(tǒng)的二維圖像生成對(duì)抗網(wǎng)絡(luò)仍有較大的差距。研究員們觀察到,造成這一問(wèn)題的一個(gè)重要原因是 NeRF 的體渲染過(guò)程與對(duì)抗學(xué)習(xí)過(guò)程相結(jié)合時(shí)內(nèi)存開(kāi)銷(xiāo)較大,限制了體渲染時(shí)每條光線允許的采樣點(diǎn)個(gè)數(shù)。在采樣點(diǎn)數(shù)量有限時(shí),NeRF 表征不能有效的處理物體的精細(xì)幾何紋理,且其渲染圖像中含有明顯的噪聲圖案,嚴(yán)重影響了對(duì)抗學(xué)習(xí)過(guò)程的穩(wěn)定性。
本文提出了一種新型的神經(jīng)輻射流形表達(dá)來(lái)解決 NeRF 與對(duì)抗學(xué)習(xí)結(jié)合時(shí)的上述問(wèn)題。神經(jīng)輻射流形將輻射場(chǎng)的學(xué)習(xí)與圖像渲染時(shí)的采樣點(diǎn)限制在三維空間中的一簇二維曲面流形上,有助于網(wǎng)絡(luò)在曲面上學(xué)習(xí)物體的精細(xì)結(jié)構(gòu),并有效避免了圖像渲染時(shí)的噪聲圖案。實(shí)驗(yàn)表明,基于神經(jīng)輻射流形表征,研究員們極大地提高了生成圖像的真實(shí)感與其視角變化下的三維一致性。
圖片圖2:基于神經(jīng)輻射流形的圖像生成過(guò)程示意圖


03

StyleSwin – 用Transformer搭建適于高質(zhì)量圖像生成的的生成對(duì)抗網(wǎng)絡(luò)


圖片 論文鏈接:https://www.microsoft.com/en-us/research/publication/styleswin-Transformer-based-gan-for-high-resolution-image-generation/
以生成對(duì)抗網(wǎng)絡(luò)為代表的圖像生成模型在過(guò)去幾年間取得了巨****展。其早期的研究主要集中在讓對(duì)抗訓(xùn)練更加穩(wěn)定,而近年來(lái)生成質(zhì)量的突破則主要受益于更具表達(dá)能力的網(wǎng)絡(luò)的提出,如引入注意力機(jī)制、采用更大的網(wǎng)絡(luò)以及 Style-based 生成器。
近期,Transformer 獲得了極大的關(guān)注,并在一系列判別任務(wù)中取得巨大成功。受此啟發(fā),微軟亞洲研究院的研究員們嘗試探究 Transformer 的一系列優(yōu)異特性,尤其是長(zhǎng)距離建模能力,是否對(duì)生成任務(wù)也有幫助。而構(gòu)建基于 Transformer 的生成器網(wǎng)絡(luò),就需要克服在高分辨率圖像生成時(shí)計(jì)算復(fù)雜度過(guò)高的問(wèn)題。為此研究員們采用了微軟亞洲研究院提出的 Swin Transformer 作為基本模塊,以在計(jì)算復(fù)雜度和模型表達(dá)能力間取得良好的平衡。
研究員們還進(jìn)一步提出了若干改進(jìn),使得 Swin Transformer 可以更好的適配圖像生成任務(wù)。首先,整個(gè)生成器采用了 Style-based 結(jié)構(gòu),并探究若干種適于 Transformer 模塊的風(fēng)格注入機(jī)制。其次,研究員們提出用 double attention 來(lái)代替 Swin Transformer 中的重疊窗口,使得每一層 Transformer 模塊有更大的注意力范圍。此外,研究員們指出對(duì)于生成模型,有必要同時(shí)采用相對(duì)位置編碼和絕對(duì)位置編碼。
圖片圖3:(左)StyleSwin 網(wǎng)絡(luò)結(jié)構(gòu),(右)256x256生成結(jié)果穩(wěn)定超越 StyleGAN
更重要的,研究員們發(fā)現(xiàn)局部窗口內(nèi)計(jì)算注意力會(huì)有產(chǎn)生類(lèi)似于 DCT 壓縮時(shí)的塊狀瑕疵(blocking artifact),這個(gè)問(wèn)題僅在生成任務(wù)中才會(huì)被注意到。為此,研究員們提出了基于小波變換的判別器模型在頻域空間識(shí)別這種塊狀瑕疵的方法,有效提升了肉眼感知下的生成質(zhì)量。
本文提出的 StyleSwin 在若干數(shù)據(jù)集,F(xiàn)FHQ, CelebA-HQ, LSUN church, LSUN car等標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了有競(jìng)爭(zhēng)力的生成質(zhì)量。在256x256分辨率上,StyleSwin 超越了現(xiàn)有所有 GAN 的方法,在1024x1024分辨率上取得和 StyleGAN2 相當(dāng)?shù)膱D像質(zhì)量。本文的意義在于首次驗(yàn)證了 Transformer 模型在高分辨率、高質(zhì)量圖像生成任務(wù)中的有效性,對(duì)生成網(wǎng)絡(luò)基礎(chǔ)網(wǎng)絡(luò)的發(fā)展做出了新的啟發(fā)。


04

基于量化去噪擴(kuò)散模型的圖像到文本生成


圖片
論文鏈接:https://arxiv.org/abs/2111.14822
文本到圖像的生成是近些年來(lái)的一個(gè)熱點(diǎn)生成問(wèn)題。之前的相關(guān)工作主要分為生成對(duì)抗網(wǎng)絡(luò)和自回歸模型兩大類(lèi)。生成對(duì)抗網(wǎng)絡(luò)受限于擬合能力,往往只能擬合單個(gè)場(chǎng)景或者類(lèi)別的圖像。自回歸模型則將圖像生成問(wèn)題轉(zhuǎn)換成了序列化生成問(wèn)題,然而,該方法具有單向偏差、誤差累積的問(wèn)題,并且生成圖像的速度較慢。本文提出了一種新型生成模型,量化去噪擴(kuò)散模型(VQ-Diffusion),該方法能很好地解決以上問(wèn)題。具體來(lái)說(shuō),該方法首先利用矢量量化變分自編碼器(VQVAE)將圖像編碼成離散編碼,再利用條件化的去噪擴(kuò)散模型(DDPM擬合隱空間的分布。
與連續(xù)空間的量化去噪模型不同,為了擬合離散的數(shù)據(jù)分布,研究員們利用概率轉(zhuǎn)移矩陣而不是高斯噪聲,在去噪擴(kuò)散模型的加噪步驟中對(duì)目標(biāo)分布加噪。具體來(lái)說(shuō),本文提出了遮擋與替換的加噪策略,可以成功地避免誤差累積的問(wèn)題。此外,通過(guò)利用雙向注意力機(jī)制進(jìn)行去噪,該方法避免了單向偏差的問(wèn)題。本文還提出了給離散擴(kuò)散模型加上重參數(shù)化技巧,從而有效地平衡生成速度和圖像質(zhì)量。量化去噪擴(kuò)散模型的示意圖如圖4所示:
圖片圖4:VQ-Diffusion 的算法流程圖
本文在很多文本到圖像生成的數(shù)據(jù)集上做了實(shí)驗(yàn),包括 CUB-200,Oxford-102,以及 MSCOCO。與自回歸模型相比,采用相似參數(shù)量時(shí),量化擴(kuò)散模型能在生成速度快15倍的情況下,獲得更好的生成結(jié)果。與之前基于生成對(duì)抗網(wǎng)絡(luò)的文本到圖像生成的方法相比,該算法則能處理更復(fù)雜的場(chǎng)景,極大提升生成圖像的質(zhì)量。此外,該方法還具有普適性,可用于無(wú)條件圖像生成(如 FFHQ)和條件圖像生成(如 ImageNet)。


05

基于多模態(tài)遷移學(xué)習(xí)的手語(yǔ)翻譯模型 圖片
論文鏈接:https://arxiv.org/abs/2203.04287
全世界有7000萬(wàn)聾人在使用著200多種手語(yǔ),研究手語(yǔ)翻譯(SLT有助于增進(jìn)聾人和聽(tīng)人之間的溝通。近幾年來(lái),機(jī)器手語(yǔ)翻譯(SLT遵循機(jī)器文本(NMT翻譯框架,采用編碼-****架構(gòu)將視覺(jué)信號(hào)翻譯成自然語(yǔ)言。然而,與 NMT 的成功相比,SLT 存在著數(shù)據(jù)稀缺的問(wèn)題。為了解決這個(gè)問(wèn)題,本文提出了一個(gè)簡(jiǎn)單有效的多模態(tài)遷移學(xué)習(xí)手語(yǔ)翻譯模型,采用逐步預(yù)訓(xùn)練的方法:先后將模型在通用域和域內(nèi)數(shù)據(jù)集上訓(xùn)練。通過(guò)從現(xiàn)有數(shù)據(jù)集中遷移知識(shí),研究員們希望可以減少對(duì)數(shù)據(jù)的依賴(lài)。研究員們使用手語(yǔ)轉(zhuǎn)寫(xiě)標(biāo)注(Gloss作為中間表示,將 SLT 分解為 Sign2Gloss 和 Gloss2Text,以便可以在兩個(gè)域上分別對(duì)視覺(jué)和語(yǔ)言模塊進(jìn)行預(yù)訓(xùn)練。
圖片
圖5:研究員們將手語(yǔ)翻譯拆分成為視覺(jué)任務(wù)(左側(cè))和語(yǔ)言任務(wù)(右側(cè)),并用一個(gè)視覺(jué)-語(yǔ)言映射器(V-L Mapper)來(lái)連接兩個(gè)任務(wù),之后分別對(duì)視覺(jué)和語(yǔ)言網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)遷移學(xué)習(xí),最后對(duì)整個(gè)模型進(jìn)行聯(lián)合訓(xùn)練。
本文的模型包括:一個(gè)用于提取視頻特征的視覺(jué)模塊、一個(gè)將視頻特征翻譯成文本的語(yǔ)言模塊和一個(gè)連接以上兩個(gè)模塊的視覺(jué)-語(yǔ)言映射器。對(duì)于視覺(jué)模塊,研究員們首先在 Kinetics-400(動(dòng)作識(shí)別數(shù)據(jù)集)和 WLASL(美國(guó)手語(yǔ)單詞識(shí)別數(shù)據(jù)集)上預(yù)訓(xùn)練 S3D 網(wǎng)絡(luò),之后在目標(biāo)數(shù)據(jù)集上以 Sign2Gloss 為訓(xùn)練任務(wù)進(jìn)一步訓(xùn)練視覺(jué)編碼器。對(duì)于語(yǔ)言模塊,研究員們使用了在大規(guī)模文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練過(guò)的 mBART 模型,之后在目標(biāo)數(shù)據(jù)上利用 Gloss2Text 進(jìn)一步訓(xùn)練語(yǔ)言模塊。利用一個(gè)由兩層 MLP 組成的 V-L 映射器,研究員們將視覺(jué)特征變換到了翻譯網(wǎng)絡(luò)的輸入中。這樣,兩個(gè)預(yù)訓(xùn)練模塊通過(guò)視覺(jué)特征連接起來(lái),整個(gè)模型將可以實(shí)現(xiàn)聯(lián)合訓(xùn)練。
本文的模型大幅超過(guò)了之前的手語(yǔ)翻譯方法:在 Phoenix-2014T 和 CSL-Daily 上分別達(dá)到了28.4和23.9的 BLEU-4。此外,本文也進(jìn)行了消融實(shí)驗(yàn)來(lái)驗(yàn)證了該遷移學(xué)習(xí)策略的有效性。

06

重新思考對(duì)比學(xué)習(xí)中的最小充分表示


圖片


論文鏈接:https://arxiv.org/abs/2203.07004
作為一種自監(jiān)督學(xué)習(xí)方法,對(duì)比學(xué)習(xí)近年來(lái)被當(dāng)作預(yù)訓(xùn)練的主要方法廣泛應(yīng)用于視頻和圖像領(lǐng)域。由于對(duì)比學(xué)習(xí)使用數(shù)據(jù)的不同“視角”互相監(jiān)督,學(xué)習(xí)到的數(shù)據(jù)表示往往只包含“視角”之間的的共享信息,而排斥它們的非共享信息。換言之,對(duì)比學(xué)習(xí)最終的結(jié)果是學(xué)習(xí)到了不同“視角”之間的最小充分表示。這樣就產(chǎn)生了一個(gè)疑問(wèn)——被排斥掉的非共享信息是不是包含對(duì)下游任務(wù)有貢獻(xiàn)的內(nèi)容?由于“視角”的產(chǎn)生高度依賴(lài)增強(qiáng)方法,而下游任務(wù)相關(guān)的信息在預(yù)訓(xùn)練階段往往是缺失的,所以從直觀上看這種可能性的確存在。
通過(guò)從信息論方面進(jìn)行嚴(yán)謹(jǐn)?shù)耐评碜C明和實(shí)驗(yàn)驗(yàn)證,微軟亞洲研究院的研究員們發(fā)現(xiàn)最小充分表示排斥的非共享信息中確實(shí)包含下游任務(wù)相關(guān)的有用信息,從而揭示了對(duì)比學(xué)習(xí)有過(guò)擬到“視角”共享信息的風(fēng)險(xiǎn)。這種風(fēng)險(xiǎn)會(huì)嚴(yán)重降低預(yù)訓(xùn)練模型的通用性和在下游任務(wù)上的性能。為此,研究員們認(rèn)為對(duì)比學(xué)習(xí)應(yīng)該學(xué)習(xí)“視角”之間的充分表示而不是最小充分表示,并且提出了一種簡(jiǎn)單有效而且通用的方法:增加對(duì)比學(xué)習(xí)中“視角”之間的互信息。簡(jiǎn)單來(lái)說(shuō),就是在學(xué)習(xí)“視角”共享信息的同時(shí),也盡可能學(xué)習(xí)下游任務(wù)相關(guān)的非共享信息。在此基礎(chǔ)上,研究員們提出了兩種通用的預(yù)訓(xùn)練策略,一種是通過(guò)重構(gòu)輸入數(shù)據(jù)引入更多的原始輸入信息達(dá)到增加非共享信息的目的;另一種是通過(guò)加入正則項(xiàng)計(jì)算互信息的下限來(lái)直接提高互信。大量的實(shí)驗(yàn)結(jié)果表明,我們提出的預(yù)訓(xùn)練策略在分類(lèi),檢測(cè)和分割等一系列下游任務(wù)中都極大地提高了精度。
圖片圖6:對(duì)比學(xué)習(xí)中充分表示和最小充分表示的信息分布圖

07

SimMIM:一個(gè)簡(jiǎn)單的圖像掩碼建??蚣?/strong>


圖片
論文鏈接:https://arxiv.org/abs/2111.09886代碼地址:https://github.com/microsoft/SimMIM
掩碼信號(hào)建模(Masked Signal Modeling是一種通過(guò)利用部分可見(jiàn)信息來(lái)預(yù)測(cè)不可見(jiàn)信息的預(yù)訓(xùn)練方法。其在自然語(yǔ)言處理(NLP)領(lǐng)域中的應(yīng)用——掩碼語(yǔ)言建模(Masked Language Modeling, MLM已經(jīng)成為了 NLP 領(lǐng)域中最具代表性且應(yīng)用最廣泛的預(yù)訓(xùn)練方法。
事實(shí)上,在計(jì)算機(jī)視覺(jué)領(lǐng)域也出現(xiàn)了一系列使用掩碼圖像建模(Masked Image Modeling, MIM來(lái)進(jìn)行視覺(jué)模型預(yù)訓(xùn)練的嘗試,但之前的方法往往需要引入額外的設(shè)計(jì)。本文中,研究員們提出了一種簡(jiǎn)單的預(yù)訓(xùn)練框架 SimMIM,證明了僅使用簡(jiǎn)單的隨機(jī)掩碼策略以及單層線性****來(lái)恢復(fù)原始圖像信號(hào)就可以實(shí)現(xiàn)良好的視覺(jué)模型預(yù)訓(xùn)練,并學(xué)習(xí)到高質(zhì)量的圖像表征。
圖片圖7:SimMIM 使用簡(jiǎn)單的隨機(jī)掩碼策略和一個(gè)輕量的單層線性****來(lái)重構(gòu)圖像的原始信號(hào),并使用簡(jiǎn)單的 l1 損失函數(shù)進(jìn)行預(yù)訓(xùn)練。


SimMIM 可以適配任意的基礎(chǔ)網(wǎng)絡(luò),包括 ViT,Swin 以及 ConvNets。如圖8(左)所示,在使用 ViT-B 時(shí),SimMIM 取得了比其他方法更好的微調(diào)性能,同時(shí)花費(fèi)的訓(xùn)練成本更低。
圖片圖8:(左SimMIM 與其他方法在使用 ViT-B 時(shí)的性能比較。(右)SimMIM 在使用 Swin 時(shí)與有監(jiān)督預(yù)訓(xùn)練(Supervised Pre-training的比較。
圖8(右)則展示了 SimMIM 在使用 Swin 時(shí)取得了比有監(jiān)督預(yù)訓(xùn)練(Supervised pre-training更好的性能,并且模型越大,SimMIM 的優(yōu)勢(shì)就越明顯,這說(shuō)明 SimMIM 是一個(gè)良好的模型擴(kuò)展學(xué)習(xí)器(model scalable learner。通過(guò)使用 SimMIM,具有3B參數(shù)量的 Swin-G 可以在 ImageNet-1K 圖像分類(lèi)任務(wù)中取得90.2%的 Top-1 Acc。
SimMIM 不僅適用于基于 Transformer 的網(wǎng)絡(luò),其對(duì) ConvNets 也同樣有效。ResNet-50×4 使用 SimMIM 可以取得81.6%的 Top-1 Acc,高于有監(jiān)督預(yù)訓(xùn)練獲得的80.7%的結(jié)果。這些實(shí)驗(yàn)證明了 SimMIM 的廣泛適用性。

08

學(xué)習(xí)軌跡感知Transformer的視頻超分辨率網(wǎng)絡(luò)


圖片 論文鏈接:https://arxiv.org/abs/2204.04216代碼鏈接:https://github.com/researchmm/TTVSR
視頻超分辨率(VSR)旨在從低分辨率(LR)的對(duì)應(yīng)幀中恢復(fù)高分辨率(HR)的視頻幀。盡管如今視頻超分辨率領(lǐng)域已經(jīng)取得了一定的進(jìn)展,但是在如何有效利用整個(gè)視頻的時(shí)間信息方面仍然存在著巨大的挑戰(zhàn)?,F(xiàn)有的方法通常通過(guò)對(duì)齊和聚合短距離相鄰幀(如5或7幀)的信息來(lái)生成高分辨率的幀,所以無(wú)法獲得令人滿意的結(jié)果。
本文提出了一種新穎的軌跡感知的 Transformer 來(lái)執(zhí)行視頻超分任務(wù)(TTVSR,該方法通過(guò)引入運(yùn)動(dòng)軌跡進(jìn)一步探索了視頻中更有效的空間和時(shí)間上的信息學(xué)習(xí)方法。具體來(lái)說(shuō),TTVSR 將整個(gè)視頻中的幀作為視覺(jué)特征,并將時(shí)空中一些連續(xù)的視覺(jué)特征定義為一些在內(nèi)容上預(yù)先對(duì)齊的時(shí)空軌跡,對(duì)于其中的每個(gè) query,自注意力機(jī)制只是沿著預(yù)先定義的時(shí)空軌跡來(lái)執(zhí)行。為了實(shí)現(xiàn)上述軌跡的建模,研究員們提出了巧妙的位置圖機(jī)制,該機(jī)制通過(guò)對(duì)預(yù)先定義的視覺(jué)特征的坐標(biāo)位置圖執(zhí)行運(yùn)動(dòng)變換,來(lái)達(dá)到建模視覺(jué)特征軌跡的目的。相比于傳統(tǒng)的在整個(gè)時(shí)空?qǐng)?zhí)行自注意力機(jī)制的 Transformer 來(lái)說(shuō),軌跡感知的 Transformer 大大降低了計(jì)算成本,并使 Transformer 能夠?qū)﹂L(zhǎng)距離的視頻特征進(jìn)行建模。
圖片圖9:基于軌跡感知的視頻超分辨率 Transformer 的網(wǎng)絡(luò)結(jié)構(gòu)圖
同時(shí),本文還進(jìn)一步提出了一個(gè)跨尺度特征標(biāo)記化模塊來(lái)克服長(zhǎng)距離視頻中頻繁出現(xiàn)的目標(biāo)尺度變化問(wèn)題。通過(guò)對(duì)四個(gè)廣泛使用的視頻超分辨率基準(zhǔn)數(shù)據(jù)集進(jìn)行大量的定量和定性評(píng)估,實(shí)驗(yàn)結(jié)果表明本文所提出的軌跡感知的 Transformer 比其他最先進(jìn)的模型更具有優(yōu)勢(shì)。相關(guān)的代碼和模型已經(jīng)在 GitHub 開(kāi)源:https://github.com/researchmm/TTVSR。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉