Transformer在計算機視覺領域走到哪了？（2）

發(fā)布人：MSRAsia 時間：2021-05-28 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

Transformer“跨界”視頻任務

相對于圖像的空間信息，視頻還增加了時序維度的信息。Transformer 可以很好地在空間-時序維度上進行建模，進而更好地學習圖像與特征中的長距離依賴關系，有利于視頻相關任務的增強與提高。

視頻修復：Transformer 初嘗試

視頻修復（video inpainting）是一個旨在通過視頻中已知內(nèi)容來推斷并填補缺失內(nèi)容的經(jīng)典任務。它在老舊視頻恢復、去除水印等視頻編輯中有著廣泛應用。盡管視頻修復技術有很大的應用價值，然而在復雜變化的多個視頻幀中找到相關信息，并生成在圖像空間和時序上看起來和諧、一致的內(nèi)容，仍然面臨著巨大的挑戰(zhàn)。

為了解決這樣的問題，微軟亞洲研究院的研究員們利用并重新設計了Transformer結(jié)構(gòu)，提出了 Spatial-Temporal Transformer Network （STTN）。相關論文“Learning Joint Spatial-Temporal Transformations for Video Inpainting”發(fā)表在了 ECCV 2020。

論文鏈接：https://arxiv.org/abs/2007.10247

GitHub地址：https://github.com/researchmm/STTN

STTN 模型的輸入是帶有缺失內(nèi)容的視頻幀以及每一幀的掩碼，輸出則是對應的修復好的視頻幀。如圖6所示，STTN 模型的輸入是帶有缺失內(nèi)容的視頻幀以及每一幀的掩碼，輸出則是對應的修復好的視頻幀。如圖6所示，STTN 模型采用了 CNN-Transformer 的混合結(jié)構(gòu)。其中，frame-level encoder 以及 frame-level decoder 采用了 CNN，分別將每個視頻幀從像素編碼成特征以及將特征解碼成視頻幀。Transformer 則作為模型的主干，它將輸入的視頻幀特征切成塊，并對塊的序列進行建模，再通過多層時空 Transformer 層挖掘輸入幀中的已知信息來推斷缺失內(nèi)容。

圖6: Spatial-Temporal Transformer Network (STTN) 模型結(jié)構(gòu)示意圖

時空 Transformer 層繼承了經(jīng)典 Transformer 層強大的注意力機制，能聚焦于與缺失內(nèi)容相關的信息上，通過多層的堆疊不斷更新優(yōu)化預測的內(nèi)容。同時，不同于經(jīng)典 Transformer 層中每個頭部的是模型采用了固定的塊大小，STTN 為了捕捉到盡可能多的上下文信息，在不同的頭部上采用了不同大小的塊切取方式。因此，當缺失區(qū)域的特征不夠豐富時，基于大的塊的注意力機制可以有效利用較多的已知信息；當缺失區(qū)域的特征豐富之后，基于小的塊的注意力機制有助于模型聚焦更細微的變化。如圖7所示，通過可視化 STTN 最后一層 Transformer 的注意力圖，可以發(fā)現(xiàn) STTN 為了填補目標幀中狗身上的缺失區(qū)域，能夠 “精準追蹤” 到其他幀里的信息，來修復缺失區(qū)域。

圖7：Attention map 的可視化（attention 的部分用黃色高亮）。盡管視頻里狗由于奔跑，在不同的幀里形態(tài)和位置差異較大，但為了填補目標幀（target frame）中狗身上缺失的部分，STTN 可以 “精準追蹤” 到相關的幀里這只跑動的狗。

除了 STTN 模型，該論文還提出了用動態(tài)和靜態(tài)兩種不同的視頻掩碼來模擬實際應用。動態(tài)掩碼指視頻每一幀的掩碼是連續(xù)變化的，用來模擬移除運動物體的應用；而靜態(tài)掩碼不會隨著視頻變化，用來模擬水印移除。論文通過在 DAVIS 和 Youtube-VOS 數(shù)據(jù)集上定性和定量的分析，驗證了 STTN 在視頻修復任務上的優(yōu)越性。如視頻1所示，STTN 能夠生成視覺上更真實的修復結(jié)果。同時得益于 STTN 強大的并行建模能力，它也加快了運行速度（24.10 fps VS. 3.84 fps）。

視頻1：左上為輸入的視頻，其中黃色表示需要掩蓋并重新填補的區(qū)域。右下為STTN的結(jié)果。

目標跟蹤新范式：基于時空 Transformer

視頻目標跟蹤（Visual Object Tracking）是計算機視覺領域中的一項基礎且頗具挑戰(zhàn)性的任務。在過去幾年中，基于卷積神經(jīng)網(wǎng)絡，目標跟蹤迎來了快速的發(fā)展。然而卷積神經(jīng)網(wǎng)絡并不擅長建模圖像與特征中的長距離依賴關系，同時現(xiàn)有的目標跟蹤器或是僅利用了空間信息，亦或是并未考慮到時間與空間之間的聯(lián)系，造成跟蹤器在復雜場景下性能的下降。

如何解決以上問題？微軟亞洲研究院的研究員們提出了一種名為 STARK 的基于時空 Transformer 的目標跟蹤器新范式，將目標跟蹤建模為一種端到端的邊界框預測問題，從而徹底擺脫以往跟蹤器使用的超參敏感的后處理，該方法在多個短時與長時跟蹤數(shù)據(jù)集上都取得了當前最優(yōu)的性能。

相關論文“Learning Spatio-Temporal Transformer for Visual Tracking”

鏈接：https://arxiv.org/abs/2103.17154

GitHub地址：https://github.com/researchmm/stark

STARK 包括 Spatial-Only 和 Spatio-Temporal 兩個版本，其中 Spatial-Only 版本僅使用空間信息，Spatio-Temporal 版本則同時利用了時間和空間信息。

Spatial-Only 版本的框架圖如圖8所示。首先，第一幀的模板和當前幀的搜索區(qū)域會一同送入骨干網(wǎng)絡提取視覺特征，然后特征圖沿空間維度展開并拼接，進而得到一個特征序列。之后，Transformer 編碼器會建模序列元素之間的全局關聯(lián)，并利用學習到的全局信息來強化原始特征，使得新的特征序列對目標具有更強的判別力。受 DETR 的啟發(fā)，研究員們使用了一個****以及一個目標查詢（Target Query）來對編碼器的輸出進行譯碼。目標查詢與前面提到的編碼器輸出的特征序列進行交互，從而學習到和目標相關的重要信息。最后，編碼器輸出的特征序列以及譯碼器輸出的新的目標查詢特征再一同送入邊界框預測模塊，得到最終的邊界框坐標。

圖8：Spatial-Only 版本的框架圖

邊界框預測模塊的結(jié)構(gòu)如圖9所示，首先從編碼器的輸出序列中取出搜索區(qū)域相關的特征，用該特征序列與譯碼器輸出的目標查詢特征計算一次注意力機制，強化目標所在區(qū)域的特征，削弱非目標區(qū)域的特征。然后，經(jīng)注意力機制強化后的搜索區(qū)域特征序列的空間結(jié)構(gòu)被還原，并通過簡單的全卷積網(wǎng)絡預測目標左上角和右下角一對角點(corners)的熱力圖，最終的角點坐標則通過計算角點坐標的數(shù)學期望得到。不同于之前的Siamese和DCF方法，該框架將目標跟蹤建模為一個直接的邊界框預測問題，每一幀上都可直接預測一個邊界框坐標，無需使用任何超參敏感的后處理。

圖9：邊界框預測模塊的結(jié)構(gòu)

Spatio-Temporal 版本的框架圖如圖10所示，粉色區(qū)域展示了為了利用時序信息而新加入的結(jié)構(gòu)。新框架額外加入了一個 “動態(tài)模板” 作為新輸入。動態(tài)模板是根據(jù)中間幀跟蹤結(jié)果裁剪得到的，并隨著跟蹤的進行動態(tài)更新，為整個框架補充了之前缺少的時序信息。利用第一幀模板、當前幀搜索區(qū)域、動態(tài)模板同時作為 Transformer 編碼器的輸入，編碼器能夠從全局視角提取時空信息，學習到魯棒的時空聯(lián)合表示。除動態(tài)模板之外，研究員們還引入了由多層感知機實現(xiàn)的更新控制器來更新動態(tài)模板，它與邊界框預測頭并聯(lián)，以預測當前幀可靠程度的置信度分數(shù)。

圖10：Spatio-Temporal 版本框架圖

STARK 在多個短時跟蹤與長時跟蹤數(shù)據(jù)集上都取得了目前最先進的性能，并且運行速度可達 30FPS 到 40FPS。其中，在 LaSOT, GOT-10K, TrackingNet 三個大規(guī)模目標跟蹤數(shù)據(jù)集上的結(jié)果如下所示。

圖11：LaSOT 數(shù)據(jù)集上的結(jié)果比較

表格6：GOT-10K 數(shù)據(jù)集上的結(jié)果比較

表格7：TrackingNet 數(shù)據(jù)集上的結(jié)果比較

上述四個工作將 Transformer 結(jié)構(gòu)成功地應用于圖像內(nèi)容增強和視頻內(nèi)容分析，充分地展現(xiàn)了 Transformer 的優(yōu)勢和潛力。目前研究員們已經(jīng)看到，無論是在圖像分類、物體檢測與分割等基礎視覺任務上，還是在 3D 點云分析、圖像視頻內(nèi)容生成等新興課題中，Transformer 都大放異彩。未來，視覺 Transformer 結(jié)構(gòu)的設計和自動化搜索將會是一個非常具有前景的研究課題。相信 Transformer 結(jié)構(gòu)在計算機視覺領域會繼續(xù)展現(xiàn)其強大的模型潛力。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

光電開關相關文章:光電開關原理

博客專欄

Transformer在計算機視覺領域走到哪了？（2）

相關推薦

技術專區(qū)