Transformer工業(yè)部署落地！超越ResNet、CSWin

發(fā)布人：CV研究院時間：2023-06-07 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

一種用于在現(xiàn)實工業(yè)場景中高效部署的下一代 Vision Transformer。它通過引入 Next Convolution Block (NCB) 和 Next Transformer Block (NTB)，在局部和全局信息捕獲方面取得了顯著的性能改進。

一、總概述

NCB 和 NTB 分別使用新穎的部署友好的多頭卷積注意力 (MHCA) 和輕量級的高低頻信號混合器來增強建模能力。為了進一步提高性能，設計了 Next Hybrid Strategy (NHS)，通過在每個階段以新的混合范式堆疊 NCB 和 NTB，大大降低了 Transformer 塊的比例，并在各種下游任務中最大程度地保留了 Vision Transformer 網(wǎng)絡的高精度。

與現(xiàn)有的基于 CNN 和 ViT 的方法相比，Next-ViT 在延遲/準確性權衡方面表現(xiàn)出優(yōu)越的性能。實驗結果表明，Next-ViT 在各種下游任務中取得了最先進的結果，包括圖像分類、目標檢測和語義分割。因此，Next-ViT 是一個強大的模型，可以有效地應用于現(xiàn)實工業(yè)場景中的各種計算機視覺任務。

二、動機

由于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡（CNN）和Vision Transformer（ViT）在現(xiàn)實的工業(yè)場景中存在一些局限性，因此該論文提出了Next-ViT模型。具體來說，傳統(tǒng)的CNN在處理長序列時缺乏全局性，而ViT雖然具有全局性，但它們的注意力機制復雜，導致計算量大且效率低下。為了克服這些缺點，Next-ViT引入了Next Convolution Block（NCB）和Next Transformer Block（NTB），并設計了Next Hybrid Strategy（NHS）來提高模型的性能。

Next-ViT遵循分層的金字塔體系結構，在每個階段都有一個patch embedding層和一系列的卷積或Transformer blocks。該模型使用MHCA（多頭卷積注意力）來增強建模能力，通過創(chuàng)新的CNN和Transformer架構方式實現(xiàn)高性能和高效率相結合。Next-ViT在各種計算機視覺任務中取得了最先進的結果，包括圖像分類、目標檢測和語義分割。因此，Next-ViT是一個強大的模型，可以有效地應用于現(xiàn)實工業(yè)場景中的各種計算機視覺任務。

Next-ViT和高效網(wǎng)絡在精度-延遲權衡方面的比較

三、新框架

按照慣例，Next-ViT遵循分層的金字塔體系結構，在每個階段都有一個patch embedding層和一系列的卷積或Transformer blocks?？臻g分辨率將逐步降低32×，而通道尺寸將在不同的階段中擴大。

Next Convolution Block (NCB)

為了展示所提出的NCB的優(yōu)越性，首先重新審視卷積和Transformer blocks的一些經(jīng)典結構設計，下圖所示。ResNet提出的BottleNeck塊因其固有的歸納偏差和部署而在視覺神經(jīng)網(wǎng)絡中長期占據(jù)主導地位。大多數(shù)硬件平臺的友好特性。

Next Transformer Block (NTB)

雖然通過NCB已經(jīng)有效地學習了局部表示，但全局信息的捕獲迫切需要解決。Transformer Block具有較強的捕獲低頻信號的能力，從而提供全局信息（例如全局形狀和結構）。然而，相關研究觀察到，Transformer Block可能會在一定程度上惡化高頻信息，如局部紋理信息。不同頻率段的信號在人類視覺系統(tǒng)中是不可缺少的，并將以某種特定的方式融合，提取更基本和明顯的特征。

三、實驗及結果