YoloV：視頻中目標實時檢測依然很棒（附源代碼下載）

發(fā)布人：CV研究院時間：2022-09-26 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

論文地址： https://arxiv.org/pdf/2208.09686.pdf

代碼地址： https://github.com/YuHengsss/YOLOV

概述

視頻目標檢測(VID)具有挑戰(zhàn)性，因為目標外觀的高度變化以及某些幀中的各種劣化。積極的一面是，與靜止圖像相比，在視頻的某一幀中進行檢測可以得到其他幀的支持。因此，如何跨不同幀聚合特征是VID問題的關鍵。大多數(shù)現(xiàn)有的聚合算法都是為兩階段檢測器定制的。但是，由于兩階段的性質，此類檢測器通常在計算上很耗時。今天分享的研究者提出了一種簡單而有效的策略來解決上述問題，該策略花費了邊際開銷，并顯著提高了準確性。具體來說，與傳統(tǒng)的兩階段流水線不同，研究者主張將區(qū)域級候選放在一階段檢測之后，以避免處理大量低質量候選。此外，構建了一個新的模塊來評估目標框架與其參考框架之間的關系，并指導聚合。進行了廣泛的實驗和消融研究以驗證新提出設計的有效性，并揭示其在有效性和效率方面優(yōu)于其他最先進的VID方法?；赮OLOX的模型可以實現(xiàn)可觀的性能（例如，在單個2080Ti GPU上的ImageNet VID數(shù)據(jù)集上以超過30 FPS的速度達到87.5% AP50），使其對大規(guī)?；驅崟r應用程序具有吸引力。

背景

視頻目標檢測可以看作是靜止圖像目標檢測的高級版本。直觀地說，可以通過將幀一一輸入靜止圖像目標檢測器來處理視頻序列。但是，通過這種方式，跨幀的時間信息將被浪費，這可能是消除/減少單個圖像中發(fā)生的歧義的關鍵。

如上圖所示，視頻幀中經(jīng)常出現(xiàn)運動模糊、相機散焦和遮擋等退化，顯著增加了檢測的難度。例如，僅通過查看上圖中的最后一幀，人類很難甚至不可能分辨出物體在哪里和是什么。另一方面，視頻序列可以提供比單個靜止圖像更豐富的信息。換言之，同一序列中的其他幀可能支持對某一幀的預測。因此，如何有效地聚合來自不同幀的時間消息對于準確性至關重要。從上圖可以看出，研究者提出的方法給出了正確的答案。

新框架

考慮到視頻的特性（各種退化與豐富的時間信息），而不是單獨處理幀，如何從其他幀中為目標幀（關鍵幀）尋求支持信息對于提高視頻檢測的準確性起著關鍵作用。最近的嘗試是在準確性上的顯著提高證實了時間聚合對問題的重要性。然而，大多數(shù)現(xiàn)有方法都是基于兩階段的技術。

如前所述，與一級基礎相比，它們的主要缺點是推理速度相對較慢。為了減輕這種限制，研究者將區(qū)域/特征選擇放在單級檢測器的預測頭之后。

研究者選擇YOLOX作為基礎來展示研究者的主要主張。提出的框架如上圖所示。

讓我們回顧一下傳統(tǒng)的兩階段管道：

1）首先“選擇”大量候選區(qū)域作為提議； 2）確定每個提議是否是一個目標以及它屬于哪個類。計算瓶頸主要來自于處理大量的低置信區(qū)域候選。

從上圖可以看出，提出的框架也包含兩個階段。不同的是，它的第一階段是預測（丟棄大量低置信度的區(qū)域），而第二階段可以被視為區(qū)域級細化（通過聚合利用其他幀）。

通過這一原則，新的設計可以同時受益于一級檢測器的效率和從時間聚合中獲得的準確性。值得強調的是，如此微小的設計差異會導致性能上的巨大差異。所提出的策略可以推廣到許多基礎檢測器，例如YOLOX、FCOS和PPYOLOE。

此外，考慮到softmax的特性，可能一小部分參考特征持有大部分權重。換句話說，它經(jīng)常忽略低權重的特征，這限制了可能后續(xù)使用的參考特征的多樣性。

為了避免這種風險，研究者引入了平均池化參考特征（A.P.）。具體來說，選擇相似度得分高于閾值τ的所有參考，并將平均池化應用于這些。請注意，這項工作中的相似性是通過N (Vc)N(Vc)T計算的。算子N(·)表示層歸一化，保證值在一定范圍內，從而消除尺度差異的影響。通過這樣做，可以維護來自相關特征的更多信息。然后將平均池化特征和關鍵特征傳輸?shù)揭粋€線性投影層中進行最終分類。該過程如是上圖所示。

有人可能會問，N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作為相似度執(zhí)行。事實上，這是另一種選擇。但是，在實踐中，由于Q和K之間的差異，它不像我們在訓練期間的選擇那樣穩(wěn)定。

實驗及可視化

對于給定的關鍵候選，通過三種不同方法選擇的參考候選之間的視覺比較。展示了4個在聚合中貢獻最大的參考候選。

具體來說，在下表的上半部分，研究者報告了所涉及的競爭模型的性能，而沒有采用任何后處理。由于一級檢測器的特性和研究者的策略的有效性，YOLOV可以顯著利用檢測精度和推理效率。為了公平比較，下表中列出的所有模型都在相同的硬件環(huán)境下進行了測試，除了MAMBA和查詢屬性。下表的下半部分報告了YOLOV和其他帶有后處理的SOTA模型的結果。在i7-8700K CPU上測試后處理的時間成本。

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

YoloV：視頻中目標實時檢測依然很棒（附源代碼下載）

相關推薦

技術專區(qū)