挑戰(zhàn)傳統(tǒng)！首個數(shù)據(jù)驅動的事件相機特征追蹤框架橫空出世?。?）

發(fā)布人：計算機視覺工坊時間：2023-08-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

分辨率、增強的運動模糊恢復能力以及稀疏的輸出。這些特點使其成為低延遲和低帶寬特征跟蹤的理想選擇，即使在具有挑戰(zhàn)性的場景中也能表現(xiàn)出色。目前的事件相機特征跟蹤方法通常由手工制作，或由第一原理衍生。這些方法都需要進行大量的參數(shù)調整，并且對噪聲非常敏感。另外，由于未能完全考慮所有影響因素，這些方法無法推廣到不同的場景中。為了解決事件相機特征跟蹤方法存在的缺陷，本文針對事件相機提出了一種全新數(shù)據(jù)驅動的特征跟蹤模型（First）。該方法利用低延遲事件數(shù)據(jù)，對灰度幀中檢測到的特征進行跟蹤。通過使用幀注意力模塊，實現(xiàn)跨特征通道的信息共享，并提供更魯棒的性能表現(xiàn)。通過直接將合成數(shù)據(jù)的零樣本遷移到真實數(shù)據(jù)上，數(shù)據(jù)驅動跟蹤模型在相對 Feature Age 的表現(xiàn)超過現(xiàn)有方法（最高達到了120％），同時實現(xiàn)了最低的延遲。通過采用新穎的自監(jiān)督策略使我們的跟蹤模型適應真實數(shù)據(jù)，這種性能差距進一步擴大到 130%。

1 前言

盡管目前有許多成功的方法進行特征跟蹤，但現(xiàn)有的特征跟蹤器仍受到標準相機硬件性能的限制。首先，標準相機面臨帶寬延遲權衡，這明顯限制了它們在快速移動下的性能：在低幀速率下，它們具有最小的帶寬，但代價是延遲增加；此外，低幀率會導致連續(xù)幀之間出現(xiàn)較大的外觀變化，從而顯著增加跟蹤特征的難度。在高幀速率下，延遲會減少，但代價是增加帶寬開銷與下游系統(tǒng)的功耗。標準相機的另一個問題是運動模糊，這在高速低照度場景中尤為突出。隨著當前AR/VR設備的商品化，這些問題變得更加突出。事件攝像機已被證明是標準相機的理想替代品，可以解決帶寬延遲權衡問題。事件相機是仿生視覺傳感器，只要單個像素的亮度變化超過預定義的閾值，就會異步觸發(fā)信息。由于這種獨特的工作原理，事件攝像機輸出時間分辨率為微秒級的稀疏事件流，并具有高動態(tài)范圍和低功耗的特點。由于事件主要是根據(jù)邊緣對應觸發(fā)的，因此事件相機呈現(xiàn)最小的帶寬。這使得它們非常適合克服標準相機存在的缺點。為了解決這些缺陷，本文提出了第一個用于事件相機的數(shù)據(jù)驅動特征跟蹤模型，它利用事件相機的高時間分辨率與標準幀相結合來最大限度地提高跟蹤性能?；谏窠?jīng)網(wǎng)絡模型，在后續(xù)事件流中定位來自灰度圖像的模板圖像來跟蹤特征。為了提高跟蹤性能，引入了一種新穎的幀注意模塊，該模塊可以在一個圖像中的特征跟蹤之間共享信息。首先在合成光流數(shù)據(jù)集上進行訓練，然后使用基于使用相機姿勢的 3D 點三角測量的新穎自我監(jiān)督方案對其進行微調。本文的跟蹤模型在事件相機數(shù)據(jù)集基準 EC 和最近發(fā)布的 EDS 數(shù)據(jù)集上分別比最先進的方法高出 5.5% 和 130.2%。無需大量手動手動調整參數(shù)即可實現(xiàn)此性能。此外，在不優(yōu)化部署代碼的情況下，本文的方法比現(xiàn)有方法實現(xiàn)了更快的推理速度。最后，將本文的方法與成熟的基于幀的跟蹤器 KLT 進行結合，在高速場景中充分利用兩種數(shù)據(jù)的優(yōu)點。

2 相關背景

在高速和高動態(tài)范圍場景中，現(xiàn)有事件相機特征跟蹤方法的延遲和跟蹤魯棒性具有極好的效果。但是，到目前為止，基于事件的跟蹤方法仍是基于經(jīng)典模型假設設計的，這會導致在存在噪聲的情況下跟蹤性能較差。它們要么依賴于運動參數(shù)的迭代優(yōu)化，要么對特征可能的變換進行簡單的分類。因此，由于未建模因素的影響，不能推廣到不同的場景中去。此外，它們通常具有復雜的模型參數(shù)，需要大量的手動調整以適應不同的事件相機和不同的場景。

3 方法

特征跟蹤算法旨在在后續(xù)時間步中跟蹤參考系中的給定點。通常通過提取參考幀中特征位置周圍的外觀信息，然后在后續(xù)幀中進行匹配和定位。遵循此流程，本文在時間步處對給定位置提取灰度幀中的圖像，并使用異步事件流跟蹤該特征。時間步和之間的事件流由事件組成，每個事件編碼像素坐標、微秒級分辨率的時間戳和極性。給定參考圖像，本文的網(wǎng)絡使用前一時間步的特征位置的局部鄰域中的相應事件流來預測和期間的相對特征位移。本地窗口內的事件被轉換為密集事件表示，具體來講使用 SBT 的最大時間戳版本進行數(shù)據(jù)預處理，其中每個像素都分配有最近事件的時間戳。一旦網(wǎng)絡將參考補丁定位在當前事件補丁內，就會更新特征軌跡，并在新預測的特征位置提取新的事件流，同時保留參考圖像塊。然后重復這一過程，同時累積相對位移以構建一個連續(xù)的特征軌跡。本文方法和幀注意力模塊的概述如圖 2 所示。

3.1 Feature Network - 特征提取網(wǎng)絡

為了在當前事件流內定位模板圖像中的特征，特征網(wǎng)絡首先基于FPN編碼器對兩個圖片進行編碼。生成的輸出是兩個圖像的逐像素特征圖，其中包含上下文信息，同時保留空間信息。為了計算事件圖片和模板圖片中每個像素之間的相似性，本文基于模板圖片編碼器的瓶頸特征向量和事件補丁的特征圖構建了一個相關圖，如下圖所示。隨后，將兩個特征圖與相關圖組合作為后續(xù)特征編碼器的輸入，以細化相關圖。該特征編碼器由標準卷積和一個具有時間狀態(tài)的 ConvLSTM 塊組成。時間信息對于預測隨時間變化的特征軌跡至關重要。此外，它還可以集成事件提供的運動信息。特征網(wǎng)絡的輸出是空間維度為1×1的單個特征向量。到目前為止，每個特征都是相互獨立處理的。

3.2 Frame Attention Module - 幀注意力模塊

為了在同一圖像不同特征之間進行共享信息，本文引入了一種新穎的幀注意模塊，如下圖所示。由于剛體上的點在圖像平面中表現(xiàn)出相關運動，因此在圖像上的特征之間共享信息有很大的好處。為了實現(xiàn)這一點，本文的幀注意力模塊將當前時間步處所有圖像塊的特征向量作為輸入，并基于所有特征向量的自注意力加權融合計算每個圖像塊的最終位移。具體來說，在一段時間內為每個特征設定一個狀態(tài)，以便利用注意力模塊融合中先前時間步中的位移預測。時間信息有助于與過去具有相似運動的特征之間的信息共享。這樣，通過在相似的特征軌跡上自適應地調節(jié)它們，可以在具有挑戰(zhàn)性的情況下維護易受攻擊的特征軌跡。每個輸入特征向量首先使用兩個具有 Leaky ReLU 激活函數(shù)的線性層(MLP) 與當前狀態(tài)融合（每個特征向量單獨進行）。然后，圖像中產生的所有融合特征都將用作多頭注意力（MHA）的 key、query 和 value，增強圖像每個特征自身信息的提取。為了促進訓練，在每個特征的多頭注意力周圍引入了一個跳躍連接，該連接在訓練過程中通過 Layerscale 層 (LS) 進行自適應加權。然后，在門控層中使用所得的特征向量，根據(jù)先前的狀態(tài)(GL) 計算更新的狀態(tài)，具體的公式如下所示。

最終，更新后的狀態(tài)通過單個線性層進行處理用來預測最終位移。

3.3. Supervision - 監(jiān)督（損失函數(shù)）

跟蹤網(wǎng)絡、提取網(wǎng)絡甚至流網(wǎng)絡的監(jiān)督仍然是一個開放的研究領域，因為包含像素級對應作為真值的數(shù)據(jù)集很少見。更糟糕的是，基于事件的精確像素對應的數(shù)據(jù)集更少。為了克服這個限制，本文首先使用來自 Multiflow 數(shù)據(jù)集的合成數(shù)據(jù)來訓練本文的網(wǎng)絡，其中包含幀、合成生成的事件和真實像素流。然而，由于沒有對噪聲進行建模，因此合成事件與真實事件攝像機記錄的事件有很大不同。因此，在第二步中，使用新穎的姿勢監(jiān)督損失來微調本文的網(wǎng)絡，以縮小合成事件和真實事件之間的差距。

3.3.1 Synthetic Supervision - 合成數(shù)據(jù)監(jiān)督

合成數(shù)據(jù)的好處在于它提供了真實的特征軌跡。因此，基于L1距離損失可以直接應用于預測和真實值之間的每一個預測步驟的預測和真是位移之間的相對位位移，如圖3所示。有可能預測的特征軌跡發(fā)散到模板塊之外，使得下一個特征位置不在當前搜索中。因此，如果預測位移和真實位移的差值| | Δf ( j-Δfj | | 1 )超過了塊半徑r，我們不將L1距離加到最終損失中，以避免在監(jiān)督中引入噪聲。我們的截斷損失函數(shù)的定義如下所示：

3.3.2 Pose Supervision - 位姿監(jiān)督

為了使網(wǎng)絡適應真實場景，引入了一種新穎的僅基于已標定相機真實姿態(tài)的姿態(tài)監(jiān)督損失函數(shù)。利用運動結構回復（SFM）算法，例如COLMAP，或者通過外部運動捕捉系統(tǒng)，可以很容易地獲得稀疏時間步的真實姿態(tài)。由于本文的監(jiān)督策略依賴基于位姿的3D點的三角剖分，因此只能應用在靜態(tài)場景中。在微調的第一步，跟蹤模型預測一個事件序列的多個特征軌跡。對于每個預測軌跡，直接使用Direct Linear Transform(DLT)算法計算相應3D點。具體來說，對于每個特征位置，可以使用相機位姿假設針孔相機模型的投影方程，表示為時間步的旋轉矩陣、平移向量與標定矩陣，具體計算如下述公式。由此得到的投影矩陣可以表示為由列向量組成的矩陣，其中。

利用DLT算法，可以將投影方程轉化為如下述公式的齊次線性方程組。通過SVD，得到使方程的最小二乘誤差最小的三維點。一旦計算出的三維位置，就可以利用透射投影公式來找到每個事件步相對應的重投影像素點。。最終的位姿監(jiān)督損失函數(shù)根據(jù)預測的特征和在時刻每個可用的相機位姿的重投影特征構建。如圖4所示。本文使用如下的截斷損失函數(shù)，當重投影的特征不在事件塊之內時，排除該部分損失函數(shù)的值。

*博客內容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

挑戰(zhàn)傳統(tǒng)！首個數(shù)據(jù)驅動的事件相機特征追蹤框架橫空出世?。?）

相關推薦

技術專區(qū)

博客專欄

挑戰(zhàn)傳統(tǒng)！首個數(shù)據(jù)驅動的事件相機特征追蹤框架橫空出世?。?）

相關推薦

技術專區(qū)

挑戰(zhàn)傳統(tǒng)！首個數(shù)據(jù)驅動的事件相機特征追蹤框架橫空出世?。?）