博客專欄

EEPW首頁 > 博客 > 視覺/視覺慣性SLAM最新綜述:領域進展、方法分類與實驗對比(1)

視覺/視覺慣性SLAM最新綜述:領域進展、方法分類與實驗對比(1)

發(fā)布人:計算機視覺工坊 時間:2021-07-26 來源:工程師 發(fā)布文章

Visual and Visual-Inertial SLAM: State of the Art, Classification,and Experimental Benchmarking

作者:Myriam Servières, Valérie Renaudin, Alexis Dupuis, and Nicolas Antigny

論文地址: https://www.hindawi.com/journals/js/2021/2054828/

1.png

摘要:SLAM技術現在被許多應用廣泛采用,研究人員已經就這個領域產生了非常多的文獻。隨著智能設備的出現,嵌入攝像頭、慣性測量單元、視覺 SLAM (vSLAM) 和視覺-慣性 SLAM (viSLAM) 正在實現新穎的大眾應用。在這種情況下,本文對現有的 SLAM 方法進行了回顧,重點是 vSLAM/viSLAM,無論是在基礎層面還是實驗層面。從現有 vSLAM 和 viSLAM 設計的結構化概述開始,并繼續(xù)對十幾種主要的最先進方法進行新分類。利用 viSLAM 發(fā)展的時間順序突出了歷史里程碑,并將更新的方法歸類為一個分類。最后,在城市環(huán)境中使用手持設備進行行人位姿估計的用例進行SLAM 的性能評估。使用 EuRoC MAV 數據集和與城市行人導航對應的新的視覺-慣性數據集,比較了五種開源方法 Vins-Mono、ROVIO、ORB-SLAM2、DSO 和 LSD-SLAM 的性能。對計算結果的詳細分析確定了每種方法的優(yōu)點和缺點。使用兩個數據集進行測試結果表明,總的來說,ORB-SLAM2 似乎是解決城市行人導航挑戰(zhàn)中最有前途的算法。

I 引言

SLAM 問題自 1980 年代提出以來一直是最活躍的研究課題之一 [1, 2]。SLAM 的目標是在重建周圍環(huán)境地圖的同時獲得設備路徑的全局一致估計。這兩個核心任務之間的耦合很快被發(fā)現是 SLAM 方法的真正優(yōu)勢。這種二元性也促進了它的多樣化。通過賦予地圖或定位的重要性,SLAM 已從唯一的機器人領域擴展,成為解決許多不同性質問題的參考:從微型飛行器 [3] 到智能手機上的增強現實 (AR) [ 4, 5]。

對現有的 SLAM 算法(實時、廉價的傳感器)增加了更高的期望,從而導致了 SLAM 的新研究領域。僅使用相機的視覺 SLAM (vSLAM) 和使用慣性IMU的視覺-慣性 SLAM (viSLAM) 很好地說明了這些新的 SLAM 策略。在過去的幾十年中,vSLAM 可能吸引了大部分研究。相機捕獲有關觀察環(huán)境的大量數據,可以提取這些數據并用于 SLAM 處理。這些相機也是最便宜的傳感器之一。它們出現在當今大多數智能設備上,支持針對普通大眾的新型應用程序的持續(xù)開發(fā)。

由于存在許多針對不同目標的不同 SLAM 方法,因此比較它們并不容易。為特定應用選擇最適合的方法需要對 SLAM 的來龍去脈有很好的了解,以及對最先進的 SLAM 策略的全局理解。方法的性能取決于應用程序上下文和要解決的挑戰(zhàn)。在全局范圍內,SLAM 往往被錯誤地認為是一種萬能的技術,但在現實生活中的實施會在計算限制、噪聲抑制甚至用戶友好性方面提出許多問題。這只是要克服的困難的一個選擇。

本文旨在對現有的 vSLAM 和 viSLAM 方法進行分類?;诩夹g和面向應用的標準提出了橫向分類。SLAM 方法的綜述包含 vSLAM 和 viSLAM 發(fā)展的歷史介紹。該分析是通過在兩個不同的數據集上運行五種選定的最先進的 SLAM 方法來完成的,這些方法已被選擇用來表示現有 SLAM 設計的多樣性。這些方法最好地解決了城市環(huán)境中行人位姿估計的用例。該實驗基準在著名的公共數據集 EuRoC [6] 上進行,并使用新的視覺慣性數據集完成,該數據集已通過法國南特市中心行人手持的智能設備采集(IRSTV 數據集)。

支持此綜述和基準測試的主要動機是在城市行人移動性的特定背景下評估 vSLAM 和 viSLAM 方法,并在過程中使用增強現實 (AR)。在這種情況下,其結果應該有助于選擇最合適的方法來估計手持智能設備的位姿。行人的手正在執(zhí)行 6DoF 運動。尋找流行的基準數據集,發(fā)現這些運動與微型飛行器的運動相似。本文首先根據文獻中方法的特征和它們對各種場景的魯棒性(第 6 節(jié))對來自文獻的方法進行分類,以選擇數據集。選擇最接近行人移動性要求和環(huán)境的數據集與新引入的 IRSTV 行人數據集(第 7 節(jié))進行比較。

第 2 節(jié)列出了 SLAM 方法的現有綜述論文和基準,其方法與本工作中采用的方法不同。第 3 節(jié)描述了 SLAM 算法設計的第一級:硬件和通用軟件選擇。第 4 節(jié)描述了 vSLAM 算法的一般架構。它確定并詳細說明了四個組成“塊”。第 5 節(jié)概述了 SLAM 的歷史,分為三個時期。第 6 節(jié)介紹了 vSLAM 和 viSLAM 方法的新分類。最后,第 7 節(jié)介紹了基于 EuRoC 和 IRSTV 數據集進行的實驗基準測試,并對選定數據集上的 SLAM 結果進行詳細分析。

2. 現有綜述和基準

幾篇綜述論文簡要介紹了特定時間 SLAM 的研究狀況。各種論文提出了其他實驗基準。它們告知了最著名的 SLAM 方法在給定數據集上的性能。本節(jié)列出了其中一些論文以進行理論基準測試。還列出了它們以支持將第 7 節(jié)中進行的實驗基準與其他最先進的評估進行比較。

2.1. Survey Papers

在 [7] 中可以找到關于 vSLAM 算法的有趣且完整的綜述,盡管有些陳舊。在 [8] 中,作者介紹了最先進的 SLAM 方法與 vSLAM 中最著名的算法之間的一些主要區(qū)別,并對 viSLAM 進行了非常有用的介紹。但是,作為綜述,它主要提供了有關該主題的高級解釋??梢栽?[9] 中找到僅限于視覺里程計和視覺 SLAM 的概述。兩篇了解 SLAM 研究起源的創(chuàng)始論文在 [10, 11] 中。他們還主要專注于視覺里程計和 viSLAM 的子部分。Durrant-Whyte 和 Bailey [12, 13] 的 2006 年論文提供了關于 viSLAM 的豐富教程。它們包含對 SLAM 問題數學公式詳細介紹,但缺乏對最近 vSLAM 的更新介紹。Cadena 等人的論文 [14] 可以被認為是 viSLAM 領域的一本手冊。最近的綜述[15] 列出并分類了基于濾波和基于優(yōu)化的 viSLAM 算法,并使用 EuRoc 數據集對它們進行了比較。發(fā)現這些論文都沒有完整地介紹該領域,即從技術和歷史瑣事到實際性能比較。因此,本文的工作旨在促進新研究工作與 SLAM 的比較,并協(xié)助未來的位姿估計研究?,F有技術提出了主要的 vSLAM 方法來解釋設計和硬件選擇對性能的影響。vSLAM/viSLAM 分類提供了許多現有實現的多樣性的概述和比較。此外,隨后在第 6 節(jié)中提出的分類將在其他評論中部分發(fā)現但不一定一起呈現的特征組合在一起。

2.2. Benchmarks

第一個基準 [16] 僅關注 RGB-D SLAM。另一個專門用于視覺慣性方法的基準 [3],在多個平臺上評估緊耦合的視覺慣性里程計 (VIO) 和 viSLAM 方法,以模擬飛行無人機的實際應用。測試僅在 EuRoC 數據集(即中等室內環(huán)境)上執(zhí)行。它通過比較六種最先進算法的準確性、內存和 CPU 使用率以及計算時間,為 viSLAM 算法提供了最完整的基準測試之一。S-MSCKF 論文 [17] 也比較了一些 viSLAM 方法。vSLAM 方法通常在不包含慣性數據的the new college [18]、TUM 單目 [19] 或 TUM RGB-D 數據集 [16] 上進行測試。EuRoC數據集不能用于比較最新的 viSLAM 方法。

3. 硬件和一般設計選擇

SLAM 和視覺里程計 (VO) 在文獻中通常是同義詞,因為它們都是解決類似問題的潛在選擇,但它們針對不同的目標。VO 專注于實時估計相機的路徑。它是按順序完成的,每次捕獲一個新幀。VO 僅提供局部/相對估計,并通過窗口優(yōu)化在線細化路徑。相反,SLAM 提供了對設備路徑的全局一致估計?;丨h(huán)檢測通過執(zhí)行集調整 (BA) 來減少地圖和軌跡估計中的漂移。為簡化起見,VO 和 vSLAM 的行為類似,直到關閉回環(huán)。VO 通常用作 vSLAM 的結構模塊,它也借用了3D 重建中的SfM方法。

在不需要構建精確地圖的應用中,可以想象純 VO 和 vSLAM。

3.1. Hardware for Visual SLAM

傳統(tǒng)上,vSLAM 使用三種硬件類型:單目相機、雙目相機和 RGB-D 相機。viSLAM 最近引起了越來越多的興趣,因為 IMU 和相機具有互補的功能。相機在慢動作中是準確的,并提供豐富的信息源,但它們的輸出速率有限,導致單目設置中的尺度模糊,并且在運動模糊或光照變化的情況下可能缺乏魯棒性。另一方面,IMU 以高采樣率對環(huán)境變化具有魯棒性,但它們僅提供載體運動測量,并且受到傳感器偏差的影響,這會降低加速度和角速度記錄。隨著同時嵌入 IMU 和攝像頭的智能設備的出現,許多面向大眾的應用都采用了 viSLAM 算法。它們是一種很有前途的替代方案,可以結合多個來源來提高跟蹤質量 [20]。

3.2. Filter-Based and Keyframe-Based Approaches

如圖 1 所示,vSLAM 方法使用兩種主要設計。第一個設計對應于基于濾波器的解決方案。該類別包含以下內容:

(i) 基于擴展卡爾曼濾波(EKF-) 的算法,例如 MonoSLAM [21]

(ii) 基于粒子濾波的方法,例如 FastSLAM 及其單目 SLAM 替代方案 [22, 23]

(iii) 基于多狀態(tài)約束卡爾曼濾波(MSCKF-)的方法,例如 MSCKF 2.0 [24] 或 SMSCKF [17]。

2.png

圖1當前 vSLAM 算法

傳統(tǒng)上,基于濾波器的方法在狀態(tài)向量中估計相機的位姿和地標的位置,這是可擴展性低效的潛在來源。Mourikis 和 Roumeliotis [25] 的 MSCKF 以及最近基于 EKF 的 VIO 解決方案,例如 ROVIO [26],使用限制性的地標剔除以僅保留狀態(tài)向量中最近檢測到的特征。這種解決問題的局部方法對于純視覺里程計方法(VO 或 VIO)很常見。也可以將從狀態(tài)向量中提取的 3D 特征保留在靜態(tài)地圖中。該地圖被認為是靜態(tài)的,因為它在整個 SLAM 過程中保持不變。建圖是在定位之后而不是同時進行的。

第二種設計利用源自 PTAM [27] 的并行方法。這些方法基于關鍵幀。這些特征相對于關鍵幀進行參數化,從而能夠在多個線程上并行運行不同的 SLAM 任務?;陉P鍵幀的方法有時也稱為“基于優(yōu)化”的方法。它們在性能方面的主要優(yōu)勢之一是它們使用全局優(yōu)化集束調整 (BA),而不是讓濾波管理地圖和位姿。全局優(yōu)化能夠糾正漂移效應,從而提高精度。然而,它們的計算成本很高,這就是為什么在 PTAM [27] 引入并行化各種 SLAM 任務的可能性之前,它們大多被離線使用。就像基于濾波器的方法已經演變成窗口方法以提高計算效率和可擴展性一樣,基于關鍵幀的優(yōu)化只能在關鍵幀的窗口上進行。關鍵幀也可以排列在圖表中。根據它們的設計,可以使用不同的標準來定義窗口,而不是使用最后一個關鍵幀的簡單時間窗口。優(yōu)化也因優(yōu)化標準而異。位姿圖優(yōu)化(或僅運動 BA)側重于關鍵幀之間的位姿,而僅結構 BA 僅優(yōu)化地圖,BA 管理地圖和位姿。然而,應該注意的是,vSLAM 方法也可以結合各種類型的優(yōu)化設計:例如,在每個新的關鍵幀上進行閉環(huán)的全局 BA 和局部位姿圖優(yōu)化。正如圖 1 總結的那樣,設計的選擇通常是由精度和速度之間的折衷決定的。

4. vSLAM算法的經典結構

四個主要塊(圖 2)描述了所有 vSLAM 算法的整體操作。它們如下:

(i) 輸入搜索:在傳感器測量中找到所需的信息;

(ii) 位姿跟蹤:根據新的感知確定當前相機位姿;

(iii) 建圖:在地圖上添加一個地標;

(iv) 閉環(huán):生成合適的地圖和無漂移的定位。

3.png

圖2 vSLAM 算法的四個主要模塊

4.1. Input Search

在處理相機時,首先必須提取幀中包含的數據。一些方法使用像素強度來匹配不同的幀:它們被稱為直接方法。在這種情況下,建圖元素可以是像素圖,即幀在 3D 圖中重新定位,并且每個像素都有相應的深度(第 4.3 節(jié))。其他方法提取每一幀中的特征(圖像感興趣區(qū)域中的點,即易于識別,直線或曲線段)并使用幾何約束進行匹配。特征提取是計算機視覺的一個眾所周知的領域。特征描述符通常使用強度梯度來檢測感興趣的區(qū)域。在這種情況下,建圖元素可以是特征的 3D 位姿。著名的描述符包括 Harris [28]、SURF [29]、SIFT [30]、FAST [31] 和 ORB [32]。選擇通常是由健壯性和計算效率之間的權衡決定的。最后這些方法稱為間接方法或基于特征的方法。

直接和間接之間的選擇與輸入空間有關,而稠密和稀疏建圖之間的選擇取決于輸出空間。構建的地圖從稀疏到稠密。稀疏地圖僅包含稀疏特征云(即,僅圖像幀中像素的一小部分選定子集)并且是專注于軌跡正確性的典型 vSLAM 方法。稠密方法使用所有幀的信息(即,每個接收幀中的大部分或全部像素信息)來重建具有盡可能多的環(huán)境數據的地圖。半稠密方法介于兩者之間。它們是稠密的方法,其中僅將特定的感興趣區(qū)域建圖。基于此分析可以想象的四種輸入/輸出組合各有利弊。表 1 總結了可能的組合,給出了使用它們的算法示例。

表 1 根據第一個 vSLAM 模塊的輸入和輸出方法進行分類

4.png

直接和間接之間的選擇仍在爭論中。特征描述符對圖像噪聲具有魯棒性。最近的描述符對于幾何失真可能是穩(wěn)健的,甚至是不變的,例如,由于卷簾快門、自動曝光變化和鏡頭漸暈。直接方法允許使用每個幀中包含的所有信息。它們避免提取特征并更快地收集地圖數據。使用基本相機(例如網絡攝像頭或智能手機)時,間接方法因其穩(wěn)健性而受到青睞。然而,對于參數化良好的全局快門相機,直接方法可能是首選。稠密方法產生更有趣的環(huán)境 3D 重建,但它們通常需要在高端 GPU 上進行大量并行化。

間接/稀疏方法是最常用的方法。他們提取幀中的特征,并在確定坐標后將其添加為 3D 點以進行建圖。直接/稠密(或半稠密)方法也很常見。觀察到的像素由圖像幀中的一個 3D 點表示,構成所有像素的深度圖。為了保持建圖期間在每一幀中觀察到的內部一致性,添加了幾何先驗。它們使用對場景幾何形狀的假設來限制從同一幀看到的點的位置。直接/稀疏方法相當不常見,并且在沒有先驗數據的情況下使用光度誤差最小化,以保持幾何參數之間的相關性更輕,優(yōu)化耗時更少,如 DSO [33]。間接/稠密方法很少見,并且不使用特征描述符。相反,他們將幾何誤差計算為與幀中觀察到的光流場的偏差。

4.2. Pose Tracking

位姿跟蹤塊包括視覺里程計部分。根據兩個連續(xù)幀中的特征對應是 2D 還是 3D,有三種不同的方式來執(zhí)行視覺里程計 [11]。

(i) 2D-2D 對齊:特征匹配直接在連續(xù)幀上檢測到的 2D 特征之間完成。這是純VO方法的常見解決方案;

(ii) 2D-3D(有時稱為 2.5D)對齊:給定世界中的一組 3D 點(來自先前幀的地圖點)及其在新幀中相應的 2D 投影,估計相機的位姿。這個問題被稱為視角點。單目 pureVO 方法只能使用 2.5D 對齊,方法是保留幀、動態(tài)三角特征,并在這些三角點被新傳入數據剔除之前重用 3D 位姿。相反,vSLAM 受益于完整的地標地圖可供選擇進行重投影,因此 vSLAM 中通常使用 2.5D 對齊

(iii) 3D-3D 對齊:使用雙目相機,可以直接確定新檢測到的特征的 3D 位置,因此也可以考慮 3D-3D 對齊。然而,3D 特征位置估計通常會產生比 3D-2D 重投影誤差更大的不確定性,這就是為什么很少使用這種方法的原因。

對于單目 EKF-SLAM,地圖點的重投影用于校正階段 [38]。MSCKF 沿著一條“路徑”跟蹤檢測到的特征,該路徑由特征的每次檢測組成,從第一次檢測到它消失的那一刻。然后,它使用路徑完整的所有特征執(zhí)行高斯-牛頓最小化 [24]。對于并行方法,VO 可以在每一幀之間完成,而地圖重投影可以用于提高新關鍵幀位姿估計的準確性。計算新相機位姿的先決條件是匹配當前幀和前一幀之間的特征。自 2003 年 MonoSLAM [21] 以來,“自下而上”方法(嘗試通過測試所有可能性來匹配特征)已被更有效的“自上而下”方法所取代。基本思想是計算前一幀特征周圍的不確定性橢圓,其中應該對該特征進行新的觀察,并在新幀上限制該橢圓中的搜索空間。跟蹤這個橢圓需要對兩幀之間的相機運動進行一些假設,例如,CVCAV 運動模型(恒定速度,恒定角速度)[21]。通??梢酝ㄟ^確定最小化每個圖像中三角點的重投影誤差的變換來找到解決方案。通過 2D-3D 對齊,我們搜索最小化 3D 地標到新 2D 幀的重投影誤差的變換。

使用幾何參數完成特征的 2D-2D 對齊,再通過使用對極幾何(5 點或 8 點算法)計算基本矩陣并將其分解為平移向量 t 和旋轉矩陣 R(使用奇異值分解),并形成幀到幀的變換 T。在直接方法中,給定一個點 p,其像素坐標是圖像 I1 中的 x 和 I2 中的 x',x'(T,x) 是運動 T 的函數,真實運動 T* 應該最小化光度差 I1(x)-I2(x')。因此,通過最小化圖像中的整體光度差異來找到 T* 的最佳估計,這是像素級光度誤差的總和(在某些區(qū)域可能加權,例如,具有高梯度)。這稱為直接圖像對齊 (DIA),相當于直接方法的 2D-2D 對齊。

在處理稠密模型時,通常使用迭代最近點 (ICP) [39-41] 使用當前幀的深度圖和 3D 稠密模型進行跟蹤。請注意,基于稠密模型重投影的跟蹤可以受益于預測能力,例如提高對遮擋的魯棒性,以及對運動模糊的魯棒處理。

*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: 計算機視覺

相關推薦

技術專區(qū)

關閉