在手機上實現實時的單眼3D重建
本文展示了在手機上實現實時單眼3D重建的系統(tǒng),稱為Mobile3DRecon。該系統(tǒng)使用嵌入式單眼相機,在后端提供了在線網格生成功能,并在前端提供了實時6DoF姿勢跟蹤,以供用戶在手機上實現具有真實感的AR效果。
與大多數現有的僅使用基于點云的3D模型在線生成技術或離線的表面網格生成技術不同,本文提供了一種全新的在線增量網格生成方法來實現快速的在線密集表面網格重建,以滿足實時的AR應用需求。
對于6DoF跟蹤的每個關鍵幀,本文使用多視圖半全局匹配(SGM)的方法進行的單眼深度估計,然后進行深度細化處理。生成模塊將每個估計的關鍵幀深度圖融合到在線密集表面網格上,這對于實現逼真的AR效果(例如碰撞和遮擋等)。
本文在兩個中距離移動平臺上驗證了實時重建的結果,通過定量和定性評估的實驗證明了所提出的單眼3D重建系統(tǒng)的有效性。該系統(tǒng)可以處理虛擬物體與真實物體之間的遮擋和碰撞場景以實現逼真的AR效果。
一、背景與貢獻
本文提出了以中多視圖關鍵幀深度估計方法,該方法即使在具有一定姿態(tài)誤差的無紋理區(qū)域中也可以魯棒地估計密集深度,消除由姿勢誤差或無紋理區(qū)域引起的不可靠深度,并通過深度神經網絡進一步優(yōu)化了噪聲深度。
本文提出了以中有效的增量網格生成方法,該方法可以融合估計的關鍵幀深度圖以在線重建場景的表面網格,并逐步更新局部網格三角。這種增量網格方法不僅可以為前端的AR效果提供在線密集的3D表面重建,還可以確保將網格生成在后端CPU模塊上的實時性能。這對于以前的在線3D重建系統(tǒng)來說是有難度的。
本文提出了帶有單眼相機的實時密集表面網格重建管線,在手機上實現了單眼關鍵幀深度估計和增量網格更新的執(zhí)行速度不超過后端的125ms/關鍵幀,在跟蹤前端6DoF上快速到足以超過每秒25幀(FPS)。
二、算法流程
圖1—系統(tǒng)簡圖
整個系統(tǒng)的處理圖如圖1所示,當用戶使用手機上的單眼相機導航到他的環(huán)境時,本文提供的管道會使用基于關鍵幀的視覺慣性SLAM系統(tǒng)跟蹤手機的6DoF姿勢,該系統(tǒng)跟蹤前端的6DoF的同時,也可以保證關鍵幀后端具有全局優(yōu)化模塊,以優(yōu)化所有關鍵幀的姿勢,并將其反饋給前端跟蹤。本文在管道中使用了SenseAR SLAM進行姿勢跟蹤,并且任何基于關鍵幀的VIO或SLAM系統(tǒng)(例如谷歌的ARCore)目前都是適用的。
在前端正常初始化6DoF姿勢跟蹤之后,對于具有全局優(yōu)化姿勢的關鍵幀池中的最新傳入關鍵幀,其密集深度圖是通過多視圖SGM在線估計的,其中先前的關鍵幀的一部分會被作為參考幀。卷積神經網絡和多視圖SGM被用來細化深度噪聲,然后通過融合細化的關鍵幀深度圖以生成周圍環(huán)境的密集表面網格。這里的管道是用來執(zhí)行增量在線網格生成,這更適合于手機平臺上AR應用程序對實時3D重建的要求,深度估計和增量網格劃分都作為后端模塊進行。隨著密集網格逐漸在后端被重建出來,高級別的AR應用程序可以使用這種實時的密集網格和6DoF SLAM的姿勢為前端用戶提供逼真的AR效果,比如遮擋和碰撞等。
1.單眼深度估計
單眼深度估計首先利用本文提出的多視圖SGM方法進行立體匹配,然后基于置信圖對深度信息進行濾波,最后利用深度學習細化深度信息。
立體匹配部分, 本文對深度空間的逆進行均勻采樣,然后利用人口普查變換(CT)作為特征值描述子來計算補丁相似度(patch similarity)。這里通過查找表來計算兩個人口普查位串之間的漢明距離,遍歷每個帶有標簽I的切片的像素,來計算立體匹配的成本。之后,會得到的大小為W * H * L尺寸的成本量,其中W和H是框架的寬度和高度。然后匯總成本量,采用Winner-Take-All的策略獲得初始深度圖。
本文通過懲罰像素鄰域的深度標記變化添加了額外的正則化來支持平滑度。對于帶有標簽l的圖像像素x,成本的匯總是通過遞歸計算相鄰方向的成本來完成的。
基于置信度的深度濾波利用SGM中的不確定度測量來計算置信度,同時也考慮了局部深度一致性。
深度信息的細化是基于深度神經網絡的,這是由一個兩階段的細化神經網絡來組成。第一階段是圖像引導子網絡CNNG,它將濾波后的深度與相應的關鍵幀上的灰度圖像相結合得到粗細化的結果Dct,其中,灰度圖像充當深度優(yōu)化的引導,用以提供CNNG的物體邊緣和語義信息的先驗。第二階段是殘差U-Net CNNR,它可以進一步細化之前粗細化后的噪聲結果得到最終的精細化深度信息。U-Net結構主要有助于使學習過程更加穩(wěn)定并克服特征退化的問題。這里的訓練集是采用Demon數據集進行訓練。
2.漸進式網格生成
去除動態(tài)物體后,利用TSDF對體素進行融合。每一個估算出來的深度圖都被集成到TSDF體素上,然后通過鏈接生成和更新的體素來重建3D物體,生成漸進式網格。
實時的網格更新是將漸進式移動的立方體塊在單個CPU線程上集成,每一個關鍵幀只更新一部分立方體塊。除此之外,本文為每一個體素定義了一個狀態(tài)變量,用來判斷更新,添加,通用和刪除。更新和提取的三角網格只來自于添加和更新的立方體塊。最后,再利用深度細化神經網絡來提高平面網格的質量。
三、主要結果
我們的單眼深度估計是根據序列“室內樓梯”和“沙發(fā)”的兩個代表性關鍵幀得出的:
原關鍵幀圖像及其兩個選定的參考關鍵幀圖像;“室內樓梯”參考幀中的兩個代表性像素及其極線繪制出從前端的6DoF跟蹤來證明某些相機姿態(tài)誤差的數據。
通過反投影進行的多視圖SGM和相應點云的深度估計結果。
基于置信度的深度濾波后的結果及其對應的結果
在基于DNN的參考及其相應的點云之后的最終深度估計結果。
OPPO R17 Pro捕獲的四個實驗序列“室內樓梯”,“沙發(fā)”,“桌面”和“內閣”的表面網格生成結果:
a.顯示了每個序列的一些代表性關鍵幀。沒有基于DNN的深度細化的每個序列的生成 的全局表面網.
c.我們的基于DNN的深度細化的生成的全局表面網格。
我們報告了我們的Mobile3DRecon和[11,27,40]的深度和表面網格結果的RMSE和MAE,這些結果是由我們的五個實驗序列(由OPPO R17 Pro捕獲的,ToF深度測量為GT)進行深度評估的,僅像素在GT和估計深度圖中都有有效深度的情況下,將參與誤差計算;對于通用深度評估,所有方法和GT中只有具有有效深度相同的像素才參與評估;
請注意,對于REMODE,我們僅考慮計算對于REMODE,由于深度小于35 cm,我們無法獲得深度融合結果;對于網格評估,我們使用CloudCompare 2通過將每種方法的深度融合到GT網格(通過融合ToF深度)來比較網格結果。對于REMODE,由于深度誤差嚴重,我們無法獲得深度融合結果。
我們在所有子步驟中報告Mobile3DRecon的詳細每關鍵幀時間消耗(以毫秒為單位),時間統(tǒng)計信息在兩個移動平臺上給出:帶SDM710的OPPO R17 Pro和帶SDM845的MI8。
點擊閱讀原文獲取完整文章下載鏈接,提取碼: pzg5
本文轉載自:泡泡機器人SLAM
標題:Mobile3DRecon: Real-time Monocular 3D Reconstruction on a Mobile Phone
作者:Xingbin Yang, Liyang Zhou, Hanqing Jiang, Zhongliang Tang, Yuanbo Wang, Hujun Bao, Member, IEEE, and Guofeng Zhang, Member, IEEE
機構:浙江大學;商湯科技
來源:ISMAR 2020
編譯 : 張海晗
審核:管培育
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。
互感器相關文章:互感器原理
電氣符號相關文章:電氣符號大全
斷路器相關文章:斷路器原理
高壓真空斷路器相關文章:高壓真空斷路器原理 電抗器相關文章:電抗器原理 電化學工作站相關文章:電化學工作站原理 絕緣電阻測試儀相關文章:絕緣電阻測試儀原理 調壓器相關文章:調壓器原理 熔斷器相關文章:熔斷器原理 漏電斷路器相關文章:漏電斷路器原理