博客專欄

EEPW首頁 > 博客 > 深度學習|三維重建:R-MVSNet

深度學習|三維重建:R-MVSNet

發(fā)布人:計算機視覺工坊 時間:2021-04-26 來源:工程師 發(fā)布文章

作者丨任乾@知乎

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/111210140

編輯丨計算機視覺工坊

這是我之前在泡泡機器人上翻譯的文章,放在這里做個備份,原文鏈接:https://www.sohu.com/a/334072786_715754

一、背景

該文章來自香港科技大學和深圳Altizure公司的研究團隊,該團隊在2018年ECCV上提出了MVSNet,用于高精度多視圖三維重建,但由于該網(wǎng)絡內(nèi)存消耗過大,無法應用到大場景中去,因此他們又提出了R-MVSNet,引入循環(huán)神經(jīng)網(wǎng)絡架構(gòu),以減小內(nèi)存消耗。

二、摘要

深度學習已經(jīng)被證明在多視圖三維重建(MVS)中可以取得很好的效果,但是,現(xiàn)有的基于深度學習的三維重建方法最大的限制是尺度問題,大量的內(nèi)存需求導致這些方法無法被應用在大尺度場景中。在本文中,我們提出了一種基于循環(huán)神經(jīng)網(wǎng)絡的方法R-MVSNet,以適應各種尺度的環(huán)境。與原有方法一次性構(gòu)建3D代價體(cost volume)不同,該方法依序地在深度方向通過GRU單元正則化2D代價圖(cost map)。這樣就可以在顯著減小內(nèi)存消耗的情況下完成高精度三維重建。我們首先展示了該方法在MVS數(shù)據(jù)集上的優(yōu)秀表現(xiàn),然后給出了它在大尺度數(shù)據(jù)集上的結(jié)果,在這種尺度的環(huán)境下,原有方法無法完成重建任務。開源代碼的鏈接為:https://link.zhihu.com/?target=https%3A//github.com/YoYo000/MVSNet

三、算法介紹

1. MVSNet

由于本文方法是從MVSNet改進而來,很多東西一脈相承,因此為了把本文方法說清楚,需要先簡要介紹下。它的主要貢獻包括以下三點:

1)提出了一個用于多視圖三維重建的端到端深度學習網(wǎng)絡。

2)提出基于單應變換的2D到3D轉(zhuǎn)換方法, 將相機的幾何關系結(jié)合到神經(jīng)網(wǎng)絡之中。

3)提出一種基于動態(tài)的損失度量方法, 以適應不同數(shù)目的多視角圖像的輸入。

MVSNet的網(wǎng)絡結(jié)構(gòu)如下圖所示

4.jpg

MVSNet先通過特征提取網(wǎng)絡提取圖像特征,再通過2D到3D的單應變換,把特征映射到參考圖像的可視空間中以構(gòu)建代價體(cost volume),然后使用一個多尺度的三維卷積網(wǎng)絡優(yōu)化代價體得到三維概率空間,通過深度期望的方式得到參考圖像的初始深度圖以及對應的概率圖,最后把參考圖像及其深度圖傳入深度圖優(yōu)化網(wǎng)絡,得到優(yōu)化后的深度圖。得到深度圖便得到物體的三維模型。

2. R-MVSNet

由于MVSNet需要一次性優(yōu)化所有的3D代價體,因此需要大量的內(nèi)存存儲所有圖像對應的數(shù)值,當尺度大了以后,如果內(nèi)存滿足不了要求,便無法再進行三維重建了。我們知道循環(huán)神經(jīng)網(wǎng)絡可以按照一定序列處理輸入數(shù)據(jù),因此作者把這種結(jié)構(gòu)借鑒過來,順序處理輸入圖像,以達到節(jié)省內(nèi)存的目的。R-MVSNet的網(wǎng)絡結(jié)構(gòu)如下圖所示:

1.jpg

在R-MVSNet中,首先使用2D特征提取層提取輸入圖像的特征,再使用單應矩陣變換到參考影像的相機視錐體的正面平行面上,然后在不同深度計算代價,并經(jīng)由卷積的GRU單元進行正則化,這樣就可以沿著深度方向逐漸獲取整個物體的幾何信息。

四、實驗結(jié)果

論文中方法在DTU數(shù)據(jù)集上的結(jié)果如表所示,從表中的數(shù)據(jù)可以看出,本文提出的方法要優(yōu)于其他方法。

2.jpg

作者還給出了該方法在大尺度數(shù)據(jù)集上的效果,以體現(xiàn)該算法的優(yōu)勢。如下圖所示

3.jpg

五、總結(jié)思考

MVSNet以及R-MVSNet在深度學習與多視圖幾何相結(jié)合的方法上給我們提出了新的思路,過去在三維重建或者SLAM領域有兩種方法一直在爭論,一種是直接使用端到端的方式,輸入圖像,輸出深度信息和相機外參,另一種認為深度學習沒有充分利用已有的幾何模型,棄明確模型于不顧,反而求諸于解釋性差的深度學習,不明智,因此他們主張深度學習只適合用于特征提取,在完成特征提取以后,便要用傳統(tǒng)多視圖幾何的方法進行后續(xù)的位姿解算工作。而本文雖然是使用端到端的方式,但是在構(gòu)建網(wǎng)絡時,把單應矩陣也構(gòu)建在內(nèi),并沒有棄模型于不顧,這樣就能夠把幾何模型與前面的特征提取融合在一個網(wǎng)絡中,結(jié)合二者所長。

本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關鍵詞: 深度學習

相關推薦

技術(shù)專區(qū)

關閉