ECCV 2020 | 基于分割一致性的單目自監(jiān)督三維重建
概述
本文主要從二維圖像及其輪廓的集合中,學(xué)習(xí)一個(gè)自監(jiān)督的、單視圖的三維重建模型,預(yù)測(cè)目標(biāo)物體的3D網(wǎng)格形狀、紋理和相機(jī)位姿。提出的方法不需要3D監(jiān)督、注釋的關(guān)鍵點(diǎn)、物體的多視圖或者一個(gè)先驗(yàn)的網(wǎng)格模板。關(guān)鍵之處在于,物體可以表示為可形變部分的集合,在同一類(lèi)別的不同實(shí)例中,每個(gè)部分在語(yǔ)義上是一致的。
利用這一點(diǎn),可以有效地增強(qiáng)重構(gòu)網(wǎng)格與原始圖像之間的語(yǔ)義一致性,這大大減少了在預(yù)測(cè)物體的形狀、相機(jī)位姿以及紋理時(shí)的模糊性。實(shí)驗(yàn)結(jié)果表明,這是第一個(gè)嘗試解決單視圖三維重建問(wèn)題、沒(méi)有使用特定類(lèi)別的網(wǎng)格模型或者語(yǔ)義關(guān)鍵點(diǎn)的方法。
簡(jiǎn)介
同時(shí)從2D圖像中恢復(fù)3D形狀、紋理和相機(jī)位姿是一個(gè)高度不適定的問(wèn)題,因?yàn)槠涔逃械钠缌x?,F(xiàn)存有很多方法解決這個(gè)問(wèn)題,但是這些監(jiān)督信息需要大量工作,因此將其泛化到許多缺乏此類(lèi)注釋的對(duì)象類(lèi)別時(shí)非常具有挑戰(zhàn)性。另一方面,只使用特定類(lèi)別的單視圖圖像集合,而不使用其他監(jiān)督信號(hào)學(xué)習(xí)重建仍然存在挑戰(zhàn)。
原因在于,沒(méi)有監(jiān)督信號(hào)將導(dǎo)致錯(cuò)誤的三維重建,一個(gè)典型的故障案例是由“相機(jī)-形狀歧義”引起的。錯(cuò)誤預(yù)測(cè)的相機(jī)位姿和形狀導(dǎo)致渲染圖像和物體邊界與輸入的2D圖像和其輪廓非常匹配,如下圖(c)和(d)所示。
有趣的是,人類(lèi)可以通過(guò)聯(lián)合部分來(lái)重建整體,例如鳥(niǎo)有兩條腿、兩只翅膀和一個(gè)頭。通過(guò)觀察物體的一部分,人類(lèi)就可以粗略地推斷出任何物體的相機(jī)位姿和3D形狀。在計(jì)算機(jī)視覺(jué)中,相似的思想是通過(guò)變形模型的部分表達(dá)的,物體被表示為一組可以變形的零件。
受到這個(gè)idea的啟發(fā),作者實(shí)現(xiàn)了從圖像和輪廓的集合中學(xué)習(xí)單視圖的重建模型。利用二維和三維空間中的語(yǔ)義部分,以及它們的一致性來(lái)正確估計(jì)形狀和相機(jī)姿態(tài)。
上圖展示了語(yǔ)義一致性的自監(jiān)督,(a)是相同類(lèi)別的不同物體,(b)是通過(guò)自監(jiān)督對(duì)每個(gè)部分進(jìn)行語(yǔ)義分割,(c)是特定類(lèi)別的規(guī)范語(yǔ)義UV映射,(d)是網(wǎng)格上的語(yǔ)義分割,后面表示單視圖的3D網(wǎng)格重建和不同視角的重建結(jié)果。
總的來(lái)說(shuō),本文的主要貢獻(xiàn)之處在于:進(jìn)行單視圖重建而不需要其他形式的監(jiān)督信號(hào);利用特定類(lèi)別實(shí)例對(duì)象的語(yǔ)義部分不變性屬性作為可變形的部件模型;通過(guò)迭代學(xué)習(xí)從頭開(kāi)始學(xué)習(xí)一個(gè)類(lèi)別級(jí)的3D形狀模板。
相關(guān)工作
3D形狀表示:對(duì)于3D模型有很多表示方法,例如點(diǎn)云、隱式曲面、三角網(wǎng)格和體素。其中,盡管體素和點(diǎn)云更適合深度學(xué)習(xí)框架,但是它們存在內(nèi)存受限或者不能夠渲染等問(wèn)題。因此,本文選擇三角網(wǎng)格作為3D模型的表示方法。
單視圖三維重建:?jiǎn)我晥D三維重建旨在通過(guò)給定的單張輸入圖像重建3D模型,有很多工作在不同監(jiān)督的程度下探討這一問(wèn)題。例如利用圖像和真實(shí)3D網(wǎng)格作為監(jiān)督,或者使用可微渲染器和綜合分析的方法。
為了進(jìn)一步減少監(jiān)督的限制,Kanazawa等[1]探索了從不同實(shí)例的圖像集合中進(jìn)行3D重建,但是他們的方法仍然需要標(biāo)注的2D關(guān)鍵點(diǎn)來(lái)正確的推斷相機(jī)位姿。其他方法中也使用了類(lèi)似的方法,但是受限于剛體或者結(jié)構(gòu)化的物體,不能泛化到其他模型。
自監(jiān)督對(duì)應(yīng)學(xué)習(xí):本文的工作還涉及到自監(jiān)督的學(xué)習(xí),利用自監(jiān)督的協(xié)同部分分割來(lái)加強(qiáng)語(yǔ)義一致性,這最初是純粹針對(duì)2D圖像提出的。[2]學(xué)習(xí)一個(gè)映射函數(shù),該函數(shù)以自監(jiān)督的方式將2D圖像中的像素映射到預(yù)定義的類(lèi)別級(jí)的模板,但是沒(méi)有學(xué)習(xí)對(duì)應(yīng)的三維重建。
方法
為了從單張圖像中完全重建物體實(shí)例的三維網(wǎng)格,網(wǎng)絡(luò)應(yīng)該能夠同時(shí)預(yù)測(cè)物體的形狀、紋理和圖像的相機(jī)位姿。用現(xiàn)有網(wǎng)絡(luò)(CMR)[1]作為初始的重建網(wǎng)絡(luò)。輸入一張圖片,CMR使用編碼器E提取出圖像特征,使用三個(gè)****Dshape、Dcamera和Dtexture分別預(yù)測(cè)網(wǎng)格模型、相機(jī)位姿和網(wǎng)格紋理。
CMR方法效果比較好的關(guān)鍵原因之一是利用了標(biāo)注的關(guān)鍵語(yǔ)義點(diǎn)精確地估計(jì)了每個(gè)實(shí)例的相機(jī)位姿,并且有模板網(wǎng)格作為先驗(yàn)知識(shí)。但是,注釋關(guān)鍵點(diǎn)非常繁瑣,對(duì)于新的類(lèi)別不適用。因此,作者提出了一種更容易擴(kuò)展、更具有挑戰(zhàn)性的自監(jiān)督方法,如下圖所示。
其中,(1)綠色的框表示重建網(wǎng)絡(luò),和[1]中的架構(gòu)相同。(2)紅色的框表示語(yǔ)義一致性約束,它規(guī)范了模塊(1)的學(xué)習(xí),并在很大程度上解決了上述問(wèn)題中提到的“相機(jī)-形狀歧義”。(3)藍(lán)色的框表示從頭開(kāi)始學(xué)習(xí)規(guī)范語(yǔ)義UV圖和類(lèi)別級(jí)模板,使用模板(1)迭代訓(xùn)練。
3.1 通過(guò)語(yǔ)義一致性解決相機(jī)-形狀歧義
解決“相機(jī)-形狀歧義”的關(guān)鍵是在3D和2D中充分利用物體實(shí)例的語(yǔ)義部分。具體來(lái)說(shuō),在二維空間中,自監(jiān)督即可實(shí)現(xiàn)大多數(shù)物體的正確分割,即使是那些形狀變化很大的實(shí)例。在三維空間中,語(yǔ)義部分對(duì)于網(wǎng)格變形是不變的,網(wǎng)格表面上特定點(diǎn)的語(yǔ)義部分標(biāo)簽在一個(gè)類(lèi)別的所有重構(gòu)實(shí)例中是一致的。
使用這種語(yǔ)義部分不變性可以建立一個(gè)類(lèi)別級(jí)的語(yǔ)義UV映射,即規(guī)范語(yǔ)義UV映射,它由所有的實(shí)例共享,反過(guò)來(lái)又允許為網(wǎng)格上的每個(gè)點(diǎn)分配語(yǔ)義部分標(biāo)簽。通過(guò)在二維空間中加強(qiáng)規(guī)范語(yǔ)義映射與實(shí)例部分分割的一致性,可以在很大程度上解決“相機(jī)-形狀歧義”問(wèn)題。
首先在二維圖像中通過(guò)SCOPS[3]獲得實(shí)體分割,然后通過(guò)規(guī)范語(yǔ)義UV映射獲得三維模型中的分割后,利用2D和3D之間的分割一致性,得到正確的模型。如下圖所示,(i)表示錯(cuò)誤的重建,其中沒(méi)有用到語(yǔ)義一致性;(ii)表示使用一致性后的表現(xiàn)。
3.2循序漸進(jìn)的訓(xùn)練
逐漸訓(xùn)練網(wǎng)絡(luò)出于兩個(gè)方面的考慮:第一,構(gòu)建規(guī)范語(yǔ)義UV圖需要可靠的紋理流將SCOPS從2D圖像映射到UV空間。因此,只有當(dāng)重建網(wǎng)絡(luò)能夠很好地預(yù)測(cè)紋理流時(shí),才能得到規(guī)范的語(yǔ)義UV映射。第二,一個(gè)規(guī)范的三維形狀模板是可取的,因?yàn)樗涌炝司W(wǎng)絡(luò)的收斂速度,也避免了退化的解決方案。
但是,同時(shí)學(xué)習(xí)類(lèi)別級(jí)三維形狀模板和實(shí)例級(jí)重建網(wǎng)絡(luò)會(huì)得到不希望的平凡解。因此,作者將網(wǎng)絡(luò)分成兩部分,E步驟使用固定的模板和規(guī)范語(yǔ)義UV映射訓(xùn)練重建網(wǎng)絡(luò),M步驟使用前面訓(xùn)練好的網(wǎng)絡(luò)不斷更新模板和UV映射。
其中,模型的更新方法如下所示。Vt和Vt-1是更新的和當(dāng)前的模板,I表示輸入的圖像,傳遞到圖像編碼器和形狀****中,Q是一組具有一致網(wǎng)格預(yù)測(cè)的選定樣本。
3.3 紋理循環(huán)一致性約束
如下圖所示,學(xué)習(xí)到的紋理流的一個(gè)問(wèn)題是,具有相似顏色(例如黑色)的3D網(wǎng)格面的紋理可能從圖像的單個(gè)像素位置錯(cuò)誤地采樣。因此,作者引入了一個(gè)紋理循環(huán)一致性目標(biāo)使預(yù)測(cè)的紋理流和攝像機(jī)投影的一致。
考慮輸入圖像上黃色的點(diǎn),可以通過(guò)紋理流和預(yù)定義的函數(shù)φ將其映射到網(wǎng)格表面。同時(shí),可以通過(guò)渲染器將網(wǎng)格上的點(diǎn)重新投影到圖像中,如輸入圖像上的綠色點(diǎn)。如果預(yù)測(cè)的紋理流與預(yù)測(cè)的相機(jī)姿態(tài)一致,黃色和綠色的點(diǎn)重疊,形成2D-3D-2D的循環(huán)。
3.4 通過(guò)重建實(shí)現(xiàn)更好的部分分割
提出的三維重建模型可用于改進(jìn)自監(jiān)督分割的學(xué)習(xí),關(guān)鍵點(diǎn)在于類(lèi)別級(jí)的規(guī)范語(yǔ)義UV映射在很大程度上減少了基于實(shí)例的語(yǔ)義UV映射中的噪聲。結(jié)合實(shí)例網(wǎng)格重建和相機(jī)位姿,為SCOPS方法提供了可靠的監(jiān)督。
通過(guò)將標(biāo)準(zhǔn)UV映射到每個(gè)重建網(wǎng)格的表面,并用預(yù)測(cè)的相機(jī)位姿進(jìn)行渲染,就可以得到“真實(shí)”的分割圖作為SCOPS訓(xùn)練的監(jiān)督。使用語(yǔ)義一致性約束作為度量,選擇具有高語(yǔ)義一致性的可靠重建來(lái)訓(xùn)練SCOPS。改進(jìn)的SCOPS反過(guò)來(lái)可以為網(wǎng)格重建網(wǎng)絡(luò)提供更好的正則化,形成一個(gè)迭代和協(xié)作的學(xué)習(xí)循環(huán)。
實(shí)驗(yàn)效果
參考文獻(xiàn):
Kanazawa, A., Tulsiani, S., Efros, A.A., Malik, J.: Learning category-specific mesh reconstruction from image collections. In: ECCV (2018)
Kulkarni, N., Gupta, A., Tulsiani, S.: Canonical surface mapping via geometric cycle consistency. In: ICCV (2019)
Hung, W.C., Jampani, V., Liu, S., Molchanov, P., Yang, M.H., Kautz, J.: Scops: Self-supervised co-part segmentation. In: CVPR (2019)
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。