博客專欄

EEPW首頁 > 博客 > 最新綜述!單目圖像重建三維人體?。ㄇ迦A南大)

最新綜述!單目圖像重建三維人體?。ㄇ迦A南大)

發(fā)布人:計算機視覺工坊 時間:2022-04-10 來源:工程師 發(fā)布文章
作者丨專知來源丨新智元圖片

【導(dǎo)讀】來自南京大學(xué)和清華大學(xué)的最新研究論文《從單目圖像中恢復(fù)三維人體網(wǎng)格》,提出了從而二維數(shù)據(jù)提升至三維網(wǎng)格過程中基于優(yōu)化和基于回歸的兩種范式,第一次關(guān)注單目3D人體網(wǎng)格恢復(fù)任務(wù)的研究,并討論了有待解決的問題和未來的發(fā)展方向。


從單目圖像中估計人體的姿勢和形狀是計算機視覺領(lǐng)域中一個長期存在的問題。自統(tǒng)計學(xué)人體模型發(fā)布以來,三維人體網(wǎng)格恢復(fù)一直受到廣泛關(guān)注。


為了獲得有序的、符合物理規(guī)律的網(wǎng)格數(shù)據(jù)而開發(fā)了兩種范式,以克服從二維到三維提升過程中的挑戰(zhàn):i)基于優(yōu)化的范式,利用不同的數(shù)據(jù)項和正則化項作為優(yōu)化目標(biāo);ii)基于回歸的范式,采用深度學(xué)習(xí)技術(shù)以端到端的方式解決問題。同時,不斷提高各種數(shù)據(jù)集的3D網(wǎng)格標(biāo)簽的質(zhì)量。


盡管在過去十年中,該研究取得了顯著的進(jìn)展,但由于肢體動作靈活、外觀多樣、環(huán)境復(fù)雜以及人工注釋不足,這項任務(wù)仍然具有挑戰(zhàn)性。


據(jù)調(diào)查,這是第一次關(guān)注單目3D人體網(wǎng)格恢復(fù)任務(wù)的研究。


圖片

論文鏈接:https://arxiv.org/abs/2203.01923


我們從介紹人體模型開始,通過深入分析其優(yōu)缺點詳細(xì)闡述了恢復(fù)框架和訓(xùn)練目標(biāo)。我們還總結(jié)了數(shù)據(jù)集、評估指標(biāo)和基準(zhǔn)測試結(jié)果。最后討論了有待解決的問題和未來的發(fā)展方向,旨在激發(fā)研究人員的積極性,促進(jìn)各位學(xué)者在這一領(lǐng)域的研究。


定期更新的項目頁面可在https://github.com/tinatiansjz/hmr-survey查看。


引言


從單目圖像中理解人類是計算機視覺的基本任務(wù)之一。在過去的20年里,業(yè)界一直致力于預(yù)測二維內(nèi)容,如關(guān)鍵點、輪廓和RGB圖像的局部分割。


隨著這些進(jìn)展,研究人員進(jìn)一步尋求在3D空間中預(yù)測人類姿勢。雖然簡單的動作可以通過2D內(nèi)容或一些稀疏的3D關(guān)節(jié)相對清晰地表示出來,但復(fù)雜的人類行為需要更細(xì)致地描述人體細(xì)節(jié)。此外,因為我們使用表面皮膚與外界直接接觸而不是用未觀察到的關(guān)節(jié),所以對身體的形狀、接觸面、手勢和表情進(jìn)行推理也是至關(guān)重要的。


近年來,社區(qū)已經(jīng)將他們的興趣轉(zhuǎn)向了人體的3D網(wǎng)格恢復(fù),以及富有表情的臉和生動細(xì)致的手。這一趨勢與統(tǒng)計人體模型的成功密不可分。


如圖1所示,自2015年發(fā)布SMPL模型和2019年發(fā)布SMPL-X模型以來,隨著它們的年度引用量逐年快速增長,它們獲得了越來越多的關(guān)注。


圖片

圖 1 三種具有代表性的3D統(tǒng)計人體模型的年度引用,即SCAPE、SMPL和SMPL-X


人體網(wǎng)格的恢復(fù)在促進(jìn)后續(xù)任務(wù)(如衣服人體重建、動畫和渲染)方面起著關(guān)鍵作用。它還涉及廣泛的應(yīng)用,如VR/AR內(nèi)容創(chuàng)建、虛擬試穿、計算機輔助指導(dǎo)等等,如圖2所示。


圖片

圖 2 人體網(wǎng)格恢復(fù)的現(xiàn)實應(yīng)用:(a)一款健身視頻游戲(b) 虛擬試穿(c)3D+AI潛水教練系統(tǒng)(d)游泳過程中的動力學(xué)模擬


從單目圖像中恢復(fù)三維人體網(wǎng)格非常具有挑戰(zhàn)性,因為將二維觀測值提升到三維空間時存在固有的模糊性、柔性身體運動學(xué)結(jié)構(gòu)、與環(huán)境的復(fù)雜性以及人工三維數(shù)據(jù)注釋不足等問題。


為了解決這些問題,在該領(lǐng)域研究了兩種不同的范式,以恢復(fù)一致且物理上合理的結(jié)果。對于基于優(yōu)化的范例,通過迭代的方式將身體模型顯式地應(yīng)用于二維觀測,以各種數(shù)據(jù)項和正則化項為優(yōu)化目標(biāo)。對于基于回歸的范例利用神經(jīng)網(wǎng)絡(luò)強大的非線性映射能力,直接從原始圖像像素預(yù)測模型參數(shù)。設(shè)計了不同的網(wǎng)絡(luò)架構(gòu)和回歸目標(biāo),以實現(xiàn)更好的性能。


同時,為了促進(jìn)這項任務(wù)的研究,還投入了大量精力創(chuàng)建各種數(shù)據(jù)集。盡管近年來取得了顯著進(jìn)展,但在實現(xiàn)強健、準(zhǔn)確和高效的人體網(wǎng)格恢復(fù)的最終目標(biāo)面前,業(yè)界仍然面臨著挑戰(zhàn)。


本綜述主要關(guān)注深度學(xué)習(xí)時代的單目3D人體網(wǎng)格恢復(fù)方法(也稱3D人體姿勢和形狀估計)。


將單個RGB圖像和單目RGB視頻(統(tǒng)稱為「單目圖像」)作為輸入。除了從單目圖像中恢復(fù)單人外,我們還考慮了多人恢復(fù)。


對于重建目標(biāo),使用統(tǒng)計人體模型來估計衣服下的體型。RGBD和多視圖輸入有助于解決歧義,但它們不在本綜述的范圍內(nèi)。我們只是忽略了服裝的造型,這是向照片現(xiàn)實主義邁進(jìn)的一步。


我們請讀者參考中關(guān)于人類服裝重建的內(nèi)容。我們也不涉及神經(jīng)渲染方面的工作,這些工作側(cè)重于外觀的建模,而不是幾何體。


這項調(diào)查也是對現(xiàn)有調(diào)查論文的補充,主要關(guān)注2D/3D人體姿勢估計。


其余部分組織如下:


在第2節(jié)中,我們簡要介紹了人類模型的發(fā)展歷史,并提供了SMPL模型的詳細(xì)信息,SMPL模型是人類推理中使用最廣泛的模板。第3節(jié)描述了用手和臉進(jìn)行身體恢復(fù)和全身恢復(fù)的方法。方法分為基于優(yōu)化的范式或基于回歸的范式。在第4節(jié)和第5節(jié)中,我們將整理出幫助處理視頻或多人恢復(fù)的新模塊。然而,如果我們僅僅用常規(guī)數(shù)據(jù)項監(jiān)督人體,結(jié)果可能在物理上不合理,并且存在視覺缺陷。因此,在第6節(jié)中,我們討論了通過涉及真實攝像機模型、接觸約束和人類先驗來增強物理合理性的策略。第7節(jié)總結(jié)了常用的數(shù)據(jù)集和評估標(biāo)準(zhǔn),以及基準(zhǔn)排行榜。最后,我們在第8節(jié)中得出結(jié)論并指出一些有價值的未來方向。


人體網(wǎng)格恢復(fù)


自從統(tǒng)計身體模型發(fā)布以來,研究人員利用它們從單目圖像中估計形狀和姿勢。Balan等率先從圖像中估計SCAPE的參數(shù)。


目前,學(xué)術(shù)界普遍采用SMPL進(jìn)行三維體型恢復(fù)。這要歸功于SMPL的開源特性和它周圍快速發(fā)展的社區(qū): Ground-Truth真相采集方法,具有擴展SMPL注釋的數(shù)據(jù)集,以及里程碑作品。


在本節(jié)中,我們將根據(jù)預(yù)先定義的人體模型來整理人體網(wǎng)格恢復(fù)的文章。身體捕捉身材和姿勢的變化,但不考慮衣服或頭發(fā)。因此,更準(zhǔn)確地說,這些方法可以估計出穿著衣服或緊身衣時身體的形狀和姿勢。


在圖4中,我們演示了一些有代表性的方法。我們根據(jù)它們采用的人體模型對它們進(jìn)行分類。


圖片

圖 3 最相關(guān)的參數(shù)化人體模型和3D人體網(wǎng)格恢復(fù)方法時間軸


圖片

圖 4 基于回歸的人體網(wǎng)格恢復(fù)方法的流程


圖片

回歸網(wǎng)絡(luò)中各種輸出類型和中間表示的說明


我們研究了四種輸出類型:(a)參數(shù)輸出;(b)網(wǎng)格頂點的三維坐標(biāo);(c)UV 位置圖;(d)在姿態(tài)和/或形狀參數(shù)上的概率分布。


在多階段框架中采用的中間表示包括(a)輪廓;(b)分割;(c) 2D位姿熱圖;(d)二維關(guān)鍵點坐標(biāo);(e) IUV地圖;(d)三維關(guān)鍵點坐標(biāo),可作為簡化輸入或指導(dǎo)。


圖片

表 1 用于人體網(wǎng)格恢復(fù)的典型回歸方法總結(jié)


總結(jié)


在這篇論文告中,我們對過去十年中的3D人體網(wǎng)格恢復(fù)方法進(jìn)行了全面概述。分類基于設(shè)計范式、重構(gòu)粒度和應(yīng)用場景。


我們還特別考慮了物理合理性,包括相機模型、接觸約束和人類先驗。


在實驗部分,我們介紹了相關(guān)的數(shù)據(jù)集、評估指標(biāo),并提供了性能比較,希望促進(jìn)這一領(lǐng)域的進(jìn)步。


參考資料:

https://arxiv.org/abs/2203.01923


本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉