在元宇宙中絕對需要的雙手！AI算法實(shí)現(xiàn)手指重建，倒酒沏茶不在話下，甚至可以搖花手！

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2021-09-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

最近，“元宇宙”的概念火了。

扎克伯格帶著VR設(shè)備在虛擬辦公室接受采訪的視頻在各大平臺傳播，人們似乎在期待一個(gè)新的時(shí)代的到來，就連相關(guān)的股****都應(yīng)聲上漲。

那么，我們離《頭號玩家》中“綠洲”那樣的元宇宙還有多遠(yuǎn)呢？

事實(shí)上，羅馬不是一下子建成的。扎克伯格給“元宇宙”的計(jì)劃時(shí)間是五年，技術(shù)也需要一步一步實(shí)現(xiàn)，這其中包括很多正在快速發(fā)展的技術(shù)，比如全自由交互。

打個(gè)比方，如果我們要用我們的雙手和虛擬世界交互，那么我們就需要對整個(gè)手部進(jìn)行建模，比如這樣：

是不是覺得不過如此？確實(shí)，很早之前，我們通過佩戴指環(huán)就可以大體實(shí)現(xiàn)這樣的功能，但是，上面這張圖中所展現(xiàn)的效果，并未借助任何手指傳感器，僅僅是通過AI算法對攝像頭中的手指進(jìn)行建模就能得到如此精細(xì)的手部動(dòng)作。

還覺得不過癮的話，看看這個(gè)對搓手動(dòng)作的還原，簡直絲毫不差！

這項(xiàng)研究由來自愛丁堡大學(xué)的He Zhang和Facebook Reality Labs的幾位合作者共同完成，對，就是那個(gè)致力于更精確的VR技術(shù)的Facebook Reality Labs！

論文鏈接：

https://research.fb.com/wp-content/uploads/2021/06/ManipNet-Neural-Manipulation-Synthesis-with-a-Hand-Object-Spatial-Representation.pdf

無需手指傳感器，還原最真實(shí)的手指運(yùn)動(dòng)

與其他類似研究相比，這項(xiàng)研究幾乎擁有目前效果最好的手指動(dòng)作建模。

這時(shí)候你可能覺得，這個(gè)AI還原的算法是不是通過在手指上接上傳感器，然后獲得大量的數(shù)據(jù)學(xué)習(xí)得來的？我們不妨看看論文附帶的演示視頻：

注意看右上角的Input，手指上沒有任何傳感器。

這一切都是依靠團(tuán)隊(duì)提出的ManipNet深度神經(jīng)網(wǎng)絡(luò)算法。ManipNet利用手-物體對象的空間之間的關(guān)系特征，直接從數(shù)據(jù)中學(xué)習(xí)手部的自然動(dòng)作。

論文中，作者表示，該空間表征算法結(jié)合了作為體素占比（三維空間分割上的最小單位）的整體物體形狀和作為最近距離樣本的物體局部的幾何細(xì)節(jié)。這種算法使得深度神經(jīng)網(wǎng)絡(luò)可以通過從手腕和物體的輸入軌跡中模擬手指運(yùn)動(dòng)。

具體來說，ManipNet提供了過去、現(xiàn)在、未來三個(gè)節(jié)點(diǎn)的手指運(yùn)動(dòng)軌跡，以及從這些軌跡中提取的空間表征，然后深度神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)這些已有的數(shù)據(jù)生成一個(gè)自回歸模型，預(yù)測從過去、現(xiàn)在到未來這幾個(gè)節(jié)點(diǎn)之間缺少的其他手指姿態(tài)。

如上圖所示，ManipNet是從控制信號和物體幾何特征中預(yù)測操縱對象的手指姿態(tài)（（a）右手握住茶壺，左手握住杯子（b）右手轉(zhuǎn)動(dòng)手中的圓環(huán)），其中控制信號是手腕和物體的6D軌跡，并且該深度神經(jīng)網(wǎng)絡(luò)只需要一個(gè)最小的和明確的輸入表示，以便實(shí)現(xiàn)更好的泛化。

此外，ManipNet只處理一個(gè)手-物體的“輸入”，然后通過鏡像運(yùn)算兩次，為雙手生成預(yù)測圖像。

FRL為“元宇宙”提供更好的VR技術(shù)，相關(guān)技術(shù)國內(nèi)也在發(fā)展

Facebook Reality Labs可以說是扎克伯格實(shí)現(xiàn)“元宇宙”夢想的重要技術(shù)動(dòng)力來源。

在官網(wǎng)介紹中，F(xiàn)acebook Reality Labs表示，這里匯集了世界級的研究人員、開發(fā)人員和工程師團(tuán)隊(duì)，在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中建立未來的連接。

就像ManipNet這樣的研究，正在不斷的為“元宇宙”中現(xiàn)實(shí)與虛擬的交互添磚加瓦。

ManipNet的團(tuán)隊(duì)研究人員也表示，手指交互在游戲和AR/VR實(shí)時(shí)交互應(yīng)用中有很大的潛力?！半S著AR/VR硬件在消費(fèi)者市場的崛起，將我們的系統(tǒng)與其內(nèi)置對象跟蹤相結(jié)合可以為新的互動(dòng)內(nèi)容打開了許多創(chuàng)造性的機(jī)會(huì)?！?/p>

事實(shí)上，國內(nèi)的一些公司也在研究相關(guān)技術(shù)，比如愛奇藝被計(jì)算機(jī)視覺領(lǐng)域國際頂會(huì) ICCV 2021收錄的一篇題為“I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling”，介紹的也是通過“看”單目RGB人手圖片，就能實(shí)現(xiàn)高精度的人手三維重建。

愛奇藝這篇論文中提出的I2UV-HandNet，將UV映射表征引入到三維手勢和形狀估計(jì)中，其設(shè)計(jì)的UV重建模塊AffineNet能夠從單目圖像中預(yù)測手部網(wǎng)絡(luò)（hand mesh），從而完成由粗到精的人手3D模型重建。

這一設(shè)計(jì)意味著對于三維重建中所需的空間中的景深信息，不用再通過昂貴的硬件完成偵測，在普通RGB攝像頭拍攝的圖片中就可以完成景深信息獲取。

I2UV-HandNet另一個(gè)組成部分是SRNet網(wǎng)絡(luò)，其作用是對已有人手三維模型進(jìn)行更高精度的重建。SRNet網(wǎng)絡(luò)以研究團(tuán)隊(duì)獨(dú)創(chuàng)的“將點(diǎn)的超分轉(zhuǎn)化為圖像超分的思想”為原則，實(shí)現(xiàn)在不增加過多計(jì)算量的情況下，進(jìn)行上萬點(diǎn)云的超分重建。

同樣，愛奇藝團(tuán)隊(duì)也認(rèn)為，手部、人體重建卻是用自然的肢體語言實(shí)現(xiàn)人機(jī)交互的關(guān)鍵技術(shù)，相比一些可穿戴設(shè)備，更能帶來體驗(yàn)和沉浸度。例如手柄無法模擬手指每一個(gè)關(guān)節(jié)的活動(dòng)，手部重建則能實(shí)現(xiàn)更加精細(xì)的操控。這意味著這項(xiàng)技術(shù)可以應(yīng)用在游戲、數(shù)字化工廠、虛擬場景培訓(xùn)等更多場景。

相關(guān)報(bào)道：

https://www.youtube.com/watch?v=_9Bli4zCzZY

https://mp.weixin.qq.com/s/iyQRA6t4Ngcb7hRBdJ-ftw

https://research.fb.com/wp-content/uploads/2021/06/ManipNet-Neural-Manipulation-Synthesis-with-a-Hand-Object-Spatial-Representation.pdf

http://www.diankeji.com/vr/47299.html

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。