在元宇宙中絕對需要的雙手!AI算法實(shí)現(xiàn)手指重建,倒酒沏茶不在話下,甚至可以搖花手!
最近,“元宇宙”的概念火了。
扎克伯格帶著VR設(shè)備在虛擬辦公室接受采訪的視頻在各大平臺傳播,人們似乎在期待一個(gè)新的時(shí)代的到來,就連相關(guān)的股****都應(yīng)聲上漲。
那么,我們離《頭號玩家》中“綠洲”那樣的元宇宙還有多遠(yuǎn)呢?
事實(shí)上,羅馬不是一下子建成的。扎克伯格給“元宇宙”的計(jì)劃時(shí)間是五年,技術(shù)也需要一步一步實(shí)現(xiàn),這其中包括很多正在快速發(fā)展的技術(shù),比如全自由交互。
打個(gè)比方,如果我們要用我們的雙手和虛擬世界交互,那么我們就需要對整個(gè)手部進(jìn)行建模,比如這樣:
是不是覺得不過如此?確實(shí),很早之前,我們通過佩戴指環(huán)就可以大體實(shí)現(xiàn)這樣的功能,但是,上面這張圖中所展現(xiàn)的效果,并未借助任何手指傳感器,僅僅是通過AI算法對攝像頭中的手指進(jìn)行建模就能得到如此精細(xì)的手部動(dòng)作。
還覺得不過癮的話,看看這個(gè)對搓手動(dòng)作的還原,簡直絲毫不差!
這項(xiàng)研究由來自愛丁堡大學(xué)的He Zhang和Facebook Reality Labs的幾位合作者共同完成,對,就是那個(gè)致力于更精確的VR技術(shù)的Facebook Reality Labs!
論文鏈接:
https://research.fb.com/wp-content/uploads/2021/06/ManipNet-Neural-Manipulation-Synthesis-with-a-Hand-Object-Spatial-Representation.pdf
無需手指傳感器,還原最真實(shí)的手指運(yùn)動(dòng)
與其他類似研究相比,這項(xiàng)研究幾乎擁有目前效果最好的手指動(dòng)作建模。
這時(shí)候你可能覺得,這個(gè)AI還原的算法是不是通過在手指上接上傳感器,然后獲得大量的數(shù)據(jù)學(xué)習(xí)得來的?我們不妨看看論文附帶的演示視頻:
注意看右上角的Input,手指上沒有任何傳感器。
這一切都是依靠團(tuán)隊(duì)提出的ManipNet深度神經(jīng)網(wǎng)絡(luò)算法。ManipNet利用手-物體對象的空間之間的關(guān)系特征,直接從數(shù)據(jù)中學(xué)習(xí)手部的自然動(dòng)作。
論文中,作者表示,該空間表征算法結(jié)合了作為體素占比(三維空間分割上的最小單位)的整體物體形狀和作為最近距離樣本的物體局部的幾何細(xì)節(jié)。這種算法使得深度神經(jīng)網(wǎng)絡(luò)可以通過從手腕和物體的輸入軌跡中模擬手指運(yùn)動(dòng)。
具體來說,ManipNet提供了過去、現(xiàn)在、未來三個(gè)節(jié)點(diǎn)的手指運(yùn)動(dòng)軌跡,以及從這些軌跡中提取的空間表征,然后深度神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)這些已有的數(shù)據(jù)生成一個(gè)自回歸模型,預(yù)測從過去、現(xiàn)在到未來這幾個(gè)節(jié)點(diǎn)之間缺少的其他手指姿態(tài)。
如上圖所示,ManipNet是從控制信號和物體幾何特征中預(yù)測操縱對象的手指姿態(tài)((a)右手握住茶壺,左手握住杯子(b)右手轉(zhuǎn)動(dòng)手中的圓環(huán)),其中控制信號是手腕和物體的6D軌跡,并且該深度神經(jīng)網(wǎng)絡(luò)只需要一個(gè)最小的和明確的輸入表示,以便實(shí)現(xiàn)更好的泛化。
此外,ManipNet只處理一個(gè)手-物體的“輸入”,然后通過鏡像運(yùn)算兩次,為雙手生成預(yù)測圖像。
FRL為“元宇宙”提供更好的VR技術(shù),相關(guān)技術(shù)國內(nèi)也在發(fā)展
Facebook Reality Labs可以說是扎克伯格實(shí)現(xiàn)“元宇宙”夢想的重要技術(shù)動(dòng)力來源。
在官網(wǎng)介紹中,F(xiàn)acebook Reality Labs表示,這里匯集了世界級的研究人員、開發(fā)人員和工程師團(tuán)隊(duì),在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中建立未來的連接。
就像ManipNet這樣的研究,正在不斷的為“元宇宙”中現(xiàn)實(shí)與虛擬的交互添磚加瓦。
ManipNet的團(tuán)隊(duì)研究人員也表示,手指交互在游戲和AR/VR實(shí)時(shí)交互應(yīng)用中有很大的潛力?!半S著AR/VR硬件在消費(fèi)者市場的崛起,將我們的系統(tǒng)與其內(nèi)置對象跟蹤相結(jié)合可以為新的互動(dòng)內(nèi)容打開了許多創(chuàng)造性的機(jī)會(huì)?!?/p>
事實(shí)上,國內(nèi)的一些公司也在研究相關(guān)技術(shù),比如愛奇藝被計(jì)算機(jī)視覺領(lǐng)域國際頂會(huì) ICCV 2021收錄的一篇題為“I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling”,介紹的也是通過“看”單目RGB人手圖片,就能實(shí)現(xiàn)高精度的人手三維重建。
愛奇藝這篇論文中提出的I2UV-HandNet,將UV映射表征引入到三維手勢和形狀估計(jì)中,其設(shè)計(jì)的UV重建模塊AffineNet能夠從單目圖像中預(yù)測手部網(wǎng)絡(luò)(hand mesh),從而完成由粗到精的人手3D模型重建。
這一設(shè)計(jì)意味著對于三維重建中所需的空間中的景深信息,不用再通過昂貴的硬件完成偵測,在普通RGB攝像頭拍攝的圖片中就可以完成景深信息獲取。
I2UV-HandNet另一個(gè)組成部分是SRNet網(wǎng)絡(luò),其作用是對已有人手三維模型進(jìn)行更高精度的重建。SRNet網(wǎng)絡(luò)以研究團(tuán)隊(duì)獨(dú)創(chuàng)的“將點(diǎn)的超分轉(zhuǎn)化為圖像超分的思想”為原則,實(shí)現(xiàn)在不增加過多計(jì)算量的情況下,進(jìn)行上萬點(diǎn)云的超分重建。
同樣,愛奇藝團(tuán)隊(duì)也認(rèn)為,手部、人體重建卻是用自然的肢體語言實(shí)現(xiàn)人機(jī)交互的關(guān)鍵技術(shù),相比一些可穿戴設(shè)備,更能帶來體驗(yàn)和沉浸度。例如手柄無法模擬手指每一個(gè)關(guān)節(jié)的活動(dòng),手部重建則能實(shí)現(xiàn)更加精細(xì)的操控。這意味著這項(xiàng)技術(shù)可以應(yīng)用在游戲、數(shù)字化工廠、虛擬場景培訓(xùn)等更多場景。
相關(guān)報(bào)道:
https://www.youtube.com/watch?v=_9Bli4zCzZY
https://mp.weixin.qq.com/s/iyQRA6t4Ngcb7hRBdJ-ftw
https://research.fb.com/wp-content/uploads/2021/06/ManipNet-Neural-Manipulation-Synthesis-with-a-Hand-Object-Spatial-Representation.pdf
http://www.diankeji.com/vr/47299.html
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。