博客專欄

EEPW首頁 > 博客 > 全身追蹤、不怕遮擋,CMU兩位華人做了個基于WiFi信號的DensePose

全身追蹤、不怕遮擋,CMU兩位華人做了個基于WiFi信號的DensePose

發(fā)布人:機器之心 時間:2023-01-17 來源:工程師 發(fā)布文章

用 WiFi 信號進行人體姿態(tài)估計并不新鮮,2018 年 MIT CSAIL 的研究者結(jié)合使用 WiFi 信號和深度學(xué)習(xí),實現(xiàn)了隔墻人體姿態(tài)估計。近日,CMU 的研究者僅用 WiFi 信號搞定了遮擋、多人場景中的密集人體姿態(tài)估計。


過去幾年,在自動駕駛和 VR 等應(yīng)用的推動下,使用 2D 和 3D 傳感器(如 RGB 傳感器、LiDARs 或雷達)進行人體姿態(tài)估計取得了很大進展。但是,這些傳感器在技術(shù)上和實際使用中都存在一些限制。首先成本高,普通家庭或小企業(yè)往往承擔不起 LiDAR 和雷達傳感器的費用。其次,這些傳感器對于日常和家用而言太過耗電。
至于 RGB 相機,狹窄的視野和惡劣的照明條件會對基于相機的方法造成嚴重影響。遮擋成為阻礙基于相機的模型在圖像中生成合理姿態(tài)預(yù)測的另一個障礙。室內(nèi)場景尤其難搞,家具通常會擋住人。更重要的是,隱私問題阻礙了在非公共場所使用這些技術(shù),很多人不愿意在家中安裝攝像頭記錄自己的行為。但在醫(yī)療領(lǐng)域,出于安全、健康等原因,很多老年人有時不得不在攝像頭和其他傳感器的幫助下進行實時監(jiān)控。
近日,CMU 的三位研究者在論文《DensePose From WiFi》中提出,在某些情況下,WiFi 信號可以作為 RGB 圖像的替代來進行人體感知。照明和遮擋對用于室內(nèi)監(jiān)控的 WiFi 解決方案影響不大。WiFi 信號有助于保護個人隱私,所需的相關(guān)設(shè)備也能以合理的價格買到。關(guān)鍵的一點是,很多家庭都安裝了 WiFi,因此這項技術(shù)有可能擴展到監(jiān)控老年人的健康狀況或者識別家中的可疑行為。
圖片
論文地址:https://arxiv.org/pdf/2301.00250.pdf
研究者想要解決的問題如下圖 1 第一行所示。給定 3 個 WiFi ****和 3 個對應(yīng)的接收器,能否在多人的雜亂環(huán)境中檢測和復(fù)原密集人體姿態(tài)對應(yīng)關(guān)系(圖 1 第四行)?需要注意的是,很多 WiFi 路由器(如 TP-Link AC1750)都有 3 根天線,因此本文方法中只需要 2 個這樣的路由器。每個路由器的價格大約是 30 美元,意味著整個設(shè)置依然比 LiDAR 和雷達系統(tǒng)便宜得多。
為了實現(xiàn)如圖 1 第四行的效果,研究者從計算機視覺的深度學(xué)習(xí)架構(gòu)中獲得靈感,提出了一種可以基于 WiFi 執(zhí)行密集姿態(tài)估計的神經(jīng)網(wǎng)絡(luò)架構(gòu),并實現(xiàn)了在有遮擋和多人的場景中僅利用 WiFi 信號來估計密集姿態(tài)。
圖片
下圖左為基于圖像的 DensePose,圖右為基于 WiFi 的 DensePose。
圖片圖源:推特 @AiBreakfast
另外,值得一提的是,論文一二作均為華人。論文一作 Jiaqi Geng 在去年 8 月取得了 CMU 機器人專業(yè)碩士學(xué)位,二作 Dong Huang 現(xiàn)為 CMU 高級項目科學(xué)家。
方法介紹
想要利用 WiFi 生成人體表面的 UV 坐標需要三個組件:首先通過振幅和相位步驟對原始 CSI( Channel-state-information,表示****信號波與接收信號波之間的比值 )信號進行清理處理;然后,將處理過的 CSI 樣本通過雙分支編碼器 - ****網(wǎng)絡(luò)轉(zhuǎn)換為 2D 特征圖;接著將 2D 特征圖饋送到一個叫做 DensePose-RCNN 架構(gòu)中(主要是把 2D 圖像轉(zhuǎn)換為 3D 人體模型),以估計 UV 圖。
原始 CSI 樣本帶有噪聲(見圖 3 (b)),不僅如此,大多數(shù)基于 WiFi 的解決方案都忽略了 CSI 信號相位,而專注于信號的幅度(見圖 3 (a))。然而丟棄相位信息會對模型性能產(chǎn)生負面影響。因此,該研究執(zhí)行清理(sanitization)處理以獲得穩(wěn)定的相位值,從而更好的利用 CSI 信息。
圖片
為了從一維 CSI 信號中估計出空間域中的 UV 映射,首先需要將網(wǎng)絡(luò)輸入從 CSI 域轉(zhuǎn)換到空間域。本文采用 Modality Translation Network 完成(如圖 4)。經(jīng)過一番操作,就可以得到由 WiFi 信號生成的圖像域中的 3×720×1280 場景表示。
圖片
在圖像域中獲得 3×720×1280 場景表示后,該研究采用類似于 DensePose-RCNN 的網(wǎng)絡(luò)架構(gòu) WiFi-DensePose RCNN 來預(yù)測人體 UV 圖。具體而言,在 WiFi-DensePose RCNN(圖 5)中,該研究使用 ResNet-FPN 作為主干,并從獲得的 3 × 720 × 1280 圖像特征圖中提取空間特征。然后將輸出輸送到區(qū)域提議網(wǎng)絡(luò)。為了更好地利用不同來源的互補信息,WiFi-DensePose RCNN 還包含兩個分支,DensePose head 和 Keypoint head,之后處理結(jié)果被合并輸入到 refinement 單元。
圖片
然而從隨機初始化訓(xùn)練 Modality Translation Network 和 WiFi-DensePose RCNN 網(wǎng)絡(luò)需要大量時間(大約 80 小時)。為了提高訓(xùn)練效率,該研究將一個基于圖像的 DensPose 網(wǎng)絡(luò)遷移到基于 WiFi 的網(wǎng)絡(luò)中(詳見圖 6)。
圖片

直接初始化基于 WiFi 的網(wǎng)絡(luò)與基于圖像的網(wǎng)絡(luò)權(quán)重無法工作,因此,該研究首先訓(xùn)練了一個基于圖像的 DensePose-RCNN 模型作為教師網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)由 modality translation 網(wǎng)絡(luò)和 WiFi-DensePose RCNN 組成。這樣做的目的是最小化學(xué)生模型與教師模型生成的多層特征圖之間的差異。
實驗
表 1 結(jié)果顯示,基于 WiFi 的方法得到了很高的 AP@50 值,為 87.2,這表明該模型可以有效地檢測出人體 bounding boxes 的大致位置。AP@75 相對較低,值為 35.6,這表明人體細節(jié)沒有得到完美估計。
圖片
表 2 結(jié)果顯示 dpAP?GPS@50 和 dpAP?GPSm@50 值較高,但 dpAP?GPS@75 和 dpAP?GPSm@75 值較低。這表明本文模型在估計人體軀干的姿勢方面表現(xiàn)良好,但在檢測四肢等細節(jié)方面仍然存在困難。
圖片
表 3 和表 4 的定量結(jié)果顯示,基于圖像的方法比基于 WiFi 的方法產(chǎn)生了非常高的 AP?;?WiFi 的模型 AP-m 值與 AP-l 值的差異相對較小。該研究認為這是因為離相機遠的人在圖像中占據(jù)的空間更少,這導(dǎo)致關(guān)于這些對象的信息更少。相反,WiFi 信號包含了整個場景中的所有信息,而不管拍攝對象的位置。
圖片


圖片


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉