3D手勢識別背后的技術(shù)

作者：時間：2016-10-15 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

隨著觸摸屏技術(shù)的不斷推廣，用戶已經(jīng)適應(yīng)并逐漸熟悉了與機器的互動?，F(xiàn)在，人機互動技術(shù)已邁上了更高的臺階，進入了手勢識別時代，不過這也并不是一帆風(fēng)順的。手勢識別現(xiàn)已在娛樂及游戲市場出現(xiàn)，然而這種技術(shù)將對我們的日常生活產(chǎn)生怎樣的影響呢?不妨假想一下，有人坐在沙發(fā)上，只需一揮手就能操控?zé)艄夂碗娨?，或者汽車自動檢測附近是否有行人。隨著手勢識別技術(shù)支持人機互動的不斷深入發(fā)展，這些及其它功能將很快得以實現(xiàn)。手勢識別技術(shù)長期以來一直采用 2D 視覺進行研究，但隨著 3D 傳感器技術(shù)的出現(xiàn)，其應(yīng)用將日益廣泛并多樣化。

本文引用地址：http://m.butianyuan.cn/article/201610/307147.htm

2D視覺的局限

計算機視覺技術(shù)一直在努力向堪比人類智慧的智能方向發(fā)展，以更好地了解場景。如果不能解釋周圍的世界，計算機就無法與人實現(xiàn)自然交流對接。計算機在了解周圍場景方面面臨的主要問題包括細分、對象表征、機器學(xué)習(xí)與識別等。由于 2D 場景表征本身存在局限性，手勢識別系統(tǒng)必須應(yīng)用其它各種提示信息才能得到包含更有用信息的更好結(jié)果。在可能性信息包含整個身體跟蹤時，盡管將多種提示信息整合在一起，單靠 2D 表征也很難獲得超越手勢識別的任何信息。

“z”(深度)創(chuàng)新

向 3D 視覺及手勢識別發(fā)展過程中的挑戰(zhàn)一直都是第三坐標(biāo) —z 軸坐標(biāo)的獲取。人眼能看到 3D 對象，能自然識別 (x,y,z) 坐標(biāo)軸，從而能夠看到一切事物，而后大腦能夠以 3D 影像的形式表達這些坐標(biāo)軸。機器無法獲得 3D 視覺的一大挑戰(zhàn)就在于影像分析技術(shù)。目前有 3 種應(yīng)對 3D 采集問題的常見解決方案，每種方案都有其獨特的功能與特定的用途。這三種方案分別為：立體視覺、結(jié)構(gòu)光模式以及渡越時間 (TOF)。有了這些技術(shù)提供的 3D 影像輸出，就可實現(xiàn)手勢識別技術(shù)。

立體視覺

立體視覺系統(tǒng)可能是最為人所熟知的 3D 采集系統(tǒng)。該系統(tǒng)使用 2 個攝像機獲得左右立體影像，該影像有些輕微偏移，與人眼同序。計算機通過比較這兩個影像，就可獲得對應(yīng)于影像中物體位移的不同影像。該不同影像或地圖可以是彩色的，也可以為灰階，具體取決于特定系統(tǒng)的需求。立體視覺系統(tǒng)目前通常用于 3D 電影，能帶來低成本而又震撼人心的娛樂體驗。

結(jié)構(gòu)光模式

結(jié)構(gòu)光模式可用來測量或掃描 3D 對象。在該類系統(tǒng)中，可在整個對象上照射結(jié)構(gòu)光模式，光模式可使用激光照明干擾創(chuàng)建，也可使用投影影像創(chuàng)建。使用類似于立體視覺系統(tǒng)的攝像機，有助于結(jié)構(gòu)光模式系統(tǒng)獲得對象的 3D 坐標(biāo)。此外，單個 2D 攝像機系統(tǒng)也可用來測量任何單條的移位，然后通過軟件分析獲得坐標(biāo)。無論使用什么系統(tǒng)，都可使用坐標(biāo)來創(chuàng)建對象外形的數(shù)字 3D 圖形。

渡越時間 (TOF)

渡越時間 (TOF) 傳感器是一種相對較新的深度信息系統(tǒng)。TOF 系統(tǒng)是一種光雷達 (LIDAR) 系統(tǒng)，同樣可從發(fā)射極向?qū)ο蟀l(fā)射光脈沖。接收器則可通過計算光脈沖從發(fā)射器到對象，再以像素格式返回到接收器的運行時間來確定被測量對象的距離。

TOF 系統(tǒng)不是掃描儀，因為其不支持點對點測量。TOF 系統(tǒng)可同時獲得整個場景，確定 3D 范圍影像。利用測量得到的對象坐標(biāo)可創(chuàng)建 3D 影像，并可用于機器人、制造、醫(yī)療技術(shù)以及數(shù)碼攝影等領(lǐng)域的設(shè)備控制。

實施 TOF 系統(tǒng)所需的半導(dǎo)體器件現(xiàn)已開始供貨。目前的器件支持實現(xiàn) TOF 系統(tǒng)所需的處理性能、速度與帶寬。

3D 視覺技術(shù)的比較

不同的應(yīng)用或市場適用于不同的 3D 視覺技術(shù)。圖 1 顯示了不同 3D 視覺技術(shù)的比較及其相關(guān)響應(yīng)時間、軟件復(fù)雜性、成本及準確性的相對優(yōu)缺點。

立體視覺技術(shù)需要極高的軟件復(fù)雜性才能獲得高精度 3D 深度數(shù)據(jù)，其通?？赏ㄟ^數(shù)字信號處理器 (DSP) 或多內(nèi)核標(biāo)量處理器進行處理。立體視覺系統(tǒng)支持小巧的外形與低成本，是移動電話等消費類設(shè)備的良好選擇。不過，立體視覺系統(tǒng)的精確度與響應(yīng)時間不及其它技術(shù)，因此對于制造質(zhì)量控制系統(tǒng)等要求高精度的系統(tǒng)來說不太理想。

結(jié)構(gòu)光技術(shù)是包括 3D 計算機輔助設(shè)計 (CAD) 系統(tǒng)在內(nèi)的 3D 對象掃描的良好解決方案。這些系統(tǒng)的相關(guān)軟件復(fù)雜性可通過硬接線邏輯解決(如 ASIC 與 FPGA 等)，其需要高昂的開發(fā)及材料成本。此外，該計算復(fù)雜性還可導(dǎo)致較慢的響應(yīng)時間。在實現(xiàn)微觀層面上的高精度方面，結(jié)構(gòu)光模式技術(shù)優(yōu)于其它 3D 視覺技術(shù)。

TOF 系統(tǒng)取得了性能與成本的平衡，非常適用于需要快速響應(yīng)時間的制造與消費類電子設(shè)備等應(yīng)用領(lǐng)域的設(shè)備控制。TOF 系統(tǒng)軟件復(fù)雜程度通常較低，不過這些系統(tǒng)需要昂貴的照明部件(LED、激光二極管)以及高速接口相關(guān)部件(快速 ADC、快速串行/并行接口、快速 PWM 驅(qū)動器)，這將提升材料成本。圖 1 顯示了這三種 3D 傳感器技術(shù)的對比情況。

“z”(深度)如何影響人機界面

隨著“z”坐標(biāo)的加入，顯示與影像更接近自然，更貼近人類。人們在顯示屏上能看到人眼從周邊環(huán)境所看到的逼真事物。增加這第三維坐標(biāo)改變了可使用的顯示與應(yīng)用類型。

顯示

立體顯示屏

立體顯示屏通常需要用戶佩戴 3D 眼鏡。這種顯示屏為左右眼提供不同的影像，兩眼看到的影像不同，讓大腦誤以為看到了 3D 影像。這種顯示屏目前廣泛用于眾多 3D 電視與 3D 電影院。

多視點顯示屏

多視點顯視屏不同于立體顯示屏，無需佩戴特殊眼鏡。這些顯示屏可同時投射多個影像，每個影像稍微有些位移，形成適當(dāng)?shù)慕嵌龋層脩艨稍诿總€視點角度看到相同對象的不同投射影像。這些顯示屏支持全息攝影效果，在不久的將來將實現(xiàn)全新的 3D 體驗。

檢測與應(yīng)用

處理并顯示“z”坐標(biāo)的功能將實現(xiàn)全新的應(yīng)用，其中包括游戲、制造控制、安全、互動數(shù)字標(biāo)牌、遠程醫(yī)療、汽車以及機器人視覺等。圖 2 是身體骨架與深度映射傳感技術(shù)所支持的某些應(yīng)用領(lǐng)域視圖。

人類手勢識別(消費類)

人類手勢識別是一項深受歡迎的新技術(shù)，可為游戲、消費類以及移動產(chǎn)品帶來新的輸入方式。用戶能夠以極其自然、直觀的方法與設(shè)備進行互動，從而可促進產(chǎn)品推廣。這些人類手勢識別產(chǎn)品包括從 160 x 120 像素到 640 x 480 像素，30 到 60 fps 的各種分辨率的 3D 數(shù)據(jù)。原始數(shù)據(jù)到z深度解析、雙手跟蹤以及全身跟蹤等軟件模塊需要數(shù)字信號處理器 (DSP) 對 3D 數(shù)據(jù)進行高效快速處理，才能實現(xiàn)實時游戲與跟蹤。

工業(yè)

工業(yè)與制造傳感器等大多數(shù) 3D 視覺工業(yè)應(yīng)用都采用至少 1 像素至數(shù) 100k 像素的影像系統(tǒng)。3D 影像可使用 DSP 技術(shù)進行控制分析，確定制造瑕疵或者從部件集中選擇正確的部件。

互動數(shù)字標(biāo)牌(精確定位的市場營銷工具)

每天我們都在遭受廣告的轟炸，無論是看電視、開車還是在機場登機都是如此。有了互動數(shù)字標(biāo)牌，企業(yè)就可通過精確定位的市場營銷工具提供適合每位消費者的內(nèi)容。例如，有人走過一個數(shù)字標(biāo)牌，標(biāo)牌上可能就會馬上顯示額外的消息確認該客戶。如果客戶停下來閱讀信息，該標(biāo)牌可能會理解為客戶對產(chǎn)品感興趣，并提供更有針對性的消息。麥克風(fēng)則將讓廣告牌檢測并識別關(guān)鍵短語，進一步精確定位所提供的消息。

這些互動數(shù)字標(biāo)牌系統(tǒng)將需要 3D 傳感器進行全面的身體跟蹤，2D 傳感器進行面部識別，并需要麥克風(fēng)進行語音識別。這些系統(tǒng)的軟件將運行在更高級的 DSP 及通用處理器 (GPP) 上，不但可實現(xiàn)面部識別、全面的身體跟蹤以及 Flash 媒體播放器等應(yīng)用，而且還可提供諸如 MPEG4 視頻解碼等功能。

醫(yī)療(無故障虛擬/遠程護理)

3D 視覺將為醫(yī)療領(lǐng)域帶來前所未有的全新應(yīng)用。醫(yī)生無需跟患者共處一室就可問診。遠程虛擬護理采用高精度 3D 傳感器支持的醫(yī)學(xué)機器人視覺系統(tǒng)，可確保為每一位患者提供最優(yōu)質(zhì)的醫(yī)療護理，無論他們身處何方。

汽車(安全)

近期，汽車應(yīng)用在交通信號、車道以及障礙檢測方面使用 2D 傳感器技術(shù)取得了長足發(fā)展。隨著 3D 傳感技術(shù)的到來，3D 傳感器的“z”數(shù)據(jù)將大幅提升場景分析的可靠性。汽車通過使用 3D 視覺系統(tǒng)，現(xiàn)已有了預(yù)防事故的新途徑，無論白天還是夜間都非常適用。采用 3D 傳感器，車輛能可靠檢測并解讀周邊環(huán)境，確定對象是否對車輛及車內(nèi)乘客構(gòu)成安全威脅。這些系統(tǒng)要求軟硬件支持 3D 視覺系統(tǒng)，并需要密集型 DSP 及 GPP 處理性能在極短時間內(nèi)解讀 3D 圖形，避免事故。

視頻會議

視覺會議技術(shù)經(jīng)過多年發(fā)展，已經(jīng)從間斷脫節(jié)傳輸影像發(fā)展成當(dāng)前的高清系統(tǒng)。未來增強型視頻會議將充分發(fā)揮 3D 傳感器的優(yōu)勢，提供更真實、更具互動性的視頻會議體驗。該增強型視頻會議系統(tǒng)具有集成型 2D 傳感器以及 3D 傳感器及麥克風(fēng)組合，將能夠與其它增強型系統(tǒng)連接，實現(xiàn)高質(zhì)量的視頻處理、面部識別、3D 影像、噪聲消除以及內(nèi)容播放器(Flash 等)等應(yīng)用。隨著這種密集型音視頻處理需求的出現(xiàn)，需要具備最佳性能及外設(shè)組合的 DSP。

技術(shù)處理步驟

對許多應(yīng)用而言，需要同時具備 2D 和 3D 攝像機系統(tǒng)才能充分實現(xiàn)應(yīng)用技術(shù)。圖 3 顯示了這些系統(tǒng)的基本數(shù)據(jù)路徑。從傳感器獲取數(shù)據(jù)，然后進行視覺分析，這并不像數(shù)據(jù)路徑示意圖看上去那么簡單。具體而言，TOF 傳感器需要的帶寬相當(dāng)于 2D 傳感器的 16 倍之多，這可導(dǎo)致高輸入/輸出 (I/O) 問題。另一個瓶頸則存在于原始 3D 數(shù)據(jù)向 3D 點云轉(zhuǎn)換的處理過程中。通過正確的軟硬件組合解決這些問題，對于手勢識別及 3D 的成功應(yīng)用至關(guān)重要。當(dāng)前數(shù)據(jù)路徑可通過DSP/GPP 處理器組合加上分立式模擬組件及軟件庫實現(xiàn)。

3D 視覺嵌入式系統(tǒng)的挑戰(zhàn)

輸入挑戰(zhàn)

如前所述，輸入帶寬限制對 3D 視覺嵌入式系統(tǒng)提出了極大的挑戰(zhàn)。此外，輸入接口也沒有標(biāo)準化。設(shè)計人員可為 2D 傳感器與通用外部存儲器接口選擇采用不同的輸入選項，其中包括串行與并行接口。在支持最佳帶寬的標(biāo)準輸入接口出現(xiàn)之前，設(shè)計人員只能使用現(xiàn)有的接口。

兩種不同的處理器架構(gòu)

圖 3 所示的 3D 深度映射處理可分為兩類：一是以數(shù)據(jù)為中心的視覺專用處理，二是應(yīng)用上層處理。以數(shù)據(jù)為中心的視覺專用處理需要處理器架構(gòu)能夠執(zhí)行單指令多數(shù)據(jù) (SIMD) 快速浮點乘法及加法運算，以及快速搜索算法。DSP 是快速可靠執(zhí)行這種處理功能的完美選擇。對于應(yīng)用上層處理而言，高級操作系統(tǒng) (OS) 及協(xié)議棧則可提供任何應(yīng)用上層所需的必要特性集。

根據(jù)兩種處理器架構(gòu)要求，提供高數(shù)據(jù)速率 I/O GPP+DSP+SIMD 處理器的片上系統(tǒng) (SoC) 非常適合 3D 視覺處理，其可支持必要的數(shù)據(jù)及應(yīng)用上層處理。

缺乏標(biāo)準中間件

3D 視覺處理領(lǐng)域的中間件是多種來源的眾多不同組件的整合，包括開源(如 OpenCV)與專有商業(yè)源等。商業(yè)庫主要針對身體跟蹤應(yīng)用，這是一種特定的 3D 視覺應(yīng)用。目前尚未開發(fā)出針對所有不同 3D 視覺應(yīng)用標(biāo)準化的中間件接口。

“z”(深度)之后會有什么精彩?

沒有人質(zhì)疑 3D 視覺的誘人因素。工程師早已在期待未來的應(yīng)用發(fā)展。那么不久的將來會出現(xiàn)哪些最新技術(shù)?研究人員已經(jīng)在開發(fā)針對人和對象的各種視覺技術(shù)了。全球研究人員正在使用多路徑光分析技術(shù)，探索實現(xiàn)轉(zhuǎn)角視覺或繞開對象的視覺途徑。透明研究將帶來可透視對象和材料的系統(tǒng)，而運動檢測系統(tǒng)則將帶來查看人類大腦內(nèi)部的應(yīng)用，從而可檢驗一個人是否在撒謊。

3D 視覺與手勢識別技術(shù)的發(fā)展會帶來無盡的可能性。不過，如果沒有支持這些振奮人心的新技術(shù)所必須的硬件及中間件，該研究將沒有任務(wù)意義。提供 GPP+DSP+SIMD(通用處理器+數(shù)字信號處理器+單指令多數(shù)據(jù)流)架構(gòu)的 SoC(系統(tǒng)芯片)不斷發(fā)展，將提供處理性能、外設(shè)支持以及必要帶寬的完美組合，從而可實現(xiàn)這種振奮人心的技術(shù)與應(yīng)用。

新聞中心

3D手勢識別背后的技術(shù)

評論

相關(guān)推薦

技術(shù)專區(qū)