基于多特征SVMs分類器的手語識別的研究
七個不變矩由二階和三階中心矩的線性組合構(gòu)成,具體表達式如下:
實驗中,使用了全部的7Hu不變矩特征量作為手語圖像整體形狀描述的特征向量。形成特征空間(M1, M2, M3, M4, M5, M6, M7),如表1所示。
表1手語字母X,Y,Z的7Hu矩分量
SIFT特征
David G.Lowe在2004年總結(jié)了現(xiàn)有的基于不變量技術(shù)的特征檢測方法,并正式提出了一種基于尺度空間的、對圖像縮放、旋轉(zhuǎn)甚至仿射變換保持不變性的圖像局部特征描述算子-SIFT算子[6,11],即尺度不變特征變換。
SIFT算法首先在尺度空間進行特征檢測,并確定關(guān)鍵點(Keypoints)的位置和關(guān)鍵點所處的尺度,然后使用關(guān)鍵點鄰域梯度的主方向作為該點的方向特征,以實現(xiàn)算子對尺度和方向的無關(guān)性。
Lowe在圖像二維平面空間和DoG(Difference of Gaussian)尺度空間中同時檢測局部極值以作為特征點,以使特征具備良好的獨特性和穩(wěn)定性。DoG算子定義為兩個不同尺度的高斯核的差分,其具有計算簡單的特點,是歸一化LoG (Laplacian of Gaussian)算子的近似。DoG算子如下式所示:
對于圖像上的點,計算其在每一尺度下DoG算子的響應(yīng)值,這些值連起來得到特征尺度軌跡曲線。特征尺度曲線的局部極值點即為該特征的尺度。尺度軌跡曲線上完全可能存在多個局部極值點,這時可認為該點有多個特征尺度。
一幅圖像SIFT特征向量的生成算法總共包括4步:
(1)尺度空間極值檢測,初步確定關(guān)鍵點位置和所在尺度。
(2)通過擬和三維二次函數(shù)以精確確定關(guān)鍵點的位置和尺度,同時去除低對比度的關(guān)鍵點和不穩(wěn)定的邊緣響應(yīng)點(因為DoG算子會產(chǎn)生較強的邊緣響應(yīng)),以增強匹配穩(wěn)定性、提高抗噪聲能力[6,11]。
(3)利用關(guān)鍵點鄰域像素的梯度方向分布特性為每個關(guān)鍵點指定方向參數(shù),使算子具備旋轉(zhuǎn)不變性。
式(14)為(x,y)處梯度的模值和方向公式。其中L所用的尺度為每個關(guān)鍵點各自所在的尺度。
(4)生成SIFT特征向量。 首先將坐標軸旋轉(zhuǎn)為關(guān)鍵點的方向,以確保旋轉(zhuǎn)不變性。接下來以關(guān)鍵點為中心取8×8的窗口。然后在每4×4的小塊上計算8個方向的梯度方向直方圖,繪制每個梯度方向的累加值,即可形成一個種子點。手語字母圖像的SIFT特征提取如圖2所示。
圖2 (a)手語字母J原圖 (b)對(a)提取SIFT特征向量
實驗
本文從視頻中采集了中國手語字母表中的30個手語字母的圖像,30組,每組圖像195幅,共5850幅圖像作為實驗圖像。每組的前50幅作為正例訓(xùn)練樣本,從其他29組中各選取5幅共145幅作為反例訓(xùn)練樣本。每類圖像除選作正例的50圖像外,剩余的145幅作為測試圖像。實驗中首先提取圖像的7維不變矩特征量,48維Gabor紋理特征,128維SIFT特征作為圖像全局和局部特征描述。然后分別采用兩種不同核函數(shù)(Linear kernel, Radical Basis Function)的SVMs分類器進行訓(xùn)練,對中國手語字母表中的30個手語字母圖像的識別結(jié)果如表2所示。
表2 30個中國手語字母的識別結(jié)果
基于線性核函數(shù)的SVM平均識別率為95.556%,基于徑向基核函數(shù)的SVM平均識別率為83.1282%。實驗表明,采用徑向基核函數(shù)的SVM識別率普遍低于采用線性核函數(shù)的SVM。
結(jié)語
本文提出了一種采用7Hu不變矩特征量等多種圖像特征相融合的SVMs手語識別方法。實驗表明,在手語識別中,采用圖像全局和局部特征相結(jié)合的方法,可獲得較高的識別率,為手語識別方法的早日推廣應(yīng)用提供了理論依據(jù)。
評論