基于DSP嵌入式說(shuō)話人識(shí)別系統(tǒng)的設(shè)計(jì)
2.1 語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)
語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)目的是去除語(yǔ)音信號(hào)中的噪聲段。端點(diǎn)檢測(cè)從很大程度上影響到識(shí)別率。常用方法有短時(shí)能量法,短時(shí)過(guò)零率法和雙門限法等。本系統(tǒng)選用雙門限法,實(shí)驗(yàn)表明,效果優(yōu)于前兩種方法。在雙門限方法端點(diǎn)檢測(cè)中,閾值的選擇尤為關(guān)鍵,該系統(tǒng)的語(yǔ)音采樣頻率設(shè)為8 kHz,語(yǔ)音分幀為每幀80個(gè)點(diǎn)。經(jīng)過(guò)多次實(shí)驗(yàn),這里短時(shí)能量低閾值通過(guò)式(3)的動(dòng)態(tài)方式得到,高閾值設(shè)為低閾值的5倍。而過(guò)零率的閾值選取應(yīng)充分考慮到噪聲的影響,通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)系統(tǒng)中噪聲的過(guò)零率一般不超過(guò)5,所以對(duì)過(guò)零率的閾值選取為25,取得了很好的效果,準(zhǔn)確率達(dá)到95%以上。
ITU=0.03(amp_max-amp_min)+amp_min (3)
在端點(diǎn)檢測(cè)過(guò)程中有時(shí)會(huì)遇到突發(fā)性的干擾噪聲,這種噪聲持續(xù)時(shí)間很短,一般小于5 ms。為了消除這種干擾,這里用檢測(cè)后的起止長(zhǎng)度判斷它是不是語(yǔ)音。如果所檢測(cè)到的語(yǔ)音長(zhǎng)度足夠的短,則可以把它當(dāng)成是噪聲。
2.2 特征參數(shù)的提取
語(yǔ)音信號(hào)的特征提取是說(shuō)話人身份識(shí)別的難點(diǎn)。能否用相對(duì)簡(jiǎn)單的方法提取出一種最能體現(xiàn)說(shuō)話人個(gè)性信息的特征將成為以后研究的方向。該系統(tǒng)中用的是能體現(xiàn)人耳聽(tīng)覺(jué)特性的Mel倒譜系數(shù)(MFCC)。
MFCC著眼于人耳的聽(tīng)覺(jué)機(jī)理,依據(jù)聽(tīng)覺(jué)的結(jié)果來(lái)分析語(yǔ)音的頻譜,獲得了很好的識(shí)別率和很好的噪聲魯棒性,它利用了聽(tīng)覺(jué)系統(tǒng)的臨界效應(yīng),描述人耳對(duì)感知的非線性特性。在DSP硬件資源配置中,MFCC在識(shí)別性能和DSP內(nèi)部空間占用方面也取得了很好的平衡。在該系統(tǒng)中使用16個(gè)濾波器(M=16)構(gòu)成的濾波器組。圖4所示是MFCC的提取過(guò)程。
2.3 識(shí)別方法選擇與實(shí)現(xiàn)
基于該系統(tǒng)對(duì)速度、識(shí)別效率、存儲(chǔ)空間的要求,這里的識(shí)別方法選為高斯混合模型。高斯混合模型(GMM)可以看成是狀態(tài)數(shù)為1的連續(xù)分布隱馬可夫模型CDHMM。一個(gè)M階混合高斯模型的概率密度函數(shù)是由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到,所示如下:
式中:X是一個(gè)D維隨機(jī)向量;bi(Xi)是子分布,i=1,2,…,M是子分布;ωi是混合權(quán)重,i=1,2,…,M。對(duì)GMM模型參數(shù)的估計(jì)方法該系統(tǒng)采用最大似然估計(jì)。對(duì)于一組長(zhǎng)度為T的訓(xùn)練矢量序列X={X1,X2,…,XT},GMM的似然度可表示為:
由于式(5)是參數(shù)λ的非線性函數(shù),很難直接求出其最大值。因此,該系統(tǒng)采用EM算法估計(jì)參數(shù)λ。
評(píng)論