基于HMM的連續(xù)小詞量語音識(shí)別系統(tǒng)的研究

作者：時(shí)間：2011-07-12 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

摘要：為了提高語音 識(shí)別效率及對(duì)環(huán)境的依賴性，文章對(duì)語音 識(shí)別算法部分和硬件部分做了分析與改進(jìn)，采用ARMS3C2410微處理器作為主控制模塊，采用UDA1314TS音頻處理芯片作為語音 識(shí)別模塊，利用HMM聲學(xué)模型及Viterbi算法進(jìn)行模式訓(xùn)練和識(shí)別，設(shè)計(jì)了一種連續(xù)的、小詞量的語音識(shí)別系統(tǒng)。實(shí)驗(yàn)證明，該語音識(shí)別系統(tǒng)具有較高的識(shí)別率和一定程度的魯棒性，實(shí)驗(yàn)室識(shí)別率和室外識(shí)別率分別達(dá)到95．6％，92．3％。
關(guān)鍵詞：語音識(shí)別；嵌入式系統(tǒng)；Hidden Markov Models；ARM；Viterbi算法

0 引言
嵌入式語音識(shí)別系統(tǒng)是應(yīng)用各種先進(jìn)的微處理器在板級(jí)或是芯片級(jí)用軟件或硬件實(shí)現(xiàn)的語音識(shí)別。嵌入式技術(shù)與語音識(shí)別技術(shù)相結(jié)合，能使人們甩掉鍵盤，通過語音命令對(duì)智能化終端進(jìn)行操作，人與智能化終端之間的這種自然快捷的交互方式有助于提高人機(jī)交互的效率，以適應(yīng)嵌入式平臺(tái)存儲(chǔ)資源少，實(shí)時(shí)性要求高的特點(diǎn)，增強(qiáng)人對(duì)智能化設(shè)備的控制，同時(shí)，在語音識(shí)別技術(shù)發(fā)展過程中又以HMM的廣泛應(yīng)用為特點(diǎn)。該算法通過對(duì)大量語音數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)，建立識(shí)別詞條的統(tǒng)計(jì)模型，然后從待識(shí)別語音中提取特征，與這些模型匹配，通過比較匹配概率，以獲得識(shí)別結(jié)果，通過建立大量的語音數(shù)據(jù)庫，就能獲得一個(gè)穩(wěn)健的統(tǒng)計(jì)模型，提高在各種實(shí)際情況下的識(shí)別效率。

1 Markov鏈及隱馬爾可夫模型(HMM)
語音信號(hào)是一個(gè)可觀察的序列，在足夠小時(shí)間段上特性近似于穩(wěn)定，但其總的過程可看作依次從相對(duì)穩(wěn)定的某一特性過渡到另一特性，在整個(gè)分析區(qū)間內(nèi)可將許多線性模型串接起來，這就是Markov鏈。Markov鏈?zhǔn)荕arkov隨機(jī)過程的特殊情況，即Markov鏈?zhǔn)綘顟B(tài)和時(shí)間參數(shù)都離散的Markov過程。
隱馬爾可夫模型是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型，可將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程：一個(gè)是用具有有限狀態(tài)數(shù)的Mar-kov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程，另一個(gè)是與Mark-ov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測(cè)的。
一般來說，一個(gè)HMM是一個(gè)雙重隨機(jī)過程，由下述五個(gè)參數(shù)描述：

2 基于HMM的語音識(shí)別系統(tǒng)實(shí)現(xiàn)
人的言語過程實(shí)際上就是一個(gè)雙重隨機(jī)過程，語音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列，是由大腦根據(jù)語法知識(shí)和言語需要(不可觀測(cè)的狀態(tài))發(fā)出音素的參數(shù)流。HMM合理地模仿了這一過程，很好地描述了語音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性，是較為理想的一種語音模型。從整段語音來看，人類語音是一個(gè)非平穩(wěn)的隨機(jī)過程，但是若把整段語音分割成若干短時(shí)語音信號(hào)，則可認(rèn)為這些短時(shí)語音信號(hào)是平穩(wěn)過程，就可以用線性手段對(duì)這些短時(shí)語音信號(hào)進(jìn)行分析。若對(duì)這些語音信號(hào)建立隱馬爾可夫模型，則可以辯識(shí)具有不同參數(shù)的短時(shí)平穩(wěn)信號(hào)段，并可以跟蹤它們之間的轉(zhuǎn)化，從而解決了對(duì)語音的發(fā)音速率及聲學(xué)變化建立模型的問題。
語音識(shí)別系統(tǒng)首先通過芯片內(nèi)的A／D轉(zhuǎn)換器將模擬語音信號(hào)轉(zhuǎn)化為數(shù)字語音信號(hào)，然后對(duì)數(shù)字語音信號(hào)進(jìn)行處理(信號(hào)加窗、過濾)，得到干凈的語音信號(hào)，再通過特征提取過程做出特征矢量，提取語音特征，最后由識(shí)別過程對(duì)說話人語音進(jìn)行識(shí)別，得出識(shí)別結(jié)果?？傮w來說，整個(gè)識(shí)別過程分為語音信號(hào)的預(yù)處理、語音信號(hào)的特征提取、語音庫的建立以及語音信號(hào)的識(shí)別等幾個(gè)主要階段，如圖1所示。