新聞中心

EEPW首頁(yè) > 消費(fèi)電子 > 設(shè)計(jì)應(yīng)用 > 一款語(yǔ)音口令識(shí)別系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)

一款語(yǔ)音口令識(shí)別系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)

作者: 時(shí)間:2014-03-17 來(lái)源:網(wǎng)絡(luò) 收藏

引言

本文引用地址:http://m.butianyuan.cn/article/234840.htm

隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的迅速發(fā)展,語(yǔ)音口令識(shí)別已經(jīng)成為了人機(jī)交互的一個(gè)重要方式之一。語(yǔ)音口令識(shí)別系統(tǒng)將根據(jù)人發(fā)出的聲音、音節(jié)或短語(yǔ)給出響應(yīng),如通過(guò)語(yǔ)音口令控制一些執(zhí)行機(jī)構(gòu)、控制家用電器的運(yùn)行或做出回答等。在數(shù)字信號(hào)處理芯片上已經(jīng)實(shí)現(xiàn)了語(yǔ)音口令識(shí)別系統(tǒng)或語(yǔ)音口令識(shí)別系統(tǒng)的部分功能,然而隨著嵌入式微處理器處理能力的大幅度提高,計(jì)算量大的語(yǔ)音口令識(shí)別算法已經(jīng)能夠通過(guò)嵌入式微處理器來(lái)完成,將語(yǔ)音口令識(shí)別系統(tǒng)與相結(jié)合,發(fā)揮系統(tǒng)的潛力,使系統(tǒng)能夠廣泛應(yīng)用于便攜式設(shè)備中。

采用隱馬爾克夫模型(Hidden Markov MODEL,HMM) 描述語(yǔ)音信號(hào)的非平穩(wěn)性和局部平穩(wěn)性,HMM中的狀態(tài)與語(yǔ)音信號(hào)的某個(gè)平穩(wěn)段相對(duì)應(yīng),平穩(wěn)段之間以轉(zhuǎn)移概率相聯(lián)系。由于HMM建模對(duì)語(yǔ)音信號(hào)長(zhǎng)度和模型的混合度的要求都比較低,因此在現(xiàn)有的非特定人語(yǔ)音口令識(shí)別系統(tǒng)中,多采用狀態(tài)輸出具有連續(xù)概率分布的連續(xù)隱馬爾可夫模型(ConTInuous Density Hidden Markov MODEL,CDHMM)。

論文給出一種基于的語(yǔ)音口令識(shí)別系統(tǒng)的設(shè)計(jì)方案,硬件系統(tǒng)的核心芯片是嵌入式微處理器,語(yǔ)音口令識(shí)別算法采用CDHMM。語(yǔ)音口令首先經(jīng)過(guò)預(yù)處理,提取MFCC(Mel-Frequency Ceptral Coefficients)特征參數(shù),然后建立此口令的CDHMM模型,把所有語(yǔ)音口令的模型放在模型庫(kù)中,在識(shí)別階段,通過(guò)概率輸出*分,取*分最大的一個(gè)作為識(shí)別出的口令。將系統(tǒng)與相結(jié)合,可以使語(yǔ)音口令識(shí)別系統(tǒng)廣泛應(yīng)用于便攜式設(shè)備中。

1 硬件電路的設(shè)計(jì)和工作原理

基于嵌入式系統(tǒng)的語(yǔ)音口令識(shí)別系統(tǒng)需要有接收語(yǔ)音信號(hào)的輸入芯片配合麥克風(fēng)實(shí)現(xiàn)將模擬語(yǔ)音信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的功能,然后由嵌入式微處理器對(duì)輸入的語(yǔ)音口令信號(hào)進(jìn)行處理。完成語(yǔ)音口令信號(hào)輸入功能的芯片采用的是PHILIPS公司的低功耗芯片UDAl341TS,供電電源電壓為3V,該音頻處理芯片由模數(shù)/數(shù)模轉(zhuǎn)換(ADC)、控制邏輯電路、可編程增益放大器(PGA)和數(shù)字自動(dòng)增益控制器(DAGC)以及數(shù)字信號(hào)處理器等部分組成,能進(jìn)行數(shù)字語(yǔ)音處理。

芯片UDAl341TS采用標(biāo)準(zhǔn)的內(nèi)部集成電路聲音總線IIS(Inter IC Sound Bus),該總線是由PHILIPS等公司共同提出的數(shù)字音頻總線協(xié)議,專(zhuān)門(mén)用于音頻設(shè)備之間的數(shù)據(jù)傳輸,目前很多音頻芯片和微處理器都提供了對(duì)IIS總線的支持。

IIS總線有三根信號(hào)線,分別是位時(shí)鐘信號(hào)BCK(Bit Clock)、字選擇控制信號(hào)WS(Word Select)和串行數(shù)據(jù)信號(hào)Data,由主設(shè)備提供串行時(shí)鐘信號(hào)和字選擇控制信號(hào),IIS總線的時(shí)序如圖1所示。

?

?

WS也稱(chēng)為幀時(shí)鐘信號(hào),該信號(hào)的電平為低電平時(shí),傳輸?shù)妮斎胍纛l數(shù)據(jù)信號(hào)是左聲道的音頻數(shù)據(jù)信號(hào);信號(hào)WS的電平為高電平時(shí),傳輸?shù)妮斎胍纛l數(shù)據(jù)信號(hào)是右聲道的音頻數(shù)據(jù)信號(hào)。BCK對(duì)應(yīng)著輸入音頻數(shù)據(jù)信號(hào)的每一位音頻數(shù)據(jù),其頻率為2×采樣頻率×每個(gè)采樣值的位數(shù)。

與BCK同步的串行音頻數(shù)據(jù)信號(hào)采用補(bǔ)碼的形式傳輸,傳輸順序是高位先傳輸。IIS總線格式的信號(hào)無(wú)論有多少位有效數(shù)據(jù),數(shù)據(jù)的最高位MSB總是出現(xiàn)在WS信號(hào)改變(也就是傳輸一幀數(shù)據(jù)信號(hào)開(kāi)始)后的第2個(gè)串行數(shù)據(jù)信號(hào)SCLK脈沖位置。

通過(guò)上述IIS總線能夠得到輸入的音頻數(shù)據(jù)信號(hào),而其它的信號(hào)如自動(dòng)增益控制、輸入數(shù)據(jù)格式的選擇和輸入增益的控制等控制信號(hào)通過(guò)稱(chēng)為“L3” 形式的接口總線傳輸。為了減少引腳數(shù)和保持連線簡(jiǎn)單,該接口總線采用串行數(shù)據(jù)傳輸方式,接口總線由3條信號(hào)線組成:時(shí)分復(fù)用的數(shù)據(jù)通道線L3DATA、模式控制線L3MODE和時(shí)鐘信號(hào)線L3CLOCK。模式控制線L3MODE為低電平時(shí)的傳輸模式為地址傳輸模式;為高電平時(shí)的傳輸模式為數(shù)據(jù)傳輸模式。

語(yǔ)音口令識(shí)別系統(tǒng)的硬件電路的核心芯片是嵌入式微處理器Samsung S3C2440 AL,主頻為400MHz。三星公司推出的RISC微處理器S3C2440 AL具有低功耗、高性能等特點(diǎn),可以廣泛應(yīng)用于便攜式設(shè)備中。

S3C2440AL具有一個(gè)IIS總線音頻編碼/解碼接口,語(yǔ)音口令識(shí)別系統(tǒng)的硬件電路如圖 2所示。其IIS總線控制器通過(guò)5根信號(hào)線與UDAl34lTS編解碼芯片相連。這些5根信號(hào)線分別是:系統(tǒng)時(shí)鐘信號(hào)CDCLK:位時(shí)鐘信號(hào)I2- SSCLK;字選擇控制信號(hào)I2SLRCK;串行數(shù)據(jù)輸入信號(hào)I2SSDI;串行數(shù)據(jù)輸出信號(hào)I2SDO。S3C2440 AL使用L3接口傳輸其他(如自動(dòng)增益控制、輸入數(shù)據(jù)格式的選擇和輸入增益的控制等)控制信號(hào)。為了使系統(tǒng)間能夠更好地同步,S3C2440AL需要向芯片UDAl341TS提供CDCLK,該時(shí)鐘信號(hào)的頻率可以選擇采樣頻率的256倍、384倍或512倍。

?

?

2 基于CDHMM的口令識(shí)別的軟件設(shè)計(jì)

2.1 口令識(shí)別的軟件系統(tǒng)框圖

語(yǔ)音口令識(shí)別的軟件系統(tǒng)分別由特征參數(shù)提取、語(yǔ)音模型庫(kù)和概率輸出*分三大模塊組成,如圖3所示:1)語(yǔ)音口令特征參數(shù)的提取,輸入不同的語(yǔ)音口令,首先要進(jìn)行特征參數(shù)提取,采用Mel頻率參數(shù)作為CDHMM的建模參數(shù),Mel頻率參數(shù)是根據(jù)人耳的聽(tīng)覺(jué)特性將語(yǔ)音信號(hào)的頻譜轉(zhuǎn)化為基于Mel頻率的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。2)在訓(xùn)練階段,對(duì)不同的語(yǔ)音口令建立CDHMM模型。3)在口令識(shí)別階段,通過(guò)概率輸出*分對(duì)待測(cè)語(yǔ)音口令做出識(shí)別。

?

?

語(yǔ)音口令首先經(jīng)過(guò)預(yù)處理,提取MFCC特征參數(shù),然后建立此口令的CDHMM模型,把所有語(yǔ)音口令的模型放在模型庫(kù)中,在識(shí)別階段,通過(guò)概率輸出*分,取*分最大的一個(gè)作為識(shí)別出的口令。

2.2 CDHMM算法

HMM是一種雙重隨機(jī)過(guò)程,用概率統(tǒng)計(jì)的方法描述語(yǔ)音信號(hào)的產(chǎn)生及變化過(guò)程。HMM的模型參數(shù)為λ=(N,M,π,A,B),其中,N為模型中馬爾克夫鏈的狀態(tài)數(shù)目;M為每個(gè)狀態(tài)對(duì)應(yīng)的可能的觀察數(shù)目;π為初始狀態(tài)概率矢量,π=(π1,…,πN);A為狀態(tài)轉(zhuǎn)移矩陣,A=(aij)N*N;B 為觀察概率矩陣,B=(bjk)N*N。


上一頁(yè) 1 2 下一頁(yè)

評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉