基于聲紋識(shí)別的通用語(yǔ)音控制系統(tǒng)設(shè)計(jì)
1.1.背景
本文引用地址:http://m.butianyuan.cn/article/201612/326317.htm隨著物聯(lián)網(wǎng)的發(fā)展,對(duì)家庭電器的控制將會(huì)有更多的發(fā)展,而語(yǔ)音作為一種自然簡(jiǎn)單的方法將是一種有效便捷的控制方式。聲音不僅可以傳達(dá)指令,還能與聲紋識(shí)別的安全系統(tǒng)結(jié)合,如果可以把語(yǔ)音控制與安全控制結(jié)合起來(lái),系統(tǒng)就變得更自然直接更人性化了。
在本設(shè)計(jì)就是希望通過(guò)設(shè)計(jì)出一個(gè)通用的系統(tǒng)為將來(lái)的這些應(yīng)用實(shí)現(xiàn)基本的框架。
1.2.編寫目的
進(jìn)入21世紀(jì)以來(lái),隨著科學(xué)技術(shù)的突飛進(jìn)展,語(yǔ)音識(shí)別與確認(rèn)技術(shù)也逐漸的走向成熟,基于語(yǔ)音識(shí)別技術(shù)的對(duì)話控制系統(tǒng)受到了越來(lái)越多的關(guān)注。直接用聲音來(lái)發(fā)出控制指令,讓機(jī)器能“聽懂”你的話,執(zhí)行相應(yīng)的命令。本設(shè)計(jì)目的在于能夠?qū)崿F(xiàn)一個(gè)比較通用的語(yǔ)音控制系統(tǒng),為了能更好地示例,在本文的設(shè)計(jì)中選擇使用數(shù)字0-9(中文發(fā)音)十個(gè)控制語(yǔ)音來(lái)控制Linux系統(tǒng)下的ls等5個(gè)命令,通過(guò)說(shuō)出命令對(duì)應(yīng)的數(shù)字來(lái)選擇相應(yīng)命令操作,從而達(dá)到執(zhí)行命令程序的目的。語(yǔ)音識(shí)別識(shí)別系統(tǒng)可以使人機(jī)交互更為方便,更加智能。
1.3.定義
GVCS: General Voice Control System,即通用語(yǔ)音控制系統(tǒng)。
SI: Speaker-Independent,與說(shuō)話者無(wú)關(guān)的語(yǔ)音識(shí)別技術(shù);
SD: Speaker-Dependent, 與說(shuō)話者有關(guān)的語(yǔ)音識(shí)別技術(shù);
SV: Speaker Verification, 語(yǔ)音確認(rèn);
2.1.項(xiàng)目目標(biāo)
符合SMART原則
Specific明確的陳述:整個(gè)通用語(yǔ)音管理系統(tǒng)的實(shí)現(xiàn)。
Measurable可以衡量的結(jié)果:通用語(yǔ)音控制系統(tǒng)對(duì)機(jī)器的控制結(jié)果。
Attainable可以達(dá)成的目標(biāo):對(duì)機(jī)器設(shè)備控制的智能化。
Relevant任務(wù)相關(guān)性:只完成語(yǔ)音控制所需要的實(shí)現(xiàn)
Time-based時(shí)限性:在規(guī)定的時(shí)間內(nèi)成項(xiàng)目計(jì)劃
遵循質(zhì)量控制管理
項(xiàng)目將嚴(yán)格進(jìn)行質(zhì)量管理控制,對(duì)每一個(gè)步驟都建立相對(duì)完善的文檔,嚴(yán)格按照流程進(jìn)行,完成系統(tǒng)功能的同時(shí)提高系統(tǒng)性能,增強(qiáng)系統(tǒng)的可維護(hù)性。
2.2.產(chǎn)品目標(biāo)與范圍
本項(xiàng)目主要是為了實(shí)現(xiàn)對(duì)機(jī)器設(shè)備控制的智能化,從而選擇使用Digilent Cerebot™ 32MX4開發(fā)板設(shè)計(jì)一套通用語(yǔ)音控制系統(tǒng),該系統(tǒng)主要應(yīng)用在家庭電器設(shè)備和工業(yè)控制等領(lǐng)域。
Chapter 3.可行性分析
3.1.實(shí)用可行性
本設(shè)計(jì)的主要目的是能建立一個(gè)通用的語(yǔ)音控制系統(tǒng),只要對(duì)系統(tǒng)進(jìn)行相關(guān)的配置和擴(kuò)展之后就能夠應(yīng)用到各種應(yīng)用中。通過(guò)這一個(gè)系統(tǒng)可以實(shí)現(xiàn)對(duì)電器、軟件等的語(yǔ)音控制。
這一系統(tǒng)的應(yīng)用可以使對(duì)機(jī)器的操作方便高效,,同時(shí)也可以完善用的操作體驗(yàn)。
3.2.技術(shù)可行性
在這個(gè)系統(tǒng)中需要實(shí)現(xiàn)的有:控制語(yǔ)音的采集、控制語(yǔ)音的識(shí)別、將識(shí)別后的控制語(yǔ)音轉(zhuǎn)換成控制指令、將控制指令轉(zhuǎn)換成相應(yīng)機(jī)器可以識(shí)別的指令,需要的硬件有:
控制語(yǔ)音的采集:直接用模數(shù)轉(zhuǎn)換器收集模擬的語(yǔ)音,用編程的方法把數(shù)字語(yǔ)音轉(zhuǎn)換成合適的格式。
控制語(yǔ)音的識(shí)別:用編程的方法將采集到的語(yǔ)音與控制語(yǔ)音庫(kù)的數(shù)據(jù)進(jìn)行匹配,得到匹配結(jié)果。
將識(shí)別后的控制語(yǔ)音轉(zhuǎn)換成控制指令:把匹配的結(jié)果映射成相應(yīng)的控制指令輸出。
將控制指令轉(zhuǎn)換成相應(yīng)應(yīng)用可以識(shí)別的控制指令:為了使系統(tǒng)有更好的通用性,需要根據(jù)實(shí)際的應(yīng)用把輸出的控制指令轉(zhuǎn)換成相應(yīng)應(yīng)用可識(shí)別的控制指令,從而實(shí)現(xiàn)控制機(jī)器。這些實(shí)現(xiàn)可以直接用編程的方法實(shí)現(xiàn)
3.3.經(jīng)濟(jì)可行性
本系統(tǒng)采用高度可定制的思想實(shí)現(xiàn)。系統(tǒng)可以根據(jù)需要,自行對(duì)各個(gè)功能實(shí)現(xiàn)進(jìn)行選擇或替換,通過(guò)這種實(shí)現(xiàn)方案可以定制出能達(dá)到最好的經(jīng)濟(jì)效益的組合。如替換更合適的語(yǔ)音采集方法、語(yǔ)音識(shí)別方法,定制語(yǔ)音與控制指令的映射關(guān)系等。
本系統(tǒng)的性能主要由硬件處理速度、控制語(yǔ)音庫(kù)的大小和語(yǔ)音匹配算法決定。在實(shí)際中可以根據(jù)需要選擇硬件和語(yǔ)音庫(kù),同時(shí)也可以不斷改進(jìn)算法。
Chapter 4.需求分析
4.1.系統(tǒng)應(yīng)該實(shí)現(xiàn)以下功能:
把說(shuō)出的控制語(yǔ)音轉(zhuǎn)換成相應(yīng)的控制操作。
能夠配置語(yǔ)音與指令的對(duì)應(yīng)關(guān)系。
可以根據(jù)需要替換相關(guān)功能實(shí)現(xiàn)。
在無(wú)法識(shí)別控制語(yǔ)音時(shí)不執(zhí)行操作并給出提示。
4.2.通用語(yǔ)音控制系統(tǒng)模型
4.3.用中文數(shù)字聲音執(zhí)行Linux命令
控制語(yǔ)音采集:
使用模數(shù)轉(zhuǎn)換芯片,將模擬的語(yǔ)音轉(zhuǎn)換成數(shù)字語(yǔ)音數(shù)據(jù)。
編碼轉(zhuǎn)換:
將采集到的語(yǔ)音加工成可以進(jìn)行語(yǔ)音識(shí)別的格式,這種格式應(yīng)該文件較小、利于語(yǔ)音識(shí)別。
控制語(yǔ)音識(shí)別:
通過(guò)搜索比較,得到識(shí)別結(jié)果,并把識(shí)別結(jié)果映射到定義的識(shí)別碼(用整數(shù)表示),識(shí)別碼包括無(wú)法識(shí)別項(xiàng)。
應(yīng)用可識(shí)別的指令轉(zhuǎn)換:
把識(shí)別碼轉(zhuǎn)換成執(zhí)行指令,在這里就是相應(yīng)的Linux指令。
執(zhí)行操作:
直接調(diào)用指令,執(zhí)行選定指令。
4.4.硬件需求
1、Digilent Cerebot 32MX4開發(fā)板
2、PmodNIC——網(wǎng)絡(luò)接口控制器
3、PmodMIC——麥克風(fēng)/數(shù)字接口
4.5.項(xiàng)目開發(fā)環(huán)境
軟件環(huán)境:
在Linux操作系統(tǒng);MPLAB IDE
硬件環(huán)境:
PC機(jī);Digilent Cerebot 32MX4開發(fā)板; PmodNIC——網(wǎng)絡(luò)接口控制器;PmodMIC——麥克風(fēng)/數(shù)字接口
評(píng)論