基于ARM處理器的非特定人語音識別系統(tǒng)設(shè)計
0 引言
本文引用地址:http://m.butianyuan.cn/article/201609/303639.htm隨著高新技術(shù)在軍事領(lǐng)域的廣泛運用,武器裝備逐步向高、精、尖方向發(fā)展。傳統(tǒng)的軍事訓(xùn)練由于訓(xùn)練時間長、訓(xùn)練費用高、訓(xùn)練空間窄,常常不能達到預(yù)期的訓(xùn)練效果,已不能滿足現(xiàn)代軍事訓(xùn)練的需要。為解決上述問題,模擬訓(xùn)練應(yīng)運而生。
為進一步提高訓(xùn)練效果,本文利用智能語音交互芯片設(shè)計了某模擬訓(xùn)練器的示教與回放系統(tǒng)。示教系統(tǒng)為操作人員生動的演示標(biāo)準(zhǔn)操作流程及相應(yīng)的操作現(xiàn)象,極大地縮短了對操作人員的培訓(xùn)時間,提高了培訓(xùn)效果?;胤畔到y(tǒng)通過記錄操作訓(xùn)練過程中各操作人員的口令、聲音強度、動作、時間、操作現(xiàn)象等,待操作訓(xùn)練結(jié)束后通過重演訓(xùn)練過程,以便操作者及時糾正自己的問題。示教系統(tǒng)也可理解為對標(biāo)準(zhǔn)操作訓(xùn)練過程的回放。該系統(tǒng)不需要虛擬現(xiàn)實技術(shù)的支持,在小型的嵌入式系統(tǒng)上就可以實現(xiàn)。
1 系統(tǒng)原理
該模擬訓(xùn)練器由一臺測控計算機和多臺從設(shè)備組成。如圖1所示。在此僅對一臺從設(shè)備進行介紹,其硬件系統(tǒng)主要由測控計算機、Arduino mega2560 控制器、語音識別單元、聲強檢測單元、語音合成單元、面板控制單元、儀器面板等組成。面板控制單元較為復(fù)雜,包含多種控制電路,在模擬訓(xùn)練中負責(zé)該從設(shè)備在Arduino mega2560 控制器的控制下完成整個訓(xùn)練過程,在示教與回放系統(tǒng)中完成對剛才操作訓(xùn)練操作現(xiàn)象的重演,其具體電路設(shè)計在此不做介紹。
語音識別單元負責(zé)識別操作人員的操作口令;聲強檢測單元負責(zé)檢測聲強大小并以此作為判斷是哪臺從設(shè)備操作人員口令的依據(jù);Arduino mega2560控制器負責(zé)監(jiān)視儀器面板各元件的狀態(tài)來識別操作人員的動作,從而完成對操作訓(xùn)練過程的記錄。各儀器的操作現(xiàn)象根據(jù)操作動作事先編制無需記錄。在操作回放過程中,測控計算機根據(jù)所記錄的數(shù)據(jù),通過控制相應(yīng)從設(shè)備的Arduino mega2560控制器重現(xiàn)所記錄的操作過程。
2 單元系統(tǒng)設(shè)計
2.1 語音識別單元設(shè)計
目前,語音識別技術(shù)的發(fā)展十分迅速,按照識別對象的類型可以分為特定人和非特定人語音識別。特定人是指識別對象為專門的人,非特定人是指識別對象是針對大多數(shù)用戶,一般需要采集多個人的語音進行錄音和訓(xùn)練,經(jīng)過學(xué)習(xí),從而達到較高的識別率。
本文采用的LD3320語音識別芯片是一顆基于非特定人語音識別(Speaker Independent Automatic SpeechRecognition,SI ASR)技術(shù)的芯片。該芯片上集成了高精度的A/D 和D/A 接口,不再需要外接輔助的FLASH 和RAM,即可以實現(xiàn)語音識別、聲控、人機對話功能,提供了真正的單芯片語音識別解決方案。并且,識別的關(guān)鍵詞語列表是可以動態(tài)編輯的。其語音識別過程如圖2所示。
語音識別單元采用ATmega168 作為MCU,負責(zé)控制LD3320完成所有和語音識別相關(guān)的工作,并將識別結(jié)果通過串口上傳至Arduino mega2560 控制器。對LD3320芯片的各種操作,都必須通過寄存器的操作來完成,寄存器讀寫操作有2種方式(標(biāo)準(zhǔn)并行方式和串行SPI方式)。在此采用并行方式,將LD3320的數(shù)據(jù)端口與MCU的I/O口相連。其硬件連接圖如圖3所示。
語音識別流程采用中斷方式工作,其工作流程分為初始化、寫入關(guān)鍵詞、開始識別和響應(yīng)中斷等。MCU的程序采用ARDUINO IDE編寫[5],調(diào)試完成后通過串口進行燒錄,控制LD3320完成語音識別,并將識別結(jié)果上傳至Arduino mega2560控制器。其軟件流程如圖4所示。
2.2 聲強檢測單元設(shè)計
在進行語音識別時需要判斷是某一臺從設(shè)備操作人員的口令,為此設(shè)計聲強檢測單元電路,該電路僅需能夠判斷出相對聲強的大小,無需檢測聲級,對檢測精度要求較低。
電容式MIC聲音傳感器將外部聲音信號轉(zhuǎn)換成電信號,經(jīng)NE5532放大電路進行放大,將輸入的微弱音頻信號轉(zhuǎn)換為具有一定幅值的電壓信號,該電壓信號經(jīng)AC/DC有效值轉(zhuǎn)換電路進行裝換后進行再次放大,最終由Arduino mega2560控制器的A/D進行采樣。圖5給出了聲強檢測單元的電路原理圖,其中D1 端接Arduinomega2560控制器的A/D,INT1端接Arduino mega2560控制器的外部中斷1.當(dāng)外界聲音信號大于預(yù)設(shè)的閾值時,三極管導(dǎo)通INT1端由高電平變?yōu)榈碗娖疆a(chǎn)生外部中斷,控制器響應(yīng)中斷并進行 A/D 采樣,采樣數(shù)據(jù)經(jīng)均值濾波后保存,待測控計算機查詢時上傳該聲強數(shù)據(jù)。
2.3 語音合成單元設(shè)計
TTS(Text To Speech)文本轉(zhuǎn)語音技術(shù)是人機智能對話發(fā)展的趨勢。基于TTS技術(shù)的語音系統(tǒng)無需事先錄音就能夠隨時根據(jù)查詢條件查出并合成語音進行播報,從而大大減少了系統(tǒng)維護的工作量。利用此技術(shù),通過MCU或者PC機就能控制語音芯片發(fā)音[4]。
本文采用SYN6658中文語音合成芯片進行語音合成。SYN6658 通過UART 接口或SPI接口通信方式,接收待合成的文本數(shù)據(jù),實現(xiàn)文本到語音(或TTS語音)的轉(zhuǎn)換[6]??刂破骱?a class="contentlabel" href="http://m.butianyuan.cn/news/listbylabel/label/SYN6658">SYN6658 語音合成芯片之間通過UART接口連接,控制器通過串口通信向SYN6658語音合成芯片發(fā)送控制命令和文本,SYN6658語音合成芯片把接收到的文本合成為語音信號輸出,輸出的信號經(jīng)LM386 功率放大器進行放大后連接到喇叭進行播放。如圖6所示。
評論