基于ARM的非特定人語音識別系統(tǒng)的設計方案
主控程序初始化代碼如下:
4.2 SD卡文件系統(tǒng)軟件設計
在實際應用中,修改主控制單片機程序較為復雜,本系統(tǒng)將識別關鍵語句寫在一個命名為system.ini文件中,將此文件拷貝到SD卡中,SD卡需要實現(xiàn)格式化,只能出現(xiàn)一個。ini 文件,其他的文件均為XXX.mp3 文件,SD 的片選信號CS、數(shù)據(jù)輸入信號DI、數(shù)據(jù)輸出信號DO、時鐘信號SCLK 在硬件上已經(jīng)與STM32的SPI接口相連接,系統(tǒng)上電后會初始化SD卡文件系統(tǒng),發(fā)送至少74個時鐘以上確保SD卡片選正常后將SD卡復位等待8個時鐘周期進入SPI讀寫模式,通過STM32內(nèi)部編寫好的文件系統(tǒng)程序找尋“配置文件”即system.ini文件,讀取關鍵詞識別列表內(nèi)容,在系統(tǒng)軟件編程中,采用3個字段進行功能約定,字段功能約定配置如下:
5 性能測試與分析
為保證系統(tǒng)對非特定人的語音識別效果、環(huán)境底噪影響、語音識別過程響應時間、非特定人聲音樣本識別成功率等參數(shù)達標,本文針對各項參數(shù)指定了測試方案,實驗環(huán)境分為安靜環(huán)境(如家居環(huán)境)和相對嘈雜的環(huán)境(如課堂環(huán)境)進行了實測,指定3名發(fā)音人作為3個不同的聲音識別樣本,選定了短句識別語句、中長句識別語句,長句識別語句各2條進行樣本測試(約定3字以下為短句,3~5字為中長句,5字以上為長句),每種測試語句結合不同發(fā)音人重復20次結果進行統(tǒng)計,在安靜環(huán)境下測試短句識別準確率為93.37%、中長句識別準確率為91.67%、長句識別準確率為90.23%.在嘈雜環(huán)境下測試短句識別準確率為87.25%、中長句識別準確率為84.36%、長句識別準確率為81.12%.從實驗數(shù)據(jù)上分析,制約識別準確率的原因是多方面的,與發(fā)音人本身聲音質(zhì)量、環(huán)境底噪、識別語句近似度、識別語句長度均有關系,單從數(shù)據(jù)上不難得到總體識別率應該是在81%以上,可以滿足應用需求,系統(tǒng)實物圖如圖6所示,硬件結構小巧,功耗低、性價比高,因此具備市場應用前景和市場需求。
6 結語
普及語音識別技術是當前研究和發(fā)展的新趨勢,特別是對于非特定人的語音識別是語音信號領域處理的熱點和難點,本方案利用了STM32F103C8T6與LD3320結合,配合各種外圍電路完成了非特定人語音識別的嵌入式平臺,在平臺中通過硬軟件構建,在不更改主控制芯片程序的前提下,用戶可以通過更改SD 卡內(nèi)配置文件的方法隨意設定識別關鍵語句,經(jīng)過不同發(fā)音人和環(huán)境的實測,該系統(tǒng)在嘈雜環(huán)境中的識別準確率可達81%,在安靜環(huán)境中的識別準確率可達90%以上,本系統(tǒng)可以方便的嵌入用戶系統(tǒng)或者板卡中,積木式搭建靈活實用,因而具有廣泛的市場需求和應用前景。
評論