基于EP7211實現(xiàn)傳呼信息實時語音合成和播放原理及設計
概述:闡述在一款集成傳呼功能的二合一PDA系統(tǒng)中,使用嵌入式處理器EP7211實現(xiàn)個人傳呼信息的實時語音合成和播放的功能,主要包括字符語音庫的建立、字符語音合成自滿和Cdec語音中斷服務例程等3部分。
本文引用地址:http://m.butianyuan.cn/article/201809/388929.htmPDA(Personal Digital Assitant,個人數(shù)字助理)是近年來繼尋呼機和移動電話之后,在國內市場迅速崛起的便攜式電子產品。就其擴展意義來講,它能夠集成移動計算、電話和網絡等多種功能。根據(jù)不同的應用需求,它可以管理個人信息、提供名片存儲和日程安排,也可以接收各種尋呼信息(如股市、天氣預報等)。如果是集成通信模塊,
還可以作為移動電話使用,進行無線網絡互聯(lián)。廣義的PDA包括簡單的電子記事本、電子辭典和功能強大的掌上電腦,它們的主要區(qū)別表現(xiàn)在操作系統(tǒng)、存儲能力、運算速度和數(shù)據(jù)交換能力等方面。
目前國內傳統(tǒng)PDA產品經過幾年的高速發(fā)展后,市場基于飽和,銷售額出現(xiàn)負增長。不過由于PDA產品的靈活性,有針對性的行業(yè)應用作為一個新亮點,開始為人們所關注。經過行業(yè)應用尾后的PDA產品,已經在國內市場大顯身手。文曲星展現(xiàn)超強的語言釋譯能力,比較適合于大學生和語言翻譯者使用;藍火系列能實時接收股市信息和專家點評,適合工薪階層的炒股者。國家信息產業(yè)部已經鼓勵PDA產品在交通、警務、保險等領域的行業(yè)應用和推廣。
分析市場需求,我們研發(fā)了集成傳呼功能的、專門面向鐵路交通行業(yè)應用的鐵路交通信息系統(tǒng)PDA。本PDA系統(tǒng)除了具備傳統(tǒng)PDA的個人名片管理和辭典檢索等功能外,同時提供交通行業(yè)應用的民航航班查詢、鐵路列車時刻表查詢等功能。
本PDA的尋呼系統(tǒng)實現(xiàn)如下功能:能夠通過尋呼對列車時刻表、列車晚點信息、列車剩票額、股道信息等行業(yè)數(shù)據(jù)進行動態(tài)更新。作為另一個特色,當接收到個人尋呼時,能夠將尋呼內容實時地轉換成語音并播放。
下面重點介紹本PDA系統(tǒng)中使用嵌入式處理呂EP7211實現(xiàn)個尋呼內容的實時語音轉換和播放。該功能的實現(xiàn)包含前后相關的3個部分:字符語音庫的建立、字符的語音合成算法和Codec語音中斷服務例程。
1 實現(xiàn)條件和要求
PDA屬于嵌入式應用系統(tǒng),其同一般PC機有很大差別。硬件方面,嵌入式處理器基于RISC體系結構,一般工作頻率在幾十MHz,甚至更低;系統(tǒng)內存容量一般在幾百KB~幾MB之間;一般使用容量小的ROM或者Flash作為硬盤來存儲可執(zhí)行程序序和數(shù)據(jù)。軟件方面,PDA系統(tǒng)一般有專用的嵌入式操作系統(tǒng)和軟件開發(fā)調試移植環(huán)境。
個人傳呼信息的特點是單條傳呼信息長度變化較大,20~50個字符不等。最為常見的是“請回電話***”;傳呼信息涉及到的字符數(shù)量較大,字符語音合成時運算量大,單字符合成后語音數(shù)據(jù)占用的存儲空間多;需要事先建立字符語音庫等。
由于具體硬件環(huán)境的限制、傳呼信息的特點和語音合成的要求,該功能能夠實現(xiàn)的前提有:語音庫占用的空間??;字符合成時速度更快;采用前臺進行字符語音合成時,以后臺中斷方式進行合成語音的播放來保證其實時性和連續(xù)性。
2 具體實現(xiàn)
下面分別介紹字符語音庫的建立、字符語音合成算法、本PDA系統(tǒng)的框架結構和語音中斷服務例程。
2.1 建立字符語音庫
我們選用G.729語音壓縮編碼標準來建立語音庫。該標準采用的算法是共軛結構的代數(shù)碼激勵線性預測(CS-ACELP),是基于CELP(碼激勵線性預測)編碼模型的算法。這種編碼規(guī)范的嚴格性使性能達到或超過了32Kbps的G.726 ADPCM編碼,具有很高的語音質量;同時,它是在語音信號8KHz取樣的基礎上得到16bit線性PCM后進行編碼的,壓縮后的數(shù)據(jù)速率僅為8Kbps,具有相當于8:1的高壓縮率。其算法延遲少于16ms。由于G.726編解碼器能夠實現(xiàn)很高的語音質量和很低的算法延時,因此被廣泛地應用。
字符語音庫是一個單字發(fā)音語音數(shù)據(jù)的集合,中段數(shù)據(jù)之間相互獨立,不具有相關性。語音庫包含了國標一、二級字庫中的所有6763個漢字、10個阿拉伯數(shù)字和26個英文字符的標準普通話語音數(shù)據(jù)。每個漢字或字符發(fā)音時長為0.65s,采用8KHz抽樣頻率,使用了G.729A語音編碼算法對上述的語音數(shù)據(jù)進行壓縮,壓縮后數(shù)據(jù)速率為8Kbps,相當于具有8:1的高壓縮率。在漢字中,同音字占了相當大的比例,而在語音合成中對于同音字的處理是沒有區(qū)別的,故近7000個漢字,我們只存儲1123個不同的發(fā)音。經過同音字處理和采用G.729標準壓縮字符語音數(shù)據(jù),則最終建立的語音庫文件大小為729 950字節(jié),完全符合本PDA系統(tǒng)的數(shù)據(jù)存儲要求;否則,語音庫數(shù)據(jù)量太大,本PDA系統(tǒng)不能接受!
建立一個語音壓縮數(shù)據(jù)庫的具體步驟如下:
*將數(shù)字和常用漢字的標準發(fā)音獨立地錄入到數(shù)據(jù)文件中,作為基礎數(shù)據(jù)。使用cooledit2000軟件完成語音的錄入。
*對于輸入數(shù)據(jù),按照每幀10ms(80個樣點)的長度,將A_law語音通過簡單換算變成16bit PCM數(shù)據(jù),作為編碼算法的輸入。
*按照G.729A算法標準,對數(shù)據(jù)進行編碼。
*將編碼后的數(shù)據(jù)轉換為二進制比特流,寫入語音庫文件中。壓縮后數(shù)據(jù)速率為8Kbps,具有相當于8:1的高壓縮率。
用C語言實現(xiàn)這一過程的程序流程如圖1所示。
字符語音庫的建立是在Windows平臺及Visual C++編程環(huán)境下實現(xiàn)的,最終壓縮處理后數(shù)據(jù)量的大小為729 950字節(jié),每個字符語音數(shù)據(jù)的大小是650字節(jié)。
2.2 語音合成
當收到個人傳呼信息時,語音合成程序首先從指定位置獲取傳呼信息數(shù)據(jù),然后在語音庫中查找每個漢字、阿拉伯數(shù)字或者英文字符的發(fā)音,重組一個數(shù)據(jù)文件。解碼程序對該文件進行解碼并且輸出原始語音。語音合成流程如圖2所示。
語音合成過程首先是當前字符在語音庫的定位。對于10個阿拉伯數(shù)字和26個英文字符,將其放在語音庫開頭。這些字符的查找比較方便。漢字是2字節(jié)存儲,我們依居其區(qū)位碼來作為語音庫中的定位索引。字符語音檢索結束后的語音壓縮數(shù)據(jù)作為該字符解碼過程的輸入。
數(shù)據(jù)解碼過程可以分為參數(shù)解碼和重構信號后處理2部分。首先要從輸入的數(shù)據(jù)中提取參數(shù)符號,對這些符號解碼之后,可以獲得相應于10ms話音幀的編碼器參數(shù)。這些參數(shù)包括線性預測系數(shù)、自適應碼本矢量、固定碼本矢量以及它們的增益。解碼之后的參數(shù)用來計算重建語音信號。得到重構語音信號只有通過后處理過程來對該信號進行放大,包括后向濾波、高通濾波以及按比例因子擴大,最后得到原始的語音數(shù)據(jù)。
字符解碼器原理如圖3所示。
評論