新聞中心

EEPW首頁 > 手機與無線通信 > 設計應用 > 語音增強用于坦克駕駛艙內無線語音通信

語音增強用于坦克駕駛艙內無線語音通信

——
作者: 時間:2007-01-26 來源:《電子工程師》 收藏

引言

語音通信過程中不可避免地會受到來自周圍環(huán)境的干擾,接收方接收到的語音不再是原始的純凈語音,而是受噪聲干擾的帶噪語音信號。比如,坦克、飛機或艦船上的電臺常常受到很強的背景噪聲干擾,嚴重影響了通話質量。據測量,坦克裝甲車輛的發(fā)動機噪聲能量在50 hz-300 hz范圍比較集中,這種低頻噪聲對語音的掩蔽性強,對人身危害大,使聽者產生不舒適的感覺。同時,環(huán)境噪聲的污染使得許多語音處理系統(tǒng)的性能惡化。因此,需要對帶噪語音進行語音增強,其主要作用是改進語音質量,消除背景噪聲,提高語音的清晰度和自然度,使人樂于接受。

本文引用地址:http://m.butianyuan.cn/article/21011.htm

基于stsa(短時譜幅度)的增強方法尤其是譜減法因方法簡單、易于實現(xiàn),所以應用最為廣泛。本文將譜減法的改進算法和基于先驗幅度比估計噪聲譜的方法相結合,在理論分析的基礎上進行了仿真實驗研究,并給出了仿真結果。

1 基本譜減算法

一般語音信號是按幀處理的,帶噪語音的模型可表示為:

ym(n)=sm(n)+dm(n)  (1)

式中:ym(n)、sm(n)和dm(n)分別為帶噪語音、純凈語音和干擾噪聲,只有帶噪語音可以利用,沒有其他參考信號,并假設噪聲和語音統(tǒng)計獨立或不相關;m=0,1,…,m-1;n=0,l,…,n-1;m為幀的編號;n為每幀時域上點的序號,m,n分別是一段語音包含的幀數(shù)和每幀的點數(shù)。

若ydm(m(ω)、sm(ω)和ω)分別表示ym(n)、sm(n)和dm(n)的傅里葉變換,則存在以下關系:

ym(ω)=sm(ω)+dm(ω)  (2)

求功率譜后有:

|ym(ω)|2=|sm(ω)|2+|dm(ω)|2+sm(ω)dm*(ω)+sm*(ω)dm(ω)  (3)

由于s(n)和d(n)獨立,它們的互譜統(tǒng)計獨立,故原始語音的估計值為:

|sm(ω)|2=|ym(ω)|2-|dm(ω)|2  (4)

式中:|sm(ω)|和|dm(ω)|分別是對|sm(ω)|和|dm(ω)|的估計。

式(3)和式(4)都是按幀計算的。如果上式出現(xiàn)負的情況,最簡單的處理是直接令其為0。為避免分幀時的截斷效應,應對y(n)加窗,可用漢明窗或矩形窗,為了保證幀間的平滑性和語音的連續(xù)性,幀與幀之間應有部分重疊。

噪聲的能量往往分布于整個頻域,而語音的能量則較集中于某些頻率段,因此可在幅度較高的時幀內減去a|dm(ω)|(a>1),可以更好地相對突出語音功率譜;同時引入指數(shù)參數(shù)y1、y2。因此常用的譜減修正形式為:

式中:a為譜減閾值系數(shù),它越大,背景噪聲減得越多,信噪比越高,同時也會加大語音信號的失真;β為譜減噪聲系數(shù),其作用是人為地給增強后的語音加上一些背景噪聲,起到掩蔽殘留噪聲的作用,其值越大,殘留背景噪聲越不明顯,但同時也會使信噪比有所下降;γ1=1/γ2,可通過主觀試聽決定其大小,當為2時就是功率譜的譜減。

由于人耳對語音信號的相位不敏感,可用原始帶噪語音相位譜代替估計之后的語音信號的相位譜來恢復增強后的語音時域信號:

sm(n)=ifft{|sm(ω)|exp[jarg(ym(ω))])  (6)

式中:arg(ym(ω))為帶噪語音的相位譜。

2 改進的譜減方法

式(5)表明,噪聲譜的估計對整個算法效果的優(yōu)劣至關重要。一般的做法是|dm(ω)|2在帶噪語音的無聲段用多幀統(tǒng)計平均值作為噪聲譜的估計,同時引入有聲/無聲檢測,在被判為噪聲幀時對估計的噪聲譜進行更新,如果被判為語音幀則不作更改,保持原來估計的噪聲譜。本文在文獻[1]的基礎上,采用直接判決法對先驗幅度比進行估計。為此,令g(m,ω)=|sm(ω)|/|ym(ω)|為每個頻譜分量的增益函數(shù),把式(5)寫成增益函數(shù)形式。為了簡便,令γ1=1,并定義后驗幅度比為rpost(m,ω)=|ym(ω)|/|dm(ω)|,和先驗幅度比rprior(m,ω)=|sm(ω)|/|dm(ω)|,代入式(5),有

而式(7)中先驗幅度比一般由直接判決法確定,它是一個遞推公式[2]:

式中:η為經驗權重。

由式(7)、式(8)可看出,由于引入了基于先驗幅度比估計噪聲譜的方法,相當于起到了動態(tài)調整α、β的作用。

3 噪聲估計

噪聲譜的估計可以采用濾波法,實際是對噪聲譜進行平滑處理,逐次更新。以幅度譜相減為例,考慮譜減閾值系數(shù)α后的公式是:

dm(ω)=ρdm-1(ω)+(1一ρ)|ym(ω)-αsm-l(ω)| (9)

式中:ρ為平滑系數(shù)。

由于坦克噪聲特性的變化慢于語音特性的變化,因此可以用這里的遞推公式估計噪聲譜,避免了語音有聲/無聲檢測的環(huán)節(jié),實驗證明這種噪聲譜的估計是可行的。

實際上并不是每一幀都需要對噪聲譜進行更新,只有在本幀噪聲譜小于前一幀噪聲譜估計值的b倍時才進行更新[3],否則認為本幀是語音幀,即

|ym(ω)-αsm-1(ω)|

式中:b為經驗系數(shù)。

只有滿足式(10)才按式(9)對噪聲譜進行更新。

4 音樂噪聲及采取的措施

眾所周知,譜減法一個最大的弊端是容易產生音樂噪聲。產生音樂噪聲的主要原因是在噪聲譜的估計過程中信息估計不準確導致的。如果某幀某頻率的噪聲分量較大,就會有一部分被保留下來,在頻譜上呈現(xiàn)出隨機出現(xiàn)的尖峰,聽覺上則形成有節(jié)奏的起伏性類似音樂的殘留噪聲[4],俗稱“音樂噪聲”,有時甚至比原始語音中的噪聲還要明顯。

本文力圖從以下幾方面來減小音樂噪聲:

a)在對語音信號分幀時,發(fā)現(xiàn)幀長與幀之間的重疊程度不同,產生的消噪效果不同,背景殘留的音樂噪聲強弱也不同。幀長越短,相對的聽覺失真越大,原因是如果幀的長度取得較短時,信號的頻域分量變化就會較快。此外,加大幀之間的重疊,減小相鄰兩幀的差別,對減小音樂噪聲也能起到一定作用。因此,取較長的256點作為一幀長度,幀間的重疊為192點。

b)在語音譜減去噪聲譜的過程中會遇到負值的時候,一般做法是直接取零。但如果使用一個下限值,而不是取零,比如可以取帶噪語音譜的l/10,則得到的語音頻譜在低幅值附近的變化要緩和一些,有利于減輕人耳所感覺到的“音樂噪聲”。

c)根據boll[5]的思想,對譜減后的每個頻譜值,用其相鄰幾幀對應頻譜值的最小值來代替,可以有效去除突變點,這種平滑的方法可以大幅度去除音樂噪聲。假設無聲段殘留噪聲譜的最大值為|wr(ω)|,則平滑的原則是[6]:

式中:j=m-1,m,m+1。

經主觀試聽,音樂噪聲由強度與話音相當?shù)暮盟屏魉穆曇糇兂膳紶柊l(fā)出的細小的嗡嗡聲。

d)音樂噪聲在無聲段由于沒有語音的掩蔽相對明顯,在有聲段卻并不顯著。因此,可以在由頻域變換為時域信號后對語音信號做不重疊的分幀,并做粗略的有聲/無聲檢測,先計算出語音開頭無聲段背景噪聲能量均值q和最大值emax,取門限為2(emax-q)。經過增強后的語音信噪比已經有相當大的提高,這時的端點檢測不需要十分精確,只要不把語音幀判為噪聲幀就可做到對語音沒有損傷。因此,可求某幀的前3幀、后3幀和本幀能量的均值,大于上述門限者判為語音幀,否則判為噪聲幀。被判為噪聲幀的用舒適白噪聲填充,噪聲的方差可根據主觀試聽決定。

5 仿真實驗

本實驗采用真實的錄制于坦克駕駛艙的帶噪語音,8 khz/16 bit單聲道采樣。首先經過一個一階高通濾波器1—0.9375z-1,其作用是提高高頻頻譜的權重,也稱預加重,還可以起到消除直流漂移、抑制隨機噪聲和提升清音部分能量的作用。幀的長度n=256,采用漢明窗對信號加窗,幀間重疊192點。譜減式(7)中參數(shù)α=2.5,β=0.085;式(8)中η=0.85;式(9)中ρ=0.95;式(10)中b=4.5。圖l和圖2分別顯示了原始帶噪語音和增強后的語音的時域波形圖和語譜圖的比較。

從圖1和圖2的比較可看出本算法對信噪比的提升是相當明顯的。非正式主觀聽覺測試也表明,增強后的語音背景噪聲幾乎全部消除,殘留的音樂噪聲不太明顯,語音質量大大改善。

6 結束語

本文基于先驗幅度比估計的譜減算法在增強語音信號的同時,抑制了大部分音樂噪聲,并保持了較好的語音可懂度。與一般譜相減增強算法相比,提高了帶噪語音的信噪比,尤其適合類似發(fā)動機的低頻有色噪聲的處理。但在低信噪比時,增強后的語音仍有失真,背景音樂噪聲不能完全消除,需探索更有效的算法或將譜減法結合其他措施,例如結合掩蔽效應或利用雙多通道、多傳聲器基于信號陣列的語音增強方法等,都是有效、可行的,還可考慮引入心理聲學模型等。



關鍵詞:

評論


相關推薦

技術專區(qū)

關閉