新聞中心

EEPW首頁(yè) > 設(shè)計(jì)應(yīng)用 > 噪聲背景下環(huán)境聲音識(shí)別研究

噪聲背景下環(huán)境聲音識(shí)別研究

作者:曾金芳,白冰,徐林濤 時(shí)間:2019-08-28 來(lái)源:電子產(chǎn)品世界 收藏

  曾金芳,白冰,徐林濤(湘潭大學(xué)物理與光電工程學(xué)院,湖南?湘潭?411105)

本文引用地址:http://m.butianyuan.cn/article/201908/404222.htm

  摘?要:針對(duì)低信噪比下的環(huán)境效果不佳的情況,提出一種不同信噪比背景下的環(huán)境方法。

  以伽瑪通(Gammatone)變換的譜圖為對(duì)象提取特征,生成灰度頻譜圖后映射成3種單色圖,分別提取各單色圖的特征,在對(duì)得到的各方向的投影特征進(jìn)行離散小波變換得到特征矩陣,并結(jié)合改進(jìn)的(IMMSE)算法作為前端處理以減小噪聲干擾,最后,利用對(duì)帶噪聲音進(jìn)行分類識(shí)別。實(shí)驗(yàn)結(jié)果表明:在-5dB的低噪背景下仍能取得較高識(shí)別率。

  關(guān)鍵詞:;;;;

  *基金項(xiàng)目:湖南省自然科學(xué)基金(2018JJ3486);湘潭大學(xué)校級(jí)科研項(xiàng)目(16XZX02);湘潭大學(xué)博士啟動(dòng)基金項(xiàng)目(15QDZ28)

  0 引言

  聲音信號(hào)與人類的生活密切相關(guān),聲音信號(hào)不受光線和視野影響并且需要的存儲(chǔ)空間及處理難度低于視頻信號(hào),通過(guò)對(duì)環(huán)境聲音信號(hào)進(jìn)行識(shí)別可以獲取豐富的信息,公共場(chǎng)所的聲音事件識(shí)別可以有效地揭示該環(huán)境下的事件狀況,可以彌補(bǔ)光線不足、受遮擋情況下的監(jiān)控效果,聲音識(shí)別技術(shù)廣泛應(yīng)用于安全監(jiān)控、聲音事件跟蹤定位等領(lǐng)域,提取魯棒性較好的聲音特征 [1] ,有利于聲音識(shí)別技術(shù)在現(xiàn)實(shí)環(huán)境中的適用性,所以背景噪聲下的聲音識(shí)別研究具有較高的實(shí)用價(jià)值。

  在聲音識(shí)別過(guò)程中,提取合適的特征向量對(duì)識(shí)別效果起關(guān)鍵的作用,聲音識(shí)別的大多數(shù)的特征提取方法來(lái)源于語(yǔ)音識(shí)別 [2] ,常用的提取方法有Mel頻率倒譜參數(shù)(MFCC)、短時(shí)能量、線性預(yù)測(cè)倒譜系數(shù)(LPCC) [3]等。近期的環(huán)境聲音識(shí)別的研究主要有利用匹配追蹤(MP)算法獲得有效的時(shí)頻特征,在MFCC特征的基礎(chǔ)上利用原子字典進(jìn)行特征選擇,產(chǎn)生靈活、直觀的特征向量然后用(SVM)進(jìn)行分類識(shí)別 [4] 。以上方法雖然簡(jiǎn)單有效,但真實(shí)的環(huán)境中存在各種背景噪聲導(dǎo)致其識(shí)別效果明顯變差。Dennis等提出子帶功率分布(SPD)的特征提取來(lái)進(jìn)行聲音事件分類 [5] ,在聲譜圖的基礎(chǔ)上提出子帶能量分布對(duì)聲音事件和噪聲進(jìn)行區(qū)分,利用圖像處理的方法進(jìn)行偽著色處理提取譜圖的中心矩特征 [5] ,該方法在背景噪聲下的識(shí)別具有一定有效性但在信噪比較低的情況下的識(shí)別效果有待提高。

  現(xiàn)實(shí)環(huán)境中普遍存在著各種背景噪聲,在前端處理中采用算法能改善識(shí)別效果,本文提出聲譜圖的特征(Spectrogram Fan projection,SFP)算法。首先將環(huán)境聲音信號(hào)轉(zhuǎn)化為聲譜圖,然后將得到的聲譜圖進(jìn)行扇形投影變換,得到各方向的投影系數(shù)組成特征向量,最后利用SVM分類器對(duì)特征向量進(jìn)行分類識(shí)別。對(duì)于帶噪聲信號(hào),提出改進(jìn)的估計(jì)(IMMSE)算法作為前端處理來(lái)達(dá)到聲信號(hào)的去噪效果。

  1 聲音增強(qiáng)算法

  1.1 改進(jìn)的logM M SE算法

  考慮到環(huán)境聲音噪聲是非平穩(wěn)的,傳統(tǒng)的對(duì)數(shù)譜最小均方誤差(Log-spectral AmplitudeMMSE,LSA-MMSE)能有針對(duì)性的減小噪聲,其關(guān)鍵在于能否準(zhǔn)確地估計(jì)先驗(yàn)信噪比, 本文采用改進(jìn)的最小遞歸平均算法來(lái)估計(jì)噪聲方差,結(jié)合logMMSE來(lái)達(dá)到聲音增強(qiáng)效果,實(shí)驗(yàn)證明該方法對(duì)聲音增強(qiáng)和消除“音樂噪聲”有較好的效果。

  建立加性噪聲模型,設(shè)帶噪聲信號(hào)為:

微信截圖_20190909144209.png

  式中,y(n)表示帶噪聲信號(hào); x(n) 表示無(wú)噪聲信號(hào);d(n) 表示噪聲信號(hào);該算法從帶噪聲信號(hào) y(n) 中估計(jì)出無(wú)噪聲信號(hào) x(n) 。純凈信號(hào)經(jīng)短時(shí)傅里葉變換得到第k個(gè)頻譜分量:Ak和Y(k) 。

  由文獻(xiàn)[6]中信號(hào)的估計(jì)可表示為帶噪信號(hào)與增益函數(shù)的乘積:

  式中, λx(k) 、 λd(k) 分別表示無(wú)噪信號(hào)和噪聲信號(hào)的第k個(gè)頻譜分量的方差; ξ k 、 γ k 分別表示先驗(yàn)信噪比和后驗(yàn)信噪比,先驗(yàn)信噪比是第k個(gè)頻譜分量的實(shí)際信噪比,后驗(yàn)信噪比是加入噪聲后第k個(gè)頻譜分量所測(cè)得的信噪比。

  1.2 IM M SE算法的實(shí)現(xiàn)

  本文利用改進(jìn)的最小值約束的遞歸平均(IMCRA)算法估計(jì)噪聲方差。該算法利用平滑參數(shù)對(duì)噪聲方差進(jìn)行連續(xù)估計(jì),平滑參數(shù)是時(shí)變參數(shù),該算法是聲信號(hào)中聲音存在的概率的遞歸平均算法。聲音不存在: H 0k 和聲音存在:H 1k 的噪聲估計(jì)表示為:

1568012494669359.png

  式中,i、k分別表示幀數(shù)和頻點(diǎn)數(shù),根據(jù)遞歸算法的通用形式 [7] ,可將噪聲估計(jì)表示為:

微信截圖_20190909150201.png

  式(6)中的噪聲估計(jì)表示為前一幀的噪聲估計(jì)與當(dāng)前帶噪頻譜的加權(quán)平均,式中, αd(i,k)=α+(1-α)p^(i,k),表示時(shí)頻相關(guān)的平滑因子,利用存在聲音的條件概率 p∧( i,k ) 來(lái)計(jì)算平滑因子, 存在聲音的條件概率p(i,k) 利用聲信號(hào)功率譜與其局部最小值之比Sr (i,k) 作為閾值判斷,根據(jù)遞歸算法的通用形式同理可得聲信號(hào)的遞歸功率譜S(i ,k) 如下:

微信截圖_20190909150226.png

  聲音存在概率的估計(jì)利用時(shí)域平滑遞歸求得:

微信截圖_20190909150245.png

  因?yàn)樗÷曇魳颖绢l率分布范圍較廣,故采用多閾值函數(shù) δ ( k ) 采用頻率相關(guān)函數(shù)來(lái)表示:

微信截圖_20190909150301.png

  式中,fs為采樣頻率。結(jié)合公式所求得平滑因子α d ( i,k ) ,利用式(6),即可更新噪聲功率譜估計(jì),得到更新的噪聲功率譜估計(jì)后,利用式(3)可求得增益函數(shù),以此估計(jì)純凈聲信號(hào)。

  將 提 出 的 I M M S E 增 強(qiáng) 算 法 與 多 頻 帶 譜 減 法(Multiband Spectral Subtraction,MSS)對(duì)比,各增強(qiáng)算法的時(shí)域波形圖如圖1所示。其中橫縱坐標(biāo)分別表示信號(hào)采樣點(diǎn)數(shù)和幅值。圖1可了解IMMSE算法去噪效果較好。

微信截圖_20190909150813.jpg

  為進(jìn)一步檢驗(yàn)不同增強(qiáng)算法的去噪效果,對(duì)各增強(qiáng)算法檢測(cè)其輸出信噪比,根據(jù)檢測(cè)帶噪聲音信號(hào)的指標(biāo)定義:

微信截圖_20190909150326.png

  式中,計(jì)算出SNR的值越大,表示聲音的質(zhì)量越高,去噪效果越好,各增強(qiáng)算法的輸出信噪比如表1所示。

微信截圖_20190909150822.jpg

  2 特征提取

  2.1 提取子帶能量譜圖

  聲譜圖相比于傳統(tǒng)的時(shí)域特征能表征更加豐富的聲音信息,采用聲譜圖作為特征能同時(shí)分析聲音的時(shí)域和頻域特征,本文采用SPD譜圖并對(duì)其進(jìn)行增強(qiáng)改進(jìn),使聲音的功率譜分布更明顯。采用 Gammatone濾波器組生成的聲譜圖作為時(shí)頻分析。參數(shù)設(shè)置為:100組中心頻率為50 Hz到fs/2 Hz。將SPD歸一化到對(duì)數(shù)域,表達(dá)式為:

微信截圖_20190909150348.png

  對(duì)數(shù)域的功率譜壓縮了譜圖的動(dòng)態(tài)范圍,以增強(qiáng)SPD中的頻譜功率較高的像素點(diǎn)。譜圖G(t,f)中像素點(diǎn)值的范圍是固定的,SPD可表示為:

微信截圖_20190909150445.png

  式中,b表示頻譜功率;f表示頻率;t表示樣本的時(shí)間;實(shí)驗(yàn)中取b的值為100,1 b 表示指示函數(shù),基于“鍵盤敲擊聲”的SPD如圖2所示。

微信截圖_20190909150834.jpg

  2.2 扇形投影特征

  扇形投影 [7] 特用于檢測(cè)物體圖像內(nèi)部構(gòu)造,計(jì)算圖像沿指定方向由一點(diǎn)發(fā)出點(diǎn)光束,發(fā)散成一個(gè)扇形區(qū)域的投影變換,投影變換是圖像沿x-y平面中指定方向的線積分。譜圖H(b,f)的扇形投影變換的原理如下:

微信截圖_20190909150556.png

  式中,g (ρ,θ) 表示經(jīng)過(guò)扇形投影變換后重構(gòu)的圖像。

  對(duì)每個(gè)聲音樣本的譜圖H(b,f)進(jìn)行扇形投影變換,角度 α 表示扇形投影的旋轉(zhuǎn)角度,取值范圍為[0,360],規(guī)定旋轉(zhuǎn)角度從x軸按逆時(shí)針的方向旋轉(zhuǎn)每個(gè)角度的投影能將圖像轉(zhuǎn)換成一維的投影系數(shù),圖像各方向的投影系數(shù)組成的特征矩陣保留了圖像的信息的同時(shí)降低了圖像的參數(shù)大小,能夠提高識(shí)別效率。

  3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

  3.1 聲音數(shù)據(jù)集

  實(shí)驗(yàn)采用16類環(huán)境聲音(鍵盤打字聲、腳步聲、鋸子聲等),為確保實(shí)驗(yàn)數(shù)據(jù)的獨(dú)立性,同類聲音取自不同聲音片段,一類包括20個(gè)樣本,總共320個(gè)樣本,具有較高信噪比,實(shí)驗(yàn)將其作為純凈聲音樣本,聲音樣本均來(lái)自于Freesound [16] 聲音數(shù)據(jù)庫(kù),樣本采樣率為44.1kHz,量化精度為16 bit,單個(gè)樣本長(zhǎng)度2~3 s。實(shí)驗(yàn)中,隨機(jī)選取每類樣本的一半作為訓(xùn)練樣本,另一半作為測(cè)試樣本,按照信噪比20 dB、10 dB、0 dB、-5 dB作為測(cè)試。

  3.2 實(shí)驗(yàn)參數(shù)

  聲音樣本的預(yù)處理環(huán)節(jié),對(duì)各聲音樣本分幀加窗處理,取幀長(zhǎng)20 ms、幀移10 ms、窗函數(shù)采用漢明窗。

  1)本文提出的SFP算法,扇形投影的旋轉(zhuǎn)角度,在[0,360]中以15°為步長(zhǎng),取24個(gè)方向的投影變換。

  2) MFCC算法,采用32組Mel濾波器組,每一幀提取13個(gè)倒譜系數(shù)構(gòu)成MFCC特征。

  3)對(duì)于SPD [5] 算法,采用64組Gammatone濾波器,提取2、3階中心矩。

  4)正交匹配追蹤(OMP) [7] 算法,對(duì)聲音信號(hào)進(jìn)行稀疏重構(gòu),信號(hào)重構(gòu)后提取MFCC特征,組成OMP的復(fù)合特征。

  5)采用支持向量機(jī)(SVM)作為分類器,采用多分類的方式建立分類器。

  3.3 實(shí)驗(yàn)結(jié)果與分析

  將SFP與SPD、MFCC、OMP、幾種常用的聲音識(shí)別算法進(jìn)行實(shí)驗(yàn)對(duì)比。4種聲音識(shí)別算法在不同噪聲背景下的識(shí)別率如表2所示。純凈背景下,識(shí)別率如表3所示。本文的SFP算法在4種噪聲下有較高識(shí)別率,特別是信噪比為-5 dB和0 dB的低噪條件下,在-5 dB的噪聲情況下,最高比SPD算法高17.51%,平均識(shí)別率最高高出7.9%,比OMP和MFCC高出27.63%以上,平均識(shí)別率如圖3所示。雖然文章算法在信噪比較高條件下的提升較少,但在低信噪比下相比其他算法能取得較高識(shí)別率。

  將提出的IMMSE增強(qiáng)算法與其他常用的聲音增強(qiáng)算法進(jìn)行比較,在4種不同的背景噪聲的低噪條件下,信噪比分別取-5 dB、0 dB、5 dB、10 dB。

微信截圖_20190909150909.jpg

  如圖6所示為0dB的說(shuō)話噪聲背景下不同聲音增強(qiáng)算法識(shí)別率。噪聲條件下,本文的IMMSE的識(shí)別率高于其他增強(qiáng)算法,在-5dB和0 dB的低信噪比條件下不增強(qiáng)方法的識(shí)別率比增強(qiáng)后的識(shí)別率低,所以低信噪比條件下采用增強(qiáng)算法是可行的,說(shuō)明SFP算法本身具有較好的抗噪性,實(shí)驗(yàn)證明SFP算法結(jié)合IMMSE增強(qiáng)算法在各種背景噪聲下能取得較好的識(shí)別效果,適用于真實(shí)環(huán)境下的聲音識(shí)別。

微信截圖_20190909150917.jpg

  4 結(jié)論

  針對(duì)真實(shí)環(huán)境的低噪條件下的聲音識(shí)別,提出SFP算法,將譜圖的扇形投影作為特征提取方法結(jié)合IMMSE聲音增強(qiáng)算法,實(shí)驗(yàn)表明,在無(wú)背景噪聲條件下,識(shí)別率達(dá)到96.72%;低噪條件下,平均識(shí)別率能達(dá)到73.05%;本文的方法噪聲條件下具有較好魯棒性,對(duì)比現(xiàn)有的SPD、OMP等算法,分類識(shí)別效果更好。

  參考文獻(xiàn)

  [1] REN J, JIANG X, YUAN J, et al. Sound-EventClassification Using Robust Texture Features for RobotHearing[J].IEEE Transactions on Multimedia,2017, (99):1-1.

  [2] BRADLOW A R, ALEXANDER J A. Semantic andphonetic enhancements for speech-in-noise recognition bynative and non-native listeners[J].Journal of the AcousticalSociety of America,2016,121(4):2339-49.

  [3] JIAN-Chao Y U, ZHANG R L. Speaker recognitionmethod using MFCC and LPCC features[J].ComputerEngineering & Design,2009,30(5):1189-1191.

  [4] CHU S, NARAYANAN S, KUO C CJ. Environmentalsound recognition with time-frequency audio features[M].

  Institute of Electrical and Electronics Engineers Inc. The,2009.

  [5] DENNIS J, TRAN H D, CHNG E S. ImageFeature Representation of the Subband PowerDistribution for Robust Sound Event Classification[J].IEEE Transactions on Audio Speech & LanguageProcessing,2012,21(2):367-377.

  [6] SHIH J L, CHEN L H. Colour image retrieval based onprimitives of colour moments[J].IEE Proceedings-Vision,Image and Signal Processing,2002,149(6):370-376.

  [7] NARASIMHADHAN A V, SHARMA A, MISTRY D. ImageReconstruction from Fan-Beam Projections without Back-Projection Weight in a 2-D Dynamic CT: Compensationof Time-Dependent Rotational, Uniform Scaling andTranslational Deformations[J].Open Journal of MedicalImaging, 2013, 3(4):136-143.

  [8] SOUSSEN C, GRIBONVAL R, IDIER J, et al.JointK-Step Analysis of Orthogonal Matching Pursuit andOrthogonal Least Squares[J].IEEE Transactions onInformation Theory,2013,59(5):3158-3174.

  本文來(lái)源于科技期刊《電子產(chǎn)品世界》2019年第9期第34頁(yè),歡迎您寫論文時(shí)引用,并注明出處。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉