基于聯(lián)合損失函數(shù)的語(yǔ)音增強(qiáng)深度學(xué)習(xí)算法

作者：楊玲玲(河南工業(yè)貿(mào)易職業(yè)學(xué)院信息工程學(xué)院,鄭州 450064) 時(shí)間：2023-07-06 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

編者按：針對(duì)損失函數(shù)計(jì)算過(guò)程加入關(guān)于人耳聽(tīng)覺(jué)數(shù)據(jù)的基礎(chǔ)上，設(shè)計(jì)了一種聯(lián)合損失函數(shù)的語(yǔ)音增強(qiáng)深度學(xué)習(xí)算法。研究結(jié)果表明：本文設(shè)計(jì)的混合損失函數(shù)實(shí)現(xiàn)增強(qiáng)語(yǔ)音質(zhì)量的明顯優(yōu)化。加入注意力機(jī)制后能夠促進(jìn)背景噪音的進(jìn)一步減弱，從而獲得更高可懂度。綜合運(yùn)用聯(lián)合損失函數(shù)并融合注意力機(jī)制后，可以使神經(jīng)網(wǎng)絡(luò)獲得更優(yōu)質(zhì)量增強(qiáng)語(yǔ)音。利用注意力機(jī)制提取特征參數(shù)以及結(jié)合聯(lián)合損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化能夠促進(jìn)增強(qiáng)語(yǔ)音質(zhì)量的提升并達(dá)到更高的可懂度。

DNN 根據(jù)獲取的語(yǔ)音特征對(duì)學(xué)習(xí)目標(biāo)參數(shù)進(jìn)行準(zhǔn)確估計(jì)，目前已被廣泛應(yīng)用于語(yǔ)音增強(qiáng)的研究中^[1-2]。各類(lèi)聲學(xué)特征也對(duì)語(yǔ)音增強(qiáng)方面存在差異。根據(jù)傳統(tǒng)語(yǔ)音特征進(jìn)行分析并不能充分反饋語(yǔ)音內(nèi)部信息，也不能獲得音幀和幀快速轉(zhuǎn)換的結(jié)果，因此該模型并不能準(zhǔn)確預(yù)測(cè)時(shí)頻掩蔽結(jié)果，導(dǎo)致實(shí)際語(yǔ)音增強(qiáng)性能較差^[3-4]。在背景噪聲濾除方面，時(shí)頻掩模值發(fā)揮著關(guān)鍵作用，以常規(guī)時(shí)頻掩模值進(jìn)行處理時(shí)并未針對(duì)語(yǔ)音相位進(jìn)行分析，語(yǔ)音相位譜則對(duì)改善語(yǔ)音可懂性具有關(guān)鍵作用^[5]。

本文引用地址：http://m.butianyuan.cn/article/202307/448398.htm

根據(jù)上述研究結(jié)果，本文優(yōu)化了以語(yǔ)音增強(qiáng)實(shí)現(xiàn)的網(wǎng)絡(luò)模型與損失函數(shù)^[6]。為確保代價(jià)函數(shù)能夠根據(jù)人耳感知特點(diǎn)開(kāi)展分析過(guò)程，在上述基礎(chǔ)上設(shè)計(jì)了一種聯(lián)合損失函數(shù)。針對(duì)損失函數(shù)計(jì)算過(guò)程加入關(guān)于人耳聽(tīng)覺(jué)的數(shù)據(jù)。

1 聯(lián)合損失函數(shù)

進(jìn)行深度學(xué)習(xí)時(shí)，需要利用均方誤差損失函數(shù)(MSE)對(duì)神經(jīng)網(wǎng)絡(luò)實(shí)施優(yōu)化處理，而MSE 只對(duì)增強(qiáng)語(yǔ)音與純凈語(yǔ)音誤差進(jìn)行簡(jiǎn)單數(shù)據(jù)分析，并未考慮誤差正負(fù)因素的影響，也未加入人耳感知的信號(hào)。此時(shí)只以MSE 構(gòu)建損失函數(shù)不能確保增強(qiáng)語(yǔ)音達(dá)到理想的算法處理效果^[7]。

采用頻域加權(quán)分段的信噪分析方法可以對(duì)語(yǔ)音可懂度進(jìn)行預(yù)測(cè)。以下為頻域加權(quán)分段信噪比表達(dá)式：

(1)

式中，L 表示時(shí)頻信號(hào)幀數(shù)，K 表示頻帶數(shù)，x(I,k)是第 l 幀第 k 個(gè)頻帶中包含的純凈語(yǔ)音信號(hào)幅度，屬于第 l 幀第 k 個(gè)頻帶包含噪聲語(yǔ)音的幅度譜，W(I,k)為作用于各時(shí)頻單元幅度譜的感知權(quán)重系數(shù)。

本文從語(yǔ)音信噪比特征出發(fā)，對(duì)以上函數(shù)實(shí)施動(dòng)態(tài)結(jié)合，由此得到聯(lián)合優(yōu)化代價(jià)函數(shù)。建立了動(dòng)態(tài)系數(shù)：

a(I,k)= (2)

上述系數(shù)與時(shí)頻單元信噪比存在直接關(guān)聯(lián)，SNR(l,k) 表示第l 幀第k 個(gè)頻帶對(duì)應(yīng)的信噪比數(shù)據(jù)，同時(shí)根據(jù)各時(shí)頻單元信噪比獲得相應(yīng)的動(dòng)態(tài)系數(shù)，處于較高信噪比條件下時(shí)，動(dòng)態(tài)系數(shù)接近1。

在聯(lián)合代價(jià)函數(shù)中融合了人耳心理聲學(xué)感知的內(nèi)容^[8]，以此訓(xùn)練網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)性能優(yōu)化的目標(biāo)，在確保提升話(huà)音質(zhì)量的前提下使增強(qiáng)話(huà)音具備更高可懂度。

2 基于聯(lián)合損失函數(shù)的語(yǔ)音增強(qiáng)算法

以聯(lián)合損失函數(shù)建立語(yǔ)音增強(qiáng)算法經(jīng)多次重復(fù)訓(xùn)練后，能夠從含噪語(yǔ)音幅度譜內(nèi)獲得估計(jì)增強(qiáng)語(yǔ)音幅度譜。圖1給出了系統(tǒng)框圖。

圖1 基于聯(lián)合損失函數(shù)的語(yǔ)音增強(qiáng)算法系統(tǒng)框圖

時(shí)頻掩蔽因素是對(duì)神經(jīng)網(wǎng)絡(luò)產(chǎn)生影響而引起語(yǔ)音增強(qiáng)性能差異的重要條件，采用傳統(tǒng)學(xué)習(xí)方法進(jìn)行處理時(shí)只需對(duì)語(yǔ)音幅度進(jìn)行分析。確定混合特征參數(shù)與學(xué)習(xí)目標(biāo)后，再對(duì)神經(jīng)網(wǎng)絡(luò)開(kāi)展輸入、輸出訓(xùn)練，同時(shí)利用最小均方誤差優(yōu)化網(wǎng)絡(luò)算法。再以BP 算法反向傳遞方式完成網(wǎng)絡(luò)參數(shù)的修正。從每次訓(xùn)練的結(jié)果中選擇最優(yōu)性能的網(wǎng)絡(luò)模型進(jìn)行記錄后建立測(cè)試網(wǎng)絡(luò)模型。

本文選擇聯(lián)合損失函數(shù)對(duì)兩者差異進(jìn)行評(píng)價(jià)，記錄最優(yōu)性能的網(wǎng)絡(luò)模型參數(shù)。進(jìn)行測(cè)試時(shí)，先將含噪語(yǔ)音幅度譜加入經(jīng)過(guò)訓(xùn)練的模型內(nèi)，之后通過(guò)模型對(duì)增強(qiáng)語(yǔ)音幅度譜進(jìn)行預(yù)測(cè)，最后以語(yǔ)音相位參數(shù)完成信號(hào)重構(gòu)。

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)的選取

以上語(yǔ)音數(shù)據(jù)都是由IEEE 語(yǔ)音數(shù)據(jù)庫(kù)提供，之后從NOISEX-92 噪聲庫(kù)內(nèi)提取Pink、Factory 與White 三種噪聲信號(hào)，這些信號(hào)保持一致頻率。按照同樣信噪比把剩余50 條純凈語(yǔ)音與噪聲后半段進(jìn)行混合后建立測(cè)試集。

本文設(shè)定語(yǔ)音頻率為16 kHz，并以語(yǔ)音幅度譜作為輸入語(yǔ)音特征。各項(xiàng)網(wǎng)絡(luò)參數(shù)見(jiàn)表1。

3.2 對(duì)比實(shí)驗(yàn)分析

為了對(duì)本文建立的聯(lián)合損失函數(shù)與自注意力機(jī)制進(jìn)行有效性驗(yàn)證，構(gòu)建得到表2 的對(duì)比算法。

從表3~5 中可以看到各噪聲條件下的PESQ 值。其中，表3 顯示，信噪比等于-5dB 的情況下，根據(jù)算法1 與2 測(cè)試結(jié)果可以發(fā)現(xiàn)，在各類(lèi)噪聲條件下，PESQ值提升均值達(dá)到0.13，同時(shí)STOI 值提升了0.01 的均值水平。比較算法2 與3 可以發(fā)現(xiàn)，PESQ 值提升了0.07，STOI 提升了0.01。

表4 顯示，帶噪語(yǔ)音信噪比等于0 dB 的條件下，根據(jù)算法1 與2 可以發(fā)現(xiàn)，各噪聲下的PESQ 值都提升了0.11，此時(shí)STOI 值提升0.02。比較算法2 與3 可以發(fā)現(xiàn)，PESQ 值提升0.09，STOI 提升0.01。

表5 顯示，帶噪語(yǔ)音信噪比等于5 dB 的情況下，比較算法1 與2 可以發(fā)現(xiàn)，各噪聲下的PESQ 值提升達(dá)到0.13 的均值，STOI 值提升了0.01。根據(jù)算法2 與3的比較結(jié)果可知，PESQ 值提升0.07，STOI 提升0.01。

綜合分析表3~5 得到下述結(jié)果：

1）通過(guò)對(duì)比算法1 與2 測(cè)試結(jié)果得到：當(dāng)噪聲與信噪比都不同的情況下，以聯(lián)合損失函數(shù)實(shí)現(xiàn)的增強(qiáng)語(yǔ)音PESQ 值提高0.12，STOI 提高0.01。根據(jù)算法1 與2 可知，本文設(shè)計(jì)的混合損失函數(shù)實(shí)現(xiàn)增強(qiáng)語(yǔ)音質(zhì)量的明顯優(yōu)化。

2）對(duì)比算法2 與3 結(jié)果可以發(fā)現(xiàn)，為神經(jīng)網(wǎng)絡(luò)模型設(shè)置注意力機(jī)制后，可以使增強(qiáng)語(yǔ)音PESQ 值提高0.08，STOI 提高0.01。同時(shí)根據(jù)算法2 與3 結(jié)果可以推斷，加入注意力機(jī)制后能夠促進(jìn)背景噪音的進(jìn)一步減弱，從而獲得更高可懂度。

3）比較算法1 與3 結(jié)果可知：以聯(lián)合損失函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)開(kāi)展訓(xùn)練時(shí)，同時(shí)加入自注意力機(jī)制來(lái)分析理神經(jīng)網(wǎng)絡(luò)特征的情況下能夠?qū)崿F(xiàn)增強(qiáng)語(yǔ)音質(zhì)量的顯著改善，此時(shí)PESQ 值提升0.2，STOI 提升0.03。

4 結(jié)束語(yǔ)

1）本文設(shè)計(jì)的混合損失函數(shù)實(shí)現(xiàn)增強(qiáng)語(yǔ)音質(zhì)量的明顯優(yōu)化。加入注意力機(jī)制后能夠促進(jìn)背景噪音的進(jìn)一步減弱，從而獲得更高可懂度。

2）綜合運(yùn)用聯(lián)合損失函數(shù)并融合注意力機(jī)制后，可以使神經(jīng)網(wǎng)絡(luò)獲得更優(yōu)質(zhì)量增強(qiáng)語(yǔ)音。利用注意力機(jī)制提取特征參數(shù)以及結(jié)合聯(lián)合損失函數(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)優(yōu)化能夠促進(jìn)增強(qiáng)語(yǔ)音質(zhì)量的提升并達(dá)到更高的可懂度。

參考文獻(xiàn)：

[1] BABY D, VIRTANEN T, GEMMEKE J F. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J]. IEEE-ACM transactions on audio, speech, and language processing, 2015, 23(11):1788-1799.

[2] LI C X, DU Y J, WANG S D. Mining implicit intention using attention-based rnn encoder-decoder model[C]// International conference on intelligent computing. Springer, Cham, 2017: 413-424.

[3] 葛宛營(yíng),張?zhí)祢U.基于掩蔽估計(jì)與優(yōu)化的單通道語(yǔ)音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2019, 39(10): 6.

[4] 鮑長(zhǎng)春,項(xiàng)揚(yáng).基于深度神經(jīng)網(wǎng)絡(luò)的單通道語(yǔ)音增強(qiáng)方法回顧[J].信號(hào)處理,2019,35(12): 11.

[5] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feed forward neural networks[C]. Proceedings of the thirteenth international conference on artificial intelligence and statistics, Sardinia, Italy, 2010, 5: 249-256.

[6] MARTIN-DONAS J M, GOMEZ A M, Gonzalez J A, et al. A deep learning loss function based on the perceptual evaluation of the speech quality[J]. IEEE Signal processing letters,2018, 25(11):1680-1684.

[7] 李鴻燕,屈俊玲,張雪英.基于信號(hào)能量的濁語(yǔ)音盲信號(hào)分離算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2015,(5): 6.

[8] 戴紅霞,唐於烽,趙力.基于維納濾波與理想二值掩蔽的數(shù)字助聽(tīng)器語(yǔ)音增強(qiáng)算法[J].電子器件,2019,42(4): 4.

（本文來(lái)源于《電子產(chǎn)品世界》雜志2023年6月期）