智能家庭應(yīng)用之語(yǔ)音識(shí)別系統(tǒng)

作者：時(shí)間：2017-10-25 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

　　開(kāi)發(fā)基于自然語(yǔ)言的語(yǔ)音識(shí)別系統(tǒng)面臨許多技術(shù)挑戰(zhàn)，包括使用精確的語(yǔ)音識(shí)別引擎將機(jī)器聽(tīng)到的內(nèi)容翻譯成文字—以及一個(gè)綜合的自然語(yǔ)言處理器，它能判斷所說(shuō)內(nèi)容的意思或意圖，然后返回一個(gè)有意義的響應(yīng)或動(dòng)作。這些課題已經(jīng)被廣泛研究幾十年了，這里不作過(guò)多討論。本文主要討論在遠(yuǎn)場(chǎng)語(yǔ)音接口系統(tǒng)中經(jīng)常被忽視但同樣很重要的技術(shù)性挑戰(zhàn)：在語(yǔ)音到達(dá)語(yǔ)音識(shí)別引擎之前的語(yǔ)音預(yù)處理。

本文引用地址：http://m.butianyuan.cn/article/201710/368280.htm

　　即使是最現(xiàn)代的語(yǔ)音識(shí)別引擎要想運(yùn)轉(zhuǎn)良好也有一個(gè)基本的要求—輸入到該引擎的必須是語(yǔ)音。雖然對(duì)遠(yuǎn)場(chǎng)語(yǔ)音接口系統(tǒng)來(lái)說(shuō)這似乎是顯而易見(jiàn)的要求，但它卻是最具挑戰(zhàn)性的要求之一。這里的“遠(yuǎn)場(chǎng)”指的是用戶話音距產(chǎn)品麥克風(fēng)的距離超過(guò)半米的系統(tǒng)。舉例來(lái)說(shuō)，靠近用戶臉部的智能手機(jī)形成的是一種“近場(chǎng)”用例，但對(duì)著一臂之長(zhǎng)的PC機(jī)或平板電腦講話或隔著房間對(duì)電視機(jī)、立體聲系統(tǒng)、燈光開(kāi)關(guān)、自動(dòng)調(diào)溫器或智能家庭控制器講話ADC都算作“遠(yuǎn)場(chǎng)”用例。

　　近場(chǎng)和遠(yuǎn)場(chǎng)用例之間存在著許多重要的差別，這些差別產(chǎn)生了在近場(chǎng)系統(tǒng)中沒(méi)有但在遠(yuǎn)場(chǎng)系統(tǒng)中十分艱巨的技術(shù)性挑戰(zhàn)。

　　1.大動(dòng)態(tài)范圍：在遠(yuǎn)場(chǎng)系統(tǒng)中，用戶語(yǔ)音可能非常低，因?yàn)樗?她與產(chǎn)品麥克風(fēng)有數(shù)米距離，但干擾可能非常大，比如在受語(yǔ)音控制的揚(yáng)聲器系統(tǒng)中有音樂(lè)回放的場(chǎng)合。

　　2.低信噪比（SNR）、低直接路徑與混響路徑比（DRR）以及未知方向的語(yǔ)音和噪聲：遠(yuǎn)場(chǎng)系統(tǒng)中的語(yǔ)音噪聲比要比近場(chǎng)系統(tǒng)中的小得多。隨著用戶不斷遠(yuǎn)離產(chǎn)品的麥克風(fēng)，語(yǔ)音電平會(huì)越來(lái)越小，而背景噪聲電平保持不變。

　　同樣，從用戶嘴巴到麥克風(fēng)的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風(fēng)的直接路徑相比可能有很顯著的功率（即低的DRR）。在使用傳統(tǒng)的語(yǔ)音處理技術(shù)和語(yǔ)音識(shí)別引擎時(shí)這種混響效應(yīng)會(huì)造成很大的問(wèn)題。

　　最后，在遠(yuǎn)場(chǎng)系統(tǒng)中，用戶語(yǔ)音相對(duì)于麥克風(fēng)的方向以及噪聲相對(duì)于麥克風(fēng)的方向都是未知的。在典型應(yīng)用場(chǎng)合，噪聲甚至與用戶語(yǔ)音來(lái)自相同的方向。

　　3.全雙工話音交互：在許多遠(yuǎn)場(chǎng)系統(tǒng)中，當(dāng)用戶對(duì)著產(chǎn)品講話時(shí)，產(chǎn)品的揚(yáng)聲器中可能正在播放音頻內(nèi)容，如音樂(lè)、電影或話音提示。這時(shí)需要使用一個(gè)全雙工的回聲消除器，以便在聆聽(tīng)用戶語(yǔ)音的同時(shí)抵消掉產(chǎn)品的回放輸出聲。在回聲消除器并不完全了解回放內(nèi)容的系統(tǒng)中情況就更加復(fù)雜了。

　　在這些情況下，實(shí)現(xiàn)一個(gè)依然能夠良好拾取語(yǔ)音的系統(tǒng)是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。本文將介紹傳統(tǒng)方法為何無(wú)法在這些遠(yuǎn)場(chǎng)條件下提供可接受性能的原因，然后提出了能以極具成本效益的方法提供卓越遠(yuǎn)場(chǎng)性能的一種解決方案。

　　大動(dòng)態(tài)范圍

　　用于智能家庭設(shè)備的語(yǔ)音捕獲系統(tǒng)需要支持大信號(hào)動(dòng)態(tài)范圍，從輕聲細(xì)語(yǔ)到響亮的音頻內(nèi)容回放。對(duì)于與用戶距離大概在0.5米至3米范圍內(nèi)的設(shè)備來(lái)說(shuō)，設(shè)備麥克風(fēng)處的語(yǔ)音電平范圍大概在75dB至44dB SPL。對(duì)于體積不大的音頻回放設(shè)備來(lái)說(shuō)，回放內(nèi)容在設(shè)備麥克風(fēng)處的SPL電平可能接近95dB。這種典型和極具挑戰(zhàn)性的用例對(duì)設(shè)備中的麥克風(fēng)和模數(shù)轉(zhuǎn)換器（ADC）的選型有很大的影響。

　　對(duì)于遠(yuǎn)場(chǎng)應(yīng)用來(lái)說(shuō)，選擇具有高信噪比值的麥克風(fēng)非常重要。如上所述，目標(biāo)語(yǔ)音信號(hào)的SPL 電平可能低至44dB。對(duì)于94dB SPL的1kHz音來(lái)說(shuō)，如果使用信噪比（SNR）為66dB的麥克風(fēng)，等效的本底噪聲為28dB SPL，那么最差情況下的語(yǔ)音與麥克風(fēng)自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風(fēng)，那么語(yǔ)音與麥克風(fēng)自身噪聲之比可能低至5dB！

　　ADC內(nèi)部的本底噪聲也很重要，因?yàn)槿绻麘?yīng)用中的ADC動(dòng)態(tài)范圍不夠的話，還會(huì)造成信號(hào)飽和。

　　圖 1顯示了兩種ADC的輸入?yún)⒖荚肼暎鼈兌际躯溈孙L(fēng)增強(qiáng)設(shè)置值的函數(shù)。紅線顯示的是動(dòng)態(tài)范圍大約是96dB的18位ADC性能，藍(lán)線顯示的是動(dòng)態(tài)范圍大約為106dB的24位ADC性能。作為參考，灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風(fēng)自身噪聲電平。

　　圖1：麥克風(fēng)自身的噪聲和來(lái)自ADC的噪聲將疊加在一起形成系統(tǒng)總的本底噪聲。

　　圖 2和圖3顯示了分別使用96dB動(dòng)態(tài)范圍和106dB動(dòng)態(tài)范圍的ADC時(shí)系統(tǒng)的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點(diǎn)。合理的設(shè)置是針對(duì)96dB ADC使用24dB的麥克風(fēng)增強(qiáng)值、針對(duì)106dB ADC使用12dB的麥克風(fēng)增強(qiáng)值。在本例中，使用106dB ADC時(shí)的本底噪聲要低2dB，飽和點(diǎn)要高12dB。本底噪聲低2dB對(duì)于拾取遠(yuǎn)場(chǎng)條件中的語(yǔ)音來(lái)說(shuō)尤其重要。

　　圖2：這張表顯示了使用96dB ADC時(shí)的系統(tǒng)屬性。

　　圖3：這張表顯示了使用106dB ADC時(shí)的系統(tǒng)屬性。

　　考慮到峰值內(nèi)容和諧振等因素，由于回聲而在麥克風(fēng)處產(chǎn)生的SPL電平可能達(dá)到96dB甚至更高。因此對(duì)于具有大聲回放而且體積不大的設(shè)備來(lái)說(shuō)，在使用 96dB或者更低動(dòng)態(tài)范圍的ADC時(shí)飽和問(wèn)題很常見(jiàn)。當(dāng)在實(shí)際系統(tǒng)中遇到這些問(wèn)題時(shí)，唯一的解決方案通常是進(jìn)一步降低麥克風(fēng)的增強(qiáng)值，但這樣做的同時(shí)會(huì)抬高本底噪聲。在這個(gè)例子中，麥克風(fēng)增強(qiáng)值需要減小到12dB。然而，與106dB ADC相比，這樣做將使本底噪聲高出4.3dB。因此我們可以知道，對(duì)遠(yuǎn)場(chǎng)產(chǎn)品來(lái)說(shuō)首選的解決方案是使用具有高信噪比的麥克風(fēng)和106dB或更高動(dòng)態(tài)范圍的ADC。

　　遠(yuǎn)場(chǎng)噪聲/干擾和混響消除以及擺脫方向性約束

　　在智能家居遠(yuǎn)場(chǎng)應(yīng)用中，獲得魯棒性的語(yǔ)音拾取的條件可以說(shuō)是相當(dāng)苛刻的。用戶和設(shè)備之間的遠(yuǎn)距離導(dǎo)致了其信噪比比近場(chǎng)應(yīng)用要低很多。遠(yuǎn)距離還會(huì)造成語(yǔ)音具有很低的直接路徑與混響路徑比值（DRR）。這個(gè)比值衡量的是直接傳輸?shù)禁溈孙L(fēng)的語(yǔ)音信號(hào)能量與通過(guò)反射途徑到達(dá)麥克風(fēng)的能量的相對(duì)大小。在大多數(shù)家庭和辦公室中，RT60時(shí)間一般在300ms至800ms范圍內(nèi)—這個(gè)時(shí)間將導(dǎo)致音頻信號(hào)在室內(nèi)來(lái)回反彈中損失掉約60dB的能量。當(dāng)用戶與麥克風(fēng)的距離超過(guò)1米時(shí)，低的DRR值對(duì)于傳統(tǒng)語(yǔ)音增強(qiáng)解決方案和語(yǔ)音識(shí)別性能來(lái)說(shuō)是一個(gè)很大的問(wèn)題。

　　噪聲/干擾條件的變化也很大。系統(tǒng)需要能夠同時(shí)處理靜態(tài)干擾（也就是說(shuō)頻譜特性非常穩(wěn)定或變化非常緩慢的信號(hào)）和非靜態(tài)干擾（即頻譜特性不斷變化的信號(hào)）。當(dāng)噪聲相對(duì)穩(wěn)定時(shí)，傳統(tǒng)的單個(gè)麥克風(fēng)增強(qiáng)方法是非常有效的。然而，當(dāng)干擾變成非穩(wěn)態(tài)時(shí)，這種方法就捉襟見(jiàn)肘了。因此為了改進(jìn)現(xiàn)實(shí)世界條件下的語(yǔ)音識(shí)別性能，要求使用多麥克風(fēng)方法。

　　傳統(tǒng)的多麥克風(fēng)增強(qiáng)算法，比如波束成形，通過(guò)估計(jì)一組受約束的空間濾波器來(lái)增強(qiáng)來(lái)自預(yù)定義空間方向的信號(hào)。圖4顯示了一種傳統(tǒng)波束成形器的框圖。這種波束成形器有三個(gè)主要單元：最小方差無(wú)失真響應(yīng)（MVDR），阻塞矩陣（BM），自適應(yīng)后置濾波器。

　　圖4：傳統(tǒng)波束成形器有三個(gè)主要單元：最小方差無(wú)失真響應(yīng)（MVDR），阻塞矩陣（BM），自適應(yīng)后置濾波器

　　MVDR 將以這樣的一種方式將麥克風(fēng)信號(hào)合成在一起：一邊嘗試將波束成形器的空波束指向干擾源，一邊將一個(gè)波束指向目標(biāo)源。對(duì)每一個(gè)獨(dú)立的空波束都要求一個(gè)額外的麥克風(fēng)，因此對(duì)于目標(biāo)語(yǔ)音可能來(lái)自任何方向的智能家庭應(yīng)用來(lái)說(shuō)會(huì)顯著增加成本。MVDR利用增強(qiáng)的信噪比產(chǎn)生對(duì)目標(biāo)源的估計(jì)。然而，信號(hào)仍然可能包含相當(dāng)多的殘留噪聲，因?yàn)樗荒艿窒麃?lái)自與目標(biāo)源相同方向的干擾，而這種情況在典型的現(xiàn)實(shí)世界中是很常見(jiàn)的，而且它也不能利用有限的麥克風(fēng)數(shù)量抵消掉波束外的所有干擾。阻塞矩陣（BM）可以通過(guò)朝目標(biāo)源放置波束成形器的零點(diǎn)來(lái)估計(jì)噪聲/干擾。然而結(jié)果信號(hào)將包含目標(biāo)源的殘留，因?yàn)樵诨祉憲l件下，由于反射（混響）的原因目標(biāo)源不是從單一方向到達(dá)麥克風(fēng)的。

　　自適應(yīng)后置濾波器的目的是從MVDR輸出中消除殘留噪聲，從而提高信噪比。然而，所有濾波器算法都受這樣一個(gè)事實(shí)的限制：在阻塞矩陣的輸出中存在很強(qiáng)的目標(biāo)源。噪聲估計(jì)中的這種殘留語(yǔ)音將導(dǎo)致所有后置濾波器扭曲到語(yǔ)音信號(hào)。隨著混響的增加（DRR越來(lái)越小），這種失真的嚴(yán)重性也隨之增加。解決這個(gè)問(wèn)題的唯一方法是顯著增加麥克風(fēng)的數(shù)量，這種解決方案對(duì)許多消費(fèi)類應(yīng)用來(lái)說(shuō)就變得太過(guò)昂貴了。

　　因此在對(duì)成本敏感的消費(fèi)產(chǎn)品所具有的遠(yuǎn)場(chǎng)條件下，傳統(tǒng)的波束成形解決方案不能提供令人滿意的性能，需要新的解決方案。

　　理想的解決方案應(yīng)該能在各種遠(yuǎn)場(chǎng)音頻條件下提供一致的噪聲抑制性能，即使是只使用兩個(gè)麥克風(fēng)。這樣的解決方案不應(yīng)對(duì)濾波解決方案提出任何嚴(yán)苛的約束條件，比如波束成形中的方向性約束，同時(shí)能提供良好的靜止和非靜止噪聲抑制能力。理想的解決方案還應(yīng)該隱式地建模混響效應(yīng)，從而避免其性能受DDR變化顯著影響這樣的波束成形問(wèn)題。最后，解決方案應(yīng)該具有足夠的魯棒性，它可以完全不受麥克風(fēng)位置和麥克風(fēng)匹配的影響，從而消除對(duì)專門(mén)參數(shù)調(diào)諧的要求。

　　一種改進(jìn)的遠(yuǎn)場(chǎng)解決方案實(shí)現(xiàn)是這樣一種架構(gòu)：算法中受監(jiān)視/約束的部分只用于檢測(cè)目的，不直接用于約束濾波器設(shè)計(jì)，而且濾波器都接受無(wú)監(jiān)視方式的訓(xùn)練。圖5 顯示了基于盲源分離（BSS）的這樣一種解決方案的高層結(jié)構(gòu)。這種解決方案有三個(gè)主要部分：基于受監(jiān)視功能的話音活動(dòng)檢測(cè)器（VAD），不受監(jiān)視的空間濾波，不受監(jiān)視的頻譜濾波。

　　圖5：這張圖顯示了基于盲源分離的SSP高層結(jié)構(gòu)。

　　基于受監(jiān)視功能的話音活動(dòng)檢測(cè)器（VAD）會(huì)對(duì)目標(biāo)語(yǔ)音的存在進(jìn)行概率測(cè)量。然后在不受監(jiān)視的濾波模塊中使用這個(gè)信息判斷是否為噪聲、干擾或目標(biāo)語(yǔ)音源訓(xùn)練濾波器。在這種架構(gòu)中可以使用任何合適的VAD。

　　系統(tǒng)的核心是不受監(jiān)視的空間濾波（USF）—基于獨(dú)立分量分析（ICA）的一種BSS算法。這種ICA算法設(shè)法建模目標(biāo)源和干擾源的混合系統(tǒng)，并允許用線性濾波將它們分開(kāi)來(lái)。在只有兩個(gè)麥克風(fēng)的系統(tǒng)中，USF將產(chǎn)生4個(gè)信號(hào)輸出，每個(gè)麥克風(fēng)2個(gè)。對(duì)每個(gè)麥克風(fēng)來(lái)說(shuō)，一個(gè)信號(hào)包含目標(biāo)源和一些殘留噪聲，另一個(gè)信號(hào)包含對(duì)所有干擾源的估計(jì)，其中目標(biāo)源已經(jīng)被濾除。

　　USF做到這一點(diǎn)所需的唯一信息是在知道何時(shí)目標(biāo)語(yǔ)音有效以及何時(shí)噪聲有效，這個(gè)信息來(lái)自VAD。然后USF尋找濾波器以完全不受監(jiān)視的方式對(duì)目標(biāo)源和干擾源進(jìn)行分拆。USF并不明確地使用源方向，雖然這個(gè)信息可以用來(lái)改善 VAD決策。另外，麥克風(fēng)在設(shè)備上的位置和麥克風(fēng)之間的不匹配對(duì)算法的影響很小。在ICA系統(tǒng)中，如果存在N個(gè)源，那么通常至少需要N個(gè)麥克風(fēng)來(lái)恢復(fù)原始信號(hào)。然而，通過(guò)將信號(hào)看作是包含1）一個(gè)目標(biāo)語(yǔ)音信號(hào)和一個(gè)噪聲信號(hào)，或2）只有一個(gè)噪聲信號(hào)，ICA可以只與兩個(gè)麥克風(fēng)和未知數(shù)量的噪聲源一起使用。

　　USF 的輸出不是在系統(tǒng)輸出中直接使用，因?yàn)樗僭O(shè)合成信號(hào)是由有限數(shù)量的空間定位源產(chǎn)生的信號(hào)的線性合成。這種一致性假設(shè)條件對(duì)主要的語(yǔ)音源信號(hào)來(lái)只是部分成立，但對(duì)現(xiàn)實(shí)世界噪聲來(lái)說(shuō)不是的。因此線性濾波對(duì)于現(xiàn)實(shí)世界應(yīng)用來(lái)說(shuō)不是最優(yōu)的，要求用非線性、隨時(shí)間變化的統(tǒng)計(jì)性后置濾波對(duì)信號(hào)進(jìn)行補(bǔ)償。后置濾波方法通常涉及到對(duì)由線性濾波器輸出推導(dǎo)出的頻譜/臨時(shí)模板（或增益）進(jìn)行估計(jì)。雖然模板通常能提高噪聲抑制能力，但如果沒(méi)有考慮分拆模型不確定性的話，屏蔽效應(yīng)可能導(dǎo)致信號(hào)的嚴(yán)重劣化。

　　用于頻譜濾波的方法可以基于不受監(jiān)視的頻譜增益分布學(xué)習(xí)，而這種分布源自USF的輸出信號(hào)。然后就能產(chǎn)生語(yǔ)音存在/不存在的概率；這些概率用來(lái)控制對(duì)每個(gè)通道的頻譜增強(qiáng)。增強(qiáng)技術(shù)可以消除有害的干擾，與此同時(shí)消除最近的混響分量，即有效地去除混響。

　　圖 6和圖7顯示了這樣一種系統(tǒng)的性能例子。在這個(gè)測(cè)試中，用戶距雙麥克風(fēng)系統(tǒng)3米遠(yuǎn)。麥克風(fēng)處的目標(biāo)語(yǔ)音電平是60dB，麥克風(fēng)處的干擾語(yǔ)音電平是 50dB。圖6中的上面通道顯示的是沒(méi)經(jīng)任何處理的接收信號(hào)。下面通道顯示的是經(jīng)過(guò)處理后的輸出。圖7顯示了處理之前和之后的干擾頻譜內(nèi)容。在這種條件下，可以達(dá)到大約30dB的干擾信號(hào)抑制。當(dāng)未處理信號(hào)通過(guò)語(yǔ)音識(shí)別引擎發(fā)送時(shí)，可能達(dá)到95%的誤字率（WER）。經(jīng)過(guò)處理后的WER可下降到15%。

　　圖6：上面通道顯示的是未經(jīng)任何處理的接收信號(hào)。下面通道顯示的是處理后的輸出。

　　圖7：顯示的是處理之前和處理之后的干擾頻譜內(nèi)容。

　　聲學(xué)回音消除（AEC）已經(jīng)存在很多年了，是任何免提通信系統(tǒng)的必要部分。聲學(xué)回音消除器可以從麥克風(fēng)記錄中消除設(shè)備本身正在回放的音頻。最簡(jiǎn)單的AEC是半雙工的，也就是說(shuō)，當(dāng)遠(yuǎn)端在講話時(shí)，它會(huì)馬上關(guān)閉近端的麥克風(fēng)，反之亦然，即當(dāng)近端講話時(shí)則關(guān)閉遠(yuǎn)端的麥克風(fēng)。在這些系統(tǒng)中，同一時(shí)刻只能有一邊講話。

　　對(duì)于語(yǔ)音控制應(yīng)用來(lái)說(shuō)，真正的全雙工回音消除是系統(tǒng)的一個(gè)必要部分，也就是要達(dá)到語(yǔ)音控制和回放同時(shí)進(jìn)行的效果。聲學(xué)回音消除器（AEC）要想正常工作，需要能夠訪問(wèn)到信號(hào)，也就是設(shè)備正在播放的回音參考。AEC隨即使用這個(gè)回音參考對(duì)房間內(nèi)的聲學(xué)回音路徑進(jìn)行線性建模。然而在實(shí)際系統(tǒng)中，回音路徑中通常有相當(dāng)多的非線性因素，它們會(huì)顯著降低系統(tǒng)性能—比如當(dāng)設(shè)備正在試圖從小的揚(yáng)聲器中產(chǎn)生大的回放音量時(shí)。另外一個(gè)例子發(fā)生在回放信號(hào)被發(fā)送到AEC作為回音參考之后對(duì)這個(gè)回放信號(hào)進(jìn)行非線性的后置處理之時(shí)。語(yǔ)音控制的機(jī)頂盒（STB）就是這種情況，此時(shí)AEC在工作，機(jī)頂盒中也獲得了回音參考，但電視機(jī)很可能在播放音頻之前在音頻上疊加一些未知延時(shí)和后處理。在這些條件下使用傳統(tǒng)的AEC性能會(huì)很低。

　　這個(gè)問(wèn)題可以這樣解決：將AEC連接到前文介紹的噪聲抑制技術(shù)。只要AEC能夠區(qū)分遠(yuǎn)端、近端和雙邊談話活動(dòng)，這個(gè)信息就能用作USF的活動(dòng)檢測(cè)輸入。這種方法在具有非線性及受損回音參考的系統(tǒng)中可以提供真正全雙工的AEC性能。

　　另外，這種新的AEC技術(shù)應(yīng)該包含一個(gè)延時(shí)估計(jì)算法，以便通過(guò)對(duì)齊回音參考和麥克風(fēng)信號(hào)來(lái)解決回音路徑中的未知延時(shí)，就象在機(jī)頂盒案例中那樣。

　　圖 8和圖9顯示了一個(gè)機(jī)頂盒系統(tǒng)的性能。用戶距電視機(jī)3米遠(yuǎn)，麥克風(fēng)模塊位于電視機(jī)頂上，并連接到機(jī)頂盒。用戶給機(jī)頂盒發(fā)出自然語(yǔ)言命令。在麥克風(fēng)模塊處目標(biāo)語(yǔ)音的SPL是60dB，來(lái)自電視回放內(nèi)容的回音SPL是72dB。圖8的上部顯示的是未經(jīng)處理的麥克風(fēng)信號(hào)，底部顯示的是經(jīng)過(guò)處理的麥克風(fēng)信號(hào)。圖9 顯示的是處理前后殘留回音的頻譜內(nèi)容。在這個(gè)案例中，處理前的誤字率（WER）是100%，處理后則達(dá)到了8%。

　　圖8：這張圖的上部分顯示的是未經(jīng)處理的麥克風(fēng)信號(hào)，下部分顯示的是處理過(guò)的麥克風(fēng)信號(hào)。

　　圖9：這張圖顯示了處理前后殘留回音的頻譜內(nèi)容。

　　本文小結(jié)

　　傳統(tǒng)的波束成形語(yǔ)音增強(qiáng)方法在智能家庭遠(yuǎn)場(chǎng)應(yīng)用環(huán)境中通常無(wú)法提供可接受的解決方案，因此很有必要開(kāi)發(fā)其它的系統(tǒng)來(lái)成功地滿足和應(yīng)對(duì)這些遠(yuǎn)場(chǎng)挑戰(zhàn)。舉例來(lái)說(shuō)，科勝訊（Conexant）公司已經(jīng)開(kāi)發(fā)出了如同本文所述的極具成本效益且高集成度的解決方案，這些解決方案采用了高動(dòng)態(tài)范圍的ADC，在低信噪比、低DDR以及語(yǔ)音和噪聲方向未知的條件下具有卓越的遠(yuǎn)場(chǎng)噪聲/干擾抑制性能，而且即使在回音信號(hào)不完全確定的情況下也能實(shí)現(xiàn)真正全雙工的聲學(xué)回音消除。這些解決方案已被科勝訊公司部署到從智能家庭設(shè)備到平板電腦、PC和可穿戴設(shè)備的許多產(chǎn)品平臺(tái)上，并且所有產(chǎn)品都具有優(yōu)秀的性能結(jié)果。

　　像波束成形等傳統(tǒng)方法要求極高的麥克風(fēng)成本、特殊的平臺(tái)調(diào)諧，并對(duì)麥克風(fēng)位置、匹配以及語(yǔ)音和噪聲的方向性有許多約束條件。而上述替代性解決方案的魯棒性可直接轉(zhuǎn)換為更好的性能，并能在新的智能家庭產(chǎn)品開(kāi)發(fā)和制造過(guò)程中顯著節(jié)省成本。

新聞中心

智能家庭應(yīng)用之語(yǔ)音識(shí)別系統(tǒng)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)