新聞中心

EEPW首頁 > 消費電子 > 設(shè)計應(yīng)用 > 智能家庭應(yīng)用之語音識別系統(tǒng)

智能家庭應(yīng)用之語音識別系統(tǒng)

作者: 時間:2017-10-25 來源:網(wǎng)絡(luò) 收藏

  開發(fā)基于自然語言的系統(tǒng)面臨許多技術(shù)挑戰(zhàn),包括使用精確的引擎將機(jī)器聽到的內(nèi)容翻譯成文字—以及一個綜合的自然語言處理器,它能判斷所說內(nèi)容的意思或意圖,然后返回一個有意義的響應(yīng)或動作。這些課題已經(jīng)被廣泛研究幾十年了,這里不作過多討論。本文主要討論在遠(yuǎn)場語音接口系統(tǒng)中經(jīng)常被忽視但同樣很重要的技術(shù)性挑戰(zhàn):在語音到達(dá)引擎之前的語音預(yù)處理。

本文引用地址:http://m.butianyuan.cn/article/201710/368280.htm

  即使是最現(xiàn)代的語音識別引擎要想運轉(zhuǎn)良好也有一個基本的要求—輸入到該引擎的必須是語音。雖然對遠(yuǎn)場語音接口系統(tǒng)來說這似乎是顯而易見的要求,但它卻是最具挑戰(zhàn)性的要求之一。這里的“遠(yuǎn)場”指的是用戶話音距產(chǎn)品麥克風(fēng)的距離超過半米的系統(tǒng)。舉例來說,靠近用戶臉部的智能手機(jī)形成的是一種“近場”用例,但對著一臂之長的PC機(jī)或平板電腦講話或隔著房間對電視機(jī)、立體聲系統(tǒng)、燈光開關(guān)、自動調(diào)溫器或控制器講話都算作“遠(yuǎn)場”用例。

  近場和遠(yuǎn)場用例之間存在著許多重要的差別,這些差別產(chǎn)生了在近場系統(tǒng)中沒有但在遠(yuǎn)場系統(tǒng)中十分艱巨的技術(shù)性挑戰(zhàn)。

  1.大動態(tài)范圍:在遠(yuǎn)場系統(tǒng)中,用戶語音可能非常低,因為他/她與產(chǎn)品麥克風(fēng)有數(shù)米距離,但干擾可能非常大,比如在受語音控制的揚聲器系統(tǒng)中有音樂回放的場合。

  2.低信噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和噪聲:遠(yuǎn)場系統(tǒng)中的語音噪聲比要比近場系統(tǒng)中的小得多。隨著用戶不斷遠(yuǎn)離產(chǎn)品的麥克風(fēng),語音電平會越來越小,而背景噪聲電平保持不變。

  同樣,從用戶嘴巴到麥克風(fēng)的間接路徑——從沿途的墻體和窗戶等表面的反射路徑與從用戶到麥克風(fēng)的直接路徑相比可能有很顯著的功率(即低的DRR)。在使用傳統(tǒng)的語音處理技術(shù)和語音識別引擎時這種混響效應(yīng)會造成很大的問題。

  最后,在遠(yuǎn)場系統(tǒng)中,用戶語音相對于麥克風(fēng)的方向以及噪聲相對于麥克風(fēng)的方向都是未知的。在典型應(yīng)用場合,噪聲甚至與用戶語音來自相同的方向。

  3.全雙工話音交互:在許多遠(yuǎn)場系統(tǒng)中,當(dāng)用戶對著產(chǎn)品講話時,產(chǎn)品的揚聲器中可能正在播放音頻內(nèi)容,如音樂、電影或話音提示。這時需要使用一個全雙工的回聲消除器,以便在聆聽用戶語音的同時抵消掉產(chǎn)品的回放輸出聲。在回聲消除器并不完全了解回放內(nèi)容的系統(tǒng)中情況就更加復(fù)雜了。

  在這些情況下,實現(xiàn)一個依然能夠良好拾取語音的系統(tǒng)是一項極具挑戰(zhàn)性的任務(wù)。本文將介紹傳統(tǒng)方法為何無法在這些遠(yuǎn)場條件下提供可接受性能的原因,然后提出了能以極具成本效益的方法提供卓越遠(yuǎn)場性能的一種解決方案。

  大動態(tài)范圍

  用于設(shè)備的語音捕獲系統(tǒng)需要支持大信號動態(tài)范圍,從輕聲細(xì)語到響亮的音頻內(nèi)容回放。對于與用戶距離大概在0.5米至3米范圍內(nèi)的設(shè)備來說,設(shè)備麥克風(fēng)處的語音電平范圍大概在75dB至44dB SPL。對于體積不大的音頻回放設(shè)備來說,回放內(nèi)容在設(shè)備麥克風(fēng)處的SPL電平可能接近95dB。這種典型和極具挑戰(zhàn)性的用例對設(shè)備中的麥克風(fēng)和模數(shù)轉(zhuǎn)換器()的選型有很大的影響。

  對于遠(yuǎn)場應(yīng)用來說,選擇具有高信噪比值的麥克風(fēng)非常重要。如上所述,目標(biāo)語音信號的SPL 電平可能低至44dB。對于94dB SPL的1kHz音來說,如果使用信噪比(SNR)為66dB的麥克風(fēng),等效的本底噪聲為28dB SPL,那么最差情況下的語音與麥克風(fēng)自身噪聲之比為16dB。如果選擇信噪比為55dB的麥克風(fēng),那么語音與麥克風(fēng)自身噪聲之比可能低至5dB!

  內(nèi)部的本底噪聲也很重要,因為如果應(yīng)用中的ADC動態(tài)范圍不夠的話,還會造成信號飽和。

  圖 1顯示了兩種ADC的輸入?yún)⒖荚肼?,它們都是麥克風(fēng)增強(qiáng)設(shè)置值的函數(shù)。紅線顯示的是動態(tài)范圍大約是96dB的18位ADC性能,藍(lán)線顯示的是動態(tài)范圍大約為106dB的24位ADC性能。作為參考,灰線顯示的是信噪比為66dB、靈敏度為-43dBV/Pascal的麥克風(fēng)自身噪聲電平。

  

  圖1:麥克風(fēng)自身的噪聲和來自ADC的噪聲將疊加在一起形成系統(tǒng)總的本底噪聲。

  圖 2和圖3顯示了分別使用96dB動態(tài)范圍和106dB動態(tài)范圍的ADC時系統(tǒng)的屬性。106dB ADC可以提供更低的本底噪聲和更高的飽和點。合理的設(shè)置是針對96dB ADC使用24dB的麥克風(fēng)增強(qiáng)值、針對106dB ADC使用12dB的麥克風(fēng)增強(qiáng)值。在本例中,使用106dB ADC時的本底噪聲要低2dB,飽和點要高12dB。本底噪聲低2dB對于拾取遠(yuǎn)場條件中的語音來說尤其重要。

  

  圖2:這張表顯示了使用96dB ADC時的系統(tǒng)屬性。

  

  圖3:這張表顯示了使用106dB ADC時的系統(tǒng)屬性。

  考慮到峰值內(nèi)容和諧振等因素,由于回聲而在麥克風(fēng)處產(chǎn)生的SPL電平可能達(dá)到96dB甚至更高。因此對于具有大聲回放而且體積不大的設(shè)備來說,在使用 96dB或者更低動態(tài)范圍的ADC時飽和問題很常見。當(dāng)在實際系統(tǒng)中遇到這些問題時,唯一的解決方案通常是進(jìn)一步降低麥克風(fēng)的增強(qiáng)值,但這樣做的同時會抬高本底噪聲。在這個例子中,麥克風(fēng)增強(qiáng)值需要減小到12dB。然而,與106dB ADC相比,這樣做將使本底噪聲高出4.3dB。因此我們可以知道,對遠(yuǎn)場產(chǎn)品來說首選的解決方案是使用具有高信噪比的麥克風(fēng)和106dB或更高動態(tài)范圍的ADC。

  遠(yuǎn)場噪聲/干擾和混響消除以及擺脫方向性約束

  在智能家居遠(yuǎn)場應(yīng)用中,獲得魯棒性的語音拾取的條件可以說是相當(dāng)苛刻的。用戶和設(shè)備之間的遠(yuǎn)距離導(dǎo)致了其信噪比比近場應(yīng)用要低很多。遠(yuǎn)距離還會造成語音具有很低的直接路徑與混響路徑比值(DRR)。這個比值衡量的是直接傳輸?shù)禁溈孙L(fēng)的語音信號能量與通過反射途徑到達(dá)麥克風(fēng)的能量的相對大小。在大多數(shù)家庭和辦公室中,RT60時間一般在300ms至800ms范圍內(nèi)—這個時間將導(dǎo)致音頻信號在室內(nèi)來回反彈中損失掉約60dB的能量。當(dāng)用戶與麥克風(fēng)的距離超過1米時,低的DRR值對于傳統(tǒng)語音增強(qiáng)解決方案和語音識別性能來說是一個很大的問題。

  噪聲/干擾條件的變化也很大。系統(tǒng)需要能夠同時處理靜態(tài)干擾(也就是說頻譜特性非常穩(wěn)定或變化非常緩慢的信號)和非靜態(tài)干擾(即頻譜特性不斷變化的信號)。當(dāng)噪聲相對穩(wěn)定時,傳統(tǒng)的單個麥克風(fēng)增強(qiáng)方法是非常有效的。然而,當(dāng)干擾變成非穩(wěn)態(tài)時,這種方法就捉襟見肘了。因此為了改進(jìn)現(xiàn)實世界條件下的語音識別性能,要求使用多麥克風(fēng)方法。

  傳統(tǒng)的多麥克風(fēng)增強(qiáng)算法,比如波束成形,通過估計一組受約束的空間濾波器來增強(qiáng)來自預(yù)定義空間方向的信號。圖4顯示了一種傳統(tǒng)波束成形器的框圖。這種波束成形器有三個主要單元:最小方差無失真響應(yīng)(MVDR),阻塞矩陣(BM),自適應(yīng)后置濾波器。

  

  圖4:傳統(tǒng)波束成形器有三個主要單元:最小方差無失真響應(yīng)(MVDR),阻塞矩陣(BM),自適應(yīng)后置濾波器

  MVDR 將以這樣的一種方式將麥克風(fēng)信號合成在一起:一邊嘗試將波束成形器的空波束指向干擾源,一邊將一個波束指向目標(biāo)源。對每一個獨立的空波束都要求一個額外的麥克風(fēng),因此對于目標(biāo)語音可能來自任何方向的應(yīng)用來說會顯著增加成本。MVDR利用增強(qiáng)的信噪比產(chǎn)生對目標(biāo)源的估計。然而,信號仍然可能包含相當(dāng)多的殘留噪聲,因為它不能抵消來自與目標(biāo)源相同方向的干擾,而這種情況在典型的現(xiàn)實世界中是很常見的,而且它也不能利用有限的麥克風(fēng)數(shù)量抵消掉波束外的所有干擾。阻塞矩陣(BM)可以通過朝目標(biāo)源放置波束成形器的零點來估計噪聲/干擾。然而結(jié)果信號將包含目標(biāo)源的殘留,因為在混響條件下,由于反射(混響) 的原因目標(biāo)源不是從單一方向到達(dá)麥克風(fēng)的。

  自適應(yīng)后置濾波器的目的是從MVDR輸出中消除殘留噪聲,從而提高信噪比。然而,所有濾波器算法都受這樣一個事實的限制:在阻塞矩陣的輸出中存在很強(qiáng)的目標(biāo)源。噪聲估計中的這種殘留語音將導(dǎo)致所有后置濾波器扭曲到語音信號。隨著混響的增加(DRR越來越?。@種失真的嚴(yán)重性也隨之增加。解決這個問題的唯一方法是顯著增加麥克風(fēng)的數(shù)量,這種解決方案對許多消費類應(yīng)用來說就變得太過昂貴了。

  因此在對成本敏感的消費產(chǎn)品所具有的遠(yuǎn)場條件下,傳統(tǒng)的波束成形解決方案不能提供令人滿意的性能,需要新的解決方案。

  理想的解決方案應(yīng)該能在各種遠(yuǎn)場音頻條件下提供一致的噪聲抑制性能,即使是只使用兩個麥克風(fēng)。這樣的解決方案不應(yīng)對濾波解決方案提出任何嚴(yán)苛的約束條件,比如波束成形中的方向性約束,同時能提供良好的靜止和非靜止噪聲抑制能力。理想的解決方案還應(yīng)該隱式地建?;祉懶?yīng),從而避免其性能受DDR變化顯著影響這樣的波束成形問題。最后,解決方案應(yīng)該具有足夠的魯棒性,它可以完全不受麥克風(fēng)位置和麥克風(fēng)匹配的影響,從而消除對專門參數(shù)調(diào)諧的要求。

  一種改進(jìn)的遠(yuǎn)場解決方案實現(xiàn)是這樣一種架構(gòu):算法中受監(jiān)視/約束的部分只用于檢測目的,不直接用于約束濾波器設(shè)計,而且濾波器都接受無監(jiān)視方式的訓(xùn)練。圖5 顯示了基于盲源分離(BSS)的這樣一種解決方案的高層結(jié)構(gòu)。這種解決方案有三個主要部分:基于受監(jiān)視功能的話音活動檢測器(VAD),不受監(jiān)視的空間濾波,不受監(jiān)視的頻譜濾波。

  

  圖5:這張圖顯示了基于盲源分離的SSP高層結(jié)構(gòu)。

  基于受監(jiān)視功能的話音活動檢測器(VAD)會對目標(biāo)語音的存在進(jìn)行概率測量。然后在不受監(jiān)視的濾波模塊中使用這個信息判斷是否為噪聲、干擾或目標(biāo)語音源訓(xùn)練濾波器。在這種架構(gòu)中可以使用任何合適的VAD。

  系統(tǒng)的核心是不受監(jiān)視的空間濾波(USF)—基于獨立分量分析(ICA)的一種BSS算法。這種ICA算法設(shè)法建模目標(biāo)源和干擾源的混合系統(tǒng),并允許用線性濾波將它們分開來。在只有兩個麥克風(fēng)的系統(tǒng)中,USF將產(chǎn)生4個信號輸出,每個麥克風(fēng)2個。對每個麥克風(fēng)來說,一個信號包含目標(biāo)源和一些殘留噪聲,另一個信號包含對所有干擾源的估計,其中目標(biāo)源已經(jīng)被濾除。

  USF做到這一點所需的唯一信息是在知道何時目標(biāo)語音有效以及何時噪聲有效,這個信息來自VAD。然后USF尋找濾波器以完全不受監(jiān)視的方式對目標(biāo)源和干擾源進(jìn)行分拆。USF并不明確地使用源方向,雖然這個信息可以用來改善 VAD決策。另外,麥克風(fēng)在設(shè)備上的位置和麥克風(fēng)之間的不匹配對算法的影響很小。在ICA系統(tǒng)中,如果存在N個源,那么通常至少需要N個麥克風(fēng)來恢復(fù)原始信號。然而,通過將信號看作是包含1)一個目標(biāo)語音信號和一個噪聲信號,或2)只有一個噪聲信號,ICA可以只與兩個麥克風(fēng)和未知數(shù)量的噪聲源一起使用。

  USF 的輸出不是在系統(tǒng)輸出中直接使用,因為它假設(shè)合成信號是由有限數(shù)量的空間定位源產(chǎn)生的信號的線性合成。這種一致性假設(shè)條件對主要的語音源信號來只是部分成立,但對現(xiàn)實世界噪聲來說不是的。因此線性濾波對于現(xiàn)實世界應(yīng)用來說不是最優(yōu)的,要求用非線性、隨時間變化的統(tǒng)計性后置濾波對信號進(jìn)行補(bǔ)償。后置濾波方法通常涉及到對由線性濾波器輸出推導(dǎo)出的頻譜/臨時模板(或增益)進(jìn)行估計。雖然模板通常能提高噪聲抑制能力,但如果沒有考慮分拆模型不確定性的話,屏蔽效應(yīng)可能導(dǎo)致信號的嚴(yán)重劣化。

  用于頻譜濾波的方法可以基于不受監(jiān)視的頻譜增益分布學(xué)習(xí),而這種分布源自USF的輸出信號。然后就能產(chǎn)生語音存在/不存在的概率;這些概率用來控制對每個通道的頻譜增強(qiáng)。增強(qiáng)技術(shù)可以消除有害的干擾,與此同時消除最近的混響分量,即有效地去除混響。

  圖 6和圖7顯示了這樣一種系統(tǒng)的性能例子。在這個測試中,用戶距雙麥克風(fēng)系統(tǒng)3米遠(yuǎn)。麥克風(fēng)處的目標(biāo)語音電平是60dB,麥克風(fēng)處的干擾語音電平是 50dB。圖6中的上面通道顯示的是沒經(jīng)任何處理的接收信號。下面通道顯示的是經(jīng)過處理后的輸出。圖7顯示了處理之前和之后的干擾頻譜內(nèi)容。在這種條件下,可以達(dá)到大約30dB的干擾信號抑制。當(dāng)未處理信號通過語音識別引擎發(fā)送時,可能達(dá)到95%的誤字率(WER)。經(jīng)過處理后的WER可下降到15%。

  

  圖6:上面通道顯示的是未經(jīng)任何處理的接收信號。下面通道顯示的是處理后的輸出。

  

  圖7:顯示的是處理之前和處理之后的干擾頻譜內(nèi)容。

  聲學(xué)回音消除(AEC) 已經(jīng)存在很多年了,是任何免提通信系統(tǒng)的必要部分。聲學(xué)回音消除器可以從麥克風(fēng)記錄中消除設(shè)備本身正在回放的音頻。最簡單的AEC是半雙工的,也就是說,當(dāng)遠(yuǎn)端在講話時,它會馬上關(guān)閉近端的麥克風(fēng),反之亦然,即當(dāng)近端講話時則關(guān)閉遠(yuǎn)端的麥克風(fēng)。在這些系統(tǒng)中,同一時刻只能有一邊講話。

  對于語音控制應(yīng)用來說,真正的全雙工回音消除是系統(tǒng)的一個必要部分,也就是要達(dá)到語音控制和回放同時進(jìn)行的效果。聲學(xué)回音消除器(AEC)要想正常工作,需要能夠訪問到信號,也就是設(shè)備正在播放的回音參考。AEC隨即使用這個回音參考對房間內(nèi)的聲學(xué)回音路徑進(jìn)行線性建模。然而在實際系統(tǒng)中,回音路徑中通常有相當(dāng)多的非線性因素,它們會顯著降低系統(tǒng)性能—比如當(dāng)設(shè)備正在試圖從小的揚聲器中產(chǎn)生大的回放音量時。另外一個例子發(fā)生在回放信號被發(fā)送到AEC作為回音參考之后對這個回放信號進(jìn)行非線性的后置處理之時。語音控制的機(jī)頂盒(STB)就是這種情況,此時AEC在工作,機(jī)頂盒中也獲得了回音參考,但電視機(jī)很可能在播放音頻之前在音頻上疊加一些未知延時和后處理。在這些條件下使用傳統(tǒng)的AEC性能會很低。

  這個問題可以這樣解決:將AEC連接到前文介紹的噪聲抑制技術(shù)。只要AEC能夠區(qū)分遠(yuǎn)端、近端和雙邊談話活動,這個信息就能用作USF的活動檢測輸入。這種方法在具有非線性及受損回音參考的系統(tǒng)中可以提供真正全雙工的AEC性能。

  另外,這種新的AEC技術(shù)應(yīng)該包含一個延時估計算法,以便通過對齊回音參考和麥克風(fēng)信號來解決回音路徑中的未知延時,就象在機(jī)頂盒案例中那樣。

  圖 8和圖9顯示了一個機(jī)頂盒系統(tǒng)的性能。用戶距電視機(jī)3米遠(yuǎn),麥克風(fēng)模塊位于電視機(jī)頂上,并連接到機(jī)頂盒。用戶給機(jī)頂盒發(fā)出自然語言命令。在麥克風(fēng)模塊處目標(biāo)語音的SPL是60dB,來自電視回放內(nèi)容的回音SPL是72dB。圖8的上部顯示的是未經(jīng)處理的麥克風(fēng)信號,底部顯示的是經(jīng)過處理的麥克風(fēng)信號。圖9 顯示的是處理前后殘留回音的頻譜內(nèi)容。在這個案例中,處理前的誤字率(WER)是100%,處理后則達(dá)到了8%。

  

  圖8:這張圖的上部分顯示的是未經(jīng)處理的麥克風(fēng)信號,下部分顯示的是處理過的麥克風(fēng)信號。

  

  圖9:這張圖顯示了處理前后殘留回音的頻譜內(nèi)容。

  本文小結(jié)

  傳統(tǒng)的波束成形語音增強(qiáng)方法在智能家庭遠(yuǎn)場應(yīng)用環(huán)境中通常無法提供可接受的解決方案,因此很有必要開發(fā)其它的系統(tǒng)來成功地滿足和應(yīng)對這些遠(yuǎn)場挑戰(zhàn)。舉例來說,科勝訊(Conexant)公司已經(jīng)開發(fā)出了如同本文所述的極具成本效益且高集成度的解決方案,這些解決方案采用了高動態(tài)范圍的ADC,在低信噪比、低DDR以及語音和噪聲方向未知的條件下具有卓越的遠(yuǎn)場噪聲/干擾抑制性能,而且即使在回音信號不完全確定的情況下也能實現(xiàn)真正全雙工的聲學(xué)回音消除。這些解決方案已被科勝訊公司部署到從智能家庭設(shè)備到平板電腦、PC和可穿戴設(shè)備的許多產(chǎn)品平臺上,并且所有產(chǎn)品都具有優(yōu)秀的性能結(jié)果。

  像波束成形等傳統(tǒng)方法要求極高的麥克風(fēng)成本、特殊的平臺調(diào)諧,并對麥克風(fēng)位置、匹配以及語音和噪聲的方向性有許多約束條件。而上述替代性解決方案的魯棒性可直接轉(zhuǎn)換為更好的性能,并能在新的智能家庭產(chǎn)品開發(fā)和制造過程中顯著節(jié)省成本。




關(guān)鍵詞: 智能家庭 語音識別 ADC

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉