麥克風(fēng)陣列技術(shù)語(yǔ)音交互應(yīng)該選用怎樣的方案?
亞馬遜Echo和谷歌Home爭(zhēng)奇斗艷,除了云端服務(wù),他們?cè)谟布系降子心男┎町?我們先將Echo和Home兩款音箱拆開來(lái)看,區(qū)別最大的還是麥克風(fēng)陣列技術(shù)。Amazon Echo采用的是環(huán)形6+1麥克風(fēng)陣列,而Google Home(包括Surface Studio)只采用了2麥克風(fēng)陣列。這里想稍微深入談?wù)匊溈孙L(fēng)陣列技術(shù),以及智能語(yǔ)音交互設(shè)備到底應(yīng)該選用怎樣的方案。
本文引用地址:http://m.butianyuan.cn/article/201807/383792.htm什么是麥克風(fēng)陣列技術(shù)?
學(xué)術(shù)上有個(gè)概念是“傳聲器陣列”,主要由一定數(shù)目的聲學(xué)傳感器組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。而這篇文章講到的麥克風(fēng)陣列是其中一個(gè)狹義概念,特指應(yīng)用于語(yǔ)音處理的按一定規(guī)則排列的多個(gè)麥克風(fēng)系統(tǒng),也可以簡(jiǎn)單理解為2個(gè)以上麥克風(fēng)組成的錄音系統(tǒng)。
麥克風(fēng)陣列一般來(lái)說(shuō)有線形、環(huán)形和球形之分,嚴(yán)謹(jǐn)?shù)膽?yīng)該說(shuō)成一字、十字、平面、螺旋、球形及無(wú)規(guī)則陣列等。至于麥克風(fēng)陣列的陣元數(shù)量,也就是麥克風(fēng)數(shù)量,可以從2個(gè)到上千個(gè)不等。這樣說(shuō)來(lái),麥克風(fēng)陣列真的好復(fù)雜,別擔(dān)心,復(fù)雜的麥克風(fēng)陣列主要應(yīng)用于工業(yè)和國(guó)防領(lǐng)域,消費(fèi)領(lǐng)域考慮到成本會(huì)簡(jiǎn)化很多。
為什么需要麥克風(fēng)陣列?
消費(fèi)級(jí)麥克風(fēng)陣列的興起得益于語(yǔ)音交互的市場(chǎng)火熱,主要解決遠(yuǎn)距離語(yǔ)音識(shí)別的問(wèn)題,以保證真實(shí)場(chǎng)景下的語(yǔ)音識(shí)別率。這涉及了語(yǔ)音交互用戶場(chǎng)景的變化,當(dāng)用戶從手機(jī)切換到類似Echo智能音箱或者機(jī)器人的時(shí)候,實(shí)際上麥克風(fēng)面臨的環(huán)境就完全變了,這就如同兩個(gè)人竊竊私語(yǔ)和大聲嘶喊的區(qū)別。
前幾年,語(yǔ)音交互應(yīng)用最為普遍的就是以Siri為代表的智能手機(jī),這個(gè)場(chǎng)景一般都是采用單麥克風(fēng)系統(tǒng)。單麥克風(fēng)系統(tǒng)可以在低噪聲、無(wú)混響、距離聲源很近的情況下獲得符合語(yǔ)音識(shí)別需求的聲音信號(hào)。但是,若聲源距離麥克風(fēng)距離較遠(yuǎn),并且真實(shí)環(huán)境存在大量的噪聲、多徑反射和混響,導(dǎo)致拾取信號(hào)的質(zhì)量下降,這會(huì)嚴(yán)重影響語(yǔ)音識(shí)別率。而且,單麥克風(fēng)接收的信號(hào),是由多個(gè)聲源和環(huán)境噪聲疊加的,很難實(shí)現(xiàn)各個(gè)聲源的分離。這樣就無(wú)法實(shí)現(xiàn)聲源定位和分離,這很重要,因?yàn)檫€有一類聲音的疊加并非噪聲,但是在語(yǔ)音識(shí)別中也要抑制,就是人聲的干擾,語(yǔ)音識(shí)別顯然不能同時(shí)識(shí)別兩個(gè)以上的聲音。
顯然,當(dāng)語(yǔ)音交互的場(chǎng)景過(guò)渡到以Echo、機(jī)器人或者汽車為主要場(chǎng)景的時(shí)候,單麥克風(fēng)的局限就凸顯出來(lái)。為了解決單麥克風(fēng)的這些局限性,利用麥克風(fēng)陣列進(jìn)行語(yǔ)音處理的方法應(yīng)時(shí)而生。麥克風(fēng)陣列由一組按一定幾何結(jié)構(gòu)(常用線形、環(huán)形)擺放的麥克風(fēng)組成,對(duì)采集的不同空間方向的聲音信號(hào)進(jìn)行空時(shí)處理,實(shí)現(xiàn)噪聲抑制、混響去除、人聲干擾抑制、聲源測(cè)向、聲源跟蹤、陣列增益等功能,進(jìn)而提高語(yǔ)音信號(hào)處理質(zhì)量,以提高真實(shí)環(huán)境下的語(yǔ)音識(shí)別率。
事實(shí)上,僅靠麥克風(fēng)陣列也很難保證語(yǔ)音識(shí)別率的指標(biāo)。麥克風(fēng)陣列還僅是物理入口,只是完成了物理世界的聲音信號(hào)處理,得到了語(yǔ)音識(shí)別想要的聲音,但是語(yǔ)音識(shí)別率卻是在云端測(cè)試得到的結(jié)果,因此這兩個(gè)系統(tǒng)必須匹配在一起才能得到最好的效果。不僅如此,麥克風(fēng)陣列處理信號(hào)的質(zhì)量還無(wú)法定義標(biāo)準(zhǔn)。因?yàn)楫?dāng)前的語(yǔ)音識(shí)別基本都是深度學(xué)習(xí)訓(xùn)練的結(jié)果,而深度學(xué)習(xí)有個(gè)局限就是嚴(yán)重依賴于輸入訓(xùn)練的樣本庫(kù),若處理后的聲音與樣本庫(kù)不匹配則識(shí)別效果也不會(huì)太好。從這個(gè)角度應(yīng)該非常容易理解,物理世界的信號(hào)處理也并非越是純凈越好,而是越接近于訓(xùn)練樣本庫(kù)的特征越好,即便這個(gè)樣本庫(kù)的訓(xùn)練信號(hào)很差。顯然,這是一個(gè)非常難于實(shí)現(xiàn)的過(guò)程,至少要聲學(xué)處理和深度學(xué)習(xí)的兩個(gè)團(tuán)隊(duì)配合才能做好這個(gè)事情,另外聲學(xué)信號(hào)處理這個(gè)層次輸出的信號(hào)特征對(duì)語(yǔ)義理解也非常重要??磥?lái),小小的麥克風(fēng)陣列還真的不是那么簡(jiǎn)單,為了更好地顯示這種差別,我們測(cè)試了某語(yǔ)音識(shí)別引擎在單麥克風(fēng)和四麥克風(fēng)環(huán)形陣列的識(shí)別率對(duì)比。另外也要提醒,語(yǔ)音識(shí)別率并非只有一個(gè)WER指標(biāo),還有個(gè)重要的虛警率指標(biāo),稍微有點(diǎn)聲音就亂識(shí)別也不行,另外還要考慮閾值的影響,這都是麥克風(fēng)陣列技術(shù)中的陷阱。
麥克風(fēng)陣列的關(guān)鍵技術(shù)
消費(fèi)級(jí)的麥克風(fēng)陣列主要面臨環(huán)境噪聲、房間混響、人聲疊加、模型噪聲、陣列結(jié)構(gòu)等問(wèn)題,若使用到語(yǔ)音識(shí)別場(chǎng)景,還要考慮針對(duì)語(yǔ)音識(shí)別的優(yōu)化和匹配等問(wèn)題。為了解決上述問(wèn)題,特別是在消費(fèi)領(lǐng)域的垂直場(chǎng)景應(yīng)用環(huán)境中,關(guān)鍵技術(shù)就顯得尤為重要。
噪聲抑制:語(yǔ)音識(shí)別倒不需要完全去除噪聲,相對(duì)來(lái)說(shuō)通話系統(tǒng)中需要的技術(shù)則是噪聲去除。這里說(shuō)的噪聲一般指環(huán)境噪聲,比如空調(diào)噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會(huì)掩蓋正常的語(yǔ)音,只是影響了語(yǔ)音的清晰度和可懂度。這種方法不適合強(qiáng)噪聲環(huán)境下的處理,但是應(yīng)付日常場(chǎng)景的語(yǔ)音交互足夠了。
混響消除:混響在語(yǔ)音識(shí)別中是個(gè)蠻討厭的因素,混響去除的效果很大程度影響了語(yǔ)音識(shí)別的效果。我們知道,當(dāng)聲源停止發(fā)聲后,聲波在房間內(nèi)要經(jīng)過(guò)多次反射和吸收,似乎若干個(gè)聲波混合持續(xù)一段時(shí)間,這種現(xiàn)象叫做混響?;祉憰?huì)嚴(yán)重影響語(yǔ)音信號(hào)處理,比如互相關(guān)函數(shù)或者波束主瓣,降低測(cè)向精度。
回聲抵消:嚴(yán)格來(lái)說(shuō),這里不應(yīng)該叫回聲,應(yīng)該叫“自噪聲”?;芈暿腔祉懙难由旄拍?,這兩者的區(qū)別就是回聲的時(shí)延更長(zhǎng)。一般來(lái)說(shuō),超過(guò)100毫秒時(shí)延的混響,人類能夠明顯區(qū)分出,似乎一個(gè)聲音同時(shí)出現(xiàn)了兩次,我們就叫做回聲,比如天壇著名的回聲壁。實(shí)際上,這里所指的是語(yǔ)音交互設(shè)備自己發(fā)出的聲音,比如Echo音箱,當(dāng)播放歌曲的時(shí)候若叫Alexa,這時(shí)候麥克風(fēng)陣列實(shí)際上采集了正在播放的音樂(lè)和用戶所叫的Alexa聲音,顯然語(yǔ)音識(shí)別無(wú)法識(shí)別這兩類聲音。回聲抵消就是要去掉其中的音樂(lè)信息而只保留用戶的人聲,之所以叫回聲抵消,只是延續(xù)大家的習(xí)慣而已,其實(shí)是不恰當(dāng)?shù)摹?
評(píng)論