深度丨解析硬件之智能語(yǔ)音領(lǐng)域
亞馬遜Echo
本文引用地址:http://m.butianyuan.cn/article/201703/345354.htmEcho的售價(jià)為179.99美元,采用6+1的麥克風(fēng)陣列,主芯片采用德州儀器的數(shù)字多媒體芯片,同時(shí)采用高通Atheros的WiFi和藍(lán)牙。此數(shù)字多媒體芯片與OMAP3架構(gòu)兼容,最高可以到1GHZ,ARM Coretex A8架構(gòu),具有較高的音視頻編解碼能力,內(nèi)嵌TI的DSP Core,下圖是該芯片的架構(gòu)圖。在軟件上,該產(chǎn)品使用Alexa系統(tǒng),能支持各種應(yīng)用,上面已有說(shuō)明。
Google Home
Google Home售價(jià)為129美元。采用雙麥克風(fēng)陣列,兩顆InvenSense INMP621 MEMS收音芯片。由于Google與Marvell在GoogleTV以及電視棒Chromecast上的良好合作,所以此次也采用Marvell 88DE3006 Armada雙核ARM Cortex-A7多媒體專用處理器,該芯片也是電視棒的主芯片。以及Marvell Avastar 88W8897 WLAN/BT/NFC SoC通訊芯片。未找到該顆主芯片的硬件架構(gòu)圖,下圖是ARMADA 1500同系列高配芯片架構(gòu)圖,帶Audio DSP。在軟件上,該產(chǎn)品使用Google Assistant系統(tǒng)。
亞馬遜Echo和Google Home在硬件上最大的區(qū)別,還是在于亞馬遜使用環(huán)形6+1麥克風(fēng)陣列,而Google是采用雙麥克風(fēng)陣列。麥克風(fēng)陣列是利用一定數(shù)目,一定空間構(gòu)型的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。麥克風(fēng)陣列能做很多事情,對(duì)于環(huán)境噪聲,它可以采用自適應(yīng)波束形成做語(yǔ)音增強(qiáng),從含噪語(yǔ)音信號(hào)中提取純凈語(yǔ)音;對(duì)于說(shuō)話人說(shuō)話位置的不確性,它可以通過(guò)聲源定位技術(shù)來(lái)計(jì)算目標(biāo)說(shuō)話人的角度,來(lái)跟蹤說(shuō)話人以及后續(xù)的語(yǔ)音定向拾取;對(duì)于室內(nèi)聲音反射,導(dǎo)致語(yǔ)音音素交疊,識(shí)別率較低的問(wèn)題,它可以通過(guò)去混響技術(shù),減小混響,提高識(shí)別率。
按照業(yè)內(nèi)人的觀點(diǎn),在家庭的環(huán)境內(nèi),如果優(yōu)化的好,雙麥克風(fēng)陣列可以做到與多麥克風(fēng)差不多的語(yǔ)音增強(qiáng)和降噪效果。雙麥克風(fēng)陣列只能定位180°內(nèi)的范圍,而多麥克風(fēng)則可以做到360°的定位。但是這要依硬件設(shè)備的使用場(chǎng)景而定,比如在機(jī)器人領(lǐng)域,對(duì)聲源定位的要求很高,如Rokid機(jī)器人使用8麥克風(fēng)陣列。但是在有些應(yīng)用場(chǎng)景,如靠墻的冰箱等,只需要180°的定位。在汽車領(lǐng)域,則最好是選用其他結(jié)構(gòu)形式的麥克風(fēng)陣列,比如分布式陣列。目前國(guó)內(nèi)主流的智能語(yǔ)音企業(yè)在雙麥克風(fēng)方案上都有布局,僅云知聲目前搭載雙麥克的芯片模組每月的出貨量就超過(guò)幾萬(wàn)片。
最近的發(fā)展趨勢(shì)在遠(yuǎn)場(chǎng)識(shí)音方面,即5米以上的語(yǔ)音交互。為了實(shí)現(xiàn)更好的效果,多麥克風(fēng)方案是必須的,麥克風(fēng)個(gè)數(shù)越多,對(duì)說(shuō)話人的定位精度越高,但這個(gè)精度體現(xiàn)在距離上,如果說(shuō)話人的距離不是很遠(yuǎn),則差異未必能夠體現(xiàn)。
因此要綜合考慮實(shí)際的應(yīng)用場(chǎng)景,選擇不同的麥克風(fēng)個(gè)數(shù)和陣型。在這方面出了亞馬遜的Echo是采用6+1陣型,國(guó)內(nèi)科大訊飛是4麥和6+0麥方案,思必馳的6+1麥方案,以及聲智科技的4(+1)麥陣列、6(+1)麥陣列和8(+1)麥陣列方案。
值得一提的是麥克風(fēng)陣列最好和前端算法和云端識(shí)別相結(jié)合,麥克風(fēng)陣列只是起到了拾取聲音,但語(yǔ)音的識(shí)別率還要考慮算法的模型的計(jì)算,只有終端硬件和前端算法、云端識(shí)別相結(jié)合,才能使識(shí)別率達(dá)到最佳,這也是亞馬遜、谷歌甚至微軟這類企業(yè)不得不做硬件的根本原因。比如聲智科技,就非常重視麥克風(fēng)陣列與算法的軟硬件結(jié)合的遠(yuǎn)場(chǎng)識(shí)音技術(shù),這也是大家很看好的原因。目前的技術(shù)還是以單人識(shí)別的模式,未來(lái)在某些應(yīng)用場(chǎng)景下需要多人識(shí)別的技術(shù),這也是創(chuàng)業(yè)的機(jī)會(huì)所在。
從硬件本身來(lái)說(shuō),麥克風(fēng)的小型化、低功耗、低成本也是重要的發(fā)展方向。在小型化方面,MEMS的麥克風(fēng)技術(shù)迎合了這種發(fā)展趨勢(shì),目前樓氏占據(jù)了全球MEMS麥克風(fēng)市場(chǎng)的最大市場(chǎng)份額。
據(jù)樓氏透露,其2015年全年的出貨量接近16億顆。但I(xiàn)HS分析指出,由于Goertek、意法半導(dǎo)體與瑞聲科技都在快速增長(zhǎng)。除了麥克風(fēng)本身的小型化,麥克風(fēng)陣列的小型化也是重要的方向,麥克風(fēng)陣列受制于半波長(zhǎng)理論的限制,現(xiàn)在的口徑還是較大,聲智科技現(xiàn)在可以做到2cm-8cm的間距,但是結(jié)構(gòu)布局仍然還是限制了ID設(shè)計(jì)的自由性。
很多產(chǎn)品采用2個(gè)麥克風(fēng)其實(shí)并非成本問(wèn)題,而是ID設(shè)計(jì)的考慮。在低功耗方面,據(jù)樓氏智能語(yǔ)音硬件負(fù)責(zé)人介紹,他們將聲學(xué)活動(dòng)檢測(cè)(Acoustic Activity Detector,AAD)單元放到了麥克風(fēng)里面,實(shí)現(xiàn)一個(gè)自適應(yīng)的實(shí)時(shí)監(jiān)聽(tīng)模式,這種方式能夠使整個(gè)系統(tǒng)節(jié)能70%。而另一家聲學(xué)傳感器開(kāi)發(fā)商Vesper,近日推出了首款商用靜態(tài)傳感MEMS器件,使聲學(xué)事件監(jiān)測(cè)器件實(shí)現(xiàn)幾乎零功耗。當(dāng)處于監(jiān)聽(tīng)模式時(shí),Vesper最新的壓電式MEMS麥克風(fēng)VM1010所需功耗僅為3?A。當(dāng)然這是與芯片的DSP模塊、語(yǔ)音接口和關(guān)鍵詞檢測(cè)算法等相結(jié)合,才實(shí)現(xiàn)了最低功耗的遠(yuǎn)場(chǎng)監(jiān)聽(tīng)效果。
就麥克風(fēng)陣列的低成本而言,除了芯片本身降低成本之外,還需要從麥克風(fēng)陣列整個(gè)結(jié)構(gòu)和系統(tǒng)去考慮,包括器件、芯片、算法和云端。在這方面還有很多的改進(jìn)空間,也是機(jī)會(huì)所在。
就處理芯片來(lái)說(shuō),亞馬遜和Google都是采用常規(guī)的多媒體處理芯片,里面有audio codec的DSP IP。這里需要提到的是喚醒技術(shù),即主芯片在大部分時(shí)間里保持休眠狀態(tài),當(dāng)聽(tīng)到特定詞,如“OkWatch”后觸發(fā)CPU及后臺(tái)系統(tǒng)的開(kāi)啟。在這方面做得比較好的是Sensory,這一塊也是比較好的創(chuàng)業(yè)方向。新的趨勢(shì)可能是在處理芯片里面嵌入深度神經(jīng)網(wǎng)絡(luò),如去年樓氏并購(gòu)了語(yǔ)音解決方案供應(yīng)商Audience后,為樓氏帶來(lái)幾項(xiàng)重要的技術(shù),其中就包括通過(guò)深度神經(jīng)網(wǎng)絡(luò)(DNN)的基于機(jī)器學(xué)習(xí)的語(yǔ)音識(shí)別,我們希望早日看到這類芯片的出貨。
當(dāng)然對(duì)于芯片而言還有一個(gè)方面是做更高的集成度,包括集成WiFi/BT、DSP、audio Codec的SoC單芯片,我們也看到基于WiFi/BT的Combo芯片,帶Corex M3/M4,若再加上audio Codec,就是單芯片的方案。當(dāng)然這里的前提是有足夠的量做為支撐。
就算法而言,語(yǔ)音識(shí)別在2010年卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用之后,準(zhǔn)確率大幅提升,已經(jīng)在C端、B端得到了廣泛應(yīng)用。當(dāng)前語(yǔ)音識(shí)別技術(shù)的主流算法,主要有基于參數(shù)模型的隱馬爾可夫模型(HMM)模型和混合高斯模型(HMM-GMM)的方法、基于HMM和深度網(wǎng)絡(luò)(HMM-DNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM等語(yǔ)音建模方法。語(yǔ)音識(shí)別整個(gè)過(guò)程包含語(yǔ)音信號(hào)增強(qiáng)、靜音檢測(cè)、聲學(xué)特征提取、聲學(xué)和語(yǔ)音模型計(jì)算、解碼等多個(gè)環(huán)節(jié)。由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實(shí)使用場(chǎng)景中,考慮到遠(yuǎn)場(chǎng)、方言、噪音、斷句等問(wèn)題,準(zhǔn)確率會(huì)大打折扣。
目前業(yè)內(nèi)普遍宣稱的97%識(shí)別準(zhǔn)確率,更多的是人工測(cè)評(píng)結(jié)果,只在安靜室內(nèi)的進(jìn)場(chǎng)識(shí)別中才能實(shí)現(xiàn)。按照微軟首席研究員俞棟的看法,需要在幾個(gè)方面做改進(jìn),包括進(jìn)一步提升在遠(yuǎn)場(chǎng)識(shí)別尤其是有人聲干擾情況下的識(shí)別率;提供更好的識(shí)別算法,一個(gè)方面是能不能更簡(jiǎn)單,另一方面尋找一些特殊的網(wǎng)絡(luò)結(jié)構(gòu)放到模型里面,以提升性能;還有一個(gè)方向是快速自適應(yīng)的方法,快速的不需要人工干預(yù)的自適應(yīng)方法(unsupervised adaptation)。但我始終覺(jué)得,單靠算法不足以形成足夠持續(xù)的競(jìng)爭(zhēng)力,特別是越來(lái)越多的算法會(huì)走向開(kāi)源,需要與數(shù)據(jù)、硬件以及好的商業(yè)模式相結(jié)合。
剛才提到的都是基于某個(gè)點(diǎn)的優(yōu)化,無(wú)論是麥克風(fēng)陣列、芯片化還是算法,都是需要很高的技術(shù)作為支撐。但作為創(chuàng)業(yè)公司來(lái)說(shuō),都是根據(jù)自己的資源,結(jié)合當(dāng)前產(chǎn)業(yè)鏈的現(xiàn)狀以及趨勢(shì),找到自己能立足的地方。針對(duì)當(dāng)前很多巨頭都在關(guān)注智能語(yǔ)音領(lǐng)域,他們必定花費(fèi)大量的資源投入其中,作為創(chuàng)業(yè)企業(yè),如果能借助這些資源,找到自己在細(xì)分市場(chǎng)的發(fā)展空間,也是不錯(cuò)的選擇。
如Linkplay在推廣Alexa業(yè)務(wù)中扮演第三方中間商的角色,為硬件廠商提供Alexa接入語(yǔ)音服務(wù)與授權(quán)渠道,幫助廠商快速實(shí)現(xiàn)Alexa相關(guān)功能;篩選品牌,協(xié)助亞馬遜做好認(rèn)證工作,保證用戶體驗(yàn)Alexa服務(wù)的一致性和標(biāo)準(zhǔn)化,這是基于中國(guó)有大量的硬件廠商,而最終客戶往往都是海外的考慮,公司找到了這樣的機(jī)會(huì)。雖然這涉及到過(guò)渡依賴的問(wèn)題,但是有其存在的意義和發(fā)展的空間的,企業(yè)也可以在服務(wù)方面打造自己持續(xù)的競(jìng)爭(zhēng)力。
還有一種創(chuàng)業(yè)模式是平臺(tái)型的模式,這里說(shuō)的模式不是只是基于語(yǔ)音的云管端模式,而是把語(yǔ)音作為其中的一部分,甚至語(yǔ)音不是最重要的部分,同時(shí)服務(wù)于不同的客戶。
一個(gè)例子如迪韻科技,可以在物聯(lián)網(wǎng)音視頻領(lǐng)域提供一站式解決方案,其Mediawin平臺(tái)為傳統(tǒng)行業(yè)以及硬件企業(yè)提供“耳朵”和“眼鏡”方案。Mediawin方案平臺(tái)整合了多方面的資源,比如與多家聲學(xué)器件廠商合作定制了麥克風(fēng)、喇叭等聲學(xué)器件;與專業(yè)芯片廠商合作開(kāi)發(fā)了深度優(yōu)化的音頻處理算法;與語(yǔ)音識(shí)別方案商合作提升語(yǔ)音識(shí)別的準(zhǔn)確率;接入第三方的平臺(tái)提供更多的音視頻應(yīng)用功能等。
根據(jù)客戶的不同需求,比如白牌企業(yè)可能需要完整的音視頻解決方案、大企業(yè)可能僅需要底層處理算法支持、方案商需要整合專業(yè)的處理算法+云平臺(tái)資源等,提供定制化的軟硬件方案服務(wù)。在設(shè)備端,Mediawin平臺(tái)針對(duì)各種嵌入式產(chǎn)品,擁有完善的硬件解決方案,比如專業(yè)的音腔設(shè)計(jì)、音視頻器件選型、聲學(xué)場(chǎng)景優(yōu)化、音視頻模組等,能幫助企業(yè)簡(jiǎn)化6大音視頻開(kāi)發(fā)難題。相對(duì)于亞馬遜Alexa以及Linkplay的組合,迪韻提供了更完整和多樣化的方案路徑。當(dāng)然這種模式能做多大尚需考證。
評(píng)論