Alexa 笑了，聲紋識別該醒醒了！

作者：時間：2018-04-08 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　人工智能已經(jīng)火了一陣子了。

本文引用地址：http://m.butianyuan.cn/article/201804/378011.htm

　　但是，我們確實還有點云里霧里，盡管所有的企業(yè)都號稱用AI改變一切，但是現(xiàn)階段，我們不得不承認(rèn)，以智能音箱為代表的人工智能確實不是人們所期待的。

　　此外，不得不吐槽的智能語音客服，大家隨便給淘寶或者京東打個電話體驗下就知道了。他們并不能有效地識別出你語意(當(dāng)然至少是我說的不能識別)，反而在打電話中插入了語音客服，體驗稍差，但是可以理解，任何一項技術(shù)由創(chuàng)新走向成熟，必定有有體驗差的階段，我們現(xiàn)在就是這個階段。

　　而且，最近Alexa突然大笑的事件，人工智能悲觀論又被廣泛討論起來，透過這場事件，我們可以詳細(xì)了解下跟聲音有關(guān)的人工智能。

　　1.為什么是智能音箱?

　　不知道大家有沒有注意到，好像互聯(lián)網(wǎng)巨頭公司，都有自己的智能音箱產(chǎn)品。

　　根據(jù)奧維云網(wǎng)研究報告指出，2017年全球智能音箱市場規(guī)模達(dá)到3000萬臺，包括谷歌、亞馬遜以及蘋果等科技巨頭。從國內(nèi)看，2017年市場銷量176萬臺，銷售額4.9億元，市場爆發(fā)背后其實是企業(yè)激進(jìn)式的推動，主要體現(xiàn)在產(chǎn)品升級、宣傳推廣、定價顛覆和節(jié)日促銷四個方面。以天貓精靈舉例，雙十一活動價格僅需99元人民幣。

　　那么這些巨頭公司，為什么紛紛發(fā)力智能音箱這個領(lǐng)域呢?

　　1、智能家庭超級入口

　　現(xiàn)在家居絕大部分還是通過接觸才能控制，用手來打開開關(guān)，或者用遙控器來關(guān)電視。但是無論是在電影中還是人們的想象中，人們都期望著，只需要一句話就能打開家電，通過語音來控制各種生活中常見的東西。這些場景中的家居產(chǎn)品，其實都有一個共同點：全部通過語音交互來完成。但現(xiàn)階段，使用遙控器或者是手機甚至是手來操作，都不能滿足用戶的需求。所以人們需要一個接口，能通過這個接口來進(jìn)行控制整個家里的布局。

　　在如今盛行人工智能、大數(shù)據(jù)的時代，語音交互的實際使用效果也越來越實用。許多廠商在此之前也已經(jīng)推出了智能家居系統(tǒng)，例如蘋果HomeKit系統(tǒng)，在此基礎(chǔ)上，智能音箱的控制權(quán)對于廠商來說就十分重要了。

　　而智能音箱入口關(guān)鍵不在于音箱的播放功能，而是語音對講功能。未來真正智能化必定是人與物對講。實物必須可以聽到我們的聲音，必須可以發(fā)出聲音反饋我們。符合條件的只有手機、電視和音箱。但是手機不能解放雙手，并且需要喚醒，電視要保持待機，而且為了控制一個功能把電視待機太浪費電而且不劃算。只有音箱最合適，隨時待機，自由對講。

　　2、大數(shù)據(jù)采集器

　　簡單來說，大佬們都希望用智能音箱打開物聯(lián)網(wǎng)的接口，以避免自己被淘汰。

　　憑借著銷量不斷進(jìn)行的語音交互，是行業(yè)大佬們進(jìn)行數(shù)據(jù)采集的路徑之一，目前看來，智能音箱的大玩家，都將輿論引向搶占智能家居的入口，從這個角度來看，巨頭們真正的邏輯在于提早布局，完成對數(shù)據(jù)的收割。對于語音人機交互、物聯(lián)網(wǎng)入口來說，數(shù)據(jù)樣本是未來核心競爭的關(guān)鍵，要有足夠大的樣本才能為語音交互提供深度學(xué)習(xí)的土壤。

　　舉個例子來說，我們針對一個固定短語進(jìn)行語音模型的建立，100個人和1000乃至10000人，所構(gòu)建的模型是不一樣的，人數(shù)越多所構(gòu)建的模型越精確。

　　其次，是通過這樣一個試驗性產(chǎn)品進(jìn)行數(shù)據(jù)的采集，從而對智能家居的深度化場景的挖掘，這些制作智能音響的企業(yè)，都擁有自己的云計算業(yè)務(wù)。未來，物聯(lián)網(wǎng)行業(yè)一定是基于大數(shù)據(jù)和云計算的，而沒有大量的數(shù)據(jù)支撐，很多場景以及計算都無法實現(xiàn)。

　　2.為什么是聲紋識別?

　　這里為什么談到聲紋識別。

　　這里就涉及到一個詞義的區(qū)別：語音識別和聲紋識別。語音識別更多的偏向其能否識別你說的話;而聲紋識別，是指一個機器能否認(rèn)出他的主人。

　　舉個例子：假設(shè)我有一個天貓精靈它帶有聲紋識別功能(事實上，天貓精靈已經(jīng)有此項功能)，每當(dāng)我叫他天貓精靈，他能知道，是我在叫他，這個叫做語音識別。目前市面上可能有上千家公司在做類似的工作。但是更難的在這里，如果天貓精靈能識別出是我在叫他，而不是你，也不是其他人，這里就叫做聲紋識別了。所以語音識別，解決了說什么的問題，而聲紋識別解決了你是誰的問題。

　　當(dāng)前，盡管智能家居語音控制系統(tǒng)已經(jīng)滿足了人們的基本需求，不過，仍然有一些小小的不足，而這方面，就需要聲紋識別技術(shù)進(jìn)行補充了。打個比方，當(dāng)聲紋識別技術(shù)發(fā)展較為成熟之時，若一位家庭成員呼喚音箱打開自己房間的燈，語音控制系統(tǒng)就能通過聲紋識別技術(shù)確認(rèn)說話人的身份，從而準(zhǔn)確的打開說話人房間的燈。

　　這樣，當(dāng)有人非法入侵住宅，若語音控制系統(tǒng)不限制說話人的身份，縱然有著智能監(jiān)控系統(tǒng)，闖入者完全可以直接下命令關(guān)閉監(jiān)控系統(tǒng)，如此一來，闖入者就成功的得到了住宅的臨時控制權(quán)。當(dāng)搭載聲紋識別技術(shù)，基于聲紋的獨特性，在不能識別出闖入者身份的前提下，語音控制系統(tǒng)就能接著進(jìn)行報警等一系列安防措施。

　　所以，未來更多的智能家居上面將配有聲紋識別，好處就是你的設(shè)備安全性有了一個新的高度。但是不得不說，以目前聲紋技術(shù)的發(fā)展，如何在眾多人聲中，識別出你的聲音，或者如何在一個嘈雜環(huán)境下識別出你的聲音，這些都急需突破。

　　3.專業(yè)的聲紋識別公司

　　目前，國內(nèi)做聲紋的企業(yè)，也逐漸起來。一系列聲紋企業(yè)，正在壯大。特別是以科大訊飛為首，整個行業(yè)都呈現(xiàn)上升發(fā)展的態(tài)勢。

　　北京君林科技股份有限公司，專業(yè)的電聲企業(yè)，打造人工智能時代的金耳朵。面向全球，提供最領(lǐng)先的音頻領(lǐng)域解決方案和專業(yè)服務(wù)，基于聲學(xué)推動人工智能技術(shù)產(chǎn)品落地。

　　公司以打造人工智能領(lǐng)域的音頻硬件平臺及系統(tǒng)平臺，使君林技術(shù)成為人工智能音頻領(lǐng)域不可或缺的環(huán)節(jié)為發(fā)展目標(biāo)。并以此為基礎(chǔ)，全面覆蓋聲學(xué)技術(shù)-固件算法-智能硬件-系統(tǒng)驅(qū)動-云服務(wù)-大數(shù)據(jù)-Ai技術(shù)等技術(shù)鏈。

　　君林科技擁有一整套完整的聲音處理系統(tǒng)解決方案。用戶可以使用已有或者定制的音頻數(shù)據(jù)采集方案，通過君林科技聲紋REST API上傳至云端，由人工智能算法進(jìn)行建模，識別與認(rèn)證，有效為企業(yè)創(chuàng)造最大價值。

　　公司自2016年成立以來，發(fā)展迅速已集結(jié)了國內(nèi)外相關(guān)行業(yè)領(lǐng)先技術(shù)人才，核心團(tuán)隊成員來自亞馬遜、摩托羅拉、華為、樂視等知名企業(yè)。同年，公司在加拿大設(shè)有聲學(xué)大數(shù)據(jù)及人工智能研究中心，與國內(nèi)知名大學(xué)聯(lián)合建立聲學(xué)實驗室，打造行業(yè)最前端的音頻技術(shù)。

　　4.總結(jié)

　　聲紋識別作為人類生物特征識別的一個重要方向，屬于人工智能的重要分支，相信在未來，隨著人工智能技術(shù)的發(fā)展，會有更多的暢想空間，更多的產(chǎn)品服務(wù)于人類。

　　但是，從目前來看，主要實際商業(yè)應(yīng)用場景識別環(huán)境的復(fù)雜性可能導(dǎo)致身份識別的誤差較大。因為聲紋識別的核心介質(zhì)是聲音，那么為了聲音的純粹和真實，原則上就需要周圍沒有雜音。雖然技術(shù)上能做到一定程度的雜音過濾，但只要是有外界雜音干擾，就必然帶來誤判的巨大風(fēng)險。但好在，君林科技已經(jīng)有基于聲學(xué)而推動產(chǎn)品落地，相信用不了多久，我們就真的可以解放雙手了。

新聞中心

Alexa 笑了，聲紋識別該醒醒了！

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

Alexa 笑了，聲紋識別該醒醒了！

評論

相關(guān)推薦

技術(shù)專區(qū)

Alexa 笑了，聲紋識別該醒醒了！