Alexa 笑了,聲紋識別該醒醒了!
人工智能已經(jīng)火了一陣子了。
本文引用地址:http://m.butianyuan.cn/article/201804/378011.htm但是,我們確實還有點云里霧里,盡管所有的企業(yè)都號稱用AI改變一切,但是現(xiàn)階段,我們不得不承認,以智能音箱為代表的人工智能確實不是人們所期待的。
此外,不得不吐槽的智能語音客服,大家隨便給淘寶或者京東打個電話體驗下就知道了。他們并不能有效地識別出你語意(當然至少是我說的不能識別),反而在打電話中插入了語音客服,體驗稍差,但是可以理解,任何一項技術(shù)由創(chuàng)新走向成熟,必定有有體驗差的階段,我們現(xiàn)在就是這個階段。
而且,最近Alexa突然大笑的事件,人工智能悲觀論又被廣泛討論起來,透過這場事件,我們可以詳細了解下跟聲音有關(guān)的人工智能。
1.為什么是智能音箱?
不知道大家有沒有注意到,好像互聯(lián)網(wǎng)巨頭公司,都有自己的智能音箱產(chǎn)品。
根據(jù)奧維云網(wǎng)研究報告指出,2017年全球智能音箱市場規(guī)模達到3000萬臺,包括谷歌、亞馬遜以及蘋果等科技巨頭。從國內(nèi)看,2017年市場銷量176萬臺,銷售額4.9億元,市場爆發(fā)背后其實是企業(yè)激進式的推動,主要體現(xiàn)在產(chǎn)品升級、宣傳推廣、定價顛覆和節(jié)日促銷四個方面。以天貓精靈舉例,雙十一活動價格僅需99元人民幣。
那么這些巨頭公司,為什么紛紛發(fā)力智能音箱這個領(lǐng)域呢?
1、智能家庭超級入口
現(xiàn)在家居絕大部分還是通過接觸才能控制,用手來打開開關(guān),或者用遙控器來關(guān)電視。但是無論是在電影中還是人們的想象中,人們都期望著,只需要一句話就能打開家電,通過語音來控制各種生活中常見的東西。這些場景中的家居產(chǎn)品,其實都有一個共同點:全部通過語音交互來完成。但現(xiàn)階段,使用遙控器或者是手機甚至是手來操作,都不能滿足用戶的需求。所以人們需要一個接口,能通過這個接口來進行控制整個家里的布局。
在如今盛行人工智能、大數(shù)據(jù)的時代,語音交互的實際使用效果也越來越實用。許多廠商在此之前也已經(jīng)推出了智能家居系統(tǒng),例如蘋果HomeKit系統(tǒng),在此基礎上,智能音箱的控制權(quán)對于廠商來說就十分重要了。
而智能音箱入口關(guān)鍵不在于音箱的播放功能,而是語音對講功能。未來真正智能化必定是人與物對講。實物必須可以聽到我們的聲音,必須可以發(fā)出聲音反饋我們。符合條件的只有手機、電視和音箱。但是手機不能解放雙手,并且需要喚醒,電視要保持待機,而且為了控制一個功能把電視待機太浪費電而且不劃算。只有音箱最合適,隨時待機,自由對講。
2、大數(shù)據(jù)采集器
簡單來說,大佬們都希望用智能音箱打開物聯(lián)網(wǎng)的接口,以避免自己被淘汰。
憑借著銷量不斷進行的語音交互,是行業(yè)大佬們進行數(shù)據(jù)采集的路徑之一,目前看來,智能音箱的大玩家,都將輿論引向搶占智能家居的入口,從這個角度來看,巨頭們真正的邏輯在于提早布局,完成對數(shù)據(jù)的收割。對于語音人機交互、物聯(lián)網(wǎng)入口來說,數(shù)據(jù)樣本是未來核心競爭的關(guān)鍵,要有足夠大的樣本才能為語音交互提供深度學習的土壤。
舉個例子來說,我們針對一個固定短語進行語音模型的建立,100個人和1000乃至10000人,所構(gòu)建的模型是不一樣的,人數(shù)越多所構(gòu)建的模型越精確。
其次,是通過這樣一個試驗性產(chǎn)品進行數(shù)據(jù)的采集,從而對智能家居的深度化場景的挖掘,這些制作智能音響的企業(yè), 都擁有自己的云計算業(yè)務。未來,物聯(lián)網(wǎng)行業(yè)一定是基于大數(shù)據(jù)和云計算的,而沒有大量的數(shù)據(jù)支撐,很多場景以及計算都無法實現(xiàn)。
2.為什么是聲紋識別?
這里為什么談到聲紋識別。
這里就涉及到一個詞義的區(qū)別:語音識別和聲紋識別。語音識別更多的偏向其能否識別你說的話;而聲紋識別,是指一個機器能否認出他的主人。
舉個例子:假設我有一個天貓精靈它帶有聲紋識別功能(事實上,天貓精靈已經(jīng)有此項功能),每當我叫他天貓精靈,他能知道,是我在叫他,這個叫做語音識別。目前市面上可能有上千家公司在做類似的工作。但是更難的在這里,如果天貓精靈能識別出是我在叫他,而不是你,也不是其他人,這里就叫做聲紋識別了。所以語音識別,解決了說什么的問題,而聲紋識別解決了你是誰的問題。
當前,盡管智能家居語音控制系統(tǒng)已經(jīng)滿足了人們的基本需求,不過,仍然有一些小小的不足,而這方面,就需要聲紋識別技術(shù)進行補充了。打個比方,當聲紋識別技術(shù)發(fā)展較為成熟之時,若一位家庭成員呼喚音箱打開自己房間的燈,語音控制系統(tǒng)就能通過聲紋識別技術(shù)確認說話人的身份,從而準確的打開說話人房間的燈。
這樣,當有人非法入侵住宅,若語音控制系統(tǒng)不限制說話人的身份,縱然有著智能監(jiān)控系統(tǒng),闖入者完全可以直接下命令關(guān)閉監(jiān)控系統(tǒng),如此一來,闖入者就成功的得到了住宅的臨時控制權(quán)。當搭載聲紋識別技術(shù),基于聲紋的獨特性,在不能識別出闖入者身份的前提下,語音控制系統(tǒng)就能接著進行報警等一系列安防措施。
所以,未來更多的智能家居上面將配有聲紋識別,好處就是你的設備安全性有了一個新的高度。但是不得不說,以目前聲紋技術(shù)的發(fā)展,如何在眾多人聲中,識別出你的聲音,或者如何在一個嘈雜環(huán)境下識別出你的聲音,這些都急需突破。
3.專業(yè)的聲紋識別公司
目前,國內(nèi)做聲紋的企業(yè),也逐漸起來。一系列聲紋企業(yè),正在壯大。特別是以科大訊飛為首,整個行業(yè)都呈現(xiàn)上升發(fā)展的態(tài)勢。
北京君林科技股份有限公司,專業(yè)的電聲企業(yè),打造人工智能時代的金耳朵。面向全球,提供最領(lǐng)先的音頻領(lǐng)域解決方案和專業(yè)服務,基于聲學推動人工智能技術(shù)產(chǎn)品落地。
公司以打造人工智能領(lǐng)域的音頻硬件平臺及系統(tǒng)平臺,使君林技術(shù)成為人工智能音頻領(lǐng)域不可或缺的環(huán)節(jié)為發(fā)展目標。并以此為基礎,全面覆蓋聲學技術(shù)-固件算法-智能硬件-系統(tǒng)驅(qū)動-云服務-大數(shù)據(jù)-Ai技術(shù)等技術(shù)鏈。
君林科技擁有一整套完整的聲音處理系統(tǒng)解決方案。用戶可以使用已有或者定制的音頻數(shù)據(jù)采集方案,通過君林科技聲紋REST API上傳至云端,由人工智能算法進行建模,識別與認證,有效為企業(yè)創(chuàng)造最大價值。
公司自2016年成立以來,發(fā)展迅速已集結(jié)了國內(nèi)外相關(guān)行業(yè)領(lǐng)先技術(shù)人才,核心團隊成員來自亞馬遜、摩托羅拉、華為、樂視等知名企業(yè)。同年,公司在加拿大設有聲學大數(shù)據(jù)及人工智能研究中心,與國內(nèi)知名大學聯(lián)合建立聲學實驗室,打造行業(yè)最前端的音頻技術(shù)。
4.總結(jié)
聲紋識別作為人類生物特征識別的一個重要方向,屬于人工智能的重要分支,相信在未來,隨著人工智能技術(shù)的發(fā)展,會有更多的暢想空間,更多的產(chǎn)品服務于人類。
但是,從目前來看,主要實際商業(yè)應用場景識別環(huán)境的復雜性可能導致身份識別的誤差較大。因為聲紋識別的核心介質(zhì)是聲音,那么為了聲音的純粹和真實,原則上就需要周圍沒有雜音。雖然技術(shù)上能做到一定程度的雜音過濾,但只要是有外界雜音干擾,就必然帶來誤判的巨大風險。但好在,君林科技已經(jīng)有基于聲學而推動產(chǎn)品落地,相信用不了多久,我們就真的可以解放雙手了。
評論