了解優(yōu)勢與挑戰(zhàn) 打好“聲紋識別”這張牌

作者：時間：2017-07-11 來源：新智元

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

編者按：聲紋識別，也稱作說話人識別，是一種通過聲音判別說話人身份的技術，廣泛的用途在機器人、智能家居產品、無人車等等。

　　隨著科技的發(fā)展，尤其是生物科技的不斷發(fā)展并逐漸廣泛應用，包括人臉、指紋、掌紋、聲紋等生物特征類證據已成為公安和司法機關破案偵查的重要證據之一，在熱播的《人民的名義》中，聲音就成了調查原漢東省檢察院反貪局局長陳海車禍案件的重要線索。

本文引用地址：http://m.butianyuan.cn/article/201707/361544.htm 揚長避短打好聲紋識別這張牌

　　在眾多生物識別技術中，除了早已使用多年的指紋識別、虹膜識別，近期興起的人臉識別技術被用于公司打卡、軟件系統(tǒng)登錄、家庭或公共場所的安防等多個場景，而語音識別技術的用途更是廣泛，機器人、智能家居產品、無人車等等。

　　隨著相關算法的精進，以上生物識別技術的準確率已經可以與人類相媲美。而在這些識別技術愈加成熟之時，越來越多的人將目光放在另外一種生物識別技術上——聲紋識別。

　　什么是聲紋識別技術?

　　聲紋識別，也稱作說話人識別，是一種通過聲音判別說話人身份的技術。人在講話時使用的發(fā)聲器官舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大，所以任何兩個人的聲紋圖譜都有差異，因而聲紋具有唯一性。

　　根據不同的應用場景，聲紋識別可分為說話人辨識(SpeakerIdentification，SI)和說話人確認(SpeakerVerification，SV)。SI指的是我們有了一段待測的語音，需要將這段語音與我們已知的一個集合內的一干說話人進行比對，選取最匹配的那個說話人，是一個1對多的判別問題;SV指的是我們有了一段未知的語音，緊接著判斷這段語音是否來源于這個目標用戶即可，是一個1對1的二分類問題。

　　聲紋識別的應用及成果

　　在應用上，聲紋識別更大的應用前景在于安防領域，比如刑偵破案、門禁、銀行交易等等。此外，在智能家居等領域，為了安全，也為了更好的智能體驗，比如在人聲鼎沸情境中準確識別哪句話是主人下達的命令等，聲紋識別技術也就漸漸受到了重視。

　　當前，在聲紋識別需求漸增的情況下，專注于聲紋識別的企業(yè)也有不少，并已取得了不錯的成果。比如國外的Nuance、VoiceVault、Voice Biometrics、PhoneFactor,或是國內的科大訊飛、中科信利、廈門天聰、上海電虹等公司。

　　以科大訊飛為例，此前，在錘子手機的發(fā)布會上，羅永浩成功的為科大訊飛做了一次PR，一時間，科大訊飛的語音識別技術受到了人們更多的關注。作為同屬于語音技術的“兄弟”，聲紋技術也是科大訊飛的關注領域，并已研究多年。在2015年，依托于聲紋識別、人臉識別技術，科大訊飛構建了業(yè)界首個統(tǒng)一生物認證系統(tǒng)，用人臉識別補充聲紋識別的不穩(wěn)定性，進一步的提高了安全性，并在金融、保險等領域啟動了大規(guī)模的應用推廣。

　　聲紋識別的優(yōu)勢與挑戰(zhàn)

　　聲紋識別的主要任務包括：語音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等。

　　相對于其他生物識別技術，在安全性上，聲紋識別的唯一性不說排第一，但也是名列前茅的，縱然模仿聲音類似，但也是能夠分辨的出來的。除了更高的安全指數，與其他生物識別技術相比，聲紋識別還有著其他的優(yōu)勢：

　　1、蘊含聲紋特征的語音獲取方便、自然;2、獲取語音的成本低廉，使用簡單，像麥克風、通訊設備等皆可;3、適合遠程身份確認;4、聲紋辨認和確認的算法復雜度低;5、配合一些其他措施，如通過語音識別進行內容鑒別等，可以提高準確率;

　　不過，縱然有著這么多的優(yōu)勢，但在實際操作中，聲紋識別卻面臨著重大的挑戰(zhàn)：

　　1、如何建立聲紋庫和特征：從理論上講，聲紋的獲取是極其容易的，但這僅僅是針對國家相關機構，如目前聲紋庫最全的公安。對企業(yè)而言，所有的聲紋數據都需要他們自行采集，這是一件相當具有難度的任務。另外，在數據不全面的情形之下，聲紋特征的提取和建立也就受到了阻礙，從而就難以訓練聲紋識別的機器學習算法，以提高識別的準確率。

　　2、如何降低內外環(huán)境對于聲紋的影響：目前，人們對聲紋識別的要求已經不僅僅滿足于靜態(tài)檢測，更多的是動態(tài)檢測。在外部環(huán)境中，首先，聲音是通過錄音設備進行采集的，不同的型號的錄音設備對語音都會造成一定程度上的畸變，同時由于背景環(huán)境和傳輸信道等的差異，對語音信息也會造成不同程度的損傷。這些情況的出現為聲紋識別增添了不少的問題。比如外部環(huán)境的影響，哪怕是如今發(fā)展較為完善、已經實現落地的語音識別技術，降噪以及去混響方面也依然是其運行中的一大難題。

　　此外，在內部環(huán)境中，對于同一個用戶，即便采集到的兩段語音內容都是相同的，但由于情緒、語速、疲勞程度等原因，語音都會有一些差異性。在這方面，小伙伴就曾做過實驗，以不同的嗓音、速度喚醒iPhone 7中的Siri，結果顯示，只有與提前錄制的語音同樣的嗓音、速度才能成功喚醒。

新聞中心

了解優(yōu)勢與挑戰(zhàn) 打好“聲紋識別”這張牌

評論

相關推薦

技術專區(qū)