語音識別這么火 但你知道它的發(fā)展史嗎?
剩下的難題依舊
本文引用地址:http://m.butianyuan.cn/article/201612/340933.htm語音識別的獨特性不僅僅是因為其成就:盡管已有成果斐然,但剩下的難題和目前已克服的一樣令人生畏。
隨著語音識別研究思路的變化,大規(guī)模的語音識別研究始于20世紀70年代以后,并在小詞匯量、孤立詞的識別方面取得了實質性的進展。20世紀80年代以后,語音識別研究的重點則逐漸轉向大詞匯量、非特定人連續(xù)語音識別。20世紀90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。
但在語音識別技術的應用及產(chǎn)品化方面出現(xiàn)了很大的進展。比如,DARPA是在20世紀70年代由美國國防部遠景研究計劃局資助的一項計劃,旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進入90年代,DARPA計劃仍在持續(xù)進行中,其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。根據(jù)DARPA資助的多次語音評測,語音識別詞錯誤率已經(jīng)是評估進步的主要指標。
我國的語音識別研究起始于1958年,由中國科學院聲學研究所利用電子管電路識別10個元音。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展階段。直至1973年,中國科學院聲學研究所開始了計算機語音識別。
進入80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數(shù)字信號技術的進一步發(fā)展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經(jīng)過多年的沉寂之后重又成為研究熱點。在這種形式下,國內許多單位紛紛投入到這項研究工作中去。
1986年,語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分,被專門列為研究課題。在“863”計劃的支持下,中國開始組織語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。
大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡帶來的大爆發(fā)
任何技術都有蓄能階段和爆發(fā)階段,語音識別技術的爆發(fā)是源于大數(shù)據(jù),伴隨互聯(lián)網(wǎng)出現(xiàn)的漣漪效應和深度神經(jīng)網(wǎng)絡。漣漪效應,指互聯(lián)網(wǎng)思維在提高核心技術表現(xiàn)中的作用。也有人稱之為優(yōu)化迭代,比如吳恩達將其稱之為把研究層、產(chǎn)品和用戶使用組合在一起,形成一個閉環(huán)的迭代優(yōu)化,這是互聯(lián)網(wǎng)思維在核心技術優(yōu)化和突破所發(fā)揮作用的一種表達。通過這種方式不僅可以獲取數(shù)據(jù),還能學習經(jīng)驗、認識以及怎么使用等,比如說調整哪些東西讓用戶體驗得更好。
語音識別是需要經(jīng)驗、數(shù)據(jù)和用戶反饋共同作用來提升表現(xiàn)的。需要利用用戶的反饋總結出一些特點。比如說用戶在說話時會截斷,這樣你就可以通過調整一些參數(shù)來提升表現(xiàn)。因為語音識別不僅是數(shù)據(jù)多了,識別率提高了,還有更多的因素,比如說用戶的感覺、一些關鍵的參數(shù)點、經(jīng)驗等,這些都是可以學習到的?;ヂ?lián)網(wǎng)思維所帶來的就像軟件迭代一樣,通過反饋回來的信息進行調整,這是最核心的。
在大數(shù)據(jù)時代到來后,隱馬爾可夫模型出現(xiàn)了局限,即數(shù)據(jù)量提升時,它帶來的表現(xiàn)提升沒有深度神經(jīng)網(wǎng)絡那么大,但其實都屬于統(tǒng)計模式識別。在語音識別發(fā)展的過程中,深度學習是同時發(fā)生的一件事,如果沒有深度神經(jīng)網(wǎng)絡,但是有大數(shù)據(jù)和漣漪效應,隱馬爾可夫模型也可以做到實用。深度神經(jīng)網(wǎng)絡是讓其做得最好,降低了門檻,讓更多的人可以加入進來。在同樣具有漣漪效應的情況下,深度神經(jīng)網(wǎng)絡比之前的算法好,數(shù)據(jù)越多,深度神經(jīng)網(wǎng)絡的效果更好。還有更加重要的一點,深度神經(jīng)網(wǎng)絡只是整個統(tǒng)計機器模式識別理論框架中的一個環(huán)節(jié)而已,真正重要的環(huán)節(jié)是統(tǒng)計決策系統(tǒng)。
深度神經(jīng)網(wǎng)絡由Geoffrey Hinton與微軟的鄧力研究員最先開始做,谷歌是最早在全球范圍內大規(guī)模使用深度神經(jīng)網(wǎng)絡的公司,谷歌的VoiceSearch也在最早開創(chuàng)了用互聯(lián)網(wǎng)思維做語音識別。在這方面,科大訊飛受到谷歌的啟發(fā),迅速跟進成為國內第一個在商用系統(tǒng)里使用深度神經(jīng)網(wǎng)絡的公司。
語音識別技術已經(jīng)發(fā)展了幾十年的時間,因為大數(shù)據(jù)和深度神經(jīng)網(wǎng)絡的應用,這一領域的傳統(tǒng)強者成了谷歌、亞馬遜、蘋果和微軟這些美國科技巨頭,但據(jù)TechCrunch統(tǒng)計,美國至少有26家公司在開發(fā)語音識別技術。
不過,盡管谷歌這些巨頭在語音識別技術上的技術積累和先發(fā)優(yōu)勢讓后來者似乎難望其項背,但因為一些政策和市場方面的原因,這些巨頭的語音識別主要偏向于英語,這給科大訊飛、百度、搜狗等在漢語領域實現(xiàn)突出表現(xiàn)提供了機會。在國內,這些本土化產(chǎn)品更為用戶所熟知。
從識別到感知認知
在語音識別中,訓練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度?,F(xiàn)如今,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。
盡管視覺和語音識別在近些年來都取得了巨大的進步,但這些研究者仍然提醒說,還有很多的工作要做。
展望未來,研究者正在努力工作以確保語音識別能在更為真實生活的環(huán)境中良好地工作。這些環(huán)境包括具有很多背景噪聲的地方,比如聚會場所或在高速路上駕駛的時候。他們也將關注如何更好地在多人交談環(huán)境中將不同的說話人區(qū)分開,并且確保其能夠在各種各樣的聲音上發(fā)揮效用,而不管說話人的年齡、口音或說話能力。
從更長遠來看,研究者將會關注如何教計算機不只是轉錄來自人類嘴巴的聲音信號,而且還要理解他們所說的話。這樣就能讓這項技術可以根據(jù)自己被告知的內容回答問題或采取行動。
下一個前沿是從識別走向理解,我們正在從一個人類必須理解計算機的世界邁向一個計算機必須理解我們的世界。
評論