新聞中心

EEPW首頁 > 消費電子 > 業(yè)界動態(tài) > 語音識別這么火 但你知道它的發(fā)展史嗎?

語音識別這么火 但你知道它的發(fā)展史嗎?

作者: 時間:2016-12-01 來源:機器人圈 收藏
編者按:在計算機能理解其所聽到或看到的事物的真正含義之前,還需要很長時間的工作,還有很長的路要走,真正的人工智能仍然還在遙遠的地平線上。

  語言,之所以重要,在于人類的思維能力是伴隨著它的產(chǎn)生而迅速發(fā)展的,這也是人類在智能上區(qū)別于其他物種的原因。,作為人工智能應用的一個場景,也是研究者們一直試圖解決的問題。

本文引用地址:http://m.butianyuan.cn/article/201612/340933.htm
語音識別這么火 但你知道它的發(fā)展史嗎?

  2016年10月底,微軟宣布實現(xiàn)了歷史性突破,詞錯率僅5.9%,英語的語音轉錄達到專業(yè)速錄員水平,微軟的此次突破是機器的識別能力在英語水平上第一次超越人類。微軟的這條消息發(fā)布之后在業(yè)內(nèi)引起了極大的關注。一直是國內(nèi)外許多科技公司重點發(fā)展的技術之一,百度首席科學家吳恩達就發(fā)推特恭賀微軟在英語語音識別上的突破,同時也回憶起一年前百度在漢語語音識別上的突破,其Deep Speech2的短語識別的詞錯率已經(jīng)降到了3.7%,Deep Speech2轉錄某些語音的能力基本上是超人級的,能夠比普通話母語者更精確地轉錄較短的查詢。

  夢想從貝爾實驗室開始

  不久前,麻省理工學院(MIT)主辦的知名科技期刊《麻省理工科技評論》(MITTechnologyReview),評選出了“2016年十大突破技術”?!堵槭±砉た萍荚u論》稱,在過去的一年里,這十項技術均已到達一個里程碑式的階段或即將到達這一階段。而語音識別的突破就是其中的第三項。

  回顧人類發(fā)展史,不難看出,隨著人的不斷進化,從最初通過手掌、肢體使用簡單工具、傳遞簡單信息,發(fā)展到控制發(fā)聲并通過耳朵接收,形成了一個以語音為載體的快速信息傳遞通道和收發(fā)閉環(huán),成為人類間最自然、最重要的信息交互手段。聲波作為一種音頻信號,和視頻信號、無線電信號一樣是,非接觸方式的傳播,也是人類唯一可以不借助工具就可自由掌控的一種天然“無線”資源。而且聲波對接收指向性的要求更寬松,這個非常寶貴的特性會在很多場景下帶來極大便利。特別是對于一些在視覺、觸覺等方面存在障礙(如老年人、弱視、殘障人士)或不適合(如兒童需要保護視力)的龐大特定人群,語音更是最佳的交互選擇。

  1946年,現(xiàn)代電子計算機出現(xiàn)后,計算機在很多事情上做得比人還好,既然如此,機器能不能懂得自然語言呢?與機器進行語音交流,讓它聽明白你在說什么,語音識別技術是計算機一出現(xiàn),人類就開始憧憬的一大夢想。

  最早提出機器智能概念的是計算機科學之父阿蘭·圖靈,1950年他在《思想》(Mind)雜志上發(fā)表了一篇題為“計算的機器和智能”的論文。在論文中,圖靈并沒有提出什么研究方法,而是提出了一種驗證機器是否有智能的方法:讓人和機器進行交流,如果人無法判斷自己交流的對象是人還是機器,就說明這個機器有智能了。這種方法被后人稱作圖靈測試。圖靈其實是留下了一個問題,而非答案,但是一般認為對自然語言的機器處理可以追溯到那個時候。

  科學家認為語音識別就好比“機器的聽覺系統(tǒng)”,該技術可以讓機器通過識別和理解,把語音信號轉變?yōu)橄鄳奈谋净蛎睢?952年,貝爾研究所,Davis等人研制了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年,英國的Denes等人研制了第一個計算機語音識別系統(tǒng)。

  事實上,語音識別60多年的發(fā)展過程可以分成多個階段。早期的20多年,即從20世紀50年代到70年代,是科學家們走彎路的階段,全世界的科學家對計算機完成語音識別這類只有人才能做的事情,認為必須先讓計算機理解自然語言,這就局限在人類學習語言的方式上了,也就是用電腦模擬人腦,這20多年的研究成果近乎為零。

  賈里尼克的貢獻

  直到1970年后,統(tǒng)計語言學的出現(xiàn)才使語音識別重獲新生,并取得了今天的飛凡成就。推動這個技術路線轉變的關鍵人物是德里克·賈里尼克(FrederickJelinek)和他領導的IBM華生實驗室(T.J.Watson),開始使用統(tǒng)計方法。采用統(tǒng)計的方法,IBM將當時的語音識別率從70%提升到90%,同時語音識別的規(guī)模從幾百單詞上升到幾萬單詞,這樣語音識別就有了從實驗室走向?qū)嶋H應用的可能。

  《從水門事件到莫妮卡·萊溫斯基》是賈里尼克在1999年ICASSP(國際聲學、語言和信號處理大會)做的報告題目,因為水門事件發(fā)生的時間1972年,恰好是統(tǒng)計語音識別開始的時間,而因萊溫斯基事件彈劾克林頓總統(tǒng)正好發(fā)生于當時會議的前一年。

  賈里尼克在康奈爾十年磨一劍,潛心研究信息論,終于悟出了真諦。1972年,賈里尼克到IBM華生實驗室做學術休假,無意中領導了語音識別實驗室,兩年后他在康奈爾和IBM之間選擇了留在IBM。

  20世紀70年代的IBM有點像90年代的微軟和過去十年(施密特時代)的Google,任由杰出科學家做自己感興趣的研究。在那種寬松的環(huán)境里,賈里尼克等人提出了統(tǒng)計語音識別的框架結構。

  在賈里尼克之前,科學家們把語音識別問題當作人工智能和模式匹配問題,而賈里尼克將它當作通信問題,并用兩個隱含馬爾可夫模型(聲學模型和語言模型)把語音識別概括得清清楚楚。這個框架結構至今仍對語音識別影響深遠,它不僅從根本上使得語音識別有使用的可能,而且奠定了今天自然語言處理的基礎。賈里尼克后來也因此當選美國工程院院士,并被Technology雜志評為20世紀100名發(fā)明家之一。

  賈里尼克的前輩們在將統(tǒng)計的方法應用于語音識別時,遇到了兩個不可逾越的障礙:缺乏計算能力強大的計算機和大量可以用于統(tǒng)計的機讀文本語料,最后前輩們不得不選擇放棄。20世紀的IBM,雖然計算機的計算能力不能和今天相比,但已可以做不少事了,賈里尼克和他的同事需要解決的問題就是如何找到大量的機讀語料。好在當時有一項全球性的業(yè)務是通過電信網(wǎng)連接在一起的,那就是電傳,IBM的科學家最初就是通過電傳業(yè)務的文本開始進行研究的。

  為什么當初是沒有什么語音識別基礎的IBM,而不是在這個領域里有很長研究時間的貝爾實驗室或者卡內(nèi)基-梅隆大學提出統(tǒng)計語音識別的處理。很多歷史的偶然性背后都有著它必然的原因,因為IBM有著這樣的計算能力,又有物質(zhì)條件,同時聚集了一大批世界上最聰明的頭腦。

  基于統(tǒng)計的語音識別替代基于規(guī)則的前后方法交替經(jīng)歷了15年時間。之所以歷經(jīng)許久,是因為新的研究方法成熟需要很多年。


上一頁 1 2 下一頁

關鍵詞: 語音識別

評論


相關推薦

技術專區(qū)

關閉