新聞中心

EEPW首頁(yè) > 消費(fèi)電子 > 業(yè)界動(dòng)態(tài) > 語音識(shí)別這么火 但你知道它的發(fā)展史嗎?

語音識(shí)別這么火 但你知道它的發(fā)展史嗎?

作者: 時(shí)間:2016-12-01 來源:機(jī)器人圈 收藏
編者按:在計(jì)算機(jī)能理解其所聽到或看到的事物的真正含義之前,還需要很長(zhǎng)時(shí)間的工作,還有很長(zhǎng)的路要走,真正的人工智能仍然還在遙遠(yuǎn)的地平線上。

  剩下的難題依舊

本文引用地址:http://m.butianyuan.cn/article/201612/340933.htm

  的獨(dú)特性不僅僅是因?yàn)槠涑删停罕M管已有成果斐然,但剩下的難題和目前已克服的一樣令人生畏。

  隨著研究思路的變化,大規(guī)模的研究始于20世紀(jì)70年代以后,并在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。20世紀(jì)80年代以后,語音識(shí)別研究的重點(diǎn)則逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識(shí)別。20世紀(jì)90年代以后,在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。

  但在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如,DARPA是在20世紀(jì)70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進(jìn)入90年代,DARPA計(jì)劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。根據(jù)DARPA資助的多次語音評(píng)測(cè),語音識(shí)別詞錯(cuò)誤率已經(jīng)是評(píng)估進(jìn)步的主要指標(biāo)。

  我國(guó)的語音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)研究所利用電子管電路識(shí)別10個(gè)元音。由于當(dāng)時(shí)條件的限制,中國(guó)的語音識(shí)別研究工作一直處于緩慢發(fā)展階段。直至1973年,中國(guó)科學(xué)院聲學(xué)研究所開始了計(jì)算機(jī)語音識(shí)別。

  進(jìn)入80年代以來,隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時(shí),國(guó)際上語音識(shí)別技術(shù)在經(jīng)過多年的沉寂之后重又成為研究熱點(diǎn)。在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。

  1986年,語音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分,被專門列為研究課題。在“863”計(jì)劃的支持下,中國(guó)開始組織語音識(shí)別技術(shù)的研究,并決定了每隔兩年召開一次語音識(shí)別的專題會(huì)議。

  大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)帶來的大爆發(fā)

  任何技術(shù)都有蓄能階段和爆發(fā)階段,語音識(shí)別技術(shù)的爆發(fā)是源于大數(shù)據(jù),伴隨互聯(lián)網(wǎng)出現(xiàn)的漣漪效應(yīng)和深度神經(jīng)網(wǎng)絡(luò)。漣漪效應(yīng),指互聯(lián)網(wǎng)思維在提高核心技術(shù)表現(xiàn)中的作用。也有人稱之為優(yōu)化迭代,比如吳恩達(dá)將其稱之為把研究層、產(chǎn)品和用戶使用組合在一起,形成一個(gè)閉環(huán)的迭代優(yōu)化,這是互聯(lián)網(wǎng)思維在核心技術(shù)優(yōu)化和突破所發(fā)揮作用的一種表達(dá)。通過這種方式不僅可以獲取數(shù)據(jù),還能學(xué)習(xí)經(jīng)驗(yàn)、認(rèn)識(shí)以及怎么使用等,比如說調(diào)整哪些東西讓用戶體驗(yàn)得更好。

  語音識(shí)別是需要經(jīng)驗(yàn)、數(shù)據(jù)和用戶反饋共同作用來提升表現(xiàn)的。需要利用用戶的反饋總結(jié)出一些特點(diǎn)。比如說用戶在說話時(shí)會(huì)截?cái)?,這樣你就可以通過調(diào)整一些參數(shù)來提升表現(xiàn)。因?yàn)檎Z音識(shí)別不僅是數(shù)據(jù)多了,識(shí)別率提高了,還有更多的因素,比如說用戶的感覺、一些關(guān)鍵的參數(shù)點(diǎn)、經(jīng)驗(yàn)等,這些都是可以學(xué)習(xí)到的。互聯(lián)網(wǎng)思維所帶來的就像軟件迭代一樣,通過反饋回來的信息進(jìn)行調(diào)整,這是最核心的。

  在大數(shù)據(jù)時(shí)代到來后,隱馬爾可夫模型出現(xiàn)了局限,即數(shù)據(jù)量提升時(shí),它帶來的表現(xiàn)提升沒有深度神經(jīng)網(wǎng)絡(luò)那么大,但其實(shí)都屬于統(tǒng)計(jì)模式識(shí)別。在語音識(shí)別發(fā)展的過程中,深度學(xué)習(xí)是同時(shí)發(fā)生的一件事,如果沒有深度神經(jīng)網(wǎng)絡(luò),但是有大數(shù)據(jù)和漣漪效應(yīng),隱馬爾可夫模型也可以做到實(shí)用。深度神經(jīng)網(wǎng)絡(luò)是讓其做得最好,降低了門檻,讓更多的人可以加入進(jìn)來。在同樣具有漣漪效應(yīng)的情況下,深度神經(jīng)網(wǎng)絡(luò)比之前的算法好,數(shù)據(jù)越多,深度神經(jīng)網(wǎng)絡(luò)的效果更好。還有更加重要的一點(diǎn),深度神經(jīng)網(wǎng)絡(luò)只是整個(gè)統(tǒng)計(jì)機(jī)器模式識(shí)別理論框架中的一個(gè)環(huán)節(jié)而已,真正重要的環(huán)節(jié)是統(tǒng)計(jì)決策系統(tǒng)。

  深度神經(jīng)網(wǎng)絡(luò)由Geoffrey Hinton與微軟的鄧力研究員最先開始做,谷歌是最早在全球范圍內(nèi)大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)的公司,谷歌的VoiceSearch也在最早開創(chuàng)了用互聯(lián)網(wǎng)思維做語音識(shí)別。在這方面,科大訊飛受到谷歌的啟發(fā),迅速跟進(jìn)成為國(guó)內(nèi)第一個(gè)在商用系統(tǒng)里使用深度神經(jīng)網(wǎng)絡(luò)的公司。

  語音識(shí)別技術(shù)已經(jīng)發(fā)展了幾十年的時(shí)間,因?yàn)榇髷?shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,這一領(lǐng)域的傳統(tǒng)強(qiáng)者成了谷歌、亞馬遜、蘋果和微軟這些美國(guó)科技巨頭,但據(jù)TechCrunch統(tǒng)計(jì),美國(guó)至少有26家公司在開發(fā)語音識(shí)別技術(shù)。

  不過,盡管谷歌這些巨頭在語音識(shí)別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢(shì)讓后來者似乎難望其項(xiàng)背,但因?yàn)橐恍┱吆褪袌?chǎng)方面的原因,這些巨頭的語音識(shí)別主要偏向于英語,這給科大訊飛、百度、搜狗等在漢語領(lǐng)域?qū)崿F(xiàn)突出表現(xiàn)提供了機(jī)會(huì)。在國(guó)內(nèi),這些本土化產(chǎn)品更為用戶所熟知。

  從識(shí)別到感知認(rèn)知

  在語音識(shí)別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度?,F(xiàn)如今,語音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱,語音對(duì)話機(jī)器人、語音助手、互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開此方面的研究和應(yīng)用,目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。

  盡管視覺和語音識(shí)別在近些年來都取得了巨大的進(jìn)步,但這些研究者仍然提醒說,還有很多的工作要做。

  展望未來,研究者正在努力工作以確保語音識(shí)別能在更為真實(shí)生活的環(huán)境中良好地工作。這些環(huán)境包括具有很多背景噪聲的地方,比如聚會(huì)場(chǎng)所或在高速路上駕駛的時(shí)候。他們也將關(guān)注如何更好地在多人交談環(huán)境中將不同的說話人區(qū)分開,并且確保其能夠在各種各樣的聲音上發(fā)揮效用,而不管說話人的年齡、口音或說話能力。

  從更長(zhǎng)遠(yuǎn)來看,研究者將會(huì)關(guān)注如何教計(jì)算機(jī)不只是轉(zhuǎn)錄來自人類嘴巴的聲音信號(hào),而且還要理解他們所說的話。這樣就能讓這項(xiàng)技術(shù)可以根據(jù)自己被告知的內(nèi)容回答問題或采取行動(dòng)。

  下一個(gè)前沿是從識(shí)別走向理解,我們正在從一個(gè)人類必須理解計(jì)算機(jī)的世界邁向一個(gè)計(jì)算機(jī)必須理解我們的世界。


上一頁(yè) 1 2 下一頁(yè)

關(guān)鍵詞: 語音識(shí)別

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉