語(yǔ)音識(shí)別這么火 但你知道它的發(fā)展史嗎?
語(yǔ)言,之所以重要,在于人類(lèi)的思維能力是伴隨著它的產(chǎn)生而迅速發(fā)展的,這也是人類(lèi)在智能上區(qū)別于其他物種的原因。語(yǔ)音識(shí)別,作為人工智能應(yīng)用的一個(gè)場(chǎng)景,也是研究者們一直試圖解決的問(wèn)題。
本文引用地址:http://m.butianyuan.cn/article/201612/340933.htm2016年10月底,微軟宣布語(yǔ)音識(shí)別實(shí)現(xiàn)了歷史性突破,詞錯(cuò)率僅5.9%,英語(yǔ)的語(yǔ)音轉(zhuǎn)錄達(dá)到專(zhuān)業(yè)速錄員水平,微軟的此次突破是機(jī)器的識(shí)別能力在英語(yǔ)水平上第一次超越人類(lèi)。微軟的這條消息發(fā)布之后在業(yè)內(nèi)引起了極大的關(guān)注。語(yǔ)音識(shí)別一直是國(guó)內(nèi)外許多科技公司重點(diǎn)發(fā)展的技術(shù)之一,百度首席科學(xué)家吳恩達(dá)就發(fā)推特恭賀微軟在英語(yǔ)語(yǔ)音識(shí)別上的突破,同時(shí)也回憶起一年前百度在漢語(yǔ)語(yǔ)音識(shí)別上的突破,其Deep Speech2的短語(yǔ)識(shí)別的詞錯(cuò)率已經(jīng)降到了3.7%,Deep Speech2轉(zhuǎn)錄某些語(yǔ)音的能力基本上是超人級(jí)的,能夠比普通話(huà)母語(yǔ)者更精確地轉(zhuǎn)錄較短的查詢(xún)。
夢(mèng)想從貝爾實(shí)驗(yàn)室開(kāi)始
不久前,麻省理工學(xué)院(MIT)主辦的知名科技期刊《麻省理工科技評(píng)論》(MITTechnologyReview),評(píng)選出了“2016年十大突破技術(shù)”?!堵槭±砉た萍荚u(píng)論》稱(chēng),在過(guò)去的一年里,這十項(xiàng)技術(shù)均已到達(dá)一個(gè)里程碑式的階段或即將到達(dá)這一階段。而語(yǔ)音識(shí)別的突破就是其中的第三項(xiàng)。
回顧人類(lèi)發(fā)展史,不難看出,隨著人的不斷進(jìn)化,從最初通過(guò)手掌、肢體使用簡(jiǎn)單工具、傳遞簡(jiǎn)單信息,發(fā)展到控制發(fā)聲并通過(guò)耳朵接收,形成了一個(gè)以語(yǔ)音為載體的快速信息傳遞通道和收發(fā)閉環(huán),成為人類(lèi)間最自然、最重要的信息交互手段。聲波作為一種音頻信號(hào),和視頻信號(hào)、無(wú)線(xiàn)電信號(hào)一樣是,非接觸方式的傳播,也是人類(lèi)唯一可以不借助工具就可自由掌控的一種天然“無(wú)線(xiàn)”資源。而且聲波對(duì)接收指向性的要求更寬松,這個(gè)非常寶貴的特性會(huì)在很多場(chǎng)景下帶來(lái)極大便利。特別是對(duì)于一些在視覺(jué)、觸覺(jué)等方面存在障礙(如老年人、弱視、殘障人士)或不適合(如兒童需要保護(hù)視力)的龐大特定人群,語(yǔ)音更是最佳的交互選擇。
1946年,現(xiàn)代電子計(jì)算機(jī)出現(xiàn)后,計(jì)算機(jī)在很多事情上做得比人還好,既然如此,機(jī)器能不能懂得自然語(yǔ)言呢?與機(jī)器進(jìn)行語(yǔ)音交流,讓它聽(tīng)明白你在說(shuō)什么,語(yǔ)音識(shí)別技術(shù)是計(jì)算機(jī)一出現(xiàn),人類(lèi)就開(kāi)始憧憬的一大夢(mèng)想。
最早提出機(jī)器智能概念的是計(jì)算機(jī)科學(xué)之父阿蘭·圖靈,1950年他在《思想》(Mind)雜志上發(fā)表了一篇題為“計(jì)算的機(jī)器和智能”的論文。在論文中,圖靈并沒(méi)有提出什么研究方法,而是提出了一種驗(yàn)證機(jī)器是否有智能的方法:讓人和機(jī)器進(jìn)行交流,如果人無(wú)法判斷自己交流的對(duì)象是人還是機(jī)器,就說(shuō)明這個(gè)機(jī)器有智能了。這種方法被后人稱(chēng)作圖靈測(cè)試。圖靈其實(shí)是留下了一個(gè)問(wèn)題,而非答案,但是一般認(rèn)為對(duì)自然語(yǔ)言的機(jī)器處理可以追溯到那個(gè)時(shí)候。
科學(xué)家認(rèn)為語(yǔ)音識(shí)別就好比“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”,該技術(shù)可以讓機(jī)器通過(guò)識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。1952年,貝爾研究所,Davis等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年,英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
事實(shí)上,語(yǔ)音識(shí)別60多年的發(fā)展過(guò)程可以分成多個(gè)階段。早期的20多年,即從20世紀(jì)50年代到70年代,是科學(xué)家們走彎路的階段,全世界的科學(xué)家對(duì)計(jì)算機(jī)完成語(yǔ)音識(shí)別這類(lèi)只有人才能做的事情,認(rèn)為必須先讓計(jì)算機(jī)理解自然語(yǔ)言,這就局限在人類(lèi)學(xué)習(xí)語(yǔ)言的方式上了,也就是用電腦模擬人腦,這20多年的研究成果近乎為零。
賈里尼克的貢獻(xiàn)
直到1970年后,統(tǒng)計(jì)語(yǔ)言學(xué)的出現(xiàn)才使語(yǔ)音識(shí)別重獲新生,并取得了今天的飛凡成就。推動(dòng)這個(gè)技術(shù)路線(xiàn)轉(zhuǎn)變的關(guān)鍵人物是德里克·賈里尼克(FrederickJelinek)和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室(T.J.Watson),開(kāi)始使用統(tǒng)計(jì)方法。采用統(tǒng)計(jì)的方法,IBM將當(dāng)時(shí)的語(yǔ)音識(shí)別率從70%提升到90%,同時(shí)語(yǔ)音識(shí)別的規(guī)模從幾百單詞上升到幾萬(wàn)單詞,這樣語(yǔ)音識(shí)別就有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。
《從水門(mén)事件到莫妮卡·萊溫斯基》是賈里尼克在1999年ICASSP(國(guó)際聲學(xué)、語(yǔ)言和信號(hào)處理大會(huì))做的報(bào)告題目,因?yàn)樗T(mén)事件發(fā)生的時(shí)間1972年,恰好是統(tǒng)計(jì)語(yǔ)音識(shí)別開(kāi)始的時(shí)間,而因萊溫斯基事件彈劾克林頓總統(tǒng)正好發(fā)生于當(dāng)時(shí)會(huì)議的前一年。
賈里尼克在康奈爾十年磨一劍,潛心研究信息論,終于悟出了真諦。1972年,賈里尼克到IBM華生實(shí)驗(yàn)室做學(xué)術(shù)休假,無(wú)意中領(lǐng)導(dǎo)了語(yǔ)音識(shí)別實(shí)驗(yàn)室,兩年后他在康奈爾和IBM之間選擇了留在IBM。
20世紀(jì)70年代的IBM有點(diǎn)像90年代的微軟和過(guò)去十年(施密特時(shí)代)的Google,任由杰出科學(xué)家做自己感興趣的研究。在那種寬松的環(huán)境里,賈里尼克等人提出了統(tǒng)計(jì)語(yǔ)音識(shí)別的框架結(jié)構(gòu)。
在賈里尼克之前,科學(xué)家們把語(yǔ)音識(shí)別問(wèn)題當(dāng)作人工智能和模式匹配問(wèn)題,而賈里尼克將它當(dāng)作通信問(wèn)題,并用兩個(gè)隱含馬爾可夫模型(聲學(xué)模型和語(yǔ)言模型)把語(yǔ)音識(shí)別概括得清清楚楚。這個(gè)框架結(jié)構(gòu)至今仍對(duì)語(yǔ)音識(shí)別影響深遠(yuǎn),它不僅從根本上使得語(yǔ)音識(shí)別有使用的可能,而且奠定了今天自然語(yǔ)言處理的基礎(chǔ)。賈里尼克后來(lái)也因此當(dāng)選美國(guó)工程院院士,并被Technology雜志評(píng)為20世紀(jì)100名發(fā)明家之一。
賈里尼克的前輩們?cè)趯⒔y(tǒng)計(jì)的方法應(yīng)用于語(yǔ)音識(shí)別時(shí),遇到了兩個(gè)不可逾越的障礙:缺乏計(jì)算能力強(qiáng)大的計(jì)算機(jī)和大量可以用于統(tǒng)計(jì)的機(jī)讀文本語(yǔ)料,最后前輩們不得不選擇放棄。20世紀(jì)的IBM,雖然計(jì)算機(jī)的計(jì)算能力不能和今天相比,但已可以做不少事了,賈里尼克和他的同事需要解決的問(wèn)題就是如何找到大量的機(jī)讀語(yǔ)料。好在當(dāng)時(shí)有一項(xiàng)全球性的業(yè)務(wù)是通過(guò)電信網(wǎng)連接在一起的,那就是電傳,IBM的科學(xué)家最初就是通過(guò)電傳業(yè)務(wù)的文本開(kāi)始進(jìn)行研究的。
為什么當(dāng)初是沒(méi)有什么語(yǔ)音識(shí)別基礎(chǔ)的IBM,而不是在這個(gè)領(lǐng)域里有很長(zhǎng)研究時(shí)間的貝爾實(shí)驗(yàn)室或者卡內(nèi)基-梅隆大學(xué)提出統(tǒng)計(jì)語(yǔ)音識(shí)別的處理。很多歷史的偶然性背后都有著它必然的原因,因?yàn)镮BM有著這樣的計(jì)算能力,又有物質(zhì)條件,同時(shí)聚集了一大批世界上最聰明的頭腦。
基于統(tǒng)計(jì)的語(yǔ)音識(shí)別替代基于規(guī)則的前后方法交替經(jīng)歷了15年時(shí)間。之所以歷經(jīng)許久,是因?yàn)樾碌难芯糠椒ǔ墒煨枰芏嗄辍?/p>
評(píng)論