人工智能與語音識別技術(shù)
摘要:隨著深度神經(jīng)網(wǎng)絡(luò)在大規(guī)模語音識別任務(wù)上獲得顯著效果提升,大數(shù)據(jù)的不斷完善和漣漪效應(yīng)的提出,在近十年,中國的人工智能也得到了快速發(fā)展。作為國內(nèi)智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者的科大訊飛率先將遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到真實在線系統(tǒng)中,并提出了全新的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)FSMN——訊飛構(gòu)型。
本文引用地址:http://m.butianyuan.cn/article/201603/288901.htm人工智能的三個層面
2014年8月20日,在國家會議中心,科大訊飛宣布其人工智能的整體戰(zhàn)略——訊飛超腦計劃,正式成立??拼笥嶏w超腦計劃的首次發(fā)布時,科大訊飛就對人工智能做了一個清晰的分割和鑒定,它把人工智能劃分成三個層面。第一個層面是運算智能,讓機器具備了能存會算的能力;第二個層面是感知智能,讓機器能聽會說能看會認(rèn);但是最有挑戰(zhàn)性的,也是我們?nèi)藚^(qū)別于動物的最大的能力,就是我們的認(rèn)知智能。即認(rèn)識和知道,能理解會思考,這樣一個能力。
人工智能發(fā)展三要素——深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)和漣漪效應(yīng)當(dāng)
世界因為人工智能而改變的時候,我們開始思考為什么人工智能可以在過去的十年取得如此大的進步。胡郁先生認(rèn)為,其實,雖然在整個學(xué)術(shù)界眾說紛紜,但是慢慢的大家越來越趨向于三個關(guān)鍵的因素。即,深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)和漣漪效應(yīng)。
深度神經(jīng)網(wǎng)絡(luò)其實只是統(tǒng)計模式識別的一個很小的分支。但是它卻和我們現(xiàn)在大的IT產(chǎn)業(yè)的發(fā)展背景很好地結(jié)合在一起。因為現(xiàn)在統(tǒng)計模式識別辦法想要發(fā)揮出人工智能的威力,就要有深度神經(jīng)網(wǎng)絡(luò)能夠更好的使用以及互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代得到越來越多的大數(shù)據(jù)為大基礎(chǔ)。
漣漪效應(yīng)是科大訊飛提出的,是指互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng),把每個用戶的經(jīng)驗和知識數(shù)據(jù)加入到我們核心技術(shù)研發(fā)過程中來的一種效應(yīng)。像是一個水滴滴到水面的時候,這個水面相當(dāng)于所有的用戶人群,而這個水滴所激發(fā)起來的這個漣漪,其實是這個核心技術(shù)一開始的效果。一開始水滴滴入水面振幅會很大,說明它的效果并不好。就像大家今天看到科大訊飛的語音識別系統(tǒng)已經(jīng)非常準(zhǔn)確,但是在2010年科大訊飛第一次發(fā)布會發(fā)布其語音輸入法的時候,識別率慘不忍睹。在實驗室里面90%的正確率的識別系統(tǒng)放到真實環(huán)境下一用,正確率只有55%。但是只要這個系統(tǒng)在上線運行中,就會不斷地有用戶,他們會不斷的貢獻數(shù)據(jù),從而為科大訊飛系統(tǒng)不斷改進提供助力。當(dāng)這個水波紋擴散出去的時候,有更多人用的時候,系統(tǒng)已經(jīng)是改進過以后的系統(tǒng)。當(dāng)這個水波紋已經(jīng)能覆蓋1000萬人,系統(tǒng)改進了以后,當(dāng)一千萬零一個人來使用這個系統(tǒng)的時候,對他來講是第一次,他會覺得:哇!怎么這么好。 有了這三點我們繼續(xù)可以在語音和圖像的道路上持續(xù)的尋找下去。
科大訊飛的發(fā)展歷程
發(fā)布會上,胡郁先生為我們展示了科大訊飛在人工神經(jīng)網(wǎng)絡(luò)方面的發(fā)展。其實真正將神經(jīng)網(wǎng)絡(luò)應(yīng)用在語音識別和圖像識別方面并取得成功應(yīng)該是在2010年的7月份。而在2011年9月份,科大訊飛的研究人員在中國科學(xué)技術(shù)大學(xué),就跟鄧力研究員進行了探討。在2011年的年底,科大訊飛就將深度神經(jīng)網(wǎng)絡(luò)用于語音識別上,用于中文語音識別上第一個系統(tǒng)上線使用。在2012年4月份,在日本召開的,由微軟研究院的移動研究院做的報告中,將谷歌、微軟和訊飛,列為當(dāng)時世界上,最先將深度神經(jīng)網(wǎng)絡(luò)推薦使用的幾個公司和研究機構(gòu)。此后,他們在2012年將深度神經(jīng)網(wǎng)絡(luò)用于參數(shù)語音合成。利用了深度神經(jīng)網(wǎng)絡(luò)的參數(shù)語音合成系統(tǒng),比我們原來使用的也是當(dāng)時世界上最先進的,基于隱馬爾可夫模型的語音合成系統(tǒng)效果提升30%?,F(xiàn)在已經(jīng)成為整個業(yè)界的標(biāo)配。而在2013年,科大訊飛在語種識別方面,第一次提出了一種新型構(gòu)型的深度神經(jīng)網(wǎng)絡(luò)的構(gòu)型。他們將當(dāng)時的語種識別技術(shù),在nist測試的最先進的系統(tǒng)的基礎(chǔ)上,又提高了30%。現(xiàn)在也是整個業(yè)界標(biāo)準(zhǔn)的語種識別構(gòu)型系統(tǒng)。2014年科大訊飛超腦技術(shù)發(fā)布,在超腦計劃里面他們又將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在更多方面。進入2015年后,我們看到了越來越多的成果。
科大訊飛的最新進展——不一樣的遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)
我們聽了很長一段聲音之后,就能夠記憶起原來的東西,這是人腦的一個非常特別的功能叫做記憶能力。人腦的這個記憶能力非常特別,它包括瞬時記憶、短時記憶和長時記憶。深度神經(jīng)網(wǎng)絡(luò)能夠比較好地模仿人類的大腦,但是深度神經(jīng)網(wǎng)絡(luò)對于短時記憶的處理其實比較弱。最近國際上有一個新的名詞叫做RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò)),也是我們講的回歸神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)。那么它相對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的唯一改進就是他可以用前一個時刻的信息輸入到當(dāng)前時刻,進而把原來的一些歷史信息能夠輸入到當(dāng)前來提高它的記憶能力。
一個真正的回歸神經(jīng)網(wǎng)絡(luò)里面的工作系統(tǒng)是非常復(fù)雜的。它可能包括LSTM。這是一個長短時記憶系統(tǒng),它里面還包括一個雙向語音識別系統(tǒng)。這個回歸神經(jīng)網(wǎng)絡(luò),它會從正向識別一遍,還會從反向識別一遍。而如果想要得到更好的效果,他還需要加一個叫做CTC(Connectionist Temporal Classification)的系統(tǒng)。那么這個ctc的系統(tǒng),可以保證在整個句子層面上的成功率是最高的。其實在這過程中我們會遇到很多的難題,比如說這些疊加起來,它的效果可能不是那么好。第二個是,如果我們剛才要利用未來的信息來識別的話,它的響應(yīng)時間會受到影響。更加重要的是,它是這么復(fù)雜的一個網(wǎng)絡(luò),如果你要去訓(xùn)練它,例如,訓(xùn)練1萬小時可能要一個星期。沒有人能夠忍受得了這種訓(xùn)練時間。
對此,科大訊飛提出了自己的構(gòu)型——FSMN(Feed-forward Sequential Memory Network,前饋型序列記憶網(wǎng)絡(luò)),即前饋序列記憶網(wǎng)絡(luò)。利用這種神經(jīng)網(wǎng)絡(luò),可以很好地有效地處理剛才碰到的各種問題。它可以把剛才的幾個優(yōu)點綜合在一起,它可以非常好的縮短響應(yīng)時間,它還可以非常好的提升我們的訓(xùn)練效果。現(xiàn)在我們1萬小時從原來的一個星期現(xiàn)在已經(jīng)縮短到了一天。
卷積網(wǎng)絡(luò)是仿照人類視覺機理,借鑒人類在大腦上處理的一些優(yōu)勢,形成一個自下而上逐步細化,從逐步地處理一些線條,局部輪廓到最后整個人臉。這樣的系統(tǒng)很好地仿照了人類大腦里面的結(jié)構(gòu)。但是僅有這些還是遠遠不夠的,它在分析文字的時候還是會有一定誤差,處理圖像的時候,也略顯模糊。
現(xiàn)在科大訊飛的卷積神經(jīng)網(wǎng)絡(luò)將整個圖片處理、版面分析、文字分割和最后的處理完全集中在一起。它綜合性地使用了卷積神經(jīng)網(wǎng)絡(luò),延遲性神經(jīng)網(wǎng)絡(luò)和我們的HMM的系統(tǒng)。當(dāng)把這些系統(tǒng)綜合在一起的時候,能夠更好地分析圖文任務(wù)的一些具體的情況,這將使我們得到一個最好的效果。
Neural Thinking Machine技術(shù)框架
利用深度神經(jīng)網(wǎng)絡(luò)可以把語音識別和圖像識別都提升到一個非常高的層次,但是人類最重要的是認(rèn)知。
人腦的大腦皮層是人區(qū)別于動物最顯著的一個腦結(jié)構(gòu)變化,如果把人類的大腦皮層完全攤開的話,大概相當(dāng)于一個桌布那么大。但是科學(xué)家研究表明這個桌布上的不同區(qū)域的功能是完全不一樣的。中間有一部分是專門管視覺的,它會把你臉的各個細節(jié)處理的非常好。還有一部分是管聽覺的,還有一部分是用來管觸覺的。但是這些在感知層面上的各種信息都會匯聚到認(rèn)知層面。就是概念語言與概念表達和理解。
當(dāng)我們看到一只貓臉的時候,其實我們馬上腦袋里面就會形成一個貓的概念,這個時候我們腦袋里面會同時知道貓的叫聲,我們知道摸貓會是一種什么樣的感覺。多種不同感知內(nèi)容最后會匯聚到我們的認(rèn)知層面上。根據(jù)這種啟發(fā),科大訊飛在訊飛超腦里面建立了感知和認(rèn)知的綜合智能引擎的布局。在感知智能方面有Neural Viewing Machine、Neural Reading Machine、Neural Listening Machine。它們分別會主管看到的東西、閱讀和聽覺。當(dāng)這些東西感知到很多的信息以后,它會被送到上面的一個叫做Neural Thinking Machine的地方,在這個地方所有概念會進行匯聚,這些概念會進行推理,得出結(jié)論,從而幫助我們進行決策。而決策以后的結(jié)果會通過一個叫做Neural Experssing Machine的結(jié)果返回來。從而形成整個的,包括交互,包括人類所有智能問題的完整閉環(huán)。其實Neural Thinking Machine是科大訊飛認(rèn)知的實現(xiàn)核心。在這個核心實現(xiàn)過程中,它主要實現(xiàn)包括我們講的語言的理解、知識的表達、邏輯的推理和最后的決策功能。為了實現(xiàn)這樣一個系統(tǒng),我們整個Neural Thinking Machine技術(shù)框架被定義成,在自然語言表述下的語言理解與生成以及知識表達與推理。(注:本文改編自2015年12月科大訊飛年度發(fā)布會的講話)
本文來源于中國科技期刊《電子產(chǎn)品世界》2016年第3期第23頁,歡迎您寫論文時引用,并注明出處。
評論