智能手機(jī)的超性能語音識(shí)別技術(shù)簡(jiǎn)介
未來的方向 本文引用地址:http://m.butianyuan.cn/article/165434.htm
詢問參加開發(fā)語音技術(shù)的每一個(gè)人下一個(gè)巨大的步驟是什么。他們一般會(huì)給你一個(gè)答案:自然語言處理。
Revis把它解釋為理解你的意思的系統(tǒng),它不僅僅知道你說什么。在會(huì)話式的互動(dòng)模式中,用戶說自己要說的話,沒有限制用戶如何說這個(gè)話。他提供了指令或者要求得到信息的例子,如“我在什么地方能夠買到100美元以下的尼康照相機(jī)?”或者“給杰尼發(fā)個(gè)短信說我晚到20分鐘”或者“今天晚上在Morton's訂三個(gè)人的地方”。
谷歌的Mane稱,在口語對(duì)話中提供自然的語言處理是一個(gè)雙重挑戰(zhàn)。首先,你必須識(shí)別這些單詞,然后,你必須理解這個(gè)意思。第一部分變得更加容易了。但是,第二部分仍然很難解決:意思是根據(jù)上下文確定的和難以應(yīng)付的,人類做的語法分析也不是總是成功的。
微軟的Rele認(rèn)為,手機(jī)提供的額外的服務(wù)(如羅盤或者GPS)能夠增強(qiáng)自然語言處理的有用性。他說,你可以為兩個(gè)人安排吃飯和看電影,方法是利用不同來源的數(shù)據(jù)把這個(gè)任務(wù)分開,如使用日歷、飯店排名、電影評(píng)論和位置等數(shù)據(jù)。
此外,手機(jī)的服務(wù)能夠用于提供講話的環(huán)境。Rele表示,用戶的語音輸入以及從其它有關(guān)用戶及用戶環(huán)境的傳感器和狀態(tài)獲得的智能信息可以提供更豐富的和更相關(guān)的結(jié)果。例如,如果你剛剛使用Foursquare網(wǎng)站查看有關(guān)飯店,一些含糊的語音指令就會(huì)傾向于外出吃飯、訂膳宿和要一輛出租車等事情。
多平臺(tái)應(yīng)用程序Vlingo自稱是“虛擬助手”,已經(jīng)能夠提供這些方面的功能。這個(gè)軟件插入到OpenTable和Fandango等服務(wù)中以完成許多任務(wù):訂飯店、訂電影票等等。
Nguyen認(rèn)為未來語音識(shí)別技術(shù)改善的另一個(gè)領(lǐng)域是游戲。他說,在游戲中可以使用語音以增加玩游戲的不同氛圍。例如,你可以把Kirk-style船長(zhǎng)的命令傳遞給恒星飛船或者在在一個(gè)神秘的事情中審訊疑犯。
是你嗎?
已經(jīng)應(yīng)用的另一個(gè)功能是自動(dòng)地把語音識(shí)別適用于單個(gè)用戶。這是臺(tái)式電腦語音識(shí)別技術(shù)所要求的免提版語音訓(xùn)練。
例如,最新版本的谷歌語音搜索有一個(gè)選擇性加入功能,允許隨著時(shí)間的推移建立一個(gè)用戶的客戶化語音特征。Mane解釋說,當(dāng)用戶選擇使用客戶化語音識(shí)別的時(shí)候,我們?cè)谟脩艉陀脩舻恼Z調(diào)方面畫一個(gè)界限,這使我們能夠建立一個(gè)初步的、個(gè)性化的語音識(shí)別模式。
然而,個(gè)性化識(shí)別并不是一個(gè)能夠解決一切問題的技術(shù),它只是實(shí)現(xiàn)語音識(shí)別更加無縫化的一個(gè)過渡步驟。Mane稱,我們沒有把個(gè)性化識(shí)別看作一個(gè)唯一的解決方案,因?yàn)檫€會(huì)有更多的一系列的技術(shù)創(chuàng)新。Mane認(rèn)為,這種技術(shù)未來的改進(jìn)需要我們的用戶更積極的參與。
結(jié)論
手機(jī)一直是許多技術(shù)的孵化器和推動(dòng)因素,這包括硬件和軟件技術(shù)。到目前為止,在這個(gè)組合中增加語音功能僅產(chǎn)生了逐步的改善,谷歌語音應(yīng)用程序的很好的功能。
但是,這些改進(jìn)正逐步地為更重要的進(jìn)步鋪平道路。移動(dòng)技術(shù)為如何聚集這些新技術(shù)提供了一個(gè)全新的舞臺(tái)。下一步也許不是一個(gè)理解你說的一切事情的手機(jī),而是能夠充分理解你說的事情的一個(gè)更有用的手機(jī)。
評(píng)論