Siri工作方式詳解:本地語音識(shí)別+云計(jì)算服務(wù)
導(dǎo)語:ZDNet網(wǎng)站今天刊文稱,蘋果的語音助理服務(wù)Siri時(shí)髦而聰明,在一些情況下也很有用。那么Siri是如何工作的?“語音識(shí)別”是Siri的核心,但這并未解釋Siri理解用戶所說內(nèi)容的詳細(xì)過程。本周有業(yè)內(nèi)人士撰文,解釋了Siri的工作步驟。
以下為文章全文:
當(dāng)用戶對(duì)iPhone說話后,語音將被立即編碼,成為一個(gè)壓縮的數(shù)字文件,其中包含著所有有用的信息。這一信息將通過互聯(lián)網(wǎng)服務(wù)提供商(ISP)的網(wǎng)絡(luò)被發(fā)送至云計(jì)算服務(wù)器,而服務(wù)器中的模塊將識(shí)別用戶所說的內(nèi)容。
與此同時(shí),用戶的語音將在手機(jī)端被識(shí)別。安裝在手機(jī)中的語音識(shí)別器將與云計(jì)算服務(wù)器通信,了解指令是否適合在本地被處理。用戶的指令可能要求手機(jī)播放一首歌曲,而另一些指令則有可能需要手機(jī)連接至網(wǎng)絡(luò),尋求進(jìn)一步的幫助。如果語音識(shí)別器認(rèn)為,手機(jī)內(nèi)部模塊足以處理用戶的指令,那么將會(huì)告知云計(jì)算服務(wù)器,不再需要服務(wù)器的支持。
根據(jù)用戶的聲調(diào)和語序,服務(wù)器將對(duì)語音進(jìn)行靜態(tài)對(duì)比,了解語音中包含哪些字母。與此同時(shí),本地的語音識(shí)別器也將對(duì)用戶語音進(jìn)行靜態(tài)對(duì)比。在服務(wù)器端和手機(jī)端,可能性最高的識(shí)別內(nèi)容將優(yōu)先獲得處理。
此時(shí),識(shí)別出的內(nèi)容已經(jīng)包含一系列的元音和輔音字母。隨后這些內(nèi)容將被發(fā)送至一個(gè)語言模塊,以評(píng)估用戶的語音中包含哪些單詞。根據(jù)不同的可信度,計(jì)算機(jī)將創(chuàng)建一個(gè)用戶所說內(nèi)容的列表。
如果判斷結(jié)果具有足夠的可信度,那么計(jì)算機(jī)將能理解用戶所說的內(nèi)容,例如發(fā)送短信或查找聯(lián)系人列表中的聯(lián)系人。隨后用戶將會(huì)看到手機(jī)屏幕上出現(xiàn)所需的內(nèi)容,而不必手動(dòng)操作。在這一過程中,如果用戶的語音含義過于模糊,那么計(jì)算機(jī)將會(huì)詢問用戶,例如用戶希望查找的聯(lián)系人是埃里卡·奧爾森(Erica Olssen)還是埃里卡·施密特(Erica Schmidt)。
評(píng)論