帶語(yǔ)音識(shí)別功能的消費(fèi)電子產(chǎn)品的系統(tǒng)設(shè)計(jì)
現(xiàn)在的語(yǔ)音識(shí)別處理器集成了更多功能,它們的精確度也更高,并有更好的開發(fā)工具支持,這使得在消費(fèi)電子產(chǎn)品中添加語(yǔ)音I/O變得相對(duì)容易。在用語(yǔ)音控制家庭環(huán)境照明便是一個(gè)具有市場(chǎng)潛力的消費(fèi)應(yīng)用。
語(yǔ)音識(shí)別的類型
語(yǔ)音識(shí)別(有時(shí)也被稱為聲音識(shí)別或VR)技術(shù)可分成三大類:與說(shuō)話人無(wú)關(guān)(SI)的識(shí)別技術(shù)、與說(shuō)話人相關(guān)(SD)的識(shí)別技術(shù)和語(yǔ)音確認(rèn)(SV)技術(shù)。每種技術(shù)都有各自的優(yōu)點(diǎn),適用于不同的應(yīng)用。采用SI技術(shù)的產(chǎn)品要求無(wú)需對(duì)使用者進(jìn)行培訓(xùn)便可使用的語(yǔ)音指令。
例如,與說(shuō)話人無(wú)關(guān)(SI)的識(shí)別技術(shù)通常最適合用于照明控制器。就像我們用名字來(lái)引起他人的注意一樣,用一個(gè)被稱為“觸發(fā)(trigger)”的SI指令來(lái)激活照明控制器也是一個(gè)不錯(cuò)的方法。照明控制器被激活后,它可以接受多個(gè)指令。
集成了語(yǔ)音識(shí)別功能的產(chǎn)品通常需要一種方法,以讓使用者知道它們已經(jīng)聽到指令并準(zhǔn)備接受下一個(gè)指示。也就是說(shuō),它們必須讓使用者知道該產(chǎn)品已在控制流程之中。由于控制流程十分簡(jiǎn)單,照明控制器將用一個(gè)短音作為應(yīng)答,這可縮短使用者與控制器的交互時(shí)間,而且如果發(fā)生誤啟動(dòng)也不會(huì)導(dǎo)致太大問題。
由于語(yǔ)音是人類的天生交流方式,所以語(yǔ)音識(shí)別功能可以增加產(chǎn)品的易用性,此外它還延伸了使用者的物理控制范圍。例如,一個(gè)語(yǔ)音控制的照明開關(guān)即可提供此類價(jià)值?;蛟S使用者正坐著看電視,而照明開關(guān)不在伸手可及的范圍內(nèi),或者環(huán)境太暗,看不到照明開關(guān),此時(shí)借助一個(gè)簡(jiǎn)單的語(yǔ)音指令就能方便地解決這些難題。
圖1:一個(gè)典型的具語(yǔ)音識(shí)別功能的電燈控制器將采用本流程圖中顯示的步驟進(jìn)行操作。 |
因?yàn)檎Z(yǔ)音識(shí)別建立在概率函數(shù)的基礎(chǔ)上,所以設(shè)計(jì)者必須在接受指令(包含在識(shí)別指令集合中)和拒絕指令(不包含在識(shí)別指令集合中)的重要性之間做出折衷。例如,如果該產(chǎn)品必須反應(yīng)非常靈敏,且偶爾發(fā)生誤接受(誤啟動(dòng))也不會(huì)釀成大問題,則應(yīng)用開發(fā)者可能傾向于接受指令更重要些。而其它一些應(yīng)用則不允許誤啟動(dòng),如聲控烤箱或照明控制器。
背景噪聲是語(yǔ)音識(shí)別的克星。檢測(cè)和識(shí)別均要求信噪比(SNR)在合理的范圍之內(nèi)(約為3:1或更高)。如果應(yīng)用條件允許,最好使用定向麥克風(fēng)或近講麥克風(fēng)來(lái)降低噪聲。
成本也是一個(gè)考慮因素。當(dāng)最終使用者購(gòu)買產(chǎn)品時(shí),產(chǎn)品價(jià)格已經(jīng)是原始制造成本的4到5倍。幸運(yùn)的是,目前市場(chǎng)上提供的高集成度語(yǔ)音處理器包含了所必需的麥克風(fēng)前置放大器、模數(shù)轉(zhuǎn)換器(ADC)、數(shù)字濾波器、內(nèi)核處理器、數(shù)模轉(zhuǎn)換器(DAC)和數(shù)學(xué)運(yùn)算引擎。
這些處理器同樣捆綁了從文本輸入到與說(shuō)話人無(wú)關(guān)(T2SI)的識(shí)別及合成技術(shù)。這些芯片也可充當(dāng)各種消費(fèi)產(chǎn)品功能的主控制器,而且其價(jià)位對(duì)消費(fèi)電子產(chǎn)品來(lái)說(shuō)頗具競(jìng)爭(zhēng)力。這使得產(chǎn)品在增加語(yǔ)音功能的同時(shí),只增加很少成本,或不增加成本。
照明控制器的設(shè)計(jì)原理
這些優(yōu)異的性能使VR照明控制器非常具有吸引力,同時(shí)還有助于解決該應(yīng)用中的語(yǔ)音識(shí)別挑戰(zhàn)。在家庭環(huán)境中,遠(yuǎn)距離識(shí)別一個(gè)指令意味著要排除人說(shuō)話、電視、音樂、碗碟碰撞和撞門等背景噪聲的影響。此外,這類應(yīng)用也必須能適應(yīng)不同性別的成人和孩子。
語(yǔ)音識(shí)別輸出的信號(hào)完整性只跟經(jīng)過(guò)處理的信號(hào)一樣,因此適當(dāng)?shù)柠溈孙L(fēng)電路設(shè)計(jì)是最基本的。麥克風(fēng)電路的設(shè)計(jì)應(yīng)使得麥克風(fēng)、偏置電阻和前置放大級(jí)的組合電路可以充分利用ADC的輸出位數(shù),即盡可能利用ADC的輸出位數(shù)來(lái)達(dá)到最佳分辨率,并且不飽和。另外,設(shè)計(jì)還應(yīng)考慮到人們輕聲或大聲說(shuō)話時(shí)的可能功率范圍,以及照明控制器可能被使用的距離范圍(通常最大約為10英尺)。
最好把照明控制器設(shè)置成避免誤啟動(dòng),(在嘈雜的環(huán)境中,使用者有時(shí)可能不得不重復(fù)發(fā)出指令),利用Quick T2SI工具的設(shè)置可實(shí)現(xiàn)這點(diǎn)。保持指令集的規(guī)模盡可能小,對(duì)盡量減少錯(cuò)誤指令帶來(lái)的誤操作十分重要,特別是在嘈雜的環(huán)境(如在家中)。為使指令之間的差異最大,T2SI指令在聲音和長(zhǎng)度方面應(yīng)盡可能地不同。
最后,照明控制器的邏輯流程必須簡(jiǎn)單、自然,方便使用。為避免使用者混淆,應(yīng)盡可能減少?gòu)囊鹫彰骺刂破鞯淖⒁獾竭M(jìn)入活躍指令集狀態(tài)的控制步驟?;钴S指令集應(yīng)一直包含觸發(fā)字的復(fù)本,因而使使用者可以在任何時(shí)候重建自己在該流程中的位置。觸發(fā)字應(yīng)該很易于地與照明控制功能關(guān)聯(lián)起來(lái),而活躍指令必須是照明控制最常用的。圖1對(duì)設(shè)計(jì)將要用到的流程進(jìn)行了說(shuō)明。
圖2:Sensory公司的VR stamp是一個(gè)低成本的模塊,可通過(guò)加入語(yǔ)音識(shí)別系統(tǒng)所必需的基本功能和組件來(lái)簡(jiǎn)化設(shè)計(jì)。 |
硬件設(shè)計(jì)
為簡(jiǎn)化照明控制器的開發(fā),本例中使用了Sensory公司的VR Stamp。VR Stamp是一個(gè)包含Sensory RSC-4128微處理器、音頻電路分立電容和麥克風(fēng)前置放大器、3.58MHz晶振、復(fù)位電路及用于存儲(chǔ)程序代碼的128KB閃存的低成本模塊。
VR Stamp還帶有128KB的串行EEPROM存儲(chǔ)器,但在照明控制器應(yīng)用中沒有用到它(見圖2)。VR Stamp工具套件包括VR Stamp、集成開發(fā)環(huán)境(IDE)、Quick T2SI、FluentChip庫(kù)(具有各種語(yǔ)音識(shí)別和合成功能,包括T2SI)、VR Stamp編程板和支持文件。
在這個(gè)由語(yǔ)音激活的照明控制器電路中,VR Stamp模塊接受使用者發(fā)出的語(yǔ)音指令,然后提供控制信號(hào)來(lái)打/關(guān)燈,并通過(guò)設(shè)置占空比來(lái)調(diào)節(jié)想要的電燈亮度(圖3)。
該電路由120V、60Hz的交流線電源供電。變壓器(T1)和二極管橋(D1)完成從交流到直流的轉(zhuǎn)換和整流。RSC-4128工作在2.4到3.6V的范圍內(nèi)。穩(wěn)壓器(U1)向VR Stamp模塊提供穩(wěn)定的3.3V電源。3300Ω的電阻(R1)將交流線性電流降低到幾個(gè)毫安,以使RSC-4128能夠檢測(cè)電壓何時(shí)出現(xiàn)過(guò)零點(diǎn)。
內(nèi)部二極管的作用是防止芯片因輸入電壓過(guò)高而損壞。兩端交流開關(guān)元件/三端雙向可控硅開關(guān)元件對(duì)(U2/Q2)在輸出端(P2)控制交流線電流。為濾除VDD上的低頻紋波,必須使用100µF的電容(C3),因?yàn)椴环€(wěn)定的VDD將會(huì)耦合到音頻電路中,并將降低語(yǔ)音識(shí)別的精確度。
用于語(yǔ)音識(shí)別輸入的麥克風(fēng)(MK1)和用于聲音輸出的揚(yáng)聲器(LS1),實(shí)現(xiàn)該應(yīng)用的功能模塊。這是一個(gè)被來(lái)用為電燈供電的經(jīng)典電路。通過(guò)延遲啟動(dòng),該電路還可以減弱燈的亮度。本設(shè)計(jì)實(shí)現(xiàn)了4個(gè)照明開關(guān)亮度級(jí)別,其中“最亮”和“關(guān)燈”分別采用100%和0%的占空比, “中等亮”和“暗”分別采用大約50%和10%的占空比。
在設(shè)計(jì)帶有語(yǔ)音識(shí)別功能的PCB時(shí),設(shè)計(jì)者應(yīng)該記住兩個(gè)設(shè)計(jì)原則:
1.保持模擬電源和模擬地的穩(wěn)定 應(yīng)利用穩(wěn)壓器使電源信號(hào)和地信號(hào)盡可能保持穩(wěn)定。應(yīng)合理設(shè)計(jì)PCB布局和走線,以使所有的模擬電源和模擬地信號(hào)與數(shù)字地分開。模擬電源和模擬地應(yīng)分別連接到主電源和主接地上 (對(duì)于本應(yīng)用為穩(wěn)壓器)。這種連接方式通常被稱為“星形接地”。把穩(wěn)壓器放在盡可能接近VR Stamp的MIC _ RET引腳的地方,并對(duì)所有電源和地信號(hào)使用粗的電線和PCB走線。
2. 麥克風(fēng)連線盡量短,并帶屏蔽保護(hù) 使PCB上所有模擬走線盡可能短是一種好的設(shè)計(jì)方法。特別是,從麥克風(fēng)的正輸入端到VR Stamp的主音頻信號(hào)路徑應(yīng)該盡可能短。高阻抗音頻信號(hào)的振幅僅為幾毫伏的峰峰值。為避免來(lái)自數(shù)字噪聲和電磁干擾(EMI)的天線效應(yīng),必須使用屏蔽線纜連接麥克風(fēng)與該電路。
VR Stamp被設(shè)計(jì)用來(lái)利用廉價(jià)的全向駐極體麥克風(fēng)提供出色的識(shí)別性能。本應(yīng)用中選用了松下公司的WM-64PKT,但也可以使用許多其它制造商和其它型號(hào)的產(chǎn)品。雖然駐極體麥克風(fēng)要求一個(gè)外部電源驅(qū)動(dòng)內(nèi)部FET緩沖器,但被偏置后,它們也可作為電流源使用。此外,偏置電流控制整個(gè)麥克風(fēng)的靈敏度。在這個(gè)調(diào)光開關(guān)中,采用了靈敏度為-44dB的麥克風(fēng)。如果采用不同靈敏度的麥克風(fēng),則應(yīng)按下面的公式修改麥克風(fēng)的偏置電阻(R4):
其中Sensitivity是你想要的麥克風(fēng)靈敏度(在麥克風(fēng)規(guī)格中以-dB為單位),R是麥克風(fēng)阻抗,RS是對(duì)獲得給定靈敏度所需的麥克風(fēng)偏置電阻(R4)。
麥克風(fēng)的布局也是VR設(shè)計(jì)成功的關(guān)鍵因素,應(yīng)記住三個(gè)重要的設(shè)計(jì)原則。
1. 埋入式安裝 麥克風(fēng)元件應(yīng)放在盡可能接近安裝面的地方,而且應(yīng)充分固定在塑料殼體上。在麥克風(fēng)元件和塑料殼體之間不能有任何空隙。
2. 無(wú)障礙物且孔足夠大 為避免影響識(shí)別效果,須保證在麥克風(fēng)元件前面的區(qū)域內(nèi)沒有任何障礙物。麥克風(fēng)前面的外殼的開孔直徑至少為5mm。如果必需在麥克風(fēng)前加上塑料表面,應(yīng)使之盡可能薄,如果可以的話,最好不超過(guò)0.7mm。
3. 隔離 為避免因操作或震動(dòng)產(chǎn)品而產(chǎn)生的聽覺噪聲被麥克風(fēng)“獲取”,麥克風(fēng)與殼體之間應(yīng)該進(jìn)行隔音。
圖3:由語(yǔ)音激活的照明控制電路中的VR stamp模塊接收使用者口頭指令,提供開/關(guān)燈控制信號(hào),并設(shè)置燈的亮度。 |
軟件設(shè)計(jì)
Sensory公司的VR Stamp可以運(yùn)行利用FluentChip技術(shù)固件工具和庫(kù)所開發(fā)的程序。FluentChip程序是利用VR Stamp工具套件所包含的IDE工具所創(chuàng)建和管理的。一個(gè)程序包含一個(gè)或多個(gè)代碼模塊(可以使用匯編語(yǔ)言或C語(yǔ)言編寫)及其它程序資源,包括面向T2SI識(shí)別指令集和SX語(yǔ)音提示的目標(biāo)數(shù)據(jù)文件。
T2SI觸發(fā)及指令集是采用Quick T2SI(一個(gè)基于Windows的SI識(shí)別指令集創(chuàng)建工具)創(chuàng)建的。為使用這個(gè)基于圖形使用者界面(GUI)的工具,設(shè)計(jì)者只需把待識(shí)別的字或短語(yǔ)鍵入到文本框中,按下“Build”按鈕,一個(gè)定制的SI集合就創(chuàng)建好了。注意的是,應(yīng)把觸發(fā)字輸入到觸發(fā)字文本框中,把指令輸入到指令文本框中。
可以利用PC對(duì)這些字和短語(yǔ)進(jìn)行測(cè)試,也可以把它們下載到VR Stamp中進(jìn)行測(cè)試。如果一些字難以識(shí)別或易于產(chǎn)生混淆,設(shè)計(jì)者應(yīng)調(diào)節(jié)識(shí)別字和短語(yǔ)的發(fā)音,并馬上重新測(cè)試。Quick T2SI工具也可創(chuàng)建可以鏈接到任何T2SI應(yīng)用的目標(biāo)文件。
應(yīng)把Quick T2SI工具中的“Out of Vocabulary Sensitivity”項(xiàng)設(shè)置成“Reject More”或“Reject Most”以減少誤啟動(dòng)。應(yīng)該對(duì)T2SI字進(jìn)行了仔細(xì)選擇,以便VR能很容易地區(qū)分它們,而且這些字對(duì)使用者來(lái)說(shuō)是很自然的。例如,“on”和“off”就不應(yīng)列入T2SI字,因?yàn)閮烧叩陌l(fā)音太相似,很易于引起混淆。
如“power”等較長(zhǎng)的字是更好的選擇。此外,可以把這個(gè)單獨(dú)的字用作開/關(guān)燈的開關(guān)。而其它的指令詞,“dimmer low”、“dimmer medium”、“dimmer high”和“l(fā)ight switch”都足夠長(zhǎng),差別很大,不太可能引起混淆。
評(píng)論