淺析智能電視語音中控解決方案
摘?要:我們正處在以智能制造為主導(dǎo)的第四次工業(yè)革命的浪潮中,隨著人工智能、信息技術(shù)、生物技術(shù)等新興技術(shù)的興起,制造業(yè)進(jìn)入到了全面智能化轉(zhuǎn)型時(shí)期。如何讓機(jī)器設(shè)備變得更加智能,為人類提供更舒適便捷的服務(wù),就成為人們不斷探索的課題。語言交流是人與人溝通的基礎(chǔ),自然而然地,智能語音就成為人與機(jī)器交互的一個(gè)重要載體。在智能電視領(lǐng)域,隨著技術(shù)升級(jí)和應(yīng)用場景的不斷拓展,智能語音已經(jīng)成為智能電視的核心能力之一,在人機(jī)交互中占據(jù)了越來越重要的地位。為了提升語音整體性能及業(yè)務(wù)能力,各大廠家不再滿足于第三方語音技術(shù)方案提供的整套服務(wù),開始加大對(duì)智能語音全鏈路的研發(fā)投入,以便對(duì)語音功能有更多優(yōu)化和選擇的空間。而在智能語音的整個(gè)鏈路中,云端控制和決策能力又是至關(guān)重要的一環(huán),所以搭建私有化中控平臺(tái),成為各大廠家優(yōu)先選擇的方案。
本文引用地址:http://m.butianyuan.cn/article/202210/439473.htm關(guān)鍵詞:智能語音;中控平臺(tái);自動(dòng)語音識(shí)別;自然語言理解;文本轉(zhuǎn)換
1 前言
隨著智能電視技術(shù)的迭代升級(jí)和應(yīng)用場景的不斷拓展,智能語音已經(jīng)成為智能電視的核心能力之一。通過智能語音可以更便捷地完成人與電視的交互,所以智能語音能力的高低,成為評(píng)判電視智能化水平的一個(gè)重要標(biāo)準(zhǔn)。隨著語音技術(shù)的進(jìn)步和市場的發(fā)展,通過語音完成簡單的控制指令已不能滿足用戶需求,人們希望可以通過語音實(shí)現(xiàn)更多的功能,而依靠終端設(shè)備軟件升級(jí)的方式增加或變更服務(wù)又相對(duì)困難。在這種大背景下,各大廠家紛紛建立起私有化語音中控平臺(tái),希望通過自有中控平臺(tái)持續(xù)優(yōu)化語音技能,靈活地配置語音業(yè)務(wù)。下面就帶大家了解一下智能語音全鏈路處理過程,簡單介紹語音中控平臺(tái)如何搭建以及各模塊的基本作用,最后再講一下語音中控軟件的基本架構(gòu)。
2 語音全鏈路解析
智能語音全鏈路包括端側(cè)能力和云端能力兩個(gè)部分,端側(cè)指智能電視終端,主要負(fù)責(zé)聲音采集并對(duì)聲音信號(hào)進(jìn)行處理,將音頻信號(hào)、文字信息通過云端協(xié)議送至云端處理,并執(zhí)行云端返回的指令或播報(bào)生成的結(jié)果。云端能力包括語音識(shí)別、語義理解、對(duì)話管理、資源調(diào)用、回復(fù)生成和語音合成幾個(gè)模塊,負(fù)責(zé)把一句話轉(zhuǎn)成文字,并理解這句話的意圖,完成對(duì)應(yīng)的指令并返回相應(yīng)的結(jié)果。語音解析是否智能,能不能準(zhǔn)確理解使用者的意圖,關(guān)鍵就在于云端能力的高低。語音全鏈路結(jié)構(gòu)如圖 1 所 示,語音信號(hào)被聲音采集模塊收集后,經(jīng)過信號(hào)處理模塊的限幅、降噪處理,給到語音喚醒模塊做喚醒詞匹配,匹配成功后把語音送給語音識(shí)別模塊,將聲音信號(hào)轉(zhuǎn)成文字信息,再由語義理解模塊解析出關(guān)鍵詞,由對(duì)話管理模塊根據(jù)上下文輸入理解用戶意圖,再通過應(yīng)用程序編程接口(application programming interface, API)調(diào)用外部資源,并生成回復(fù)內(nèi)容,返回終端執(zhí)行相關(guān)指令的同時(shí),播報(bào)由語音合成模塊合成的語音回復(fù)。至此,一個(gè)完整的語音處理鏈路就完成了,當(dāng)有新的語音輸入時(shí) 再重復(fù)以上過程。
2.1 語音識(shí)別
自動(dòng)語音識(shí)別(automatic speech recognition,ASR)是將語音信號(hào)轉(zhuǎn)換成文字信息的服務(wù)。語音識(shí)別根據(jù)實(shí)際應(yīng)用場景,選擇合適的聲學(xué)和語言模型,將接收到的語音信號(hào)經(jīng)過特征提取、多路解碼、模型計(jì)算、權(quán)重比較后,得到一段置信度較高的文字輸出。通過對(duì)聲音信號(hào)的分析,也可以獲取使用者的聲紋、情緒狀態(tài)、年齡段等信息;根據(jù)這些數(shù)據(jù)可以對(duì)用戶群體進(jìn)行細(xì)分及精細(xì)化運(yùn)營,為用戶提供個(gè)性化服務(wù)的同時(shí),也能夠提升運(yùn)營質(zhì)量。
2.2 語義理解
在進(jìn)行語音交互的時(shí)候,僅僅把聲音轉(zhuǎn)換成文字是遠(yuǎn)遠(yuǎn)不夠的,必須理解用戶說的是什么意思,因此語義理解服務(wù)是語音交互鏈路中非常重要的一環(huán)。對(duì)于用戶的應(yīng)用場景,首先要定義出場景的語義空間,識(shí)別用戶有哪些意圖,然后采集數(shù)據(jù)進(jìn)行意圖識(shí)別和參數(shù)抽取,將輸入的文字進(jìn)行模型處理,輸出文字中的關(guān)鍵信息。這一步就是把人的語言形式轉(zhuǎn)化為機(jī)器可理解的、結(jié)構(gòu)化的、完整的語義表示。
2.3 對(duì)話管理
對(duì)話管理控制著人機(jī)對(duì)話交互的過程,依據(jù)對(duì)話歷史信息和當(dāng)前用戶輸入,決定系統(tǒng)對(duì)用戶輸入的反應(yīng),這也是多輪對(duì)話的基礎(chǔ)。在復(fù)雜任務(wù)完成的過程中,當(dāng)用戶的輸入不夠具體或明確時(shí),系統(tǒng)通過對(duì)話管理對(duì)用戶的需求進(jìn)行詢問、澄清或確認(rèn)來明確用戶的真實(shí)意圖,完成用戶的請(qǐng)求。對(duì)話管理包含對(duì)話狀態(tài)跟蹤、響應(yīng)決策、語義槽填充、上下文管理、指代消歧等功能。
2.4 回復(fù)生成
根據(jù)上下文語境,結(jié)合用戶實(shí)際使用場景進(jìn)行定義,對(duì)執(zhí)行用戶輸入結(jié)果給出反饋文字或動(dòng)作?;貜?fù)生成包含本地命令、控件定義、對(duì)話回復(fù)、默認(rèn)播報(bào)、錯(cuò)誤播報(bào)、對(duì)話控制等功能。
2.5 語音合成
語音合成是把文字信息轉(zhuǎn)成標(biāo)準(zhǔn)語音輸出的過程,相當(dāng)于給設(shè)備裝上了“嘴巴”。語音是否流暢、音色是否優(yōu)美動(dòng)聽,就是由這個(gè)模塊決定的。通過一定的數(shù)據(jù)輸入和模型訓(xùn)練,可以合成特定人物的聲音,讓人和設(shè)備的互動(dòng)更和諧。
3 語音中控平臺(tái)搭建
3.1 企業(yè)中控平臺(tái)構(gòu)建
在講語音中控平臺(tái)之前,先要看一下企業(yè)中控平臺(tái)的基本架構(gòu),因?yàn)檎Z音中控隸屬于企業(yè)中控,是云端大平臺(tái)的一部分。一般企業(yè)云端控制平臺(tái)會(huì)兼容多種業(yè)務(wù)需求,除了語音業(yè)務(wù)需求外,大多還要滿足圖像識(shí)別、AIoT(AI IOT,人工智能物聯(lián)網(wǎng))等其他智能業(yè)務(wù)需求。企業(yè)云端控制平臺(tái)可以根據(jù)業(yè)務(wù)需求靈活定制,如圖 2 所示,展示了一種云端中控平臺(tái)的基本架構(gòu)和與外部模塊之間的關(guān)系。企業(yè)中控平臺(tái)包括鑒權(quán)網(wǎng)關(guān)、控制引擎、決策引擎等控制模塊,以及只為具體業(yè)務(wù)服務(wù)的單元模 塊,如圖 2 中自動(dòng)語音識(shí)別和語義處理平臺(tái)、圖像識(shí)別平臺(tái)、AIoT 平臺(tái),分別為語音業(yè)務(wù)、圖像識(shí)別業(yè)務(wù)和AIoT 業(yè)務(wù)服務(wù)。通過自有企業(yè)云端中控平臺(tái)的整體控制,不僅可以很方便地實(shí)現(xiàn)對(duì)各個(gè)業(yè)務(wù)單元的靈活配置,還可以促進(jìn)各種技術(shù)的融合和復(fù)用,推動(dòng)終端產(chǎn)品性能和用戶體驗(yàn)的提升。
圖2 企業(yè)中控平臺(tái)內(nèi)外部模塊關(guān)系
3.2 語音中控平臺(tái)架構(gòu)
在語音全鏈路的處理過程中,云端的能力非常重要,決定著語音處理結(jié)果是否智能,所以云端又被稱為智能語音的大腦。我們所說的企業(yè)自有語音中控平臺(tái)建設(shè),主要是指建立云端語音處理和控制平臺(tái)。按功能實(shí)現(xiàn)可以把語音中控平臺(tái)劃分成四個(gè)大模塊,分別是語音識(shí)別、語義理解、意圖決策和技能分發(fā) / 決策模塊,各個(gè)模塊之間的關(guān)系如圖 3 所示,遠(yuǎn)場拾音模塊拾音后給到信號(hào)處理模塊對(duì)語音信號(hào)進(jìn)行處理,然后把語音信號(hào)送給語音識(shí)別模塊,將聲音信號(hào)轉(zhuǎn)換成文本信息。這里遠(yuǎn)近場處理方式略有不同,近場語音拾音后直接輸出給語音識(shí)別模塊。轉(zhuǎn)換出來的文本信息通過語義理解模塊的解析、意圖決策和技能分發(fā)模塊的處理,把處理結(jié)果返回給終端設(shè)備,呈現(xiàn)具體信息或者執(zhí)行相關(guān)動(dòng)作。
在語音中控平臺(tái)的四個(gè)模塊中,自動(dòng)語音識(shí)別模塊負(fù)責(zé)將音頻信號(hào)轉(zhuǎn)換成文本信息,功能相對(duì)比較單一,前文也有介紹,這里不再贅述。語義理解、意圖決策、技能分發(fā) / 決策模塊功能相對(duì)復(fù)雜,也是語音中控的核心能力,各模塊細(xì)分功能如圖 4 所示。語義理解模塊包括 Query 分析、場景分類、意圖識(shí)別、上下文識(shí)別、模板干預(yù)和槽位提取功能,一段語音信息通過槽位提取關(guān)鍵詞后,根據(jù)不同的場景對(duì)意圖進(jìn)行分類,并結(jié)合上下文理解調(diào)整意圖,從而準(zhǔn)確判定一句話的真實(shí)意圖。具備了槽位提取能力以后,在新業(yè)務(wù)拓展時(shí)可以脫離對(duì)第三方技能語言理解能力的依賴,實(shí)現(xiàn)靈活對(duì)接第三方業(yè)務(wù),也可以根據(jù)業(yè)務(wù)需求自行訓(xùn)練對(duì)應(yīng)槽位,方便新業(yè)務(wù)的開展。同時(shí),根據(jù)場景對(duì)槽位進(jìn)行細(xì)分后,可以實(shí)現(xiàn)對(duì)特定人群和使用場景的定制,提高服務(wù)的精準(zhǔn)度以及運(yùn)營轉(zhuǎn)化率。意圖決策模塊包括多意圖決策、上下文決策、個(gè)性化干預(yù)和用戶畫像生成幾部分,主要是根據(jù)用戶使用習(xí)慣,結(jié)合上下文對(duì)意圖進(jìn)行干預(yù),從多個(gè)意圖中選出最能匹配用戶場景的意圖,提高意圖的準(zhǔn)確度。技能分發(fā) / 決策模塊通過數(shù)據(jù)模型或人工干預(yù)的方式對(duì)決策結(jié)果進(jìn)行選擇,從而控制意圖的分發(fā),實(shí)現(xiàn)對(duì)第三方內(nèi)容資源的靈活對(duì)接。
圖4 語音中控核心模塊
4 語音中控平臺(tái)軟件架構(gòu)
語音中控平臺(tái)軟件在架構(gòu)上主要分為三層,分別是底層技術(shù)層、核心能力層和需要二次開發(fā)的對(duì)接層,層級(jí)結(jié)構(gòu)如圖 5 所示。底層技術(shù)包括深度學(xué)習(xí)算法、語音識(shí)別技術(shù)、自然語言處理和基礎(chǔ)數(shù)據(jù)模型,這部分是智能語音的基礎(chǔ)技術(shù),專業(yè)性較強(qiáng),一般不需要特殊定制,可以借助第三方成熟的技術(shù)方案。核心能力層包括場景分類、意圖識(shí)別、槽位提取、上下文判定、決策和技能分發(fā)、用戶畫像及個(gè)性化推薦模塊,囊括了語音云端處理所有核心功能,語音處理上的性能優(yōu)化和差異化功能的定制開發(fā),都需要在這一層實(shí)現(xiàn)。在核心能力層之上的服務(wù)對(duì)接、模型訓(xùn)練、決策配置和數(shù)據(jù)分析模塊,用來對(duì)接具體業(yè)務(wù)和服務(wù),需要根據(jù)具體業(yè)務(wù)需求做二次開發(fā)。這一層要實(shí)現(xiàn)多種服務(wù)的靈活對(duì)接,對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析及模型訓(xùn)練,并根據(jù)業(yè)務(wù)類型和用戶使用場景制定適當(dāng)?shù)臎Q策機(jī)制,完成復(fù)雜或者具有多重語義語句的功能匹配。
5 結(jié)語
本文給出了一種搭建企業(yè)私有化語音中控平臺(tái)的方案,在整個(gè)語音鏈路中,語音中控占據(jù)了舉足輕重的位置。通過搭建自有語音中控平臺(tái),可以在不打擾用戶的情況下通過云端靈活配置第三方服務(wù)和技能,提升智能語音優(yōu)化迭代的速度,還可以根據(jù)具體業(yè)務(wù)和用戶使用場景定制語音技能,為用戶打造具有特色的語音服務(wù)。另外,使用私有語音中控平臺(tái),能夠更加方便地管理用戶數(shù)據(jù),并保障語音數(shù)據(jù)的安全。所以,不管從資源整合、性能提升還是業(yè)務(wù)拓展等方面考慮,建立私有化中控平臺(tái)都是大企業(yè)的未來趨勢。
參考文獻(xiàn):
[1]?郭晶晶.語音識(shí)別技術(shù)發(fā)展對(duì)推廣普通話的意義[J].傳播力研究,2020(18).
[2]?杜靈君,武曉島.語音識(shí)別技術(shù)全球?qū)@季众厔輀J].科技中國,2021(12).
[3]?張大林,任萱,徐藝敏,等.企業(yè)內(nèi)網(wǎng)系統(tǒng)語音識(shí)別技術(shù)的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字技術(shù)與應(yīng)用,2021(12).
[4]?袁冰清,于淦,周霞.淺說語音識(shí)別技術(shù)[J].數(shù)字通信世界,2020(02).
[5]?張昱,高凌燕,胡虎安,等.智能語音識(shí)別技術(shù)在郵政快遞柜中的應(yīng)用研究[J].電子世界,2020(04).
[6]?李博麗.傳統(tǒng)計(jì)算機(jī)語音識(shí)別技術(shù)中的數(shù)學(xué)[J].花炮科技與市場,2020(02).
[7]?郝歐亞,吳璇,劉榮凱.智能語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀與應(yīng)用前景[J].電聲技術(shù),2020(03).
[8]?彭洪松,李洪斌,李莉,等.人工智能中遠(yuǎn)場語音識(shí)別技術(shù)的研究[J].數(shù)字通信世界,2020(05).
[9]?于曉明.語音識(shí)別技術(shù)的發(fā)展及應(yīng)用[J].計(jì)算機(jī)時(shí)代,2019(11).
[10]?田建勇,劉松,李洲越,等.智能語音提醒系統(tǒng)的設(shè)計(jì)分析[J].電腦知識(shí)與技術(shù),2020(20).
[11?]?李亞銘,李陽.智媒體時(shí)代人工智能在電視行業(yè)的應(yīng)用研究[J].出版廣角,2019(03).
[12]?詹紅艷.人工智能在電視人機(jī)交互中的實(shí)踐[J].數(shù)字技術(shù)與應(yīng)用,2019(03).
[13]?張藍(lán)姍,黃高原.人工智能技術(shù)給電視媒介帶來的機(jī)遇和挑戰(zhàn)[J].中國電視,2018(07).
[14]?侯光敏.人工智能在電視人機(jī)交互中的應(yīng)用[J].有線電視技術(shù),2017(11).
(注:本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年10月期)
評(píng)論