中文語(yǔ)音處理在數(shù)字助聽(tīng)器的設(shè)計(jì)

作者：時(shí)間：2017-06-06 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

目前國(guó)外對(duì)助聽(tīng)器研究發(fā)展的一個(gè)熱點(diǎn)則是集中在中國(guó)，確切地講是基于對(duì)漢語(yǔ)語(yǔ)言和語(yǔ)音研究，開(kāi)發(fā)相關(guān)的語(yǔ)音識(shí)別技術(shù)和產(chǎn)品。為中心的中文聽(tīng)力學(xué)也不例外。我們已經(jīng)知道聽(tīng)覺(jué)科學(xué)是一門(mén)發(fā)展迅速、知識(shí)更新很快的一門(mén)學(xué)科，它所研究的對(duì)象以人的聽(tīng)覺(jué)為中心，現(xiàn)在我們將介紹和討論科學(xué)家和聽(tīng)力學(xué)家更關(guān)心的是怎樣將聽(tīng)覺(jué)科學(xué)運(yùn)用到中國(guó)人的聽(tīng)覺(jué)和言語(yǔ)實(shí)際中去。

漢語(yǔ)是具有特征化的音調(diào)性語(yǔ)言，與其他以拼音字母為主的語(yǔ)系，如斯拉夫語(yǔ)系等具有很明顯的語(yǔ)音學(xué)差別。這種差別不僅僅在語(yǔ)言特征上非常明確，在具體使用時(shí)，區(qū)別也很大。是否不同語(yǔ)系的不同語(yǔ)音特征會(huì)影響聽(tīng)覺(jué)受損患者對(duì)言語(yǔ)的理解，尤其是在使用基于不同語(yǔ)系研究成果制作成的助聽(tīng)器時(shí)，這種語(yǔ)音的差異是否起到重要作用，最近已成為學(xué)術(shù)和科研的一個(gè)熱門(mén)課題。比如國(guó)內(nèi)研制的人工耳蝸的一個(gè)特點(diǎn)便是在設(shè)計(jì)其算法時(shí)考慮到中文語(yǔ)音特點(diǎn)。國(guó)外助聽(tīng)器廠商將在近期推出以中文語(yǔ)音為特征算法的助聽(tīng)器。加拿大在中國(guó)的一語(yǔ)音實(shí)驗(yàn)室通過(guò)多年的研究和實(shí)驗(yàn)，早在 2000 年運(yùn)用領(lǐng)先的數(shù)字信號(hào)處理 (DSP) 技術(shù)，在其數(shù)字助聽(tīng)器中加入中文語(yǔ)音算法，并同時(shí)申請(qǐng)了相關(guān)專(zhuān)利。目前他們率先推出的以中文語(yǔ)音處理技術(shù)為核心的全新數(shù)字助聽(tīng)器 —Intelligia ，在臨床試驗(yàn)中得到受試者的認(rèn)可，初步證明這種新型助聽(tīng)器對(duì)說(shuō)以中文為母語(yǔ)的患者有益處。

目前研究的結(jié)果表明，不同的語(yǔ)系，如漢語(yǔ)和英語(yǔ)有各自特點(diǎn)，在聽(tīng)覺(jué)感知過(guò)程中有很大差別。英文和漢語(yǔ)在語(yǔ)音和口語(yǔ)上有重要區(qū)別， Ming-Xi Tsai el al （ 2000 ）認(rèn)為漢語(yǔ)和英文語(yǔ)音在結(jié)構(gòu)上特征區(qū)別很大。漢語(yǔ)的詞、字、音節(jié)和聲、韻母分節(jié)含有不同層次的信息，并保持復(fù)雜的關(guān)系。在口語(yǔ)中，漢語(yǔ)發(fā)音差異也很大，在不同會(huì)話條件下，受到這些結(jié)構(gòu)中不同層次信息的影響。

對(duì)中文語(yǔ)音識(shí)別和中文語(yǔ)音音調(diào)的研究表現(xiàn)在人工耳蝸的算法上面。言語(yǔ)處理策略是人工耳蝸幫助患者理解語(yǔ)言核心技術(shù)，已有大量研究。但對(duì)于言語(yǔ)聲尤其是聲調(diào)、語(yǔ)調(diào)的研究，比如對(duì)以語(yǔ)調(diào)為基礎(chǔ)的漢語(yǔ)研究還是很少。在最近的一個(gè)試驗(yàn)中，他們用澳大利亞人工耳蝸來(lái)觀察對(duì)漢語(yǔ)語(yǔ)音理解的影響。結(jié)果表明在某些言語(yǔ)處理策略中漢語(yǔ)的使用的理解度要高于其他時(shí)間策略。如果能提高刺激率，加強(qiáng)對(duì)語(yǔ)音和音調(diào)的理解，他們也認(rèn)為不同的言語(yǔ)處理策略對(duì)漢語(yǔ)說(shuō)法也有理解。研究再次證明，漢語(yǔ)應(yīng)該有一定的語(yǔ)音系統(tǒng)處理自己的語(yǔ)言，尤其是對(duì)聽(tīng)障人士尤為重要。

美國(guó)麻省理工學(xué)院研究者 Michael Qin 在其《在噪音背景發(fā)音和音調(diào)的辨認(rèn)》的試驗(yàn)中，對(duì)漢語(yǔ)普通話音調(diào)的辨認(rèn)和噪音的關(guān)系進(jìn)行了研究。他認(rèn)為不同的語(yǔ)言利用不同類(lèi)型的聲調(diào)使我們口語(yǔ)富于不同的意義，在噪音環(huán)境下這些有意義的聲調(diào)會(huì)受到影響，因此他需要發(fā)現(xiàn)說(shuō)普通話的中國(guó)人怎樣在噪音環(huán)境里辨認(rèn)不同的聲調(diào)。在試驗(yàn)中他使用 6 個(gè)輔元音的音位，同時(shí)使用 4 個(gè)聲調(diào)：陰陽(yáng)上去。其結(jié)果表明在信噪比降低的情況下，對(duì)漢語(yǔ)聲調(diào)和元音的識(shí)別受到很大影響，從而影響降低言語(yǔ)的理解能力。因此信噪比影響理解中文很重要的因素。這個(gè)試驗(yàn)對(duì)聽(tīng)覺(jué)康復(fù)和設(shè)計(jì)有針對(duì)性的助聽(tīng)器具有重要意義。

同時(shí)，最近美國(guó)成立了一個(gè)綜合性專(zhuān)家研究小組，開(kāi)始研制適合中文語(yǔ)音的助聽(tīng)器。該小組成員包括世界聞名的豪斯耳研究院、香港中文大學(xué)耳鼻喉科等。與上述研究類(lèi)似。他們認(rèn)為在聆聽(tīng)以聲調(diào)作為識(shí)別語(yǔ)音和語(yǔ)義的語(yǔ)言時(shí)，如普通話、廣東話和泰國(guó)語(yǔ)等，可能聽(tīng)覺(jué)更重要的是依靠基頻相關(guān)的信息來(lái)理解語(yǔ)言，這是與別的語(yǔ)言不同的。因此，在研制助聽(tīng)器時(shí)，我們應(yīng)該考慮到這些患者的語(yǔ)言特點(diǎn)。

當(dāng)然，筆者最感興趣的是最近由威耳康研究基金 (Wellcome Trust) 贊助的一項(xiàng)題為《中文普通話會(huì)話者在理解語(yǔ)言時(shí)比英文會(huì)話者用腦更多》的試驗(yàn)，其目的是使用影像技術(shù)來(lái)觀察和研究中文母語(yǔ)和英文母語(yǔ)說(shuō)話者大腦出現(xiàn)的不同活動(dòng)。主持該項(xiàng)研究的心理學(xué)家索菲斯高特博士發(fā)現(xiàn)，當(dāng)英語(yǔ)的受試者聽(tīng)到英文時(shí)，其左顳葉變得異?；钴S，研究者認(rèn)為這個(gè)區(qū)是把言語(yǔ)聲組合在一起形成獨(dú)立的字詞。但是當(dāng)中文受試者聽(tīng)到普通話時(shí)，其左右顳葉同時(shí)活躍起來(lái)。顯然，由于說(shuō)不同語(yǔ)言的受試者用他們大腦的不同區(qū)域?qū)Σ煌Z(yǔ)言的刺激進(jìn)行解碼。這對(duì)我們理解這些理論產(chǎn)生了很大的影響。他們進(jìn)一步認(rèn)為中文受試者的左顳葉處理語(yǔ)音信號(hào)，而他們的右顳葉則處理聲調(diào)，同時(shí)產(chǎn)生意義。言語(yǔ)聲是非常復(fù)雜的聲音，而正確理解言語(yǔ)傳遞的意思，在這種情況下，大腦會(huì)充分利用說(shuō)話者抑揚(yáng)頓挫的聲調(diào)來(lái)對(duì)其言語(yǔ)進(jìn)行解碼，從而將口語(yǔ)變成有意義的信號(hào)。

大腦聽(tīng)覺(jué)區(qū)域很容易受外部影響，而改變對(duì)聲音的分辯能力。一旦聽(tīng)覺(jué)受到損傷，必需進(jìn)行康復(fù)，大腦需要重新連接和編碼。大腦的可塑性是很強(qiáng)的。了解大腦對(duì)不同語(yǔ)言的反應(yīng)，可以有效地幫助聽(tīng)覺(jué)患者重新恢復(fù)對(duì)語(yǔ)言的理解。重要的是基于這些研究，我們可以清楚地看到研制出具有中文語(yǔ)音特征的聽(tīng)力康復(fù)設(shè)備。記得在 2002 年北京大學(xué)和中國(guó)殘聯(lián)成立言語(yǔ)聽(tīng)覺(jué)中心的開(kāi)幕式上，鄧樸方先生在發(fā)言中專(zhuān)門(mén)談到：他第一次聽(tīng)說(shuō)中文語(yǔ)音處理特征對(duì)助聽(tīng)器使用者的影響，他認(rèn)為這是一個(gè)重要課題，需做大量工作，而研制出以中文語(yǔ)音為特征的聽(tīng)覺(jué)康復(fù)設(shè)備將會(huì)有重要的意義。根據(jù)國(guó)際確認(rèn)的聽(tīng)損發(fā)病率，中國(guó)有 10 ％的人口，即一億三千萬(wàn)人有不同程度聽(tīng)力損失，因此，利用中文語(yǔ)音處理技術(shù)更有效地幫助聽(tīng)殘患者具有非常重要的作用。

本文引用地址：http://m.butianyuan.cn/article/201706/350039.htm

一．中文語(yǔ)音技術(shù)處理原理

中文語(yǔ)音處理策略的英文詞有 “Chinese speech processing strategy” 或 “Chinese speech recognition”, （中文語(yǔ)音識(shí)別）和 “hearing aid algorithm” （助聽(tīng)器算法）等。其中， algorithm ，即 “ 算法 ” 一詞使用較多，尤其涉及到數(shù)字助聽(tīng)器的開(kāi)發(fā)， “ 算法 ” 代表了某一特殊技術(shù)的核心。 “ 算法 ” 可以被簡(jiǎn)單地看作為實(shí)現(xiàn)某些特定信號(hào)處理功能的指令序列。中文語(yǔ)音特征可以通過(guò)算法研究來(lái)形成的。數(shù)字信號(hào)處理器和算法構(gòu)成了數(shù)字助聽(tīng)器的 DSP 線路。包含多通道動(dòng)態(tài)范圍壓縮、噪音衰減等處理，設(shè)計(jì)助聽(tīng)器的算法的主要目標(biāo)是利用中文語(yǔ)音處理技術(shù)，即使在不同的聽(tīng)音環(huán)境中，須確保言語(yǔ)被聽(tīng)見(jiàn)并聆聽(tīng)舒適。同時(shí)，利用數(shù)字助聽(tīng)器改善漢語(yǔ)可懂度，使有聽(tīng)力損失的中國(guó)患者能更容易地理解漢語(yǔ)。

漢語(yǔ)是聲調(diào)單字語(yǔ)言，聲調(diào)是漢語(yǔ)的重要語(yǔ)音特征之一。聲調(diào)特征主要體現(xiàn)在嗓音基頻隨時(shí)間變化的模式上。 Eady 技術(shù) (1982) 曾考察過(guò)聲調(diào)語(yǔ)言 — 漢語(yǔ)的基頻模式與重音語(yǔ)言 — 英語(yǔ)有什么不同。漢語(yǔ)的聲調(diào)在詞語(yǔ)中具有辯意作用，在生活實(shí)踐當(dāng)中，大家也都能體會(huì)到聲調(diào)有助于我們聽(tīng)懂別人的話，而 “ 南腔北調(diào) ” 常表示不易聽(tīng)懂和不大好懂和不大好聽(tīng)的意思。

對(duì)于連續(xù)言語(yǔ)來(lái)說(shuō)，長(zhǎng)時(shí)間平均的正、負(fù)顫動(dòng)因數(shù)，各種語(yǔ)言和男女發(fā)音人是差不多的。只是負(fù)顫動(dòng)總是比正顫動(dòng)大，而且出現(xiàn)頻率也較高。 Eady 的測(cè)量結(jié)果表明，漢語(yǔ)的說(shuō)話速度要比英語(yǔ)慢一些。這可能是由于說(shuō)漢語(yǔ)時(shí)，說(shuō)話人要花更大的努力在每一個(gè)音節(jié)上來(lái)控制聲帶運(yùn)動(dòng)，也就是說(shuō)聲調(diào)語(yǔ)言的音節(jié)喉運(yùn)動(dòng)控制有較大的語(yǔ)言學(xué)負(fù)荷，因而花的時(shí)間就多一些。結(jié)果就表現(xiàn)為說(shuō)話慢一些。

因此，聲調(diào)信息主要存在于基頻隨時(shí)間的變化中，強(qiáng)度變化對(duì)聲調(diào)信息有補(bǔ)償作用，以及清輔音的存在與否對(duì)聲調(diào)清晰度是有一定的影響的。

1原理 (Principles)

本文介紹一種可應(yīng)用于數(shù)字助聽(tīng)器的提高漢語(yǔ)可懂度的語(yǔ)音處理方法，其目標(biāo)是使以漢語(yǔ)為母語(yǔ)的聽(tīng)殘人士能更容易地理解語(yǔ)言。增強(qiáng)言語(yǔ)可懂度的思路來(lái)源于人們的實(shí)踐經(jīng)驗(yàn)?；叵胍幌拢?dāng)你為使一個(gè)有聽(tīng)力障礙的人更容易聽(tīng)懂自己說(shuō)話時(shí)所采用的方法：你不僅僅要提高音量，而且還要改變發(fā)音方式，說(shuō)得更慢和更清晰。一些研究表明清楚地讀無(wú)意義的語(yǔ)句，比在日常會(huì)話句子，大約能提高 17% 的單詞可懂度。這里所謂說(shuō)得更清晰是指強(qiáng)調(diào)言語(yǔ)信號(hào)中的某些暗示，這些暗示有許多不同的形式，如特定音段的持續(xù)時(shí)間，元音的共振峰位置或者音素之間的過(guò)渡等。

不是所有人都會(huì)簡(jiǎn)單地、方便地對(duì)聽(tīng)力損失患者 “ 清楚地 ” 講話。因此，我們要采用言語(yǔ)增強(qiáng)的方法就是在說(shuō)話人和聽(tīng)話人中間構(gòu)造一個(gè)處理模型，該模型能強(qiáng)調(diào)并突出語(yǔ)句中的特定成分，使語(yǔ)句聽(tīng)起來(lái)更清晰。

一切語(yǔ)音之所以能夠表達(dá)意義，是由于各個(gè)音之間存在區(qū)別。這些區(qū)別產(chǎn)生于聲腔內(nèi)部的器官和肌肉等活動(dòng)決定的發(fā)音方法和發(fā)音部位的差異，同時(shí)又表現(xiàn)為語(yǔ)音的聲學(xué)特征的差異。本文提出的言語(yǔ)增強(qiáng)的方法正是通過(guò)對(duì)語(yǔ)音信號(hào)的重構(gòu)來(lái)強(qiáng)化這些差異。所謂重構(gòu)是指對(duì)語(yǔ)音信號(hào)中不同性質(zhì)的信號(hào)進(jìn)行識(shí)別并有針對(duì)性地予以處理，強(qiáng)調(diào)其中對(duì)人的感知起作用的特征，從而達(dá)到提高言語(yǔ)清晰度的目的。該方法可以簡(jiǎn)單地概括為：放大輔音、強(qiáng)調(diào)重音和突出聲調(diào)。

2 漢語(yǔ)語(yǔ)音信號(hào)的感知特點(diǎn)

2.1 聲調(diào)

聲調(diào)的調(diào)類(lèi)。

聲調(diào)的感知。

主要依據(jù)基頻的變化。

聲調(diào)音高的變化對(duì)音長(zhǎng)和音強(qiáng)都可能產(chǎn)生影響。

2.2 重音

輕重音的聲學(xué)特性。

與實(shí)際音強(qiáng)有密切關(guān)系，但并不相等。

還要受音色、音高和音長(zhǎng)的制約。

感知特點(diǎn)：分辨輕重音時(shí)，音強(qiáng)往往并不是決定性因素。

1 ）輔音放大 (Consonant Amplification)

言語(yǔ)知覺(jué)的心理實(shí)驗(yàn)證實(shí)了如下特點(diǎn)：人在言語(yǔ)感知過(guò)程中，對(duì)語(yǔ)音信號(hào)載荷的關(guān)于發(fā)音方法和發(fā)音部位的分辨信息的知覺(jué)能力存在強(qiáng)弱差別。總體上說(shuō)，人對(duì)發(fā)音方法比對(duì)發(fā)音部位有更好的分辨能力。而方法清晰度與輔音清晰度的關(guān)系很相近。在漢語(yǔ)輔音的發(fā)音方法的知覺(jué)重要性中，存在清與濁、送氣與不送氣、摩擦與非摩擦的從強(qiáng)到弱的位次關(guān)系。研究表明，相對(duì)加強(qiáng)輔音有助于改善語(yǔ)音清晰度。

Kates 描述了放大輔音的方法，圖1是其中被廣為采用的一種模型。該系統(tǒng)把信號(hào)分解成幾個(gè)波段，在每個(gè)波段檢測(cè)短時(shí)譜形，根據(jù)譜形識(shí)別元音和輔音，對(duì)輔音則給予放大。需要指出的是，杜利民等提出了漢語(yǔ)語(yǔ)音導(dǎo)引特征的概念，從聲學(xué)信息計(jì)算檢測(cè)的角度為為漢語(yǔ)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)提供了一種輔助匹配結(jié)構(gòu)。

圖 1 輔音增強(qiáng)系統(tǒng)

2) 重音 (Stress)

組成一段語(yǔ)流的各音節(jié)聲音響亮程度并不完全相等。有的音節(jié)在語(yǔ)流中聽(tīng)起來(lái)聲音比其他音節(jié)響亮，這就是重音音節(jié)。有的重音和語(yǔ)義、語(yǔ)法有密切關(guān)系，如漢語(yǔ)普通話中的詞重音。詞重音出現(xiàn)在詞中，是由于詞的含義不同，重讀音節(jié)的位置也不同。如 “ 技術(shù) ” 和 “ 計(jì)數(shù) ” ，重音分別在第一音節(jié)和第二音節(jié)。這種語(yǔ)意的區(qū)別是通過(guò) “ 超音段特征 ” 來(lái)表達(dá)的。

在漢語(yǔ)中，重音對(duì)韻律特征參數(shù)的影響倍受關(guān)注。語(yǔ)流中 “ 韻律特征 ” （ prosodic feature ）是通過(guò)音高、音長(zhǎng)和音強(qiáng)的變化，即 “ 超音段特征 ” 表現(xiàn)出來(lái)。從語(yǔ)圖上觀察，音域明顯擴(kuò)張重音的特點(diǎn)。高明明對(duì)普通話語(yǔ)句匯總強(qiáng)調(diào)重音的聲學(xué)表現(xiàn)進(jìn)行了研究，指出：

（ 1 ） “ 音高升高是普通話語(yǔ)句中強(qiáng)調(diào)重音的重要韻律特征 ” 。

（ 2 ）音高和時(shí)長(zhǎng)對(duì)于強(qiáng)調(diào)重音的實(shí)現(xiàn)具有同樣重要的作用。它們之間的關(guān)系是對(duì)立互補(bǔ)的。

語(yǔ)音合成的經(jīng)驗(yàn)告訴我們，音高是調(diào)節(jié)重音最有效的手段，所以強(qiáng)化重音的方法主要是提高音高。

3) 聲調(diào) (Tone and Internation)

一個(gè)音節(jié)除了包括由元音和輔音按時(shí)間順序排列成系列的音質(zhì)單位以外，還必須包括一定的音高、音強(qiáng)和音長(zhǎng)。在一些語(yǔ)言里，音高在音節(jié)中起的作用可以說(shuō)是和元音、輔音同樣重要，這種能區(qū)別音節(jié)的意義的音高就是 “ 聲調(diào) ” 。根據(jù)聲調(diào)的有無(wú)可以把世界上的語(yǔ)言分為聲調(diào)語(yǔ)言和非聲調(diào)語(yǔ)言?xún)纱箢?lèi)。漢、藏語(yǔ)系語(yǔ)言最突出的一個(gè)特點(diǎn)就是有聲調(diào)。

漢語(yǔ)普通話的聲調(diào)起著構(gòu)詞辯意的作用。對(duì)于具有相同拼音的一個(gè)音節(jié)，由于聲調(diào)不同，可以具有不同的含義。普通話單音節(jié)的聲調(diào)變化共有四種模式，不同的聲調(diào)反映在語(yǔ)音參數(shù)上是基音頻率軌跡的變化不同。根據(jù)實(shí)驗(yàn)觀察所定義的一些規(guī)則，可以認(rèn)為基音頻率軌跡的某一參數(shù)超越某一預(yù)先確定的門(mén)限時(shí)，則可判為某一聲調(diào)類(lèi)型。在此基礎(chǔ)上，黃澤鎮(zhèn)、楊行峻提出的識(shí)別模式采用基音軌跡曲線的一、二次斜率、谷點(diǎn)和平坦度對(duì)四種聲調(diào)有很強(qiáng)的區(qū)別性，實(shí)驗(yàn)表明，這一算法的結(jié)果識(shí)別率可達(dá)到 99% 。

林茂燦指出聲調(diào)信息主要存在于主要元音（及其聲學(xué)過(guò)渡）上。考慮到聲調(diào)音高的變化，對(duì)音長(zhǎng)和音強(qiáng)都可能產(chǎn)生影響，即：去聲最短、最強(qiáng)，上聲最長(zhǎng)，最弱，陰平和陽(yáng)平舉重，陽(yáng)平又往往比陰平略長(zhǎng)一些。聲調(diào)的增強(qiáng)不能簡(jiǎn)單地對(duì)主要元音進(jìn)行放大，而應(yīng)該不同的聲調(diào)在音高和音強(qiáng)上有不同的處理。實(shí)際應(yīng)用中我們采取如下策略：

（ 1 ）對(duì)去聲增強(qiáng)音強(qiáng)。

（ 2 ）對(duì)上聲加大音長(zhǎng)。

（ 3 ）對(duì)陰平和陽(yáng)平不改變。

圖 3 展示的 4 條聲學(xué)曲線分別描述了四聲在不同時(shí)間里的頻率特征。

圖 3 漢語(yǔ)四聲的聲調(diào)聲學(xué)特征

2. 方法 (Methodology)

數(shù)字助聽(tīng)器的核心部分是增益計(jì)算，基于頻域的處理過(guò)程，它建立了各頻率段的輸入瞬時(shí)能量與增益的函數(shù)關(guān)系，如圖3所示，對(duì)每個(gè)頻段的瞬時(shí)能量進(jìn)行短時(shí)能量累計(jì)和長(zhǎng)時(shí)間慢速平均可獲得信號(hào)識(shí)別和分類(lèi)所必要的數(shù)據(jù)。其中：

（ 1 ） E j (n)= a E j (n-1) 式中： a 是時(shí)間常數(shù) 。

（ 2 ）使用倒譜算法提取基頻， 512 個(gè)點(diǎn) FFT ， 40ms 漢明窗，窗移為 10ms 。

（ 3 ）用一個(gè)簡(jiǎn)單的滑動(dòng)平均算法對(duì)每個(gè)音節(jié)測(cè)到的基頻進(jìn)行平滑處理，剔除那些平滑段內(nèi)偏離均值過(guò)大的值。

（ 4 ）音高和音長(zhǎng)分別進(jìn)行歸一化。

（ 5 ）采用一個(gè)二次曲線在最小均方誤差的意義下逼近基音軌跡。并計(jì)算曲線的一次斜率、二次斜率、谷點(diǎn)和平坦度。

上述算法采用基于 TOCCATA 指令系統(tǒng)的匯編語(yǔ)言實(shí)現(xiàn)。 14 位 A/D ，采樣率設(shè)為 32KHz 。

圖3 . 漢語(yǔ)言語(yǔ)增強(qiáng)系統(tǒng)處理結(jié)構(gòu)圖

1). 語(yǔ)音的切分 (Classifications of Phonemes)

聲波由音質(zhì)（即音色）、音高、音強(qiáng)和音長(zhǎng)四部分組成，這四部分在語(yǔ)音中起著不同的作用，但在時(shí)間上又是同時(shí)并存的。

音質(zhì)成分 —— 按音節(jié)劃分，如元音、輔音。

超音質(zhì)成分 —— 由音高、音強(qiáng)和音長(zhǎng)三部分組成，附著于一個(gè)音節(jié)或音段上。

從聲波特性上看，可以由基頻確定音高，根據(jù)振幅確定音強(qiáng)，根據(jù)時(shí)間確定音長(zhǎng)。

2). 處理原理 (Algorithm Principles)

中文語(yǔ)音處理主要體現(xiàn)在：

在驗(yàn)配過(guò)程的中，考慮中文語(yǔ)音長(zhǎng)時(shí)間頻譜覆蓋的頻率作加權(quán)處理，抬高目標(biāo)曲線中言語(yǔ)頻率的部分，可以達(dá)到加強(qiáng)語(yǔ)音理解的作用。

在助聽(tīng)器的信號(hào)處理程序中，對(duì)壓縮控制器做特別的設(shè)置，使對(duì)高頻的信號(hào)壓縮的啟動(dòng)時(shí)間和釋放時(shí)間很短 , 做到使輔音清晰化的效果，增強(qiáng)使用者對(duì)言語(yǔ)的理解度。

在降噪處理中，根據(jù)中文語(yǔ)音在噪音環(huán)境中的采樣分析，得出了為中文語(yǔ)音優(yōu)化的降噪策略。實(shí)驗(yàn)證實(shí)，該策略最高可以提高信噪比 18dB 。

二．中文語(yǔ)音處理技術(shù)在涉及助聽(tīng)器的應(yīng)用

下面是將中文語(yǔ)音技術(shù)應(yīng)用到設(shè)計(jì)助聽(tīng)器的具體實(shí)例。這項(xiàng)技術(shù)采用了目前世界上最先進(jìn)的 DSP 數(shù)字技術(shù)，包括低功耗的數(shù)字芯片。

1. TOCCATA 數(shù)字信號(hào)處理系統(tǒng)

Toccata TM 系統(tǒng)是微型、超低功耗、高效率的數(shù)字信號(hào)處理系統(tǒng)。它包括一個(gè)高保真加權(quán)疊加濾波器組（ WOLA filter bank ）、一個(gè) 16 位 DSP 核心、兩個(gè) 14 位 A/D 轉(zhuǎn)換器、一個(gè) 14 位 D/A 轉(zhuǎn)換器和其它外圍設(shè)備。 Toccata TM 技術(shù)提供標(biāo)準(zhǔn)的軟件可編程的 DSP 開(kāi)發(fā)平臺(tái)和采用 0.18 μ 工藝制造的微型超大規(guī)模集成電路。它不但為音頻處理系統(tǒng)制造商也為其它基于 DSP 的微型、低功耗產(chǎn)品的開(kāi)發(fā)提供了便利。

1.1 硬件結(jié)構(gòu) (Hardware Structure)

圖4 硬件系統(tǒng)結(jié)構(gòu)圖

TOCCATA 系統(tǒng)由三塊芯片組成，一個(gè) “ 模擬 ” 芯片（ ALPHA ），一個(gè) “ 數(shù)字 ” 芯片（ DELTA ），和一個(gè)用于無(wú)電存儲(chǔ)的 E 2 PROM 芯片。

1.2 ALPHA 芯片

ALPHA 芯片包括輸入和輸出放大器，二個(gè) A/D 轉(zhuǎn)換器，一個(gè) D/A 轉(zhuǎn)換器，以及主時(shí)鐘及供電系統(tǒng)。

1.3 DELTA 芯片

DELTA 芯片包括了 16 位軟件可編程 DSP 核心，一個(gè) WOLA 濾波器組協(xié)處理器，一個(gè) DMA 控制器（輸入輸出處理器或 IOP ）和存儲(chǔ)器（ RAM 和 ROM ）?？删幊毯诵暮挽`活的濾波器的組合允許通過(guò)軟件改變信號(hào)的處理方式。因而，該結(jié)構(gòu)可以執(zhí)行傳統(tǒng)的音頻處理系統(tǒng)處理方案（例如雙通道壓縮），當(dāng)然通過(guò) DSP 核心，也可以執(zhí)行更強(qiáng)大的處理方案（例如 16 通道乃至更多通道的壓縮，降噪，抑制反饋等）。

1.4 DSP 核心和指令系統(tǒng) (DSP Core)

RCORE 是一個(gè)靈活的 DSP 核心，采用帶單周期連乘累加操作和 40 位累加器的雙哈佛結(jié)構(gòu)。外圍組件通過(guò)一個(gè)由擴(kuò)展寄存器、存儲(chǔ)器映象寄存器和共享存儲(chǔ)器組成的復(fù)合體提供。

1.5 信號(hào)路徑

圖5 . Toccata 系統(tǒng)提供的信號(hào)路徑：

2 Intelligia 數(shù)字助聽(tīng)器結(jié)構(gòu)

Intelligia 全數(shù)字助聽(tīng)器是基于上述介紹的芯片的技術(shù)特點(diǎn)設(shè)計(jì)的，其結(jié)構(gòu)可由圖 6 表明。盡管同模擬助聽(tīng)器一樣，數(shù)字助聽(tīng)器也使用麥克風(fēng)和接收器作為能量轉(zhuǎn)換器，但在數(shù)字信號(hào)處理器中經(jīng) A/D 采樣后，電平信號(hào)已被轉(zhuǎn)化為數(shù)字編碼。數(shù)字編碼能夠非常靈活地被加以利用來(lái)提供增益、改善頻響，或按患者聽(tīng)力的要求作其它處理。當(dāng) DSP 算法完成后，數(shù)字編碼又被 D/A 轉(zhuǎn)換為電平信號(hào)，并經(jīng)由接收器轉(zhuǎn)換為聲音。

數(shù)字助聽(tīng)器的關(guān)鍵在于具有信息處理系統(tǒng)，這里以一款基于現(xiàn)進(jìn)數(shù)字信號(hào)處理系統(tǒng) Toccata TM ，開(kāi)發(fā)出的全數(shù)字助聽(tīng)器 Intelligia ，具有獨(dú)特的中文語(yǔ)音處理功能。助聽(tīng)器在設(shè)計(jì)中將信號(hào)分解成 16 個(gè)波段濾波處理，再將 16 個(gè)波段的信號(hào)組成 10 組通道，每個(gè)通道獨(dú)立使用輸入自動(dòng)增益控制方法 (AGCi) ，對(duì)信號(hào)進(jìn)行壓縮處理，每個(gè)通道使用快慢兩個(gè)時(shí)間偵測(cè)器，快速時(shí)間偵測(cè)器用以監(jiān)視信號(hào)較快的變化，而慢速時(shí)間偵測(cè)器偵測(cè)較慢的信號(hào)變化，也就是音節(jié)的變化，并且選用與中文語(yǔ)音變化相匹配的壓縮、釋放時(shí)間常數(shù)，達(dá)到更好的聽(tīng)覺(jué)效果。

全數(shù)碼助聽(tīng)器技術(shù)特點(diǎn)：

1）中文語(yǔ)音信號(hào)處理

深入研究中文和其他聲調(diào)語(yǔ)言的發(fā)聲特征后，我們把獨(dú)創(chuàng)的中文語(yǔ)音處理的技術(shù)置入，使它能大大提高在中文語(yǔ)言環(huán)境中聽(tīng)音的可懂度。

2)更快

采用專(zhuān)為數(shù)字助聽(tīng)器設(shè)計(jì)的第 3 代數(shù)字助聽(tīng)器處理系統(tǒng) TOCCATA ，它強(qiáng)大的運(yùn)算能力使能快速處理各種語(yǔ)音信號(hào)。

3)更省電

工作電流不足 1 毫安，并且它能在無(wú)信號(hào)輸入時(shí)自動(dòng)進(jìn)入省電模式，如此低的能耗免去配戴者經(jīng)常更換電池之苦。

4)完全可編程

通過(guò)其可編程的優(yōu)點(diǎn)為聽(tīng)障者配置最適合的聽(tīng)力補(bǔ)償程序和參數(shù)，從而保證配戴者可以獲得最佳的聽(tīng)音效果。

5)多通道獨(dú)立壓縮

把外界的聲音按頻率細(xì)分成多個(gè)波段和通道，并對(duì)每個(gè)波段和通道的信號(hào)進(jìn)行不同的處理，從而保證配戴者聽(tīng)到更清晰、更逼真的聲音。

6)降噪處理

能有效地抑制環(huán)境噪音，提高辨別語(yǔ)言的能力，從而保證配戴者無(wú)論是在嘈雜的大街還是在喧鬧的超市都能聽(tīng)到清晰的聲音。

7)方向性處理

可配置一個(gè)方向性麥克風(fēng)系統(tǒng)和相應(yīng)的軟件，能使降噪的效果更好，從而保證配戴者聽(tīng)到更清晰、更自然的聲音。

8)聲反饋抑制

助聽(tīng)器在使用過(guò)程中容易引起嘯叫，這種現(xiàn)象即聲反饋。采用了聲反饋抑制技術(shù)，能有效地抑制聲反饋的出現(xiàn)，使配戴者聽(tīng)到更為舒適的聲音。

9)可輕松升級(jí)

由于采用全開(kāi)放的數(shù)字信號(hào)處理（ DSP ）平臺(tái) TOCCATA 技術(shù)，提供了可編程的能力，具有充分的適應(yīng)性以及升級(jí)能力，因此，配戴者只要采用我們的軟件，就可以立刻享受到最新的功能。下面是這款中文語(yǔ)音處理的技術(shù)指標(biāo)對(duì)比 :

表 1 中文語(yǔ)音技術(shù)處理助聽(tīng)器和其它助聽(tīng)器的技術(shù)比較

在實(shí)驗(yàn)室中，具有中文言語(yǔ)增強(qiáng)方法的數(shù)字助聽(tīng)器，初步實(shí)驗(yàn)的結(jié)果表明，中文語(yǔ)音處理技術(shù)的運(yùn)用，可幫助以漢語(yǔ)為母語(yǔ)的患者更好地理解語(yǔ)言，提高康復(fù)水平。在臨床使用中，佩帶 Intelligia 助聽(tīng)器的病人感覺(jué)效果很好，尤其在噪聲環(huán)境中，增強(qiáng)了語(yǔ)音清晰度。從某種意義上講，病人感到理解語(yǔ)言的能力得到提高。當(dāng)然，我們必須意識(shí)到中文語(yǔ)音處理技術(shù)在全數(shù)碼助聽(tīng)器中的運(yùn)用仍處在早期研究階段。筆者認(rèn)為聽(tīng)力學(xué)科學(xué)家和助聽(tīng)器專(zhuān)家應(yīng)從下列幾方面作更深入的研究：

應(yīng)對(duì)以英文和漢語(yǔ)為基礎(chǔ)的語(yǔ)音處理技術(shù)作深入的對(duì)比研究，尤其是在噪音環(huán)境中，觀察兩種技術(shù)分別對(duì)兩種語(yǔ)音不同處理的效果。最理想的實(shí)驗(yàn)條件應(yīng)是利用有雙語(yǔ)能力的受試者參加。

將中文語(yǔ)音處理技術(shù)和目前使用的非線性助聽(tīng)器驗(yàn)配法結(jié)合研究，觀察以英文為基礎(chǔ)制定的驗(yàn)配方法，是否在中文語(yǔ)音處理技術(shù)支持下，更有效地幫助以漢語(yǔ)為母語(yǔ)的患者在日常生活中提高言語(yǔ)理解能力。

中文語(yǔ)音處理技術(shù)目前是人機(jī)對(duì)話的研究熱門(mén)之一，其算法復(fù)雜多樣，我們應(yīng)該更深入地研究具有中文特色的助聽(tīng)器技術(shù)算法，充分發(fā)揮數(shù)碼芯片的巨大潛力。

將中文語(yǔ)音處理技術(shù)運(yùn)用到聽(tīng)力器設(shè)備中去才剛剛開(kāi)始，這是一項(xiàng)非常復(fù)雜、涉及許多尚未解決的技術(shù)問(wèn)題的課題。但是，筆者認(rèn)為只有開(kāi)發(fā)出具有漢語(yǔ)語(yǔ)音特色的助聽(tīng)器，才能更有效地幫助眾多的以漢語(yǔ)為母語(yǔ)的聽(tīng)殘者。

新聞中心

中文語(yǔ)音處理在數(shù)字助聽(tīng)器的設(shè)計(jì)

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)