基于虛擬環(huán)繞聲的音頻處理器設(shè)計(jì)完整方案
一、應(yīng)用前景
虛擬環(huán)繞聲技術(shù)是區(qū)別于多通道環(huán)繞聲技術(shù)的另一類聲重放系統(tǒng),它利用聲源到雙耳的傳遞函數(shù)(HRTF)通過雙耳(即空間兩點(diǎn))聲信號(hào)的傳輸與重放,實(shí)現(xiàn)聲音空間信息的傳輸與重放,這種系統(tǒng)只需兩路獨(dú)立的傳輸信號(hào)和重放揚(yáng)聲器(或耳機(jī)) ,因而在一些不便于安裝多通道放聲系統(tǒng)的環(huán)境下,對(duì)改善電視機(jī)、手機(jī)、MP3/MP4等等電子產(chǎn)品的音頻聲效有很大的幫助。
二、項(xiàng)目背景
虛擬聽覺空間(VAS)是一門新興的邊緣交叉學(xué)科,涉及聽覺心理學(xué)、聽覺生理學(xué)、多傳感器集成與融合、人工智能、并行計(jì)算和高性能計(jì)算機(jī)系統(tǒng)等多個(gè)研究領(lǐng)域。VAS有時(shí)也稱為虛擬聽覺顯示(Virtual Auditory Display)、三維聲再現(xiàn)系統(tǒng)(3D Sound Rendering/Reproducing System)、虛擬聲再現(xiàn)系統(tǒng)(Virtual Sound Rendering/Reproducing System)、空間聲音再現(xiàn)系統(tǒng)(Spatial Sound Rendering System)、虛擬空間/三維聽覺系統(tǒng)(Virtual Spatial/(3D)Auditory Systems)、聲音空間化系統(tǒng)(Sound Spatialization System )和雙耳技術(shù)(Binaural Technology)等,是通過對(duì)雙耳的聲音信號(hào)進(jìn)行撿拾、模擬和重放,讓傾聽者在虛擬環(huán)境中聽到的聲信號(hào)逼近在真實(shí)環(huán)境聲場(chǎng)中聽到的聲信號(hào),因而在電影院、家庭影院中得到了很好的應(yīng)用。其中多通路環(huán)繞聲經(jīng)過許多年的發(fā)展,也獲得了很好的效果,也先后出現(xiàn)了5.1、6.1、7.1甚至10.2通路的環(huán)繞聲系統(tǒng),而且5.1通路環(huán)繞聲系統(tǒng)也為國(guó)際電信聯(lián)盟(ITU)所推薦。
此外,為了適應(yīng)音頻的播放,特構(gòu)建了一款音頻DSP處理器以適應(yīng)本系統(tǒng)。
三、項(xiàng)目立意
在耳機(jī)聲源定位算法的框架上,采用MIT媒體實(shí)驗(yàn)室的KEMAR人工頭HRTF數(shù)據(jù)庫對(duì)3D虛擬環(huán)繞聲的濾波器設(shè)計(jì)進(jìn)行改進(jìn);
改進(jìn)通用處理器體系結(jié)構(gòu),移植適合于音頻處理DSP IP Core到FPGA上;
利用硬件描述語言直接實(shí)現(xiàn)算法,并與DSP IP Core進(jìn)行集成;
在FPGA平臺(tái)上進(jìn)行IP核的設(shè)計(jì),在Xilinx的FPGA平臺(tái)上予以驗(yàn)證,并對(duì)功耗和時(shí)鐘進(jìn)行優(yōu)化
四、原理和技術(shù)特點(diǎn)
1.本系統(tǒng)由以下三大部分構(gòu)成:
A.虛擬環(huán)繞聲模塊;B.DSP處理器模塊(包括了音頻解碼,音效疊加等模塊);C.音頻還原??傮w框圖大致如圖1所示,
圖1系統(tǒng)總體框圖
DSP音頻處理器是本系統(tǒng)的核心,負(fù)責(zé)音頻解碼,信號(hào)疊加等處理。虛擬環(huán)繞聲模塊,負(fù)責(zé)針對(duì)音頻信號(hào)產(chǎn)生虛擬的環(huán)繞聲音頻效果。DAC負(fù)責(zé)還原出音頻信號(hào)。在這些基本功能的礎(chǔ)基上,實(shí)現(xiàn)諸如音頻檢索等新功能。
2. 虛擬環(huán)繞聲原理介紹
由于虛擬環(huán)繞是以人耳的聲源定位為基礎(chǔ)的,故在此主要對(duì)人耳的聲源定位予以介紹。心理聲學(xué)的基本要素是到達(dá)人耳的聲音的頻率、強(qiáng)度和譜結(jié)構(gòu)。以下將進(jìn)一步討論基于心理聲學(xué)的聲源定位、距離感知及包圍感等。
2. 1 人耳對(duì)聲源的定位
在自然聽音中,人的聽覺系統(tǒng)對(duì)聲源的定位取決于多個(gè)因素——雙耳接收到的信號(hào)差異用來決定聲源的水平位置,由外耳對(duì)高頻信號(hào)的反射所引起的耳郭效應(yīng)決定聲源的垂直位置,而人耳的某些心理聲學(xué)特性對(duì)于聲源的定位也起到很大的作用。
2.2 雙耳效應(yīng)
在自然聽音環(huán)境中,雙耳信號(hào)之間的差異對(duì)于聲源的定位是非常重要的。該因素可以在直達(dá)聲場(chǎng)的聽音環(huán)境中得到最好解釋,如圖2所示。
圖2 聲源S與鏡像聲源S′引入最大程度相似的雙耳因素
聲源位于水平面上,水平方位角為θ,與人頭中心的距離為r,到達(dá)左右耳的距離分別為SL和SR。由于SL>SR,聲音首先到達(dá)右耳,從而在到達(dá)雙耳的時(shí)間先后上形成時(shí)間差。這種時(shí)間差被定義為雙耳時(shí)間差(interaural time difference,ITD),它與聲源的水平方位角θ有關(guān)。當(dāng)θ = 0°時(shí), = 0;當(dāng)θ = ±90°時(shí),達(dá)到最大值,對(duì)一般人頭來說,為0.6~0.7ms 的數(shù)量級(jí)。
在低中頻(f 1.5kHz)情況下,雙耳時(shí)間差是定位的主要因素,這時(shí)對(duì)固定頻率的聲音,雙耳時(shí)間差與雙耳相位差是相對(duì)應(yīng)的。然而對(duì)于更高的頻率,雖然雙耳時(shí)間差的概念依然正確,但雙耳相位差的概念將變得模糊不清。以正弦聲音為例來進(jìn)行解釋,設(shè)雙耳時(shí)間差的最大值為Δtmax,則角頻率為ω的正弦聲音在左、右兩耳產(chǎn)生的相位差為ΔΦ = ωΔtmax。可以看出,當(dāng)ω較小時(shí),聲音頻率較低,波長(zhǎng)較長(zhǎng),由時(shí)間差所造成的相位差有確定的意義,雙耳可以根據(jù)它來判定聲源的方位;當(dāng)ω較大時(shí),即聲音頻率較高、波長(zhǎng)較短時(shí),由時(shí)間差所形成的相位差數(shù)值將較大,甚至?xí)^180°,使人不能判斷是超前還是滯后,因而失去了作為聲源定位因素的意義。所以雙耳相位差只對(duì)低頻聲的方位判斷起主要作用,而雙耳時(shí)間差(嚴(yán)格說是群延時(shí))則可作為1.5~4.0kHz的一個(gè)定位因素。
另外一方面,人頭對(duì)入射聲波起到了阻礙作用,導(dǎo)致了兩耳信號(hào)間的聲級(jí)差(interaural intensity difference,IID)。聲級(jí)差除與入射聲波的水平方位角有關(guān)外,還與入射聲波的頻率有關(guān)。在低頻時(shí),聲音波長(zhǎng)大于人頭尺寸,聲音可以繞射過人頭而使雙耳信號(hào)沒有明顯的聲級(jí)差。隨著頻率的增加,波長(zhǎng)越來越短,頭部對(duì)聲波產(chǎn)生的阻礙越來越大,使得雙耳信號(hào)間的聲級(jí)差越來越明顯——這就是我們常說的人頭遮蔽效應(yīng)。對(duì)于1.5~4.0kHz的頻率范圍來說,聲級(jí)差和時(shí)間差是聲源定位的共同因素,而當(dāng)f > 5.0kHz時(shí),雙耳聲級(jí)差是定位的主要因素,與時(shí)間差形成互補(bǔ)??偟膩碚f,雙耳時(shí)間差和聲級(jí)差涵蓋了整個(gè)聲音頻率范圍。
但是如果只考慮雙耳時(shí)間差和聲級(jí)差兩個(gè)因素,還不足以完全解釋定位問題,其中最典型的問題就是前后鏡像聲源的定位。假設(shè)人頭是一個(gè)球體,不存在外耳,如圖3所示,水平方位角為θ的聲源和水平方位角為180°.θ的鏡像聲源在人耳處會(huì)產(chǎn)生相同的IID和ITD。對(duì)于實(shí)際的人頭來說,雖然IID和ITD不會(huì)完全相同,但是它們會(huì)在很大程度上相似。當(dāng)只考慮雙耳時(shí)間差和聲級(jí)差時(shí),就會(huì)產(chǎn)生前后鏡像聲源的混淆,其實(shí)這只是空間錐形區(qū)域聲像混淆(cones of confusion)的一種特例。為了解決這個(gè)問題,就要依賴于其他的因素進(jìn)行聲源定位了。
圖3 空間錐形區(qū)域聲像混淆
2.3 耳郭效應(yīng)
在聽覺系統(tǒng)中用于對(duì)聲源進(jìn)行垂直定位的因素通常被認(rèn)為是“單耳信號(hào)”。耳郭具有不規(guī)則的形狀,形成一個(gè)共振腔。當(dāng)聲波到達(dá)耳郭時(shí),一部分聲波直接進(jìn)入耳道,另一部分則經(jīng)過耳郭反射后才進(jìn)入耳道。由于聲音到達(dá)的方向不同,反射聲和直達(dá)聲之間強(qiáng)度比不僅發(fā)生變化,而且反射聲與直達(dá)聲之間在不同頻率上產(chǎn)生不同的時(shí)間差和相位差,使反射聲與直達(dá)聲在鼓膜處形成一種與聲源方向位置有關(guān)的頻譜特性,聽覺神經(jīng)據(jù)此判斷聲音的空間方向。耳郭效應(yīng)的本質(zhì)就是改變不同空間方向聲音的頻譜特性,也就是說人類聽覺系統(tǒng)功能上相當(dāng)于梳狀濾波器,將不同空間方向的聲音進(jìn)行不同的濾波。
頻譜特性的改變主要是針對(duì)于高頻信號(hào),由于高頻信號(hào)波長(zhǎng)短,經(jīng)耳郭折向耳道的各個(gè)反射波之間會(huì)出現(xiàn)同相相加、反相相減,甚至相互抵消的干涉現(xiàn)象,形成頻譜上的峰谷,也即耳郭對(duì)高頻聲波起到了梳狀濾波作用。
耳郭效應(yīng)對(duì)聲源的垂直定位起到很重要的作用。圖4顯示的是聲源位于中垂面,仰角φ分別為.10°、0°和10°在人頭模型上測(cè)得的耳郭響應(yīng)曲線。由圖可以看出,在高頻處響應(yīng)曲線變化比較大,因此可以對(duì)聲源進(jìn)行定位。例如對(duì)位于前后鏡像的聲源進(jìn)行定位時(shí),雖然位于(r , θ , φ)的聲源和位于(r , 180°.θ , .φ)的鏡像聲源會(huì)在人耳處產(chǎn)生極相似的ITD和IID,但是可以通過耳郭效應(yīng)對(duì)聲源作精確定位。
圖4 人頭模型測(cè)量的耳郭效應(yīng)
耳郭效應(yīng)進(jìn)行聲音定位,主要是將每次接收到的聲音與過去存儲(chǔ)在大腦里的重復(fù)聲排列或梳狀波動(dòng)記憶進(jìn)行比較,然后判斷定位。因每個(gè)人耳郭尺寸不同,所以每個(gè)人在大腦中存儲(chǔ)的記憶是不同的,這一點(diǎn)應(yīng)引起注意。
2.4 人頭轉(zhuǎn)動(dòng)因素
如圖5所示在低頻或較差的聽音環(huán)境中,當(dāng)雙耳效應(yīng)和耳郭效應(yīng)對(duì)聲源的定位不能給出明確的信息時(shí),聽音者會(huì)轉(zhuǎn)動(dòng)頭部來消除不確定性。最經(jīng)常使用這種方法的情況是出現(xiàn)空間錐形區(qū)域聲像混淆現(xiàn)象時(shí),因?yàn)檫@樣會(huì)造成不確定的雙耳效應(yīng)。
圖5 頭部轉(zhuǎn)動(dòng)避免聲源位置前后混淆
2.5 優(yōu)先效應(yīng)
聲音的定位除了以上因素外還有其他因素。在混響環(huán)境中,優(yōu)先效應(yīng)起到重要作用。它是心理聲學(xué)的特性之一。所謂的優(yōu)先效應(yīng)是指當(dāng)同一聲源的直達(dá)聲和反射聲被人耳聽到時(shí),聽音者會(huì)將聲源定位在直達(dá)聲傳來的方向上,因?yàn)橹边_(dá)聲會(huì)首先到達(dá)人耳處,即使反射聲的強(qiáng)度比直達(dá)聲高達(dá)10dB。因此,聲源可以在空間中進(jìn)行正確的定位,而與來自不同方向的反射聲無關(guān)。但是優(yōu)先效應(yīng)不會(huì)完全消除反射聲的影響。反射聲可以增加聲音的空間感和響度感。
當(dāng)優(yōu)先效應(yīng)用在混響環(huán)境中識(shí)別語音時(shí),就產(chǎn)生了哈斯效應(yīng)(Haas effect)。哈斯觀察到,只要早期反射聲到達(dá)人耳足夠早就不會(huì)影響語音的識(shí)別,相反,由于增加了語音的強(qiáng)度,還會(huì)有利于語音的識(shí)別。而且哈斯發(fā)現(xiàn),相對(duì)于音樂來說,語音對(duì)反射延時(shí)時(shí)間和混響的變化更為敏感。對(duì)于語言聲來說,只有滯后直達(dá)聲50ms以上的延遲聲才會(huì)對(duì)語音的識(shí)別造成影響。所以50ms被稱為哈斯效應(yīng)的最大延時(shí)量。在哈斯的平衡實(shí)驗(yàn)證明,當(dāng)延時(shí)為10~20ms時(shí),先導(dǎo)聲會(huì)對(duì)滯后聲有最大程度的抑制。
以上說明,只是對(duì)虛擬環(huán)繞聲的簡(jiǎn)單介紹,更詳細(xì)的介紹參見附見。
3.DSP音頻處理器結(jié)構(gòu)說明
由于本系統(tǒng)的音頻處理器主要以一款現(xiàn)在的音頻處理器為參考進(jìn)行開發(fā),故對(duì)音頻處理器只作簡(jiǎn)單說明。
如圖6所示
圖6 音頻DSP處理器結(jié)構(gòu)
圖示為一款商用DSP核的結(jié)構(gòu),區(qū)別于普通MCU處理器的是其采用了典型的哈佛結(jié)構(gòu),存儲(chǔ)部分配置了X,Y,XY等部分,以適合于音頻處理,至于數(shù)據(jù)通路和普通處理器相比區(qū)別不大,故考慮以移植為主。
五、實(shí)現(xiàn)目標(biāo)
利用數(shù)字信號(hào)處理技術(shù)對(duì)數(shù)字濾波器的設(shè)計(jì)進(jìn)行改進(jìn),主要對(duì)傳遞函數(shù)零極點(diǎn)處理;
采用Matlab進(jìn)行原理性的仿真實(shí)驗(yàn),驗(yàn)證濾波器效果和算法的正確性;
使用VerilogHDL硬件描述語言進(jìn)行電路建模,劃分好電路模塊,分模塊予以實(shí)現(xiàn),最終實(shí)現(xiàn)整個(gè)IP核;
用ModelSim對(duì)IP Core進(jìn)行硬件仿真,驗(yàn)證電路的正確性以及是否具備優(yōu)化空間;
在Xilinx的Vertex系列或是Spartan系列FPGA上予以驗(yàn)證;
對(duì)整個(gè)3D虛擬環(huán)繞聲系統(tǒng)進(jìn)行主觀綜合評(píng)價(jià)。
六、預(yù)期成果
虛擬環(huán)繞聲的算法的verilog實(shí)現(xiàn);
將虛擬環(huán)繞聲模塊加入DSP音頻處理器核,形成新的音頻處理器;
在Vertex系列FPGA實(shí)現(xiàn)最終處理器;
利用ARM或是其它MCU實(shí)現(xiàn)對(duì)音頻處理器控制,使之能播放音樂,并實(shí)虛擬環(huán)繞聲效果;
使播放器具有其它創(chuàng)新特性的功能(在項(xiàng)目完成過程中發(fā)掘)。
評(píng)論