基于虛擬環(huán)繞聲的音頻處理器設計完整方案

作者：時間：2017-06-04 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文引用地址：http://m.butianyuan.cn/article/201706/348707.htm

一、應用前景

虛擬環(huán)繞聲技術是區(qū)別于多通道環(huán)繞聲技術的另一類聲重放系統(tǒng)，它利用聲源到雙耳的傳遞函數(shù)(HRTF)通過雙耳(即空間兩點)聲信號的傳輸與重放，實現(xiàn)聲音空間信息的傳輸與重放，這種系統(tǒng)只需兩路獨立的傳輸信號和重放揚聲器(或耳機) ，因而在一些不便于安裝多通道放聲系統(tǒng)的環(huán)境下，對改善電視機、手機、MP3/MP4等等電子產(chǎn)品的音頻聲效有很大的幫助。

二、項目背景

虛擬聽覺空間（VAS）是一門新興的邊緣交叉學科，涉及聽覺心理學、聽覺生理學、多傳感器集成與融合、人工智能、并行計算和高性能計算機系統(tǒng)等多個研究領域。VAS有時也稱為虛擬聽覺顯示(Virtual Auditory Display)、三維聲再現(xiàn)系統(tǒng)(3D Sound Rendering/Reproducing System)、虛擬聲再現(xiàn)系統(tǒng)(Virtual Sound Rendering/Reproducing System)、空間聲音再現(xiàn)系統(tǒng)(Spatial Sound Rendering System)、虛擬空間/三維聽覺系統(tǒng)(Virtual Spatial/(3D)Auditory Systems)、聲音空間化系統(tǒng)(Sound Spatialization System )和雙耳技術(Binaural Technology)等，是通過對雙耳的聲音信號進行撿拾、模擬和重放，讓傾聽者在虛擬環(huán)境中聽到的聲信號逼近在真實環(huán)境聲場中聽到的聲信號，因而在電影院、家庭影院中得到了很好的應用。其中多通路環(huán)繞聲經(jīng)過許多年的發(fā)展，也獲得了很好的效果，也先后出現(xiàn)了5.1、6.1、7.1甚至10.2通路的環(huán)繞聲系統(tǒng)，而且5.1通路環(huán)繞聲系統(tǒng)也為國際電信聯(lián)盟(ITU)所推薦。

此外，為了適應音頻的播放，特構(gòu)建了一款音頻DSP處理器以適應本系統(tǒng)。

三、項目立意

在耳機聲源定位算法的框架上，采用MIT媒體實驗室的KEMAR人工頭HRTF數(shù)據(jù)庫對3D虛擬環(huán)繞聲的濾波器設計進行改進；

改進通用處理器體系結(jié)構(gòu)，移植適合于音頻處理DSP IP Core到FPGA上；

利用硬件描述語言直接實現(xiàn)算法，并與DSP IP Core進行集成；

在FPGA平臺上進行IP核的設計，在Xilinx的FPGA平臺上予以驗證，并對功耗和時鐘進行優(yōu)化

四、原理和技術特點

1．本系統(tǒng)由以下三大部分構(gòu)成：

A.虛擬環(huán)繞聲模塊；B.DSP處理器模塊(包括了音頻解碼，音效疊加等模塊)；C.音頻還原?？傮w框圖大致如圖1所示，

圖1系統(tǒng)總體框圖

DSP音頻處理器是本系統(tǒng)的核心，負責音頻解碼，信號疊加等處理。虛擬環(huán)繞聲模塊，負責針對音頻信號產(chǎn)生虛擬的環(huán)繞聲音頻效果。DAC負責還原出音頻信號。在這些基本功能的礎基上，實現(xiàn)諸如音頻檢索等新功能。

2. 虛擬環(huán)繞聲原理介紹

由于虛擬環(huán)繞是以人耳的聲源定位為基礎的，故在此主要對人耳的聲源定位予以介紹。心理聲學的基本要素是到達人耳的聲音的頻率、強度和譜結(jié)構(gòu)。以下將進一步討論基于心理聲學的聲源定位、距離感知及包圍感等。

2. 1 人耳對聲源的定位

在自然聽音中，人的聽覺系統(tǒng)對聲源的定位取決于多個因素——雙耳接收到的信號差異用來決定聲源的水平位置，由外耳對高頻信號的反射所引起的耳郭效應決定聲源的垂直位置，而人耳的某些心理聲學特性對于聲源的定位也起到很大的作用。

2.2 雙耳效應

在自然聽音環(huán)境中，雙耳信號之間的差異對于聲源的定位是非常重要的。該因素可以在直達聲場的聽音環(huán)境中得到最好解釋，如圖2所示。

圖2 聲源S與鏡像聲源S′引入最大程度相似的雙耳因素

聲源位于水平面上，水平方位角為θ，與人頭中心的距離為r，到達左右耳的距離分別為SL和SR。由于SL>SR，聲音首先到達右耳，從而在到達雙耳的時間先后上形成時間差。這種時間差被定義為雙耳時間差（interaural time difference，ITD），它與聲源的水平方位角θ有關。當θ = 0°時， = 0；當θ = ±90°時，達到最大值，對一般人頭來說，為0.6～0.7ms 的數(shù)量級。

在低中頻（f 1.5kHz）情況下，雙耳時間差是定位的主要因素，這時對固定頻率的聲音，雙耳時間差與雙耳相位差是相對應的。然而對于更高的頻率，雖然雙耳時間差的概念依然正確，但雙耳相位差的概念將變得模糊不清。以正弦聲音為例來進行解釋，設雙耳時間差的最大值為Δt_max，則角頻率為ω的正弦聲音在左、右兩耳產(chǎn)生的相位差為ΔΦ = ωΔt_max?？梢钥闯觯?omega;較小時，聲音頻率較低，波長較長，由時間差所造成的相位差有確定的意義，雙耳可以根據(jù)它來判定聲源的方位；當ω較大時，即聲音頻率較高、波長較短時，由時間差所形成的相位差數(shù)值將較大，甚至會超過180°，使人不能判斷是超前還是滯后，因而失去了作為聲源定位因素的意義。所以雙耳相位差只對低頻聲的方位判斷起主要作用，而雙耳時間差（嚴格說是群延時）則可作為1.5～4.0kHz的一個定位因素。

另外一方面，人頭對入射聲波起到了阻礙作用，導致了兩耳信號間的聲級差（interaural intensity difference，IID）。聲級差除與入射聲波的水平方位角有關外，還與入射聲波的頻率有關。在低頻時，聲音波長大于人頭尺寸，聲音可以繞射過人頭而使雙耳信號沒有明顯的聲級差。隨著頻率的增加，波長越來越短，頭部對聲波產(chǎn)生的阻礙越來越大，使得雙耳信號間的聲級差越來越明顯——這就是我們常說的人頭遮蔽效應。對于1.5～4.0kHz的頻率范圍來說，聲級差和時間差是聲源定位的共同因素，而當f > 5.0kHz時，雙耳聲級差是定位的主要因素，與時間差形成互補?？偟膩碚f，雙耳時間差和聲級差涵蓋了整個聲音頻率范圍。

但是如果只考慮雙耳時間差和聲級差兩個因素，還不足以完全解釋定位問題，其中最典型的問題就是前后鏡像聲源的定位。假設人頭是一個球體，不存在外耳，如圖3所示，水平方位角為θ的聲源和水平方位角為180°.θ的鏡像聲源在人耳處會產(chǎn)生相同的IID和ITD。對于實際的人頭來說，雖然IID和ITD不會完全相同，但是它們會在很大程度上相似。當只考慮雙耳時間差和聲級差時，就會產(chǎn)生前后鏡像聲源的混淆，其實這只是空間錐形區(qū)域聲像混淆（cones of confusion）的一種特例。為了解決這個問題，就要依賴于其他的因素進行聲源定位了。

圖3 空間錐形區(qū)域聲像混淆

2.3 耳郭效應

在聽覺系統(tǒng)中用于對聲源進行垂直定位的因素通常被認為是“單耳信號”。耳郭具有不規(guī)則的形狀，形成一個共振腔。當聲波到達耳郭時，一部分聲波直接進入耳道，另一部分則經(jīng)過耳郭反射后才進入耳道。由于聲音到達的方向不同，反射聲和直達聲之間強度比不僅發(fā)生變化，而且反射聲與直達聲之間在不同頻率上產(chǎn)生不同的時間差和相位差，使反射聲與直達聲在鼓膜處形成一種與聲源方向位置有關的頻譜特性，聽覺神經(jīng)據(jù)此判斷聲音的空間方向。耳郭效應的本質(zhì)就是改變不同空間方向聲音的頻譜特性，也就是說人類聽覺系統(tǒng)功能上相當于梳狀濾波器，將不同空間方向的聲音進行不同的濾波。

頻譜特性的改變主要是針對于高頻信號，由于高頻信號波長短，經(jīng)耳郭折向耳道的各個反射波之間會出現(xiàn)同相相加、反相相減，甚至相互抵消的干涉現(xiàn)象，形成頻譜上的峰谷，也即耳郭對高頻聲波起到了梳狀濾波作用。

耳郭效應對聲源的垂直定位起到很重要的作用。圖4顯示的是聲源位于中垂面，仰角φ分別為.10°、0°和10°在人頭模型上測得的耳郭響應曲線。由圖可以看出，在高頻處響應曲線變化比較大，因此可以對聲源進行定位。例如對位于前后鏡像的聲源進行定位時，雖然位于(r , θ , φ)的聲源和位于(r , 180°.θ , .φ)的鏡像聲源會在人耳處產(chǎn)生極相似的ITD和IID，但是可以通過耳郭效應對聲源作精確定位。

圖4 人頭模型測量的耳郭效應

耳郭效應進行聲音定位，主要是將每次接收到的聲音與過去存儲在大腦里的重復聲排列或梳狀波動記憶進行比較，然后判斷定位。因每個人耳郭尺寸不同，所以每個人在大腦中存儲的記憶是不同的，這一點應引起注意。

2.4 人頭轉(zhuǎn)動因素

如圖5所示在低頻或較差的聽音環(huán)境中，當雙耳效應和耳郭效應對聲源的定位不能給出明確的信息時，聽音者會轉(zhuǎn)動頭部來消除不確定性。最經(jīng)常使用這種方法的情況是出現(xiàn)空間錐形區(qū)域聲像混淆現(xiàn)象時，因為這樣會造成不確定的雙耳效應。

圖5 頭部轉(zhuǎn)動避免聲源位置前后混淆

2.5 優(yōu)先效應

聲音的定位除了以上因素外還有其他因素。在混響環(huán)境中，優(yōu)先效應起到重要作用。它是心理聲學的特性之一。所謂的優(yōu)先效應是指當同一聲源的直達聲和反射聲被人耳聽到時，聽音者會將聲源定位在直達聲傳來的方向上，因為直達聲會首先到達人耳處，即使反射聲的強度比直達聲高達10dB。因此，聲源可以在空間中進行正確的定位，而與來自不同方向的反射聲無關。但是優(yōu)先效應不會完全消除反射聲的影響。反射聲可以增加聲音的空間感和響度感。

當優(yōu)先效應用在混響環(huán)境中識別語音時，就產(chǎn)生了哈斯效應（Haas effect）。哈斯觀察到，只要早期反射聲到達人耳足夠早就不會影響語音的識別，相反，由于增加了語音的強度，還會有利于語音的識別。而且哈斯發(fā)現(xiàn)，相對于音樂來說，語音對反射延時時間和混響的變化更為敏感。對于語言聲來說，只有滯后直達聲50ms以上的延遲聲才會對語音的識別造成影響。所以50ms被稱為哈斯效應的最大延時量。在哈斯的平衡實驗證明，當延時為10～20ms時，先導聲會對滯后聲有最大程度的抑制。

以上說明，只是對虛擬環(huán)繞聲的簡單介紹，更詳細的介紹參見附見。

3.DSP音頻處理器結(jié)構(gòu)說明

由于本系統(tǒng)的音頻處理器主要以一款現(xiàn)在的音頻處理器為參考進行開發(fā)，故對音頻處理器只作簡單說明。

如圖6所示