基于DSP的實時MPEG-4編碼的軟件優(yōu)化設(shè)計
摘要:結(jié)合開發(fā)工具TMS320C6201EVM板的結(jié)構(gòu)和特點,闡述了在實現(xiàn)MPEG-4實時視頻編碼中,對算法的軟件優(yōu)化所做的工作。
本文引用地址:http://m.butianyuan.cn/article/242379.htm關(guān)鍵詞:TMS320C6201 MPEG-4 優(yōu)化 并行處理
TMS320C6201芯片是TI公司新推出的并行處理的數(shù)字信號處理器。它的最高處理能力高達1600MIPS,即16億萬次每秒定點運算,是目前市場上所有的DSP芯片中速度較快、處理功能較強的DSP處理器。其應(yīng)用前景十分廣泛。本文利用C6201開發(fā)工具EVM(模擬評估)板,用軟件實現(xiàn)實時MPEG-4編碼。詳細探討了MPEG-4視頻編碼中的關(guān)鍵模塊,并針對TMS320C6000的物理指令結(jié)構(gòu),對軟件優(yōu)化的特殊處理做了較深入的研究。
1 開發(fā)工具的介紹
筆者采用的評估工具是TI公司的C6XEVM[2]。它的結(jié)構(gòu)如圖1所示。
C6XEVM除核心DSP之外,還提供了如下工具:一個64K×32bit、133MHz的z同步脈沖靜態(tài)隨機存取存儲器(SBSRAM);兩個1M×32bit、100MHz的同步動態(tài)RAM(SDRAM);內(nèi)含基于PCI或外部XDS510支持的JTAG仿真;支持采樣速率為5.5kHz~48kHz的立體聲16位音頻邊界碼;1.8V/2.5V直流電壓3.3V直流電單板轉(zhuǎn)換電壓調(diào)整器;模擬5V直流電壓的單板線電壓調(diào)整器;3個LED指示器(電壓,2個自定義指示)等。
SBSRAM映射到DSP的CE0存儲空間,把它用于程序自舉。通常SBSRAM都工作在133MHz。當采用全速接口時,CPU時鐘就等于SBSRAM的時鐘;當采用半速接口時,SBSRAM的速度是CPU時鐘速度的一半。
EVM提供的兩個1M×32bit的字存儲區(qū)間的SDRAM,每一個存儲空間包含兩512×2banks×16位的器件。它們映射到DSP的CE2和CE3存儲空間,每一個空間使用16Mbit的地址空間。SDRAM通常是CPU時鐘速度的一半。
EVM提供的異步存儲連接器允許給子板附加一個存儲區(qū)間或者存儲映射區(qū)間。擴展存儲的界面被映射到DSP的4M異步CE1存儲空間的低3M空間。CE1中擴展空間的地址從0x100000~12FFFFF,在MAP0和MAP1方式下為0x1400000~16FFFFF,CE1的最上面的1M字節(jié)可分配給板上外圍。CE1存儲空間的這種分配方式容許了板上器件和擴展器件的共存。
2 MPEG-4視頻編碼
MPEG-4編碼是基于VOP的編碼[3]。所謂VOP是指視頻目標平面,即視頻對象VO在某一時間的存在。VOP編碼器的結(jié)構(gòu)框圖如圖2所示。
編碼器主要由兩部分組成:一是形狀編碼器;另一個是傳統(tǒng)的運動估計和補償及紋理VOP編碼器。VOP可采用幀內(nèi)編碼(Intera-VOP,簡稱I-VOP)和幀間預(yù)測編碼(Inter-VOP)。幀間預(yù)測編碼又可以分為前向因果預(yù)測編碼(P-VOP)和前后向非因果編碼(B-VOP)。幀間預(yù)測編碼消除了視頻信息的時間冗余。對于VOP的編碼,首先將各個VOP從上到下分成16×16大小的宏塊(MB)。具體的形狀、運動和紋理編碼基于MB進行,所以一個MB的信息是形狀、運動、紋理(Shape-Motion-Texture)的總和。進行MB編碼時,再把它分成4個8×8塊(Block)的亮度Y分量,和2個8×8塊的色度Cr和Cb分量分別進行編碼。然后對6個Block分別進行8×8DCT二維變換、量化和Huffman編碼。
進行測試使用的圖像是QCIF格式(176×144象素),圖像數(shù)據(jù)從主機讀入。通過CCS測得其各個模塊所消耗的時間周期比率如下:
其各個部分占總運算量的比例分別為:
分析顯示,運動估計和運動補償模塊及紋理編碼模塊是MPEG-4實現(xiàn)的最主要的瓶頸。所以在程序優(yōu)化上所做的工作主要是基于這兩個模塊進行。
3 程序的優(yōu)化考慮
要想充分發(fā)揮TMS320C6201的運算能力,必須從它的硬件結(jié)構(gòu)出發(fā),最大程度地利用八個功能單元,使用軟件流水線,盡量讓程序無沖突地并行執(zhí)行。并行執(zhí)行的優(yōu)點在于,在處理彼此無沖突地并行執(zhí)行。并行執(zhí)行的優(yōu)點在于,在處理彼此之間沒有承接關(guān)系的運算時,在CPU資源允許的情況下可以并行完成。但對于前后有承接關(guān)系或者判斷、跳轉(zhuǎn)頻繁的情況就無法發(fā)揮其優(yōu)勢。一般循環(huán)體都滿足并行處理的條件,并且循環(huán)體往往是程序中中耗時最長的。因此在進行優(yōu)化時將重點放在循環(huán)體上。
3.1 跳轉(zhuǎn)指令的優(yōu)化
DSP的指令多為單周期指令,但是轉(zhuǎn)移類指令卻通常要耗費較多的時鐘周期,每個跳轉(zhuǎn)都有5個延遲間隙,從性能上考慮是一項很耗時的工作,因此應(yīng)盡可能地減少程序中的分支。
事實上,通過對程序的分析,可以看到許多判斷轉(zhuǎn)移用簡單的條件組合就可以得到實現(xiàn)。例如下面的小程序。
if(rcoeff[i]>(lim-1)) rcoeff[i]=(lim-1);
else if(rcoeff[i](-lim)) rcoeff[i]=(-lim);
可以改為:rcoeff[i]=MIN(rcoeff[i],(lim-1));
rcoeff[i]=MAX(rcoeff[i],(-lim));
還有一種常用的減少判斷轉(zhuǎn)移的方法是將循環(huán)展開。特別是對多重循環(huán)的控制,若外層循環(huán)較少,可將內(nèi)層循環(huán)直排,把轉(zhuǎn)移條件結(jié)合起來,以減少層與層之間的相互聯(lián)系。
3.2 使用庫函數(shù)
TI公司對TMS320C62XX的用戶提供了功能強大的IMAGE LIB[4]庫支持。在這個庫中,包含許多常用函數(shù),可以完成DCT/IDCT變換、小波變換、DCT量化、自適應(yīng)濾波等功能。這些函數(shù)都是優(yōu)化過的,完全能夠?qū)崿F(xiàn)軟件流水,效率很高。
3.3 改寫線性匯編
線性匯編語言是TMS320C6000中獨有的一種編程語言,介于高級語言和低級語言之間。為了提高代碼的性能,可以用線性匯編來重寫影響速度的關(guān)鍵代碼段。線性匯編中不需要給出使用的寄存器、指令的延遲周期及使用的哪個功能單元等信息,C6201強大的匯編優(yōu)化器會根據(jù)代碼的情況自動確定這些信息[5]。然而很多時候,為了提高代碼的效率,必須指出使用哪個功能單元。使用線性匯編時要注意:對循環(huán)體進行優(yōu)化時不能使用跳轉(zhuǎn)到循環(huán)體外的跳轉(zhuǎn)指令;計數(shù)器使用減計數(shù)等。
進行優(yōu)化時,首先要確定循環(huán)次數(shù)。對于循環(huán)次數(shù)是變量的情況,優(yōu)化器不能并行優(yōu)化;其次,要盡可能使用雙字或字存取操作。例如運動估計和補償中的一個小程序段:
void MC_case_a(uchar ref[NUM_ROWS][NUM_COLS],
uchar curr[UNM_ROWS][NUM_COLS],const int r_x,const int c_x,const int r_y,const int c_y,const int size)
{
int m,n;
for(m=0;msize;m++) {
for(n=0;nsize;n++){
cuff[c_x+m][c_y+n]=ref[r_x+m][r_y+n];
}}
{
相應(yīng)的線性匯編程序如下:
.def_MC_case_a
.sect .text
_MC_case_a: .cproc ref,curr,r_x,c_x,r_y,c_y,mum_cols
.reg r_temp1,r_temp2,c_temp1,c_temp2
.reg p_r,P_c,np_r
.reg lshift,rshift,count
.reg r_w1,r_w2,r_w3,r_w4
.reg temp
SHL r_x,0x05,r_temp1
SHL c_x,0x05,c_temp1
ADD r_y,ref,r_temp2
ADD c_y,curr,c_temp2
ADD r_temp1,r_temp2,p_r
ADD c_temp1,c_temp2,p_c
SUB num_cols,2,num_cols
MVK 8,count ; 循環(huán)次數(shù)為8
MVK 0xFFFc,temp
AND p_r,temp,np_r
AND p_r,0x0003,rshift
SUB.L 0x04,rshift,lshift
SHL rshift,0x03,rshift
SHL lshift,0x03,lshift
loo:.trip 8
LDW *np_r++[1],r_w1
LDW *np_r++[1],r_w2
LDW *np_r++[num_cols],r_w3
SHRU r_w1,rshift,r_w1
SHL r_w3,lshift,r_w3
SHL r_w2,lshift,r_w4
SHRU r_w2,rshift,r_w2
OR r_w1,r_w4,r_w1
OR r_w2,r_w3,r_w2
STW r_w1,*p_c++[1]
STW r_w2,*p_c++[num_cols]
ADD p_c,4,p_c
[count] SUB count,1,count
[count] B loop
.endproc
優(yōu)化前,在CCS(Code Composer Studio)上測得的C程序段消耗時鐘周期為574;而優(yōu)化后的線性匯編所耗時鐘周期數(shù)為58,效率顯著提高。
3.4 存儲空間的考慮
DSP存儲空間的配置十分重要。因為DSP對不同的存儲單元的訪問速度是有區(qū)別的,對片內(nèi)寄存器的訪問速度最快,對片內(nèi)RAM的訪問速度比片外RAM的訪問速度快。因此合理地配置和使用存儲空間,對系統(tǒng)整體效率影響很大。應(yīng)該盡可能地把訪問比較頻繁的常數(shù)表和代碼段裝入片內(nèi)RAM,如果過大,則把其中一部分裝入片外存儲器。
同時,還要考慮存儲bank的沖突。由于C6201DSP使用交叉存儲方案,將存儲器分成4個或8個bank,每個bank都是單口存儲區(qū),因此每個周期只允許一次訪問,在一個周期內(nèi)對一個bank進行兩次訪問將產(chǎn)生存儲器阻塞。存儲器阻塞導(dǎo)致所有流水線操作停止一個周期,用來從存儲器讀取第2個數(shù)據(jù)。解決的辦法是對代碼段進行修改。
3.5 其他優(yōu)化方法
除此之外,還有一些比較基本的方法,如:
·為了提高算法的實現(xiàn)效率,減少運算的實際開銷,盡可能把需運行時計算的參數(shù)做成查找表或常數(shù)數(shù)值,從而將運行時的計算轉(zhuǎn)化為編譯時的計算。這不僅適用于一些比較規(guī)整的參數(shù)表,對于一些并不規(guī)整的運行時計算,特別是比較耗時的計算(如浮點除),也可盡可能使其表格化。
·浮點數(shù)定點化,在編寫MPEG-4的模擬算法時,為了方便,C語言中一般既有有整型數(shù),又有浮點數(shù)。由于使用的定點芯片,所以有必要把所有的浮點運算改為定點運算。
·使用字訪問2個16位數(shù)據(jù),將其分別放在32位寄存器的高16位和低16位字段。這樣可以使程序讀取數(shù)據(jù)的速率提高一倍,從而大大提高執(zhí)行效率。
·使用移位指令替代乘除操作,移位指令只有一個時鐘周期,比之乘除運算則可以節(jié)約許多時鐘周期。
最初的C代碼在EVM板上執(zhí)行,處理速率僅為0.8幀/秒。通過上述方法優(yōu)化源程序后,可在C6201的EVM板上實現(xiàn)實時的MPEG-4編碼,處理速度為30幀/秒。
DSP芯片的使用范圍已越來越廣。特別在移動通信領(lǐng)域中,軟件無線電、智能天線等新技術(shù)的實現(xiàn)都需要強大的數(shù)字信號處理的支持。TMS320C6000系列能夠滿足這方面的需求。本文結(jié)合在其在MPEG-4編碼中應(yīng)用的實例,具體闡述了TMS320C6000的軟件優(yōu)化開發(fā)方法。工作中不可避免地存在某些不足,尚待進一步探討。
評論