嵌入式視頻圖像系統(tǒng)壓縮算法的實現(xiàn)和優(yōu)化
DOPTPU4是個計算 4對 8位數(shù)據(jù)乘積求和的運算。兩個 DOPTPU4可在單周期內(nèi)并行 , 所以可極大地提高 SAD的計算速度。具體步驟如下:
本文引用地址:http://m.butianyuan.cn/article/92476.htm1)兩個 LDNDW指令從當(dāng)前幀和參考幀取 8個像素;
2)兩個 SUBABS4計算 8個像素的差值;
3)兩個 DOTPU4計算 8個像素乘積求和。
像素插值也是個計算量大的模塊。AVG4指令可執(zhí)行 4個 8位數(shù)值平均值計算。AVG2可以執(zhí)行 2個 16位數(shù)據(jù)的平均計算。SHRMB(Shift Right andMerge Byte) 右移第 2個寄存器 , 把第 1個寄存器的低位作為高字節(jié)。AVG4計算平均值,SHRMB處理結(jié)果。
此外筆者參考 TI提供的 IMGLIB支持庫 該庫中還包括了許多常用的圖像和視頻處理的函數(shù) ,以完成 DCT、 IDCT (Inverse Direct Cosine Transform)、中值濾波等功能 , 這些函數(shù)都是經(jīng)過匯編優(yōu)化。完全能夠?qū)崿F(xiàn)軟件流水, 執(zhí)行效率很高。采用標(biāo)準(zhǔn)序列 Coastguard.yuv編碼 5幀數(shù)據(jù),主要函數(shù)優(yōu)化前后性能比較,如表 1所示。
表 1 各個函數(shù)優(yōu)化性能比較
Tab1Performance of functions by analysis
利用 EDMA進(jìn)行數(shù)據(jù)搬移, 提高存儲速度
TMS320C6455DSP支持 EDMA功能 , 是在沒有 CPU介入的情況下 , 訪問存儲器的一種工作方式。它可以直接通過 EDMA通道 , 提前把外設(shè)或片外存儲器中的數(shù)據(jù)直接搬移到片上內(nèi)存。對 CPU來說 , 所訪問的數(shù)據(jù)總是在片內(nèi)的 , 沒有阻塞的情況發(fā)生 , 減少了 CPU等待時間[8]。
使用 TI的 CSL (Chip SupportLibrary )支持功能[9,10]。它有專門的 DMA模塊 , 便于對 DMA的各個存儲器控制。主要使用 DAT函數(shù) , 進(jìn)行 DMA存儲器間數(shù)據(jù)傳送。其中使用 DAT copy ( )和DAT fill ( )。
評論