基于SoC的MPEG-4視頻解碼加速器
3 仿真驗證和性能分析
本文的設計流程是首先確定IDCT算法, 并用其C語言描述作為設計規(guī)范。然后根據設計規(guī)范用verilog RTL 描述硬件, 用verisity公司(已被Cadence公司收購)的E語言搭建驗證環(huán)境, 并將C語言的設計規(guī)范嵌入E驗證環(huán)境中, 通過E語言產生隨機激勵, 同時發(fā)給verilogRTL和C設計規(guī)范, 并將兩者的結果作比較。這樣既保證了硬件實現(xiàn)和C設計規(guī)范完全一致, 又通過C設范的重用縮短了驗證周期。
我們使用SYNOPSYS 的Design Compiler 對本設計進行了綜合, 綜合采用SMIC的0.8um的標準單元庫。結果顯示本設計的關鍵路徑在反量化處, 因為此處直接使用了一次乘加操作。表3給出了本設計的特性。本設計完成更多解碼功能, 主頻更高, 乘法器更少, 而且引入了可與系統(tǒng)復用的片上內存。
我們分I幀和非I幀兩種情況分析本設計的處理時間。在處理I 幀時要進行反量化, 不需要運動補償疊加。由于反量化是在數(shù)據輸入的同時進行的, 所以處理時間由非零值的寫入時間Tinput , IDCT 計算間Tidct和寫回顯存的時間Toutput三部分組成。這三部分如圖6 (a) 所示的并行處理。在處理非I 幀時, IDCT的結果需要與運動補償?shù)慕Y果疊加, 所以處理時間時由非零值的寫入時間Tinput , IDCT 計算時間Tidct,取運動補償數(shù)據時間Tfetch , 疊加并寫回顯存的時間Toutput四部分組成。如圖6 (b) 所示的并行處理。
(a)I 幀處理時間 (b) 非I 幀處理時間
圖6 處理時間
其中取運動補償?shù)慕Y果和最后寫回現(xiàn)存都要占用總線接口, 所以要依次進行。從這兩幅圖可以看出, 并行處理使得這兩種情況總的處理時間是相同的。以行IDCT一般情況15% ,OnlyDC情況70% , Halfzero情況10% 計算, 一個block 的IDCT 所需的周期Tidct為:
T idct = (0 × 70%+ 14 × 10%+ 20 × 20% ) × 8 + 20 × 8 = 203.2 (個周期)
如不考慮回寫時由顯存造成的延時,M PEG24加速器處理的處理時間T 為:
T = Tinput + 6 × Tidct + Toutput = 6 × 64 × 15%+ 6 × 203 + 64 = 1340.8 (周期/宏塊)
4 結論
本文給出了一種應用于嵌入式系統(tǒng)芯片的MPEG-4 解碼加速模塊。本設計面向MPEG-4 簡單層, 將四個亮度塊和兩個色差塊一起并行處理, 使流水線更加緊湊; 由于內部存儲器的帶寬有限, 我們只使用兩個乘法器完成IDCT , 并使用較小面積的代價將于IDCT密切相關的反量化和運動補償疊加一起實現(xiàn), 這樣進一步減少了數(shù)據在總線上的傳輸, 更有利于提高速度和減小功耗。本設計在以北京大學微處理器研究中心UN ITY-1為內核的SoC-UN ITY805+ 中, 已經得到應用。實驗表明可以實現(xiàn)MPEG-4簡單層CIF格式的視頻解碼。
評論