一種基于位寬調(diào)節(jié)的低功耗DCT電路設(shè)計*
*基金項目:自然科學(xué)基金 61874023、61534002,中央高?;究蒲袠I(yè)務(wù)費ZYGX2018J030
本文引用地址:http://m.butianyuan.cn/article/202204/433441.htm作者簡介:錢亦端 (1994—),男,碩士研究生,研究方向:DCT電路設(shè)計。
賀雅娟 (1978—),女,副教授,研究方向:專用集成電路與系統(tǒng)、超低壓超低功耗數(shù)字集成電路設(shè)計等。
0 引言
隨著多媒體服務(wù)的發(fā)展,視頻和圖像已經(jīng)成為了人們生活中不可或缺的一部分。然而,由于其龐大的數(shù)據(jù)量,視頻和圖像信息的傳輸會消耗大量功耗,縮短移動設(shè)備電池的壽命。為了解決這個問題,一般在圖像傳輸之前使用圖像壓縮系統(tǒng)對數(shù)據(jù)進(jìn)行壓縮,而離散余弦變換(DCT)通常作為這個系統(tǒng)的核心。但是,DCT是運算密集型的運算,電路直接實現(xiàn)會占用大量的硬件資源,引入較大的功耗,影響整個系統(tǒng)的穩(wěn)定性。如何降低運算的復(fù)雜度成為了DCT研究的重點,一些DCT的快速算法相繼被提出。
考慮到電路實現(xiàn)中乘法器的硬件復(fù)雜度,目前關(guān)于DCT的研究主要集中在去乘法的DCT上。去乘法的DCT大致可以分為3類:基于分布式算法(DA)的DCT[1],基于坐標(biāo)旋轉(zhuǎn)數(shù)字計算方法 (CORDIC)的DCT[2, 3],基于常系數(shù)乘法的DCT[4]。
①基于DA的DCT通過查找表和累加器來計算DCT中的內(nèi)積。但是它在電路的實現(xiàn)中需要額外引入ROM,無法有效地控制面積。
②基于CORDIC的DCT利用CORDIC算法,使用迭代的移位和加法運算來實現(xiàn)蝶形三角函數(shù)運算。CORDIC算法可以實現(xiàn)較高的精度,然而更高的精度往往需要更多的迭代次數(shù),導(dǎo)致運算量的增加。
③基于常系數(shù)乘法的DCT將運算的乘法系數(shù)表示整數(shù)二進(jìn)制的形式,然后通過對應(yīng)的移位和加法運算取代原本的乘法運算。
相較于前面的兩種算法,基于常系數(shù)乘法的DCT可以實現(xiàn)更為理想的面積和功耗,本文對于DCT的研究正是利用了這種方法。同時,人眼具有有限的感知能力,無法察覺到圖像發(fā)生的細(xì)微變化,即在一定范圍內(nèi)的圖像精度的損失是允許的。因此,可以根據(jù)DCT的性質(zhì)和輸入圖像的特性,在DCT的設(shè)計中引入近似計算,在不顯著降低圖像質(zhì)量的前提下簡化運算過程。
本文提出了一種基于位寬調(diào)節(jié)的低功耗DCT電路設(shè)計。該方法利用DCT的能量集中特性,通過調(diào)整乘法系數(shù)的位寬將運算資源集中在具有較高優(yōu)先級的輸出上,從而簡化DCT的結(jié)構(gòu),減小電路實現(xiàn)的硬件開銷。對比傳統(tǒng)的DCT,提出的近似DCT以圖像質(zhì)量的少量損失為代價,有效地減少了電路的面積和功耗。
1 DCT原理
二維DCT將輸入的圖像數(shù)據(jù)從空間域變換到頻域。通常在進(jìn)行DCT運算之前,我們首先需要將一幅完整的圖像分割為若干個8×8的像素塊。二維DCT的公式如下所示:
其中,f (x, y)代表輸入的8×8的像素塊,x和y表示像素的空間坐標(biāo),F(xiàn) (u, y)代表輸出的變換后頻域系數(shù),u和v是系數(shù)的頻率值,取值范圍為0~7??紤]到二維DCT的運算復(fù)雜度,我們通常使用行列分解算法,將二維DCT分解為2次一維DCT,如圖1所示。先將輸入的圖像數(shù)據(jù)進(jìn)行1次行一維DCT運算,將中間的運算結(jié)果轉(zhuǎn)置后,再進(jìn)行1次列一維DCT運算。
一維DCT的計算如下所示:
其中,f(x)代表輸入的行矢量,F(xiàn)(u)代表輸出的列矢量。將其表示為矩陣的形式,并對上式的輸出進(jìn)行奇偶分離,
其中,a~g為常系數(shù),令,a=s1,b=s2, c=s3, d=s4, e=s5, f=s6, g=s7。
2 基于位寬調(diào)節(jié)的DCT設(shè)計
2.1 近似DCT設(shè)計
采用基于常系數(shù)乘法的DCT的設(shè)計方法,將系數(shù)a~g表示為移位后的二進(jìn)制形式,如表1所示。
通過這種方法,原本的乘法運算可以使用加法和移位運算實現(xiàn)。例如,對于輸入為in的常系數(shù)乘法a·in,邏輯上等價于:
即,系數(shù)a的乘法運算等價于5次移位運算和5次加法運算。同時,在系數(shù)的二進(jìn)制表示中,非零位的個數(shù)決定了加法和移位次數(shù)。為了簡化運算的復(fù)雜度,對表1的系數(shù)進(jìn)行近似。從表中可以得到,除了參與直流系數(shù)F(0)運算的d,其余近似系數(shù)的非零位個數(shù)至多不超過2個,對應(yīng)的加法運算次數(shù)不超過1次。需要注意的是,在上述的設(shè)計中,為了在電路實現(xiàn)過程中能滿足精度,我們將原本二進(jìn)制小數(shù)向左移位后表示為8位整數(shù)的形式,需要在運算的最后對輸出進(jìn)行截位補償。
2.2 系數(shù)的位寬調(diào)節(jié)
DCT具有能量集中特性,輸出的能量主要集中在低頻部分[6],即輸出的有效數(shù)值集中于低頻區(qū)域,高頻區(qū)域在數(shù)值上趨于0,對最終的圖像質(zhì)量影響較小。因此,減小高頻輸出的位寬能在不顯著影響圖像質(zhì)量的前提下,有效降低中間運算的復(fù)雜度。由于DCT的運算中存在共享的中間結(jié)果,直接對輸入的位寬進(jìn)行調(diào)整會對整個運算的精度產(chǎn)生影響。為此,我們可以通過常系數(shù)的位寬調(diào)節(jié)實現(xiàn)輸出位寬的降低。基于這個思路,本文對近似系數(shù)進(jìn)行了重新設(shè)計,如圖2所示。相較于表1的近似值1,近似值2具有更高的近似程度,實現(xiàn)了低4位的歸零。利用這個特點,我們可以對近似值2的位寬進(jìn)行調(diào)節(jié),僅保留有效的高4位。
圖2 系數(shù)位寬調(diào)節(jié)方案
結(jié)合DCT的能量集中特性,對高頻輸出F(4), F(5),F(6)和F(7)的常系數(shù)乘法運算采用位寬調(diào)整后的近似系數(shù),對于低頻輸出F(0), F(1), F(2)和F(3)采用近似值1。結(jié)合式(3),得到了圖3所示的近似DCT結(jié)構(gòu)。
其中,虛線框表示輸出的截位補償,符號A和S分別代表加法器和減法器,方框內(nèi)的系數(shù)表示通過移位器和加法器實現(xiàn)的近似常系數(shù)乘法運算,單元1~單元4對應(yīng)于式(3)中第2個系數(shù)矩陣第4列~第1列的乘法運算。陰影部分標(biāo)注了受到位寬調(diào)節(jié)影響的低位寬運算單元。
由此可見,系數(shù)的位寬調(diào)節(jié)不但可以降低對應(yīng)的常系數(shù)乘法所需的位寬,還可以減小后續(xù)加法器消耗的硬件資源。
對提出的近似DCT結(jié)構(gòu)進(jìn)行硬件復(fù)雜度分析,完成一維DCT運算需要37個加法器和27個移位器,相較于傳統(tǒng)DCT的64個加法器和46個移位器,硬件復(fù)雜度降低了約40%。
3 實驗結(jié)果與分析
本小節(jié)評估了提出的近似DCT電路的性能,并將它與傳統(tǒng)的DCT、基于CORDIC的DCT[3]和其它的近似DCT[4]進(jìn)行了對比分析。在圖像處理領(lǐng)域,通常使用峰值信噪比(PSNR)來反映圖像的精度。一般我們認(rèn)為PSNR值越大,電路的精度越高,其定義如下:
其中,MSE代表原圖像和還原圖像之間的均方誤差,n表示像素的比特數(shù),對于灰度圖的取值為8。為了測試在不同環(huán)境下電路的精度,我們選取了8幅具有不同特征的圖像,包括Lena,、Airfield、Bridge、Plane、Peppers、Barbara、Crowd和Goldhill,如圖4所示。
(a) | (b) |
(c) | (d) |
(e) | (f) |
(g) | (h) |
圖4 仿真實驗圖:(a)Lena (b) Airfield (c) Bridge (d) Plane (e) Peppers (f) Barbara (g) Crowd (h) Goldhill
使用Verilog HDL描述上述的DCT電路,輸入圖像數(shù)據(jù),通過VCS對電路的功能進(jìn)行仿真,結(jié)合Matlab還原圖像并計算平均PSNR。然后,為了得到電路的功耗和面積信息,將時鐘約束設(shè)置為100 MHz,使用綜合工具DC在0.18 μm的CMOS工藝下對設(shè)計進(jìn)行綜合,得到的實驗結(jié)果如表2所示。
從表中可以得到,傳統(tǒng)的DCT具有最高的精度。這是因為傳統(tǒng)的DCT是相對精確的結(jié)構(gòu),而其他的DCT都為了實現(xiàn)更小的面積和功耗對電路進(jìn)行了不同程度的近似。同時,對比其它近似DCT,提出的DCT電路借助更小的面積實現(xiàn)了更高的PSNR,在CORDIC DCT和近似DCT的基礎(chǔ)上進(jìn)一步下降了約20%的功耗,使之能夠適用于一些低功耗的工作場合。
4 結(jié)論
本文提出了一種基于位寬調(diào)節(jié)的低功耗DCT電路設(shè)計。利用DCT的能量集中特性,我們通過乘法系數(shù)的位寬調(diào)節(jié)減小了高頻輸出中間運算的位寬。仿真結(jié)果顯示,對比傳統(tǒng)的DCT,提出的近似DCT的PSNR只下降4.3 dB,但其面積減小了36.0%, 功耗降低了62.6%。相較于其他的近似DCT,提出的設(shè)計在其他電路性能指標(biāo)均存在一定優(yōu)勢的前提下,降低了約20%的功耗,充分說明了本文的設(shè)計存在的優(yōu)越性。
參考文獻(xiàn):
[1] YU S, SWARTZIANDER E E.DCT implementation with distributed arithmetic[J]. IEEE Transactions on Computers,2001,50(9):985-991.
[2] JEONG H,KIM J,CHO W K.Low-power multiplierless DCT architecture using image data correlation[J].IEEE Transactions on Consumer Electronics,2004,50(1):262-267.
[3] LEE M,YOON J,PARK J.Reconfigurable CORDICBased Low-Power DCT Architecture Based on Data Priority[J].IEEE Transactions on Very Large Scale Integration (VLSI) Systems,2014,22(5):1060-1068.
[4] KAUSHAL V,Garg B,JAISWAL A,et al.Energy Aware Computation Driven Approximate DCT Architecture for Image Processing[C].2015 28th International Conference on VLSI Design, Bangalore, India, Jan. 2015:357-362.
[5] PARK J,ROY K.A low power reconfigurable DCT architecture to trade off image quality for computational complexity[C].2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, Montreal, Que., Canada, May 2004:V-17.
[6] LI Z,PENG S,MA H,et al.A Reconfigurable DCT Architecture for Multimedia Applications[C].2008 Congress on Image and Signal Processing, Sanya, China, May 2008:360-364.
(本文來源于《電子產(chǎn)品世界》雜志2020年9月期)
評論