利用TMS320C6201芯片進行圖像壓縮

作者：時間：2007-03-09 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

摘要：介紹了利用TMS320C6201 DSP芯片進行實時圖像壓縮的軟件設計。結合該芯片的編程特點介紹了壓縮算法，并給出了部分關鍵程序，具有一定的參考價值。關鍵詞：圖像壓縮 C6201 FDCT變換霍夫曼編碼圖像中含有豐富的信息，在現代科技中將圖像作為一種探測手段，正受到越來越廣泛的青睞。有很多探測設備，采用掃描成像儀器作為前端探測器。作為一種很常見的情況，成像儀器采集到的圖像要通過無線信道進行發(fā)送。但是，圖像數據通常都是海量數據，無線信道的傳輸帶寬無法滿足要求，必須對圖像進行壓縮處理，才能通過無線信道進行傳輸。

實現圖像實時無線傳輸必須研制專門的圖像壓縮，該壓縮器須滿足如下要求：（１）圖像實時壓縮?鴉（２）能夠較好地保存圖像質量。筆者以ＴＩ公司的高速ＤＳＰ芯片ＴＭＳ３２０Ｃ６２０１為核心的數字信號處理板作為圖像壓縮器的硬件平臺，通過自行開發(fā)的壓縮程序，實現了圖像的實時壓縮。

１ 數字信號處理板的硬件功能框圖 數字信號處理板的硬件功能框圖如圖１所示。ＴＭＳ３２０Ｃ６２０１是一種高性能的定點數字信號處理器。工作頻率為２００ＭＨｚ時，每個指令周期為５ｎｓ，運算速度可達１６００ＭＩＰＳ；具有ＶＬＩＷ(甚長指令集)體系結構，每周期８個３２ｂｉｔ的指令并行執(zhí)行；８個獨立的功能單元，有兩個１６ｂｉｔ乘法器和６個算術邏輯單元；采用加載存儲體系結構，數據在多處理單元之間的傳輸依靠３２個３２ｂｉｔ的通用寄存器。Ｃ６０００的存儲器尋址空間為３２ｂｉｔ,片內有１Ｍｂｉｔ的ＳＲＡＭ。片內ＲＡＭ被分為兩塊：一是內部程序／ｃａｃｈｅ存儲器，二是內部數據存儲器。３２ｂｉｔ外部存儲器接口（ＥＭＩＦ）可與不同存儲器接口，可方便地配置不同速度、不同容量、不同復雜程度的存儲器。此外，Ｃ６０００還有兩通道Ｂｏｏｔ－ｌｏａｄｉｎｇＤＭＡ處理器、１６ｂｉｔ的主機接口ＨＰＩ、兩個多通道緩沖串口（ＭｃＢＳＰ），并且其片內鎖相環(huán)（ＰＬＬ）時鐘發(fā)生器，可以對輸入時鐘進行不同的倍頻處理。這種芯片用來處理圖像壓縮這種運算密集型的工作是非常合適的。功能框圖的其它部分不再做介紹。圖3 圖像壓縮器的工作過程方框圖２圖像壓縮算法圖像壓縮中的圖像有彩色和灰度之分。考慮到彩色圖像和灰度圖像的壓縮類似，且大多數的掃描成象設備掃的是灰度圖像，所以僅以灰度圖像的壓縮為例介紹ＤＳＰ上的圖像壓縮。圖像壓縮算法原理圖如圖２所示。圖中，首先將原始灰度圖像分為８%26;#215;８的圖塊，然后對每一圖像塊進行ＦＤＣＴ變換，再將變換得到的ＤＣＴ系數使用量化表進行量化。量化后可得到如下形式的數據： (x)是不為零的數據） x x x x 0 0 0 0 x x x 0 0 0 0 0 x x 0 0 0 0 0 0 x 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 該數據在存儲器中存放的順序如下： z[0] z[1] z[2] z[3] z[4] x[5] z[6] z[7] z[8] z[9] z[10] z[11] z[12] z[13] z[14] z[15] z[16] z[17] z[18] z[19] z[10] z[21] z[22] z[23] z[24] z[25] z[26] z[27] z[28] z[29] z[30] z[31] z[32] z[33] z[34] z[35] z[36] z[37] z[38] z[39] z[40] z[41] z[42] z[43] z[44] z[45] z[46] z[47] z[48] z[49] z[50] z[51] z[52] z[53] z[54] z[55] z[56] z[57] z[58] z[59] z[60] z[61] z[62] z[63] 在存儲器中，非零數據和零數據交替存放，不便于壓縮，所以要對數據進行重排列，數據的重排列形式如下： z[0] z[1] z[5] z[6] z[14] z[15] z[27] z[28] z[2] z[4] z[7] z[13] z[16] z[26] z[29] z[42] z[3] z[8] z[12] z[17] z[25] z[30] z[41] z[43] z[9] z[11] z[18] z[24] z[31] z[40] z[44] z[53] z[10] z[19] z[23] z[32] x[39] z[45] z[52] z[54] z[20] z[22] z[33] z[38] z[46] z[51] z[55] z[60] z[21] z[34] z[37] z[47] z[50] z[56] z[59] z[61] z[35] z[36] z[48] z[49] z[57] z[58] z[62] z[63] 變換完成后再根據編碼表對ＤＣ系數和ＡＣ系數分別進行編碼，就完成了圖像的壓縮。圖4 量化表３利用ＤＳＰ芯片進行圖像壓縮３．１圖像壓縮器的工作過程圖像壓縮器工作過程方框圖如圖３所示。圖像數據通過Ｉ／Ｏ接口送入數字信號處理板，由ＤＳＰ芯片中的ＤＭＡ控制器負責將數據放入輸入緩沖區(qū)中，ＤＳＰ對緩沖的圖像數據進行壓縮后，通過ＨＰＩ接口將壓縮數據送出。３．２編程介紹這里主要介紹壓縮參數初始化和壓縮程序。３．２．１壓縮參數初始化由圖２所示的圖像壓縮算法可知，圖像壓縮過程中需要量化表和編碼表，量化表如圖４（ａ）所示。

量化操作就是把８%26;#215;８圖塊進行ＦＤＣＴ變換，將變換后的的ＤＣＴ系數用量化表元素來除。由于ＤＳＰ中有硬件乘法器和移位指令，為了充分提高程序的執(zhí)行速度，應該將除法運算轉化為乘法運算和移位運算，對上面的量化表元素逐個求倒數并用１６進制表示，如圖４（ｂ）所示。編碼表有兩個，一個是直流差值編碼表，另一個是交流系數編碼表，如圖５所示。編碼表中的最左端的一列代表中間碼字，具體編碼時要根據８ｘ８圖塊的ＤＣＴ系數產生中間碼字，再由中間碼字查編碼表，將中間碼字轉換為霍夫曼碼，完成編碼。在ＤＳＰ程序初始化階段要生成量化表和編碼表，量化表可直接將圖４（ｂ）所示的量化表元素代入來得到,編碼表就要按照霍夫曼碼的編碼方法生成霍夫曼碼來得到。由于在壓縮過程中要頻繁地查找編碼表，因此，編碼表的組織形式對程序的執(zhí)行效率影響很大。３．２．２壓縮程序圖像壓縮包括ＦＤＣＴ變換、標量量化、Ｚｉｇｚａｇ掃描和編碼等幾個步驟，下面分別介紹。３．２．２．１ＦＤＣＴ變換ＤＣＴ變換公式如下：

式中，Cu,Cv=

具體壓縮的時候要采用ＤＣＴ變換的快速算法來加快程序的運行速度，將二維的ＤＣＴ變換分解為兩個一維的ＤＣＴ變換，可以有效地降低計算量。ＣＣＳ２．０(ＣｏｄｅＣｏｍｐｏｓｅｒＳｔｕｄｉｏ)中提供了一個成熟的Ｃ語言函數庫，里面包含了進行ＦＤＣＴ變換的函數。函數原型如下：ｖｏｉｄｆｄｃｔ＿８%26;#215;８(ｓｈｏｒｔ *ｄｃｔ＿ｄａｔａ, ｕｎｓｉｇｎｅｄｎｕｍ＿ｆｄｃｔｓ)；函數中ｄｃｔ＿ｄａｔａ指針指向待變換的圖像數據，

ｎｕｍ＿ｆｄｃｔｓ是進行ＤＣＴ變換的圖像塊的數目。該函數可以對一大塊連續(xù)存放的圖像塊進行ＤＣＴ變換，特別針對ＴＭＳ３２０Ｃ６２０１ＤＳＰ芯片的特點進行了優(yōu)化?？紤]到存儲器的等待時間和指令的并行等問題，執(zhí)行效率非常高，具體的程序開銷可以通過如下公式計算：時鐘周期數＝４８＋１６０*ｎｕｍ＿ｆｄｃｔｓ; 要在自己的工程中使用這個函數，必須把ｉｍｇ６２ｘ．ｌｉｂ函數庫添加到工程中，并且在主程序文件中包含ｆｄｃｔ＿８%26;#215;８．ｈ頭文件。３．２．２．２標量量化所謂標量量化就是對８%26;#215;８圖像塊的ＤＣＴ變換系數使用量化表逐個相除并四舍五入。ＣＣＳ２．０提供了一個量化函數，其原型如下：ｖｏｉｄｑｕａｎｔｉｚｅ ( ｓｈｏｒｔ *ｄａｔａ, ／* Ｄａｔａｔｏｂｅｑｕａｎｔｉｚｅｄ． *／ｉｎｔｎｕｍ＿ｂｌｋｓ, ／*Ｎｕｍｂｅｒｏｆ６４－ｅｌｅｍｅｎｔｂｌｏｃｋｓ．?*／ｉｎｔｂｌｋ＿ｓｉｚｅ, ／*Ｂｌｏｃｋｓｉｚｅ (ｍｕｌｔｉｐｌｅｏｆ８)． *／ｃｏｎｓｔｓｈｏｒｔ *ｒｅｃｉｐ＿ｔｂｌ, ／*Ｑｕａｎｔ．ｖａｌｕｅｓ (ｒｅｃｉｐｒｏｃａｌｓ)． *／ｉｎｔｑ＿ｐｔ／*Ｑ－ｐｏｉｎｔｏｆＱｕａｎｔｖａｌｕｅｓ．*／ ); 將圖４（ｂ）所示的量化表元素代入程序，ｂｌｋ＿ｓｉｚｅ為６４，ｑ＿ｐｔ為１６，ｄａｔａ指向量化數據，即可進行快速的量化。該程序同樣經過了優(yōu)化，具體的程序開銷可按如下公式計算：時鐘周期數＝２５＋(ｂｌｋ＿ｓｉｚｅ／１６)*４＋ｎｕｍ＿ｂｌｋｓ*１２) 該函數同樣包含在ｉｍｇ６２ｘ．ｌｉｂ庫中，

程序中應包含ｑｕａｎｔｉｚｅ．ｈ頭文件。３．２．２．３ＺｉｇＺａｇ掃描ＺｉｇＺａｇ掃描就是對數據進行重排列。該部分功能簡單、運算量也不大，但是對存儲器的訪問非常頻繁，而且影響處理器執(zhí)行速度的主要是對存儲器的訪問速度。一般情況下，ＣＰＵ訪問內部存儲器需要４個時鐘周期，訪問外部存儲器的速度要比內部存儲器的速度慢得多，具體情況應根據實際使用的外部存儲器的類型而定。由于ＴＭＳ３２０６２０１ＤＳＰ芯片每秒鐘最多可以執(zhí)行８條指令，如果讓ＤＳＰ芯片經常處于等待狀態(tài)是非常大的浪費。解決該問題的最有效的辦法是充分利用數據總線的寬度并讓軟件進行流水線執(zhí)行。ＴＭＳ３２０Ｃ６２０１的數據總線寬度是３２位，一般情況下ＤＣＴ系數使用一個短整型數，只有１６位寬度，如果每次同時從存儲器中讀寫兩個數，則可以減少一半訪問存儲器的次數。由于ＴＭＳ３２０Ｃ６２０１有８個功能單元，ＣＰＵ可以在處理當前數據的同時去存儲器取下一個數據。通過流水線，ＣＰＵ可以做到每周期訪問一次存儲器，這樣可以使程序的執(zhí)行效率大大提高。一般情況下軟件的流水線安排是由編譯優(yōu)化系統(tǒng)完成的，程序員所要做的是讓自己的程序符合流水線執(zhí)行的要求，并且讓優(yōu)化后的流水線周期盡量短。流水線的要求主要有以下幾點：（１）程序所使用的寄存器數目不能超過３２個；（２）程序所使用的條件寄存器數目不能超過５個；（３）程序中不能含有分支語句，可能的話盡量使用條件指令；（４）一個寄存器中的變量值不能存放太長時間，實在不行就換個寄存器存放；（５）程序所使用的ＣＰＵ左右兩邊的資源盡量平衡，一般情況下，平衡的資源使用換來的是比較短的流水線周期；（６）程序中包含的指令不能太多。對于用線性匯編語言編寫的程序，應該在程序編寫時注意這些問題。對一個用Ｃ語言編寫的程序，可以通過觀察編譯系統(tǒng)產生的優(yōu)化后的匯編語言文件來獲得相關的信息。具體程序略。３.２.２.４編碼編碼部分主要是對量化后的ＤＣＴ系數進行處理，主要利用了相鄰圖像塊之間的相關性、量化后的ＤＣＴ系數矩陣的連零特性和霍夫曼編碼應進行壓縮編碼。該部分主要涉及了查表、移位運算和存儲器讀寫。ＤＣ差值／ＡＣ系數等級表如圖６所示。

ＤＣ系數的編碼流程圖如圖７所示。ＡＣ系數的編碼流程圖如圖８所示。其中，ＺＺ（Ｋ）編碼是對不為零的ＡＣＤＣＴ系數進行編碼，編碼方法可參考ＤＣ差值編碼。由于在ＡＣ編碼過程當中分支語句比較多，為了程序的流水線執(zhí)行，同時為了指令的并行性，大量地使用了條件指令。但是應該注意，在ＴＭＳ３２０Ｃ６２０１中只有Ａ１、Ａ２、Ｂ０、Ｂ１、Ｂ２五個條件寄存器，不可能滿足所有的需要，因此一定要盡量簡化程序。在實際使用中，使用該壓縮器壓縮一幅５１２%26;#215;５１２的灰度圖像需要的時間不到５５ｍｓ，配合適當的數據接口可滿足對數據率為３２Ｍｂｉｔ／ｓ的掃描圖像進行實時壓縮。

新聞中心

利用TMS320C6201芯片進行圖像壓縮

評論

相關推薦

技術專區(qū)