嵌入式多媒體應用中的片上存儲器分配

作者：時間：2012-04-20 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

引言

本文引用地址：http://m.butianyuan.cn/article/171583.htm

隨著CPU速度的迅速提高，CPU與片外存儲器的速度差異越來越大，匹配CPU與外部存儲器的方法通常是采用Cache或者片上存儲器。微處理器中片上存儲器結構通常包含指令Cache ，數(shù)據(jù)Cache 或者片上存儲器。對于嵌入式設備上的數(shù)據(jù)密集的應用，數(shù)據(jù)Cache 與片上存儲器相比存在以下缺陷：（1）片上存儲器是固定的單周期訪問，可在設計時而不是運行時研究數(shù)據(jù)訪問模式；而Cache還要考慮擊不中的情況，因而有可變的數(shù)據(jù)訪問時間，執(zhí)行時間的預測更加困難。（2）使用Cache 執(zhí)行時間的不可預測性影響編譯器的優(yōu)化；（3）細顆粒的Cache 對于圖像編碼等的規(guī)則數(shù)據(jù)訪問并不合適，因而使用Cache 對于嵌入式設備可能不是最優(yōu)的。文指出，對于大多數(shù)應用，使用片上存儲器比使用數(shù)據(jù)Cache能量平均大約節(jié)省40 % ，芯片面積與時間的乘積僅為Cache的46%。因而對于嵌入式多媒體處理器，片上RAM作為數(shù)據(jù)Cache的替代，功耗更低。片上存儲器的有效使用對于提高嵌入式應用的速度，降低功耗具有重要的意義。

文討論了在同時具有數(shù)據(jù)Cache和片上SRAM的處理器上標量和矩陣變量的存儲器分配方法。文以摩托羅拉公司的DSP56000為平臺，文以AMS Gepard DSP為平臺，分別討論了如何把數(shù)據(jù)分配到X/Y數(shù)據(jù)存儲器塊，以便最大限度地利用數(shù)據(jù)移動的并行性。DSP56000片上X、Y數(shù)據(jù)存儲器都是單端口的，并且容量較小。與DSP56000不同，TI公司的TMS320C55x具有更多的數(shù)據(jù)總線，片上RAM容量更大，且分塊多，具有訪問能力更強的 DARAM。

TMS320C55x具有極低的功耗（0.05mW/MIPS），非常適合手持設備，現(xiàn)在已經集成至TI 公司專門針對3G手機的高性能多媒體處理器上。C55x 片上除了24K字節(jié)的指令Cache外，還有64K字節(jié)的雙端口存儲器（DARAM），96K字節(jié)的單端口存儲器（SARAM）。DARAM和SARAM 總共160K字節(jié)，分成20個塊，每個塊8K字節(jié)。本文以C55x的視頻編碼器為例，討論片上存儲器的有效使用。

數(shù)據(jù)的片外、片上動態(tài)分配

因為片上存儲器比片外存儲器具有更高的數(shù)據(jù)訪問能力和更小的訪問功耗，所以盡可能分配數(shù)據(jù)到片上存儲器，未能分配到片上的數(shù)據(jù)可在CPU處理前轉移到片上，已經轉移到片上的數(shù)據(jù)，應盡可能在片上保存直到其生命期結束，以便盡可能減少數(shù)據(jù)從片外存儲器到片上存儲器的數(shù)據(jù)轉移。在視頻編碼等應用中，標量、常數(shù)相對于矩陣而言，通常數(shù)量較少，可以分配到片上；若分配到片外，在運算時直接存取片外數(shù)據(jù)，CPU流水線將會停滯。直接存儲器存取（DMA）可以在存儲器之間，存儲器與外設之間轉移數(shù)據(jù)，除了DMA通道參數(shù)初始化以外，DMA轉移數(shù)據(jù)和CPU處理數(shù)據(jù)可以并行進行。設置DMA通道參數(shù)需要一定的時間，采用DMA來轉移單個變量或常數(shù)的開銷可能比直接存取更大，因此DMA適合轉移具有較多數(shù)據(jù)的矩陣，并不適合片外標量的轉移。包含大量元素的矩陣可以分配到片外，處理前使用DMA轉移到片上存儲器。

局部變量由編譯器分配到軟件棧上，C55x具有兩個軟件棧：數(shù)據(jù)棧和系統(tǒng)棧。C55x的棧有三種工作模式，可設置成雙16比特快返回模式，以減少棧所占的存儲器空間，并提高其運行速度。數(shù)據(jù)棧和系統(tǒng)棧在函數(shù)調用及返回時同時訪問，可將這兩個棧分配到DARAM塊或者不同的SARAM塊內。

本文中數(shù)據(jù)存儲器的分配，強調從實際多媒體應用處理的基本數(shù)據(jù)塊出發(fā)，分析簡單直觀。多媒體算法總是將原始輸入數(shù)據(jù)分成一定大小的塊進行處理，并產生對應該輸入的最后輸出。如果片上沒有足夠的存儲器，大量的輸入數(shù)據(jù)和最后結果僅能可存儲在片外。對于元素較多的矩陣，可以根據(jù)算法特征將矩陣分成若干數(shù)據(jù)子塊，如H.263編碼器中的宏塊，搜索窗等，或者單純根據(jù)可得到的片上存儲器數(shù)量分成適當大小的子塊逐個運算，然后分析數(shù)據(jù)子塊的生命期和使用頻率。我們定義數(shù)據(jù)子塊的生命期為首次使用到最后一次使用之間的間隔，而通常變量的生命期為定義到最后使用之間的間隔，例如定義整型數(shù)組int MB[384]，用來存儲待編碼宏塊的數(shù)據(jù)，圖像的某個宏塊的數(shù)據(jù)在該宏塊編碼結束后，該宏塊數(shù)據(jù)的生命期也就結束，然后該數(shù)組用來存儲下一宏塊的數(shù)據(jù)，因而變量的生命期遠比存儲在該變量中的某一具體數(shù)據(jù)生命期要長。若數(shù)據(jù)子塊具有不相交的生命期，則可以共享相同的片上存儲器。

很多數(shù)據(jù)子塊在運算中多次使用，可在首次運算前轉移到片上，并盡可能保存到生命期結束，即直到這些數(shù)據(jù)不再使用為止，因而這些數(shù)據(jù)僅需要一次轉移。將程序執(zhí)行時間看成是由很多連續(xù)的時間間隔組成的，若在下個時間間隔內需要轉移新的數(shù)據(jù)到片上供CPU處理，而片上又沒有足夠的存儲器存儲這些數(shù)據(jù)，這時將隨后需要連續(xù)頻繁使用的數(shù)據(jù)保留到片上；對于隨后較少使用的數(shù)據(jù)，若片外存儲器還保存有該數(shù)據(jù)的備份，這些數(shù)據(jù)可直接覆蓋，等到下次使用時再從片外存儲器拷貝到片上；否則，在覆蓋前將數(shù)據(jù)轉移到片外。在片上分配一定的緩沖區(qū)，用來存儲需要再次使用的數(shù)據(jù)，可有效地減少片外存儲器的訪問。對于中間結果，盡量在使用前分階段計算，使用后釋放，以縮減存儲中間結果的存儲器需求。通過數(shù)據(jù)的這種動態(tài)分配，既可以減少或避免訪問片外慢速存儲器所引起的指令延遲，又可以減少片外到片上的數(shù)據(jù)轉移。

在H.263視頻編碼器中，編碼是按宏塊順序進行的，INTRA宏塊編碼僅需要當前的編碼宏塊數(shù)據(jù)，INTER宏塊編碼還需要以當前宏塊為中心的重建圖像搜索窗。因此根據(jù)算法特征將整幀輸入圖像劃分成宏塊，某個宏塊數(shù)據(jù)在編碼前轉移到片上，這一宏塊編碼結束后就不再使用，這部分片上存儲器就可釋放，用來存儲下一宏塊數(shù)據(jù)。若在編碼的同時采用DMA轉移下一個宏塊，這需要在片上分配兩個宏塊的存儲器空間，用來存儲編碼的原始圖像。

在進行INTER幀編碼時，運動搜索需要使用前一幀的重建圖像作為參考，設搜索范圍為 [-16，+16]，編碼該宏塊需要搜索參考圖像中以編碼宏塊位置為中心的9個宏塊，即前一幀中宏塊（x，y）的的重建圖像直到編碼（x+1，y+1）宏塊后生命期才結束。以CIF分辨率為例，不可能把一幀圖像的所有重建宏塊保存到生命期結束，因而部分重建圖像必需暫時存儲在片外，若在編碼（x-1，y-1）前將重建宏塊（x，y）拷貝到片上并一直保存到編碼（x+1，y+1）宏塊結束，只需要在片上分配將近3個GOB的空間用來存儲參考圖像，就可以保證每個宏塊的重建圖像數(shù)據(jù)只需要一次片外到片上的轉移。

半像素內插結果，用于在整像素運動搜索后作為半像素搜索的參考，因而可在整像素搜索后、半像素搜索前，圍繞整像素運動矢量，對整像素運動矢量對應的匹配宏塊進行內插，這樣就沒有必要在編碼INTER 幀前將整幀圖像進行內插，可顯著減少存儲內插結果的存儲器數(shù)量，從而分配在片上。

片上數(shù)據(jù)的存儲器分配

TMS320C55x 除了讀指令的地址數(shù)據(jù)總線外，還有三條用于從存儲器讀操作數(shù)的地址數(shù)據(jù)總線，兩條寫操作數(shù)到存儲器的地址數(shù)據(jù)總線。CPU在一個周期內可完成多個操作數(shù)的讀寫，由于每個DARAM塊或SARAM塊有限的訪問能力，這些操作數(shù)位于適當?shù)腄ARAM或SARAM塊內，才能在單周期內完成多個數(shù)據(jù)的讀入或者數(shù)據(jù)的同時讀寫，而不產生延遲。

指令代碼的分配

應用程序的指令代碼可以存儲在片外存儲器，通過指令Cache進行訪問，可以減少CPU讀指令代碼與CPU讀寫片上存儲器內數(shù)據(jù)的沖突，同時將空余更多的片上存儲器空間用于數(shù)據(jù)分配。若存儲程序代碼和數(shù)據(jù)所需的存儲器總和少于片上存儲器容量，將代碼分配到片外存儲器的性能與代碼數(shù)據(jù)全部分配到片上存儲器相比，性能降低大約10%。因此當代碼和數(shù)據(jù)總和小于片上存儲器容量時，應該全部分配到片上存儲器。通常程序代碼僅供CPU讀取、并不修改，而數(shù)據(jù)經常需要同時讀寫，因而應盡量將代碼存儲在SARAM內，以便將訪問能力更強的DARAM用來存儲數(shù)據(jù)。在單個CPU周期內，SARAM僅有一次訪問能力，同時讀取指令和數(shù)據(jù)必然產生延遲，為了保證讀取數(shù)據(jù)時不產生延遲，數(shù)據(jù)不能與訪問這些數(shù)據(jù)的代碼存儲在同一SARAM塊內。也就是說，當程序代碼大小不是剛好整數(shù)個塊大小時，可通過調整代碼或者數(shù)據(jù)的存儲器分配，以免CPU讀代碼與讀寫數(shù)據(jù)產生沖突。

數(shù)據(jù)分配

前面已經討論過變量和常數(shù)的分配，這里主要討論耗時較多的矩陣運算。通?？梢杂肅語言或者匯編語言編寫應用程序，C語言編譯后可產生匯編代碼。在匯編語言的代碼中，找到處理矩陣操作數(shù)的指令，依次列舉這些指令不產生延遲的矩陣分配限制，并求解滿足這些限制條件的片上存儲器分配。下面列出了C55x中一些常見的存儲器操作數(shù)訪問形式：

（1） Xmem read ‖Ymem read。

Xmem write ‖Ymem write。

Xmem read ‖Ymem write。

為了不產生延遲，要求Xmem 和Ymem 位于DARAM塊內或者不同的塊內。

（2）Lmem1 read ‖Lmem2 write。

為了不產生延遲，要求Lmem1和Lmem2位于DARAM塊內或者不同的塊內。

（3） Xmem read ‖Cmem read。

例如匯編指令：MACMR Xmem，Cmem，ACx，為了不產生延遲，Xmem，Cmem不在同一塊內，這包括不在同一SARAM塊內，也不在同一DARAM內。

（4） Xmem read ‖Ymem read ‖Cmem例如匯編指令：MPY Xmem ，Cmem ，AC0 ：：MPY Ymem ，Cmem，AC1 以及FIRSADD Xmem ，Ymem ，Cmem ，ACx ，ACy 都要求Xmem 和Ymem 位于DARAM塊內或者不同的SARAM塊內，并且Xmem ，Cmem不在同一塊內。

上述指令不產生延遲的約束條件可分成兩類基本約束條件：（1）兩變量位于DARAM塊內或者兩變量位于不同的塊內，記為條件A，這是由SARAM塊或者DARAM塊訪問能力產生的限制（2）兩變量位于不同的塊內，記為條件B，這是由于CPU總線的特殊結構產生的限制。其中條件A中的兩變量可在同一DARAM塊內，或者不同的SARAM 塊內，或者一個變量在DARAM內，另一個在SARAM內。條件B 指的是兩變量在不同的DARAM塊內，或者在不同的SARAM塊內，或者一個變量在DARAM塊內，另一個在SARAM 塊內。條件A可看成是兩種條件的邏輯或關系。

A = B or C。

其中條件C定義為兩變量都位于DARAM塊內。循環(huán)中的操作數(shù)一般表現(xiàn)為矩陣的一個元素，在一個應用程序中，通常有多個矩陣，矩陣中的元素應同時滿足多個上述基本條件。當矩陣較多，限制條件復雜時，可以使用計算機求解數(shù)據(jù)存儲器分配，以滿足矩陣訪問不產生延遲的條件。在這里，我們只需要求出滿足條件的一個解，并不需要求出所有可能的解，因而對求解問題做一定的簡化。

設x，y分別是矩陣X，Y的某一個元素，X，Y位于不同的塊內是 x，y位于不同的塊內的充分條件，同樣X，Y都位于DARAM內或者不同的塊內是x，y都位于DARAM內或者不同的塊內的充分條件，例如X位于 DARAM塊，Y矩陣部分位于與X 相同的DARAM內，其余位于SARAM內，也能使x，y滿足條件A。

例如：N個矩陣需要同時滿足N1個A 類條件和N2個B類條件。從每個A類條件中任選一個條件（B或者C），最多有2N1個組合，每種組合與N2個b類條件聯(lián)立求解，其中某些組合可能沒有解，任意一個解都能滿足不產生延遲的條件。這時任何一種組合中可能包含M （0=M=N1）個C類條件，其余的為B類條件。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）

新聞中心

嵌入式多媒體應用中的片上存儲器分配

評論

相關推薦

技術專區(qū)