嵌入式多媒體多核應(yīng)用軟件設(shè)計(jì)框架

作者：時(shí)間：2013-10-21 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

圖4顯示了宏塊數(shù)據(jù)訪問模式的數(shù)據(jù)流模型，可以在兩個(gè)處理器核之間交替?zhèn)魉秃陦K。L2存儲(chǔ)器具有多個(gè)片段緩沖器，獨(dú)立的MDMA通道將宏塊從每個(gè)處理器核的L2存儲(chǔ)器傳輸?shù)絃1存儲(chǔ)器。L1存儲(chǔ)器也有多個(gè)緩神器，用以避免DMA與處理器核訪問總線的沖突。與行處理框架類似，該框架中處理器核A控制輸入視頻接口，處理器核B控制輸出接口，計(jì)數(shù)信號(hào)量實(shí)現(xiàn)兩個(gè)處理器核之間的同步。這種框架的應(yīng)用實(shí)例包括邊緣檢測、
JPEG/MPEG編碼/解碼算法和卷積編碼。

圖4 在雙核宏塊數(shù)據(jù)訪問模式中，L2存儲(chǔ)器具有多個(gè)片段緩沖器，獨(dú)立的MDMA通道將宏塊從每個(gè)處理器核的L2存儲(chǔ)器傳輸?shù)絃1存儲(chǔ)器。

在幀級(jí)處理模式中，外部存儲(chǔ)器存儲(chǔ)關(guān)聯(lián)幀。根據(jù)數(shù)據(jù)幀（宏塊或行）之間的關(guān)聯(lián)性粒度，系統(tǒng)將數(shù)據(jù)幀的子塊傳送到L1或L2存儲(chǔ)器。圖5顯示了幀級(jí)處理框架的數(shù)據(jù)流模型。在這種情況下，假定某個(gè)宏塊在多個(gè)幀之間存在關(guān)聯(lián)，則系統(tǒng)將數(shù)據(jù)幀的宏塊傳送至L1存儲(chǔ)器。與其它框架類似，該框架中處理器核A控制輸入視頻接口，處理器核B控制輸出接口，通過計(jì)數(shù)信號(hào)量實(shí)現(xiàn)兩個(gè)處理器核之間的同步。這種框架的應(yīng)用實(shí)例包括運(yùn)動(dòng)檢測算法。

圖5 在幀級(jí)處理流程中，外部的存儲(chǔ)器存儲(chǔ)獨(dú)立幀

在GOP級(jí)處理模式中，每個(gè)處理器核處理多個(gè)相繼的數(shù)據(jù)幀。幀級(jí)處理框架與GOP級(jí)處理框架之間的區(qū)別在于，前者是在幀內(nèi)完成空間劃分，后者則通過時(shí)間劃分（幀序列）實(shí)現(xiàn)并行處理。對(duì)于GOP數(shù)據(jù)訪問模式，關(guān)聯(lián)性存在于一組數(shù)據(jù)幀內(nèi)部，兩組幀之間數(shù)據(jù)不存在關(guān)聯(lián)性。因此，處理器核可以獨(dú)立處理每一組幀。圖6顯示了這種框架的數(shù)據(jù)流。與幀級(jí)處理框架類似，系統(tǒng)可以將幀數(shù)據(jù)塊傳送至處理器核的L1存儲(chǔ)器。為了有效利用外部存儲(chǔ)器的交錯(cuò)存儲(chǔ)庫結(jié)構(gòu)，系統(tǒng)在處理器核間均衡地分配存儲(chǔ)庫。ADSP-BF561的每一個(gè)外部存儲(chǔ)庫都支持多達(dá)四個(gè)內(nèi)部SDRAM存儲(chǔ)庫。這種框架的應(yīng)用實(shí)例包括MPEG-2/4等編碼/解碼算法。

圖6 在GOP級(jí)數(shù)據(jù)訪問模式中，關(guān)聯(lián)性存在于一組數(shù)據(jù)幀內(nèi)部，兩組幀之間數(shù)據(jù)不存在關(guān)聯(lián)性。

在實(shí)際應(yīng)用中，系統(tǒng)可能使用多種算法處理數(shù)據(jù)流，而每種算法都可能用到不同的數(shù)據(jù)存取模式。這種情況下，可以針對(duì)特殊應(yīng)用將幾種框架結(jié)合起來使用。為利用多核結(jié)構(gòu)，可以采用流水線處理來實(shí)現(xiàn)并行操作，但這種并行操作是不對(duì)稱的，因?yàn)椴煌幚砥骱松峡赡軋?zhí)行不同的計(jì)算。然而，系統(tǒng)可以分配一些其它的任務(wù)到處理器核的空閑指令上，在保持靈活性的同時(shí)達(dá)到處理器核的工作量平衡。圖7顯示了行級(jí)處理和宏塊處理相結(jié)合的框架的數(shù)據(jù)流模型。

圖7 行級(jí)處理和宏塊處理相結(jié)合的框架的數(shù)據(jù)流模型

在某些其他應(yīng)用中，多個(gè)數(shù)據(jù)塊之間也會(huì)存在數(shù)據(jù)關(guān)聯(lián)性，數(shù)據(jù)存取模式仍然是可預(yù)測的，但它擴(kuò)展到了一個(gè)宏塊或一行的粒度之外。例如，運(yùn)動(dòng)窗口搜索就可能使用幾個(gè)相鄰的宏塊。數(shù)據(jù)存取模式仍然是可預(yù)測的，但系統(tǒng)在算法的多次迭代之間要訪問多個(gè)數(shù)據(jù)塊。這種情況下，可以對(duì)軟件框架進(jìn)行修正，以實(shí)現(xiàn)有效的并行操作。例如，如果多行間存在關(guān)聯(lián)，可以通過調(diào)整行處理框架，將N個(gè)連續(xù)行的幀片段傳送到每個(gè)處理器核的L1存儲(chǔ)器。利用類似的方法，還可以對(duì)宏塊處理框架進(jìn)行擴(kuò)展，以便將多個(gè)宏塊從L2存儲(chǔ)器送入內(nèi)部L1存儲(chǔ)器。
軟件框架分析

為了對(duì)雙核處理的軟件框架進(jìn)行評(píng)估，ADI公司利用數(shù)據(jù)流模型率先開發(fā)了一款單核應(yīng)用軟件，然后與雙核方案進(jìn)行對(duì)比。Blackfin獨(dú)有的系統(tǒng)優(yōu)化技術(shù)也能有效地利用可用帶寬。為了簡化分析，ADI公司只比較了基本框架的處理速度，而沒有考慮幾種架構(gòu)的組合。

所謂周期，是指為了滿足NTSC（美國國家電視系統(tǒng)委員會(huì)）視頻輸入的實(shí)時(shí)約束條件而用于處理數(shù)據(jù)流的處理器核計(jì)算周期。對(duì)于一個(gè)以600MHz速度運(yùn)行的處理器核，為了滿足實(shí)時(shí)約束條件，處理每一像素可用的總周期數(shù)為44周期/像素。任何對(duì)數(shù)據(jù)流的處理器核訪問都只需要一個(gè)單核周期，因?yàn)樗袛?shù)據(jù)訪問都是對(duì)L1存儲(chǔ)器的訪問。所示的周期數(shù)不包括中斷延遲。

如表1所示，雙核框架將所有框架的處理速度有效提高了兩倍。表中還說明了每個(gè)處理器核的L1存儲(chǔ)器使用量，以及各種框架需要的共享存儲(chǔ)器空間。這些框架使用ADI公司的DD/SSL（器件驅(qū)動(dòng)/系統(tǒng)服務(wù)庫）實(shí)現(xiàn)對(duì)外設(shè)和數(shù)據(jù)的管理。

表1：框架說明

存儲(chǔ)器相關(guān)文章:存儲(chǔ)器原理

新聞中心

嵌入式多媒體多核應(yīng)用軟件設(shè)計(jì)框架

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)