嵌入式多媒體應(yīng)用的多核編程框架

作者：時間：2011-12-29 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文引用地址：http://m.butianyuan.cn/article/149925.htm

基于單核結(jié)構(gòu)的嵌入式處理器越來越難以滿足日益增長的嵌入式多媒體應(yīng)用的處理需求，多核嵌入式結(jié)構(gòu)已成為解決這一問題的有效途徑，同時也為如何充分開發(fā)利用多核結(jié)構(gòu)的應(yīng)用軟件帶來挑戰(zhàn)。目前的編譯技術(shù)和開發(fā)工具需要更精密，才能使多核結(jié)構(gòu)的應(yīng)用獲得成功。大多數(shù)并行軟件都是通過手工轉(zhuǎn)換方式將順序程序轉(zhuǎn)換為并行程序來實現(xiàn)的，由于缺乏具有多核意識的開發(fā)工具，使得軟件難以進行性能評估。因此，如果沒有預(yù)先有效可靠的工程規(guī)劃，將不得不面對應(yīng)用軟件效率低下以及延遲產(chǎn)品上市時間等問題。

軟件框架為多核應(yīng)用軟件的開發(fā)提供了一個更好的起點，可以幫助縮短開發(fā)時間。本文將詳細說明嵌入式多媒體應(yīng)用軟件的設(shè)計框架，同時，本文的數(shù)據(jù)流模型也可擴展到許多其它應(yīng)用中。該框架綜合了多媒體應(yīng)用軟件固有的數(shù)據(jù)并行結(jié)構(gòu)，并說明了如何通過使用底層架構(gòu)來有效管理數(shù)據(jù)流。

在設(shè)計并行軟件的過程中有兩大挑戰(zhàn)：一是開發(fā)有效的并行算法，二是有效地利用存儲器、DMA（直接存儲器訪問）通道和互連網(wǎng)絡(luò)等共享資源。在該過程中，順序運行的應(yīng)用程序的性能可根據(jù)可用處理器核的數(shù)目進行擴展。

實現(xiàn)應(yīng)用程序的并行處理常常有多種方法。有些應(yīng)用程序表現(xiàn)出固有的并行特性，而其它的則具有極其復(fù)雜且不規(guī)則的數(shù)據(jù)存取模式。但總的來講，科學(xué)計算類的應(yīng)用程序和多媒體應(yīng)用程序的并行化通常易于實現(xiàn)，因為它們的數(shù)據(jù)存取模式比那些控制類應(yīng)用程序相對容易預(yù)測。本文重點討論針對多媒體算法的并行技術(shù)，這類算法需要很高的處理能力，并且更適合嵌入式系統(tǒng)應(yīng)用。

多媒體應(yīng)用程序中存在數(shù)據(jù)的并行級別。一組數(shù)據(jù)幀與數(shù)據(jù)幀中的一個宏塊之間的并行粒度有很大差別。通常來講，粒度越小，共享單元（如處理器核和DMA通道等）之間所需的同步級別越高。粒度越小，并行程度就越高，網(wǎng)絡(luò)通信量越??；粒度越大，同步要求就越低，但網(wǎng)絡(luò)通信量會增大。因此，基于應(yīng)用的不同類型和系統(tǒng)需求，軟件框架也定義了不同的并行級別。

需要說明的是，可擴展并行軟件的開發(fā)還依賴于對互連網(wǎng)絡(luò)、分級存儲器體系以及外設(shè)/DMA資源的有效利用。系統(tǒng)嚴格的低功耗和低成本要求對所有這些要素都會構(gòu)成限制。在多核環(huán)境下編程時，有效利用這些資源需要進行創(chuàng)新。本文提出了一些在ADI公司的Blackfin ADSP-BF561雙核處理器上有效管理資源的構(gòu)想。

多媒體數(shù)據(jù)流分析

為了實現(xiàn)數(shù)據(jù)并行，需要在數(shù)據(jù)流中找到這樣一個或一組數(shù)據(jù)塊：可以獨立處理并將其“喂”給一個處理元件。獨立的數(shù)據(jù)塊可以降低同步開銷并簡化并行算法。要找到這種數(shù)據(jù)，必須弄清應(yīng)用的數(shù)據(jù)流模型，或者說“數(shù)據(jù)存取模式”。

對于大多數(shù)多媒體應(yīng)用，可以將數(shù)據(jù)存取模式看成是2D（空間域）和3D（時間域）操作模式。在2D模式中，獨立的數(shù)據(jù)塊被限制在單個數(shù)據(jù)幀內(nèi)，而在3D模式中，獨立數(shù)據(jù)塊可以橫跨多幀。在空間域中，可以將幀劃分為由N個連續(xù)行和視頻幀宏塊組成的片段，而在時間域中，可以對數(shù)據(jù)流進一步細分到幀級或圖片組(GOP)級。

采用片段或宏塊數(shù)據(jù)存取模式的算法對同步性要求較高，但網(wǎng)絡(luò)傳輸量較少，這是因為分級存儲器體系只需存儲圖像數(shù)據(jù)的一部分。對于幀或圖片組類型的數(shù)據(jù)存取模式，分級存儲器體系則需要存儲大量數(shù)據(jù)，但對同步性的要求則相對低得多，這是因為系統(tǒng)的并行粒度更大。圖1說明了多媒體應(yīng)用軟件中的并行級別，同時顯示了四個級別的相對同步要求和網(wǎng)絡(luò)通信量。

圖1 多媒體應(yīng)用展示了不同的數(shù)據(jù)并行級別，這些級別對應(yīng)不同的同步要求和網(wǎng)絡(luò)通信量。

多核結(jié)構(gòu)分析

圖2顯示了ADSP-BF561的結(jié)構(gòu)，它包括獨立的指令和數(shù)據(jù)存儲器，分別屬于兩個處理器核專有，此外還包括共享的L2存儲器和外部存儲器。用戶可以利用可配置的仲裁方案將所有外圍設(shè)備和DMA資源連接到任一處理器核。該處理器有兩個DMA控制器，每個DMA控制器由兩組MDMA（存儲器DMA）通道組成。L2存儲器與每個處理器核之間通過獨立的總線連接，外部存儲器與兩個處理器核之間則由一條共享總線連接。

圖2 ADSP-BF561的結(jié)構(gòu)包括獨立的指令和數(shù)據(jù)存儲器，分別屬于兩個處理器核專有，此外還包括共享的L2存儲器和外部存儲器。

所有框架都利用DMA方式將數(shù)據(jù)流送入分級存儲器體系。另一種選擇是高速緩存，它不管理任何數(shù)據(jù)。如果清楚目標(biāo)應(yīng)用的數(shù)據(jù)存取模式，就可以利用DMA引擎對數(shù)據(jù)進行有效的管理。而使用高速緩存需要忍受不確定的訪問時間、高速緩存未命中的代價，以及需要較高的外部存儲器帶寬。利用DMA引擎，可以在處理器核請求數(shù)據(jù)之前就將數(shù)據(jù)送入L1存儲器，系統(tǒng)在后臺執(zhí)行傳輸操作，而不會因為數(shù)據(jù)項請求使處理器核暫停工作。

由于每個DMA控制器上都有兩組MDMA通道，因此系統(tǒng)可以將MDMA通道在處理器核上均勻分配，從而可以對稱地進行并行處理。

對于數(shù)據(jù)存取模式粒度較小的應(yīng)用，可以輕松地利用對L1和L2存儲器的快速訪問。也可以直接將獨立的數(shù)據(jù)塊從外設(shè)接口傳送到L1或L2存儲器，而不需要訪問慢速的外部存儲器，這樣可以節(jié)省寶貴的外存儲器帶寬和MDMA資源，并縮短數(shù)據(jù)傳輸時間。

對于數(shù)據(jù)存取模式粒度較大的應(yīng)用，存儲器可能成為瓶頸，因為較小的L1和L2存儲器級不足以容納大量的數(shù)據(jù)幀。然而，大量數(shù)據(jù)幀之間雖然存在數(shù)據(jù)關(guān)聯(lián)性，但這種關(guān)聯(lián)通常也僅存在于跨數(shù)據(jù)幀的較小數(shù)據(jù)塊上。如果能將所有關(guān)聯(lián)的數(shù)據(jù)幀存放在一個較大的存儲空間（外部存儲器）中，就可以將每一幀中的獨立數(shù)據(jù)塊相繼送入空閑的處理器核進行處理。如果這些獨立的數(shù)據(jù)塊比數(shù)據(jù)幀小得多，符合L1或L2存儲器的容量，就可以減少存儲器存取延遲，高效地處理數(shù)據(jù)。

雖然L2和外部存儲器都有獨立的總線連接，但兩個處理器核仍共享這些存儲器接口總線。因此，應(yīng)當(dāng)盡量避免兩個處理器核同時對同一級別的存儲器進行存取操作，以免因總線沖突而停止工作。為了減少總線沖突狀況，框架應(yīng)考慮代碼和數(shù)據(jù)對象的映射，讓一個處理器核主要訪問L2存儲器核，而另一處理器核則主要訪問外部存儲器。在這種情況下，雖然處理器核完成多數(shù)外部存儲器訪問會出現(xiàn)較大的訪問延遲，但總的訪問延遲仍然小于總線沖突的代價。

框架把所有輸入外設(shè)接口分配給一個處理器核，把所有輸出外設(shè)接口分配給另一處理器核。框架利用視頻輸入/輸出接口，例如PPI（并行外設(shè)接口）來輸入和輸出視頻幀。BF561架構(gòu)有兩個PPI接口。

如果中斷處理時間比數(shù)據(jù)流的處理時間要短，則可將所有的外設(shè)接口分配給一個處理器核以便于編程，較短的中斷處理時間不會影響兩個處理器核的負荷平衡。

軟件框架的建議模型

基于數(shù)據(jù)存取模式的粒度，可以定義四種軟件框架：行處理（空間域）、宏塊處理（空間域）、幀處理（時間域）以及GOP處理（時間域）。如果某個應(yīng)用程序的數(shù)據(jù)存取模式適于這四種模型中的任何一種，就可以采用相應(yīng)的框架。如果一個數(shù)據(jù)流有兩種或更多的處理算法，還可以將多種框架結(jié)合起來，實現(xiàn)非對稱的并行處理。

在行處理模式中，關(guān)聯(lián)性只存在于行級，也就是說，只存在于相鄰像素之間。每行數(shù)據(jù)形成一個數(shù)據(jù)塊，各處理器核都可以獨立處理。

圖3顯示了行處理框架的數(shù)據(jù)流模型。處理器核A處理視頻輸入，處理器核B處理視頻輸出。核A和B之間的數(shù)據(jù)由獨立的MDMA通道組進行管理。L1存儲器使用多個緩神器，可以避免處理器核與外設(shè)DMA訪問總線的沖突。兩個處理器核之間每行數(shù)據(jù)的同步通過計數(shù)信號量實現(xiàn)。在這種框架中，采用單處理器核方式將數(shù)據(jù)直接存入L1存儲器也具有優(yōu)勢，可以節(jié)省外部存儲器帶寬和DMA資源。這種框架的應(yīng)用實例包括色彩變換、直方圖均衡化、濾波和采樣。

圖3 行處理框架的數(shù)據(jù)流模型。處理器核A處理視頻輸入，處理器核B處理視頻輸出。

圖4顯示了宏塊數(shù)據(jù)訪問模式的數(shù)據(jù)流模型，可以在兩個處理器核之間交替?zhèn)魉秃陦K。L2存儲器具有多個片段緩沖器，獨立的MDMA通道將宏塊從每個處理器核的L2存儲器傳輸?shù)絃1存儲器。L1存儲器也有多個緩神器，用以避免DMA與處理器核訪問總線的沖突。與行處理框架類似，該框架中處理器核A控制輸入視頻接口，處理器核B控制輸出接口，計數(shù)信號量實現(xiàn)兩個處理器核之間的同步。這種框架的應(yīng)用實例包括邊緣檢測、JPEG/MPEG編碼/解碼算法和卷積編碼。

圖4 在雙核宏塊數(shù)據(jù)訪問模式中，L2存儲器具有多個片段緩沖器，獨立的MDMA通道將宏塊從每個處理器核的L2存儲器傳輸?shù)絃1存儲器。

在幀級處理模式中，外部存儲器存儲關(guān)聯(lián)幀。根據(jù)數(shù)據(jù)幀（宏塊或行）之間的關(guān)聯(lián)性粒度，系統(tǒng)將數(shù)據(jù)幀的子塊傳送到L1或L2存儲器。圖5顯示了幀級處理框架的數(shù)據(jù)流模型。在這種情況下，假定某個宏塊在多個幀之間存在關(guān)聯(lián)，則系統(tǒng)將數(shù)據(jù)幀的宏塊傳送至L1存儲器。與其它框架類似，該框架中處理器核A控制輸入視頻接口，處理器核B控制輸出接口，通過計數(shù)信號量實現(xiàn)兩個處理器核之間的同步。這種框架的應(yīng)用實例包括運動檢測算法。

圖5 在幀級處理流程中，外部的存儲器存儲獨立幀

在GOP級處理模式中，每個處理器核處理多個相繼的數(shù)據(jù)幀。幀級處理框架與GOP級處理框架之間的區(qū)別在于，前者是在幀內(nèi)完成空間劃分，后者則通過時間劃分（幀序列）實現(xiàn)并行處理。對于GOP數(shù)據(jù)訪問模式，關(guān)聯(lián)性存在于一組數(shù)據(jù)幀內(nèi)部，兩組幀之間數(shù)據(jù)不存在關(guān)聯(lián)性。因此，處理器核可以獨立處理每一組幀。圖6顯示了這種框架的數(shù)據(jù)流。與幀級處理框架類似，系統(tǒng)可以將幀數(shù)據(jù)塊傳送至處理器核的L1存儲器。為了有效利用外部存儲器的交錯存儲庫結(jié)構(gòu)，系統(tǒng)在處理器核間均衡地分配存儲庫。ADSP-BF561的每一個外部存儲庫都支持多達四個內(nèi)部SDRAM存儲庫。這種框架的應(yīng)用實例包括MPEG-2/4等編碼/解碼算法。

圖6 在GOP級數(shù)據(jù)訪問模式中，關(guān)聯(lián)性存在于一組數(shù)據(jù)幀內(nèi)部，兩組幀之間數(shù)據(jù)不存在關(guān)聯(lián)性。

在實際應(yīng)用中，系統(tǒng)可能使用多種算法處理數(shù)據(jù)流，而每種算法都可能用到不同的數(shù)據(jù)存取模式。這種情況下，可以針對特殊應(yīng)用將幾種框架結(jié)合起來使用。為利用多核結(jié)構(gòu)，可以采用流水線處理來實現(xiàn)并行操作，但這種并行操作是不對稱的，因為不同處理器核上可能執(zhí)行不同的計算。然而，系統(tǒng)可以分配一些其它的任務(wù)到處理器核的空閑指令上，在保持靈活性的同時達到處理器核的工作量平衡。圖7顯示了行級處理和宏塊處理相結(jié)合的框架的數(shù)據(jù)流模型。

圖7 行級處理和宏塊處理相結(jié)合的框架的數(shù)據(jù)流模型

在某些其他應(yīng)用中，多個數(shù)據(jù)塊之間也會存在數(shù)據(jù)關(guān)聯(lián)性，數(shù)據(jù)存取模式仍然是可預(yù)測的，但它擴展到了一個宏塊或一行的粒度之外。例如，運動窗口搜索就可能使用幾個相鄰的宏塊。數(shù)據(jù)存取模式仍然是可預(yù)測的，但系統(tǒng)在算法的多次迭代之間要訪問多個數(shù)據(jù)塊。這種情況下，可以對軟件框架進行修正，以實現(xiàn)有效的并行操作。例如，如果多行間存在關(guān)聯(lián)，可以通過調(diào)整行處理框架，將N個連續(xù)行的幀片段傳送到每個處理器核的L1存儲器。利用類似的方法，還可以對宏塊處理框架進行擴展，以便將多個宏塊從L2存儲器送入內(nèi)部L1存儲器。

軟件框架分析

為了對雙核處理的軟件框架進行評估，ADI公司利用數(shù)據(jù)流模型率先開發(fā)了一款單核應(yīng)用軟件，然后與雙核方案進行對比。Blackfin獨有的系統(tǒng)優(yōu)化技術(shù)也能有效地利用可用帶寬。為了簡化分析，ADI公司只比較了基本框架的處理速度，而沒有考慮幾種架構(gòu)的組合。

所謂周期，是指為了滿足NTSC（美國國家電視系統(tǒng)委員會）視頻輸入的實時約束條件而用于處理數(shù)據(jù)流的處理器核計算周期。對于一個以600MHz速度運行的處理器核，為了滿足實時約束條件，處理每一像素可用的總周期數(shù)為44周期/像素。任何對數(shù)據(jù)流的處理器核訪問都只需要一個單核周期，因為所有數(shù)據(jù)訪問都是對L1存儲器的訪問。所示的周期數(shù)不包括中斷延遲。

如表1所示，雙核框架將所有框架的處理速度有效提高了兩倍。表中還說明了每個處理器核的L1存儲器使用量，以及各種框架需要的共享存儲器空間。這些框架使用ADI公司的DD/SSL（器件驅(qū)動/系統(tǒng)服務(wù)庫）實現(xiàn)對外設(shè)和數(shù)據(jù)的管理。

表1：框架說明

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）

新聞中心

嵌入式多媒體應(yīng)用的多核編程框架

評論

相關(guān)推薦

技術(shù)專區(qū)