新聞中心

EEPW首頁 > 消費電子 > 設(shè)計應(yīng)用 > 基于 KeyStone DSP 的多核視頻處理技術(shù)

基于 KeyStone DSP 的多核視頻處理技術(shù)

作者: 時間:2011-09-01 來源:網(wǎng)絡(luò) 收藏


2.4 多內(nèi)核間的協(xié)作與同步
當(dāng)多個內(nèi)核同一通道時,這些內(nèi)核之間必須相互通信,才能實現(xiàn)對輸入數(shù)據(jù)的同步、分離或共享,合并輸出數(shù)據(jù)或者在過程中交換數(shù)據(jù)。附錄 A - 解碼器性能依賴闡述了將功能劃分成多個內(nèi)核的幾種算法。

本文引用地址:http://m.butianyuan.cn/article/166063.htm

并行處理法和流水線處理法是兩種常用的分區(qū)算法。并行處理的范例是兩個或兩個以上的內(nèi)核可以處理同一輸入通道。必須有一個不受競態(tài)條件影響的機制在多個內(nèi)核之間共享信息??蓪⑿盘枠?biāo)用來保護(hù)全局區(qū)域免受競態(tài)條件的干擾。硬件需要支持阻塞性和非阻塞性信號標(biāo),以有效消除競態(tài)條件,即消除兩個內(nèi)核同時占用同一存儲器地址的可能性。

如果使用流水線算法,一個或一個以上的內(nèi)核可執(zhí)行運算的第一部分,然后再將中間結(jié)果傳遞第二組內(nèi)核繼續(xù)處理。由于處理負(fù)載取決于處理的內(nèi)容,因而這種傳遞機制可能面臨如下問題:

• 如果一個以上的內(nèi)核處理流水線的第一階段,那么第 N+1 幀可能先于第 N 幀被處理好。因此該傳遞機制必須能夠?qū)敵?輸入進(jìn)行排序。
• 即使流水線上的各內(nèi)核總體是均衡的(在處理負(fù)載方面),但個別幀未必如此。該傳遞機制必須在不同的流水線階段之間提供緩沖,以使內(nèi)核沒完成工作時不至于影響其他內(nèi)核停滯等待。
• 如果算法要求流水線的兩個階段間能穩(wěn)固實現(xiàn)緊密的鏈接(例如,為解決依賴性的問題),則該機制就必須能夠支持緊密鏈接與松散鏈接。

2.5 多芯片系統(tǒng)
實時處理超級視頻 (SVGA)、4K 及更高分辨率,或處理 5 級 H.264HP可能需要不止一個芯片一起協(xié)作。要構(gòu)建一個具有超高處理能力的雙芯片系統(tǒng),擁有可連接兩個芯片的超快速總線至關(guān)重要。

第三部分描述了可滿足上述所有要求及難題的 系列 架構(gòu)。


3. – TI 最新多內(nèi)核處理器
TI 架構(gòu)描述了廣泛應(yīng)用于視頻處理等要求高性能和高帶寬的系列多內(nèi)核設(shè)備。圖 2 對 KeyStone 進(jìn)行了概括性描述。本章針對在第二部分中闡述的視頻處理硬件要求對 KeyStone DSP 特性進(jìn)行了介紹。

圖 2 KeyStone DSP 方框圖

特性
新 C6x 內(nèi)核
- 頻率為 1GHz 的 8 個新型 C6x DSP 內(nèi)核
- 浮點處理能力
- 性能:256 GMAC、128 GFLOPS
存儲器
- 每個內(nèi)核配備32 KB L1PL1D
- 每個內(nèi)核配備 512 KB 局域 L2
- 4MB 共享 L2 存儲器
分組加速器
開關(guān)結(jié)構(gòu)和 EDMA3
外設(shè)
-帶以太網(wǎng)轉(zhuǎn)換器的
2x SGMII(數(shù)據(jù)/控制)– 4x SRIO,速率為 5 Gbps
– 2x PCIe,2x TSIP
– 16/32/64b DDR3
– EMIF-16、SPI、I2C、UART、GPIO
系統(tǒng)監(jiān)控器
- JTAG
-嵌入式跟蹤緩沖器-跟蹤端口
設(shè)備規(guī)格參數(shù)表
-功率:75 C 時 7.5 W ,105 C時為 9 W - 封裝尺寸:目標(biāo) 24x24
- 40 nm 引腳工藝
- 引腳數(shù)為 841(全陣列)
- 內(nèi)核電壓:運用 SmartReflex ,1GHz時 1V;800MHz 時 0.9V。
表 1 說明 KeyStone DSP 如何滿足視頻處理要求。

多內(nèi)核視頻要求
KeyStone 的功能特性能夠充分滿足要求
外部 I/O 接口 - 壓縮的視頻以太網(wǎng)接口
兩個 SGMII 1G端口可支持適用于分包壓縮視頻的高比特率以太網(wǎng)接口。正如第二部分所述,典型的 HD 視頻需要高達(dá) 10 Mbps 的速率,以使以太網(wǎng)接口能夠支持多個壓縮視頻通道。此外,KeyStone DSP 還擁有分組加速器硬件子系統(tǒng),可支持多個 IP 地址且能為每個內(nèi)核分擔(dān)分組處理負(fù)載。
外部 I/O 接口 - 原始數(shù)據(jù)接口
KeyStone DSP 擁有兩個標(biāo)準(zhǔn)的PCI Express通道。假定總線利用率為 60%,每個通道需要承載 5G 字節(jié),這足以傳輸 YUV 域中 1080i60 的 4 到 5 個通道、D1 的 24 個通道,或 QCIF 30 fps 的超過 300 個通道。此外,KeyStone DSP 還擁有四個 SRIO 通道,其中每個通道可傳輸 5G 比特,從而使總線利用率為 60% 時,其連接性能是之前的四倍。
外部 I/O 接口 - 語音處理
兩個電信串行接口端口 (TSIP) 可提供足夠的帶寬(以每通道 32.768/16.384/8.192 Mbps 的傳輸速率以及最高 1024 DS0 支持 2/4/8 個通道)來支持與視頻應(yīng)用相關(guān)的語音處理。
處理能力
首次發(fā)布的 KeyStone DSP 擁有 8 個時鐘頻率為 1.25G 的內(nèi)核,因而可提供 8G 個周期。8 個功能部件并行工作,每秒可執(zhí)行 64G 次運算(浮點、定點和數(shù)據(jù)移動)。此外,這個 KeyStone DSP 的新型 C66x 內(nèi)核還可支持TI C64x+ DSP 內(nèi)核的所有指令、TI C67x core 內(nèi)核的所有指令,以及包含幾個支持四則運算和兩則運算的 SIMD 指令的其他指令。適用于操作矢量處理類型的理論操作數(shù)量是 128G甚或 256G。這些 SIMD 指令可顯著提高采用矢量處理的視頻處理算法(如運動估算、轉(zhuǎn)換和量化算法等)的效率。
存儲器考慮事項 - 片上存儲器
每個內(nèi)核都擁有 32KB 的 L1 數(shù)據(jù)存儲器和 32KB 的 L1 程序存儲器。每個都可配置為純 RAM 或 L1 高速緩存,抑或二者的結(jié)合。
每個內(nèi)核均擁有 512KB 的 L2 專有存儲器,其中多達(dá) 256KB 可被配置為四通道的 L2 高速緩存。另外,KeyStone DSP 還擁有 4MB 的共享 L2 存儲器。
存儲器考慮事項 - 外部存儲器
支持高達(dá) 8GB 的 DDR3,模式為 1×16、1×32 和 1×64,高達(dá) 1600 MHz 的頻率可提供每秒高達(dá) 12.8GB 原始比特率。
存儲器考慮事項 - 多內(nèi)核共享存儲器控制器
2×56 比特直接連接至外部存儲器接口 (EMIF) DDR。
2×256 比特直接連接至各個 DSP。
適用于程序和數(shù)據(jù)的多重預(yù)取媒體流。
存儲器考慮事項 - DMA
10 個傳輸控制器和 144 個增強型直接存儲器接入 (EDMA) 通道使得從外部存儲器讀寫數(shù)據(jù)具有高效的資源利用率。
內(nèi)核之間的同步與全局協(xié)作
全硬件支持 64 個獨立阻塞和非阻塞信號標(biāo),支持直接和間接請求。
內(nèi)核之間的緊密與松散鏈接、數(shù)據(jù)和消息傳輸
多內(nèi)核導(dǎo)航器是一個硬件隊列管理器,可控制 8,192 個隊列且擁有 6 個可傳輸消息的渠化 DMA 通道。導(dǎo)航器可支持?jǐn)?shù)據(jù)和消息在緊密或松散鏈接的內(nèi)核之間進(jìn)行傳遞。此外,導(dǎo)航器還能有助于提高數(shù)據(jù)從多個源傳輸至多個目的地的高效排序。
連接兩個芯片的快速總線
四通道超鏈接總線可提供高達(dá)每通道 12.5Gbps、總計 50Gbps 的傳輸速率。

表 1 KeyStone DSP 和視頻處理要求(第一部分,共兩部分)



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉