邊緣視覺(jué) AI 的理想平臺(tái)

作者：時(shí)間：2021-06-18 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

Kria K26 SOM

本文引用地址：http://m.butianyuan.cn/article/202106/426416.htm

Kria K26 SOM 專門為滿足當(dāng)前和未來(lái)市場(chǎng)對(duì)視覺(jué) AI 和視頻分析的需求而設(shè)計(jì)。尺寸僅有手掌大小，Kria SOM 搭載基于 Zynq^? UltraScale+? MPSoC 架構(gòu)的自適應(yīng) SoC 以及支持該 SoC 所需的所有基本組件（如存儲(chǔ)器和電源）。

量產(chǎn)部署的定制也簡(jiǎn)便易行。Kria SOM 搭配一款簡(jiǎn)單的專為最終用戶設(shè)計(jì)的載卡，該卡集成了用戶終端系統(tǒng)具體使用的連接組件和附加組件。

在評(píng)估和開(kāi)發(fā)方面，賽靈思提供了一款入門套件。套件包含與視覺(jué)型載卡搭配的 Kria K26 SOM。通過(guò)將預(yù)定義視覺(jué)硬件平臺(tái)、構(gòu)建在 Yocto 或 Ubuntu 上的高度可靠且綜合全面的軟件協(xié)議棧與預(yù)構(gòu)建視覺(jué)型加速應(yīng)用相結(jié)合，為開(kāi)發(fā)者提供了一個(gè)運(yùn)用賽靈思技術(shù)構(gòu)建系統(tǒng)的前所未有的方法。詳細(xì)介紹請(qǐng)參閱賽靈思白皮書：借助 Kria SOM 實(shí)現(xiàn)嵌入式設(shè)計(jì)簡(jiǎn)化[參考資料 6]和 Kria KV260 視覺(jué) AI 入門套件用戶指南[參考資料7]。本白皮書的結(jié)論以 KV260 視覺(jué) AI 入門套件為依據(jù)。參見(jiàn)圖 2。

圖2 KV260 視覺(jué) AI 入門套件

將 K26 SOM 用作邊緣設(shè)備

智能應(yīng)用除了要求亞微秒級(jí)的時(shí)延，還需要具備私密性、低功耗、安全性和低成本。以 Zynq MPSoC 架構(gòu)為基礎(chǔ)，Kria K26 SOM 提供了業(yè)界一流的單位功耗性能和更低的總體擁有成本，使之成為邊緣設(shè)備的理想選擇。Kria SOM 具備硬件可配置能力，也就是說(shuō)在 K26 上實(shí)現(xiàn)的解決方案是可擴(kuò)展，同時(shí)具備未來(lái)兼容能力的。

原始計(jì)算能力

就在邊緣設(shè)備上部署解決方案而言，硬件必須擁有充足的算力，才能處理先進(jìn) ML 算法工作負(fù)載。我們可以使用各種深度學(xué)習(xí)處理單元 (DPU) 配置對(duì) Kria K26 SOM 進(jìn)行配置，還能根據(jù)性能要求，將最適用的配置集成到設(shè)計(jì)內(nèi)。例如，運(yùn)行在 300MHz 的 DPU B3136 的峰值性能是 0.94TOPS。運(yùn)行在 300MHz 的 DPU B4096 的峰值性能是 1.2TOPS，幾乎是 Jetson Nano 公布的峰值性能 472GFLOPS[參考資料 8]的差不多 3 倍。

支持更低精度的數(shù)據(jù)類型

深度學(xué)習(xí)算法正在以極快的速度演進(jìn)發(fā)展，INT8、二進(jìn)制、三進(jìn)制等更低精度的數(shù)據(jù)類型和定制數(shù)據(jù)正在進(jìn)入使用。GPU 廠商難以滿足當(dāng)前的市場(chǎng)需求，因?yàn)樗麄儽仨毿薷?調(diào)整他們的架構(gòu)，才能適應(yīng)并支持定制的或者更低精度的數(shù)據(jù)類型。Kria K26 SOM 支持全系列數(shù)據(jù)類型精度，如 PF32、INT8、二進(jìn)制和其他定制數(shù)據(jù)類型。此外，根據(jù) Mark Horowitz（雅虎創(chuàng)始者、斯坦福大學(xué)工程學(xué)院教授、計(jì)算機(jī)科學(xué)教授）提供的數(shù)據(jù)點(diǎn)[參考資料 9]，以較低精度數(shù)據(jù)類型進(jìn)行的運(yùn)算功耗更低，比如在 INT8 上進(jìn)行的運(yùn)算的功耗比在 FP32 上進(jìn)行的運(yùn)算低一個(gè)數(shù)量級(jí)。參見(jiàn)圖3。

圖3 運(yùn)算的能耗成本

圖3 所列數(shù)值依據(jù)臺(tái)積電 45nm工藝并被證明可以準(zhǔn)確地縮放到更小的工藝節(jié)點(diǎn)。因此，Kria SOM 通過(guò)可重配置能力，允許適配任何數(shù)據(jù)類型，這是一個(gè)重大優(yōu)勢(shì)。

低時(shí)延與低功耗

一般情況下，對(duì)于任何實(shí)現(xiàn)在多核 CPU、GPU 或者任何 SoC 上的應(yīng)用設(shè)計(jì)而言，功耗可在總體上按如下估算大致進(jìn)行劃分[參考資料 9]：

● 核心 = 30%

● 內(nèi)部存儲(chǔ)器（L1、L2、L3）= 30%

● 外部存儲(chǔ)器（DDR）= 40%

這就是 GPU 功耗高的主要原因。為了改善軟件可編程能力，GPU 架構(gòu)需要頻繁訪問(wèn)外部 DDR。這種做法非常低效，有時(shí)候會(huì)對(duì)高帶寬設(shè)計(jì)要求構(gòu)成瓶頸。相反，Zynq MPSoC 架構(gòu)具有高能效。它的可重配置能力便于開(kāi)發(fā)者設(shè)計(jì)的應(yīng)用減少或不必訪問(wèn)外部存儲(chǔ)器。這不僅有助于減少應(yīng)用的總功耗，也通過(guò)降低端到端時(shí)延改善了響應(yīng)能力。圖4 所示的是一種典型的汽車應(yīng)用架構(gòu)，其中 GPU 與各個(gè)模塊的通信都通過(guò) DDR 實(shí)現(xiàn)，而 Zynq MPSoC 器件采用的是在設(shè)計(jì)上避免訪問(wèn)任何DDR 的高效率流水線。

圖4 典型 GPU 與 Zynq MPSoC 架構(gòu)

靈活性

與數(shù)據(jù)流固定的 GPU 不同，賽靈思硬件提供了靈活性用來(lái)專門地重新配置數(shù)據(jù)路徑，從而實(shí)現(xiàn)最大吞吐量并降低時(shí)延。此外，可編程的數(shù)據(jù)路徑也降低了對(duì)批處理的需求，而批處理是 GPU 的一個(gè)重大不足，需要在降低時(shí)延或提高吞吐量之間做出權(quán)衡取舍。Kria SOM 靈活的架構(gòu)已在稀疏網(wǎng)絡(luò)中展示出巨大潛力。稀疏網(wǎng)絡(luò)是當(dāng)前 ML 應(yīng)用中最熱門的趨勢(shì)之一。另一個(gè)重要特性（能進(jìn)一步提高 Kria SOM 靈活性的特性）是任意 I/O 連接。它讓 K26 SOM 在無(wú)需主機(jī) CPU 的情況下就可以連接到任何設(shè)備、網(wǎng)絡(luò)或存儲(chǔ)設(shè)備。

上一頁(yè) 1 2 3 4 5 下一頁(yè)

新聞中心

邊緣視覺(jué) AI 的理想平臺(tái)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)