自適應(yīng)計(jì)算平臺(tái)可提供高效 AI 加速

—— 賽靈思公司戰(zhàn)略市場(chǎng)營銷總監(jiān)Greg Martin

作者：Greg Martin 時(shí)間：2020-10-20 來源：賽靈思公司

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

AI 已經(jīng)開始改變我們生活的方方面面，帶動(dòng)了顯著的社會(huì)進(jìn)步。從自動(dòng)駕駛汽車到 AI 輔助醫(yī)療診斷，我們正處于一個(gè)真正的變革時(shí)代的開端。

本文引用地址：http://m.butianyuan.cn/article/202010/419405.htm

但是，有機(jī)遇就會(huì)有挑戰(zhàn)。AI 推斷作為采用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)算法開展預(yù)測(cè)的過程，無論是部署在云端、邊緣還是終端，都要求在嚴(yán)格的功耗預(yù)算下提供優(yōu)異的處理性能。普遍的看法認(rèn)為，僅憑 CPU 難以滿足這一要求，需要某種形式的計(jì)算加速才能更高效地處理 AI 推斷工作負(fù)載。

與此同時(shí)，AI 算法正在快速演進(jìn)發(fā)展，且速度快于傳統(tǒng)芯片開發(fā)周期的速度。如果使用 ASIC 等固定功能的芯片實(shí)現(xiàn) AI 網(wǎng)絡(luò)，則可能因先進(jìn) AI 模型的高速創(chuàng)新而迅速過時(shí)。

整體應(yīng)用加速

此外還有第三個(gè)挑戰(zhàn)，而這也是較少為人所知的一個(gè)，其出現(xiàn)的原因在于 AI 推斷無法單獨(dú)部署。真正的 AI 部署通常需要非 AI 處理，無論是在 AI 功能之前還是之后。例如，圖像可能需要完成解壓縮和縮放后才能符合 AI 模型的數(shù)據(jù)輸入要求。這些傳統(tǒng)的處理功能必須運(yùn)行在與 AI 功能相同的吞吐量下，同樣需要實(shí)現(xiàn)高性能與低功耗。與 AI 推斷實(shí)現(xiàn)方案類似，非 AI 的預(yù)處理和后處理功能開始需要某種形式的加速。

圖片.png

要構(gòu)建真實(shí)應(yīng)用，就需要高效地實(shí)現(xiàn)整體應(yīng)用。在數(shù)據(jù)中心應(yīng)用中，應(yīng)用可能擁有數(shù)千個(gè)乃至數(shù)百萬個(gè)并行實(shí)例。如果每個(gè)實(shí)例都能降低一定程度的功耗，總功耗將實(shí)現(xiàn)顯著下降。

只有當(dāng)整體應(yīng)用能夠通過加速滿足性能目標(biāo)，同時(shí)又能通過提高效率滿足功耗要求時(shí)，解決方案才具備可行性。那么，我們?cè)撊绾瓮ㄟ^可行方式實(shí)現(xiàn)整體應(yīng)用加速呢？

這里有三個(gè)關(guān)鍵因素：能夠構(gòu)建定制數(shù)據(jù)路徑；使用單器件實(shí)現(xiàn)方案；能夠充分發(fā)揮最先進(jìn)的 AI 模型的優(yōu)勢(shì)并隨之實(shí)現(xiàn)快速演進(jìn)發(fā)展和改善。下面分別具體介紹這三個(gè)環(huán)節(jié)。

能夠構(gòu)建定制數(shù)據(jù)路徑

大多數(shù)形式的 AI 推斷是在流數(shù)據(jù)上運(yùn)行的。數(shù)據(jù)通常處于運(yùn)動(dòng)狀態(tài)，如視頻的一部分、正在處理的醫(yī)療影像或是正在分析的網(wǎng)絡(luò)流量。即使將數(shù)據(jù)存儲(chǔ)在磁盤上，也要從磁盤上讀取數(shù)據(jù)，然后通過“AI 應(yīng)用”進(jìn)行傳輸。定制數(shù)據(jù)路徑為處理這類數(shù)據(jù)流提供了最高效的方法。定制數(shù)據(jù)路徑讓應(yīng)用擺脫了傳統(tǒng)的馮·諾依曼 CPU 架構(gòu)的限制。在這種架構(gòu)中，數(shù)據(jù)以小批量從存儲(chǔ)器讀出，經(jīng)過處理再寫回處理器。相反，定制數(shù)據(jù)路徑將數(shù)據(jù)從一個(gè)處理引擎?zhèn)鬟f給下一個(gè)處理引擎，不僅時(shí)延低，而且性能水平合理。過低的處理性能無法滿足這種應(yīng)用的要求。過高的處理性能則會(huì)降低效率，因存在閑置功能而浪費(fèi)功耗或物理空間。定制數(shù)據(jù)路徑提供了絕佳平衡，為應(yīng)用提供量身定制的實(shí)現(xiàn)方案。

單器件實(shí)現(xiàn)方案

一些解決方案非常適合 AI 推斷，但并不適合整體應(yīng)用處理。GPU 等固定架構(gòu)器件普遍不適合這類用途。GPU 往往能提供很高的 TOP（每秒太次運(yùn)算，一種常見的性能指標(biāo)），但是 AI 推斷性能通常需要與預(yù)處理性能和后處理性能匹配。如果非 AI 組件不能高效地在同一個(gè) GPU 上實(shí)現(xiàn)，就需要多器件解決方案。由于需要在器件間傳遞數(shù)據(jù)，會(huì)浪費(fèi)功耗，因此從功耗的角度來看極為低效和高成本。因此，一個(gè)能夠高效實(shí)現(xiàn)整體應(yīng)用的單器件在實(shí)際 AI 推斷部署中擁有顯著優(yōu)勢(shì)。

靈活適應(yīng)最新的 AI 模型并隨之演進(jìn)

AI 的創(chuàng)新速度令人驚嘆。如今被視為先進(jìn)的技術(shù)，很容易在半年后就宣告過時(shí)。使用較老模型的應(yīng)用有喪失競(jìng)爭(zhēng)力的風(fēng)險(xiǎn)，所以，能夠快速實(shí)現(xiàn)最先進(jìn)的模型就極為關(guān)鍵。

那么，什么樣的技術(shù)既允許 AI 模型動(dòng)態(tài)更新，又能提供構(gòu)建定制數(shù)據(jù)路徑的能力，從而在單個(gè)器件中加速 AI 和非 AI 處理呢？答案是——自適應(yīng)計(jì)算平臺(tái)。

自適應(yīng)計(jì)算平臺(tái)

自適應(yīng)計(jì)算平臺(tái)構(gòu)建在能在制造后動(dòng)態(tài)重配置的硬件上。這包括 FPGA 等經(jīng)過長(zhǎng)期檢驗(yàn)的技術(shù)，以及賽靈思 AI 引擎等最近的創(chuàng)新。賽靈思 Versal? 自適應(yīng)計(jì)算加速平臺(tái)等單器件平臺(tái)便于構(gòu)建定制數(shù)據(jù)路徑，為 AI 處理和非 AI 處理功能提速。此外，因?yàn)橛布梢钥焖僦嘏渲茫运鼈円材芸焖俑咝У貙?shí)現(xiàn)最新 AI 模型。自適應(yīng)計(jì)算器件結(jié)合了兩方面的優(yōu)勢(shì)。它們既具備定制 ASIC 的效率優(yōu)勢(shì)，又避免了漫長(zhǎng)高成本的設(shè)計(jì)周期。

圖片.png

賽靈思 Versal AI Core 系列 VC1902

最優(yōu)秀的 AI 應(yīng)用實(shí)現(xiàn)方案未必是速度最快的。它需要的是在效率最高的同時(shí)保持靈活性。它必須是量身定制的，能夠按需交付性能，不多不少。

總結(jié)

隨著 AI 推斷的應(yīng)用日益普及，問題不僅在于如何部署 AI 模型，也在于如何最高效地部署整體 AI 應(yīng)用。在應(yīng)用被復(fù)制數(shù)千次乃至數(shù)百萬次時(shí)，每個(gè)實(shí)例的少許節(jié)能也許能省下整個(gè)發(fā)電站所需的能源。如果將這種節(jié)省擴(kuò)展到正在開發(fā)的不計(jì)其數(shù)的新 AI 應(yīng)用中，效果將十分明顯。毫無疑問，整體 AI 應(yīng)用的高效加速應(yīng)成為技術(shù)行業(yè)所有從業(yè)者的目標(biāo)，而自適應(yīng)計(jì)算平臺(tái)提供了極富競(jìng)爭(zhēng)力的解決方案。

新聞中心

自適應(yīng)計(jì)算平臺(tái)可提供高效 AI 加速

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)