新聞中心

EEPW首頁 > 智能計(jì)算 > 業(yè)界動態(tài) > 自適應(yīng)計(jì)算平臺可提供高效 AI 加速

自適應(yīng)計(jì)算平臺可提供高效 AI 加速

—— 賽靈思公司戰(zhàn)略市場營銷總監(jiān)Greg Martin
作者:Greg Martin 時(shí)間:2020-10-20 來源:賽靈思公司 收藏

AI 已經(jīng)開始改變我們生活的方方面面,帶動了顯著的社會進(jìn)步。從自動駕駛汽車到 AI 輔助醫(yī)療診斷,我們正處于一個真正的變革時(shí)代的開端。

本文引用地址:http://m.butianyuan.cn/article/202010/419405.htm

但是,有機(jī)遇就會有挑戰(zhàn)。AI 推斷作為采用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)算法開展預(yù)測的過程,無論是部署在云端、邊緣還是終端,都要求在嚴(yán)格的功耗預(yù)算下提供優(yōu)異的處理性能。普遍的看法認(rèn)為,僅憑 CPU 難以滿足這一要求,需要某種形式的計(jì)算加速才能更高效地處理 AI 推斷工作負(fù)載。

與此同時(shí),AI 算法正在快速演進(jìn)發(fā)展,且速度快于傳統(tǒng)芯片開發(fā)周期的速度。如果使用 ASIC 等固定功能的芯片實(shí)現(xiàn) AI 網(wǎng)絡(luò),則可能因先進(jìn) AI 模型的高速創(chuàng)新而迅速過時(shí)。

 

整體應(yīng)用加速

此外還有第三個挑戰(zhàn),而這也是較少為人所知的一個,其出現(xiàn)的原因在于 AI 推斷無法單獨(dú)部署。真正的 AI 部署通常需要非 AI 處理,無論是在 AI 功能之前還是之后。例如,圖像可能需要完成解壓縮和縮放后才能符合 AI 模型的數(shù)據(jù)輸入要求。這些傳統(tǒng)的處理功能必須運(yùn)行在與 AI 功能相同的吞吐量下,同樣需要實(shí)現(xiàn)高性能與低功耗。與 AI 推斷實(shí)現(xiàn)方案類似,非 AI 的預(yù)處理和后處理功能開始需要某種形式的加速。

 

圖片.png

 

要構(gòu)建真實(shí)應(yīng)用,就需要高效地實(shí)現(xiàn)整體應(yīng)用。在數(shù)據(jù)中心應(yīng)用中,應(yīng)用可能擁有數(shù)千個乃至數(shù)百萬個并行實(shí)例。如果每個實(shí)例都能降低一定程度的功耗,總功耗將實(shí)現(xiàn)顯著下降。

只有當(dāng)整體應(yīng)用能夠通過加速滿足性能目標(biāo),同時(shí)又能通過提高效率滿足功耗要求時(shí),解決方案才具備可行性。那么,我們該如何通過可行方式實(shí)現(xiàn)整體應(yīng)用加速呢?

這里有三個關(guān)鍵因素:能夠構(gòu)建定制數(shù)據(jù)路徑;使用單器件實(shí)現(xiàn)方案;能夠充分發(fā)揮最先進(jìn)的 AI 模型的優(yōu)勢并隨之實(shí)現(xiàn)快速演進(jìn)發(fā)展和改善。下面分別具體介紹這三個環(huán)節(jié)。

 

能夠構(gòu)建定制數(shù)據(jù)路徑

大多數(shù)形式的 AI 推斷是在流數(shù)據(jù)上運(yùn)行的。數(shù)據(jù)通常處于運(yùn)動狀態(tài),如視頻的一部分、正在處理的醫(yī)療影像或是正在分析的網(wǎng)絡(luò)流量。即使將數(shù)據(jù)存儲在磁盤上,也要從磁盤上讀取數(shù)據(jù),然后通過“AI 應(yīng)用”進(jìn)行傳輸。定制數(shù)據(jù)路徑為處理這類數(shù)據(jù)流提供了最高效的方法。定制數(shù)據(jù)路徑讓應(yīng)用擺脫了傳統(tǒng)的馮·諾依曼 CPU 架構(gòu)的限制。在這種架構(gòu)中,數(shù)據(jù)以小批量從存儲器讀出,經(jīng)過處理再寫回處理器。相反,定制數(shù)據(jù)路徑將數(shù)據(jù)從一個處理引擎?zhèn)鬟f給下一個處理引擎,不僅時(shí)延低,而且性能水平合理。過低的處理性能無法滿足這種應(yīng)用的要求。過高的處理性能則會降低效率,因存在閑置功能而浪費(fèi)功耗或物理空間。定制數(shù)據(jù)路徑提供了絕佳平衡,為應(yīng)用提供量身定制的實(shí)現(xiàn)方案。

 

單器件實(shí)現(xiàn)方案

一些解決方案非常適合 AI 推斷,但并不適合整體應(yīng)用處理。GPU 等固定架構(gòu)器件普遍不適合這類用途。GPU 往往能提供很高的 TOP(每秒太次運(yùn)算,一種常見的性能指標(biāo)),但是 AI 推斷性能通常需要與預(yù)處理性能和后處理性能匹配。如果非 AI 組件不能高效地在同一個 GPU 上實(shí)現(xiàn),就需要多器件解決方案。由于需要在器件間傳遞數(shù)據(jù),會浪費(fèi)功耗,因此從功耗的角度來看極為低效和高成本。因此,一個能夠高效實(shí)現(xiàn)整體應(yīng)用的單器件在實(shí)際 AI 推斷部署中擁有顯著優(yōu)勢。 

 

靈活適應(yīng)最新的 AI 模型并隨之演進(jìn)

AI 的創(chuàng)新速度令人驚嘆。如今被視為先進(jìn)的技術(shù),很容易在半年后就宣告過時(shí)。使用較老模型的應(yīng)用有喪失競爭力的風(fēng)險(xiǎn),所以,能夠快速實(shí)現(xiàn)最先進(jìn)的模型就極為關(guān)鍵。

那么,什么樣的技術(shù)既允許 AI 模型動態(tài)更新,又能提供構(gòu)建定制數(shù)據(jù)路徑的能力,從而在單個器件中加速 AI 和非 AI 處理呢?答案是——平臺。

 

平臺

平臺構(gòu)建在能在制造后動態(tài)重配置的硬件上。這包括 FPGA 等經(jīng)過長期檢驗(yàn)的技術(shù),以及賽靈思 AI 引擎等最近的創(chuàng)新。賽靈思 Versal? 自適應(yīng)計(jì)算加速平臺等單器件平臺便于構(gòu)建定制數(shù)據(jù)路徑,為 AI 處理和非 AI 處理功能提速。此外,因?yàn)橛布梢钥焖僦嘏渲茫运鼈円材芸焖俑咝У貙?shí)現(xiàn)最新 AI 模型。自適應(yīng)計(jì)算器件結(jié)合了兩方面的優(yōu)勢。它們既具備定制 ASIC 的效率優(yōu)勢,又避免了漫長高成本的設(shè)計(jì)周期。   

 

圖片.png

 

賽靈思 Versal AI Core 系列 VC1902

 

最優(yōu)秀的 AI 應(yīng)用實(shí)現(xiàn)方案未必是速度最快的。它需要的是在效率最高的同時(shí)保持靈活性。它必須是量身定制的,能夠按需交付性能,不多不少。 

 

總結(jié)

隨著 AI 推斷的應(yīng)用日益普及,問題不僅在于如何部署 AI 模型,也在于如何最高效地部署整體 AI 應(yīng)用。在應(yīng)用被復(fù)制數(shù)千次乃至數(shù)百萬次時(shí),每個實(shí)例的少許節(jié)能也許能省下整個發(fā)電站所需的能源。如果將這種節(jié)省擴(kuò)展到正在開發(fā)的不計(jì)其數(shù)的新 AI 應(yīng)用中,效果將十分明顯。毫無疑問,整體 AI 應(yīng)用的高效加速應(yīng)成為技術(shù)行業(yè)所有從業(yè)者的目標(biāo),而自適應(yīng)計(jì)算平臺提供了極富競爭力的解決方案。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉