MCU+NPU,Arm引領(lǐng)物聯(lián)網(wǎng)全面智能化時(shí)代
人工智能作為過(guò)去兩年以及未來(lái)幾年注定爆火熱點(diǎn)應(yīng)用,始終缺乏足夠的落地方案確保盈利能力,即使目前最火爆的生成式AI(AIGC)依然屬于燒錢(qián)階段。因此,支撐AI未來(lái)商業(yè)價(jià)值的,并不只是人們看到的大模型和AIGC,還需要更多終端節(jié)點(diǎn)對(duì)人工智能應(yīng)用的支持。
算力成本是人工智能應(yīng)用中不可回避的話(huà)題,畢竟從算力開(kāi)銷(xiāo)上來(lái)說(shuō),單純把所有計(jì)算都放在云端不僅帶來(lái)的是龐大的算力構(gòu)建費(fèi)用,更是因?yàn)榇罅繑?shù)據(jù)的反復(fù)傳輸而帶來(lái)能效方面的開(kāi)銷(xiāo)。因此,將算力資源合理的分配到云端和邊緣側(cè)可以更好地發(fā)揮不同節(jié)點(diǎn)的處理資源,將復(fù)雜AI推理和訓(xùn)練放在云端而將邊緣側(cè)的簡(jiǎn)單數(shù)據(jù)處理和反饋交給邊緣端算力處理,這種部署能夠有效提升AI應(yīng)用的價(jià)值。隨著邊緣側(cè)處理單元的性能提升,物聯(lián)網(wǎng)終端節(jié)點(diǎn)的計(jì)算能力已經(jīng)逐漸開(kāi)始能夠滿(mǎn)足一定程度的AI處理需求,同時(shí)處理器+AI專(zhuān)用處理器的異構(gòu)結(jié)構(gòu)在具有基礎(chǔ)AI需求的節(jié)點(diǎn)部署也沒(méi)有技術(shù)難度。因此相比于CPU+GPU的云端標(biāo)準(zhǔn)AI算力架構(gòu),在邊緣節(jié)點(diǎn)的MPU+NPU甚至MCU+NPU的架構(gòu)更符合廣泛人工智能的需求,并且是人工智能短期內(nèi)最可能實(shí)現(xiàn)盈利的關(guān)鍵點(diǎn)(甚至已經(jīng)在盈利)。
在物聯(lián)網(wǎng)的邊緣節(jié)點(diǎn)中,MCU是目前最普遍的處理單元,雖然從內(nèi)核架構(gòu)上MCU已經(jīng)逐步開(kāi)始增加NN和ML相關(guān)的處理能力,但從計(jì)算效率來(lái)說(shuō),傳統(tǒng)的MCU架構(gòu)并不適合高效地進(jìn)行AI相關(guān)的計(jì)算,遠(yuǎn)不如NPU這類(lèi)處理器來(lái)得經(jīng)濟(jì)高效。作為在通用MCU內(nèi)核方面已經(jīng)占據(jù)領(lǐng)導(dǎo)地位的Arm,除了為基于Armv8架構(gòu)的內(nèi)核增加了ML支持單元之外,也開(kāi)始面對(duì)物聯(lián)網(wǎng)節(jié)點(diǎn)對(duì)更強(qiáng)大AI處理能力的需求推出解決方案。Arm 全新的Corstone-320 物聯(lián)網(wǎng)參考設(shè)計(jì)平臺(tái)集成了 Arm 最高性能的 Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的 Ethos-U85 NPU,為語(yǔ)音、音頻和視覺(jué)等廣泛的邊緣 AI 應(yīng)用提供所需的性能,例如實(shí)時(shí)圖像分類(lèi)和目標(biāo)識(shí)別,或在智能音箱上啟用具有自然語(yǔ)言翻譯功能的語(yǔ)音助手。該參考設(shè)計(jì)平臺(tái)涵蓋了軟件、工具和支持,其中包括 Arm 虛擬硬件。該平臺(tái)的軟硬件結(jié)合特性將使開(kāi)發(fā)者能夠在物理芯片就緒前便啟動(dòng)軟件開(kāi)發(fā)工作,從而加速推進(jìn)產(chǎn)品進(jìn)程,為日益復(fù)雜的邊緣 AI 設(shè)備縮短上市時(shí)間。除了降低復(fù)雜性和加快產(chǎn)品上市進(jìn)程,Corstone-320 還帶來(lái)了以下優(yōu)勢(shì):
· 提高性能:通過(guò)提升計(jì)算吞吐量,為各種物聯(lián)網(wǎng)設(shè)備和用例提供合適的算力。
· 改善內(nèi)存帶寬:對(duì)數(shù)據(jù)寬度和內(nèi)存通道等內(nèi)存帶寬方面進(jìn)行改善,從而為像素流提供全系統(tǒng)范圍的互連帶寬。
· 提高能效:提高可持續(xù)性,以及延長(zhǎng)電池續(xù)航時(shí)間。
· 一系列電源模式:包括睡眠模式、待機(jī)模式和電源島。
· 降低設(shè)計(jì)成本,并縮短工程時(shí)間:通過(guò)“開(kāi)箱即用的” Corstone-320,設(shè)計(jì)人員和工程師能夠立即啟動(dòng) SoC 設(shè)計(jì)。
· 更多的安全功能:包括啟動(dòng)時(shí)和運(yùn)行時(shí)的安全機(jī)制,都集成至系統(tǒng)中。
· 可觀察性:Corstone-320 中內(nèi)置了所有組件的全面調(diào)試和跟蹤功能。
· 改進(jìn)的靈活性:Corstone-320 設(shè)計(jì)針對(duì)不同的細(xì)分市場(chǎng)、設(shè)備和用例中進(jìn)行定制。
· 一系列的軟件支持:包括大量開(kāi)源軟件等一系列的軟件支持,可降低總體成本和復(fù)雜性。
從應(yīng)用角度,邊緣側(cè)需要越來(lái)越多的語(yǔ)音、圖像甚至視頻級(jí)處理能力,而邊緣側(cè)對(duì)功耗、尺寸和計(jì)算效率的要求遠(yuǎn)比云端要更為嚴(yán)格。處理能力的提升需要以不增加或者盡可能少增加功耗為基礎(chǔ),這無(wú)疑需要對(duì)每個(gè)任務(wù)的處理效率都提出的更高的需求,因此,基于多核異構(gòu)的解決方案就是最合理的選擇。比如在硬件方面,Arm為物聯(lián)網(wǎng)參考設(shè)計(jì)平臺(tái) Corstone-320 集成了以下前沿的IP:Arm Cortex-M85,Arm Mali-C55 ISP,全新的Arm Ethos-U85 NPU和Arm CoreLink DMA-350。其中Arm 最強(qiáng)MCU內(nèi)核Cortex-M85 搭載 Arm Helium 技術(shù),是目前MCU視覺(jué)應(yīng)用的理想之選,能以高能效和高性能提供所需要的安全性和靈活性。Mali-C55絕佳地集成了高分辨率圖像處理能力(可支持 4800 萬(wàn)像素的圖像分辨率)、能效、可配置性及無(wú)與倫比的圖像質(zhì)量,適用于廣泛的物聯(lián)網(wǎng)視覺(jué)應(yīng)用。同時(shí),高度可配置的直接內(nèi)存訪(fǎng)問(wèn)控制器 DMA-350,可實(shí)現(xiàn)高效的數(shù)據(jù)移動(dòng),從而提高系統(tǒng)性能和能效,并支持 Arm TrustZone技術(shù)。
參考設(shè)計(jì)平臺(tái)是Arm在進(jìn)入Armv8架構(gòu)和Armv9架構(gòu)時(shí)代為了更好提升系統(tǒng)級(jí)方案推出的創(chuàng)新解決方案,前有針對(duì)移動(dòng)端的全面計(jì)算解決方案(TCS)和針對(duì)基礎(chǔ)設(shè)施的Neoverse 這兩個(gè)面向MPU為主的平臺(tái),如今Corstone-320 則作為面向物聯(lián)網(wǎng)應(yīng)用的全新參考設(shè)計(jì)平臺(tái),通過(guò)其預(yù)先集成、預(yù)先驗(yàn)證的參考設(shè)計(jì)模版,將幫助Arm的合作伙伴減少邊緣智能芯片開(kāi)發(fā)的成本和時(shí)間。為了加速邊緣側(cè)AI的部署,同時(shí)為更廣泛、更高性能的設(shè)備提供高能效的邊緣推理能力,Arm發(fā)布了迄今性能最高且能效最佳的 Ethos NPU—Ethos-U85。
2017年問(wèn)世的Transformer 架構(gòu)徹底改變了生成式AI,并成為許多新型神經(jīng)網(wǎng)絡(luò)的首選架構(gòu)。基于Transformer架構(gòu)的模型可利用注意力機(jī)制處理序列數(shù)據(jù),并在機(jī)器翻譯、自然語(yǔ)言理解、語(yǔ)音識(shí)別、分割和圖像字幕生成等多項(xiàng) AI 任務(wù)中實(shí)現(xiàn)優(yōu)異的效果。這些模型可被調(diào)整和壓縮,在不過(guò)多影響準(zhǔn)確度的情況下,能高效運(yùn)行于邊緣設(shè)備上,并在許多邊緣側(cè)和端側(cè)用例中發(fā)揮領(lǐng)先的優(yōu)勢(shì)。這種技術(shù)趨勢(shì)極大地催生了NPU在邊緣側(cè)應(yīng)用的技術(shù)需求。
相比于之前發(fā)布的U55和U65, Ethos-U85性能提升四倍,能效提高 20%,同時(shí),其 MAC 單元可從 128 個(gè)擴(kuò)展到 2048 個(gè)(在 1GHz 時(shí),算力實(shí)現(xiàn) 4 TOPs)。Ethos-U85 NPU 支持TensorFlow Lite和PyTorch等AI框架,更重要的是Ethos-U85 支持 Transformer 架構(gòu)和卷積神經(jīng)網(wǎng)絡(luò) (CNN) 以實(shí)現(xiàn) AI 推理。Transformer 架構(gòu)將推動(dòng)新的應(yīng)用,特別是面向視覺(jué)和生成式 AI 用例中,對(duì)于理解視頻、填充圖像的缺失部分或分析來(lái)自多個(gè)攝像頭的數(shù)據(jù)以進(jìn)行圖像分類(lèi)和目標(biāo)檢測(cè)等任務(wù)非常有效。
除了 Ethos-U55 和 Ethos-U65 目前支持的算子,通過(guò)支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等運(yùn)算,Ethos-U85 涵蓋了對(duì) Transformer 模型和 DeeplabV3 語(yǔ)義分割網(wǎng)絡(luò)的原生硬件支持。Ethos-U85 也支持元素級(jí)算子鏈化。通過(guò)鏈化將元素級(jí)運(yùn)算與先前的運(yùn)算相結(jié)合,使 SRAM 不必先寫(xiě)入再讀取中間張量。由此可憑借 NPU 和內(nèi)存之間數(shù)據(jù)傳輸量的減少,提高 NPU 的效率。相比于 Ethos-U65,鏈化是 Ethos-U85 在效率提升上的新功能之一,其余還包括快速的權(quán)重編碼器、優(yōu)化的 MAC 陣列能效,以及提升的元素效率。
除了包括最新Ethos-U85 NPU在內(nèi)的硬件支持之外,Corstone-320 同樣擁有一系列的軟件支持。Corstone-320軟件套件包括固件、所有 IP 的驅(qū)動(dòng)程序、中間件、實(shí)時(shí)操作系統(tǒng) (RTOS) 和云集成、ML 模型和參考應(yīng)用程序。這意味著軟件開(kāi)發(fā)者能夠輕松選擇其特定細(xì)分市場(chǎng)所需的組件,并使用所選開(kāi)發(fā)工具為該設(shè)備構(gòu)建物聯(lián)網(wǎng)堆棧。開(kāi)源應(yīng)用程序演示了關(guān)鍵詞識(shí)別、語(yǔ)音識(shí)別和目標(biāo)識(shí)別用例。與此同時(shí),Corstone-320 中包含的原型平臺(tái)能使軟件開(kāi)發(fā)與 SoC 設(shè)計(jì)并行啟動(dòng)。軟件中還包含了固定虛擬平臺(tái) (FVP),用于對(duì)構(gòu)成完整 FPGA 系統(tǒng)的外設(shè)進(jìn)行建模。通過(guò)使用 FVP,軟件開(kāi)發(fā)者無(wú)需硬件即可開(kāi)始開(kāi)發(fā)應(yīng)用,從而加快開(kāi)發(fā)速度。
Arm 通過(guò)軟硬件解決方案,生態(tài)系統(tǒng)支持等,不斷促進(jìn)邊緣 AI 應(yīng)用的進(jìn)展,以加速邊緣 AI 的創(chuàng)新步伐。
評(píng)論