Arm:致力于成為邊緣AI發(fā)展與創(chuàng)新的堅實基石
邊緣智能是人工智能的一種部署形式,無論中央人工智能,還是邊緣智能,都需要算力支撐。而集中和分布式計算呈現(xiàn)出相互促進和交替發(fā)展的趨勢。作為移動處理器領域市場的引領者,Arm 的各類處理器內核在邊緣端的MCU、NPU 和MPU 等領域引領著技術發(fā)展的未來。
本文引用地址:http://m.butianyuan.cn/article/202405/458596.htmArm物聯(lián)網事業(yè)部業(yè)務拓展副總裁 馬健
談到邊緣智能,Arm 物聯(lián)網事業(yè)部業(yè)務拓展副總裁馬健表示,伴隨著Transformer與大模型的發(fā)展,AI模型的普適性、多模態(tài)支持,以及模型微調效率都有了質的突破,加上低功耗的AI 加速器和專用芯片被集成到終端和邊緣設備中,邊緣智能正變得越來越自主和強大。未來自動駕駛與機器人的大規(guī)模部署,更需要邊緣智能的強大支撐。隨著神經網絡技術的不斷進步和底層平臺的支持,視覺和音頻處理技術等經典用例將會不斷優(yōu)化,從而實現(xiàn)性能上的飛躍,為用戶提供更好的體驗。
除此之外,邊緣AI也將隨著大模型和生成式AI的崛起,用戶體驗的持續(xù)提升,數(shù)據(jù)量激增以及企業(yè)對數(shù)據(jù)價值的認可,成為行業(yè)變革的主要動力,例如特定工業(yè)場景中對種類繁雜的問題進行工業(yè)知識回答等。隨著大模型持續(xù)通過量化、剪枝和聚類技術來縮減優(yōu)化模型,使大模型適于在邊緣和超級終端設備部署,大小模型云邊端結合成為未來AI 產品的重要發(fā)展趨勢,也是AI應用賦能行業(yè)發(fā)展的重要方向。例如,我們已經看到生態(tài)系統(tǒng)中的開發(fā)者在樹莓派設備上評估運行包括LLaMA等在內的大模型。邊緣部署大模型和生成式AI用例指日可待,而Arm已經為此做好準備,來挑戰(zhàn)物聯(lián)網與大模型、多模態(tài)AI 結合的性能與效率極限。
與此同時,隨著ML 方法和模型愈加復雜,標準也在不斷提高,在不久的將來,諸如ChatGPT 或Gemini的多種衍生產品將在邊緣AI 設備上運行,通過實際應用帶來更多益處。
邊緣智能對算力和功耗要求都更為苛刻。在產品設計中實現(xiàn)低功耗設計是Arm 與生俱來的DNA,能幫助廣大的合作伙伴降低能耗和成本。馬健直言,Arm一貫秉承構建通用計算平臺和生態(tài)的策略,不僅平衡性能與能效,更將軟件的可擴展性和系統(tǒng)應用的開發(fā)成本作為一個關鍵的考量因素,進而助力生態(tài)系統(tǒng)合作伙伴實現(xiàn)最低的總擁有成本 (TCO)。
在邊緣側的物聯(lián)網領域,Arm擁有非常成熟的處理器IP,比如適用于MCU和一些低功耗終端嵌入式設備的Cortex-M系列處理器,Arm也通過優(yōu)化工具鏈以及增加對AI和ML的支持,不斷對其進行優(yōu)化。例如,Arm最新的Armv8.1-M架構就增加了Helium矢量擴展。
目前Cortex-M52、Cortex-M55和Cortex-M85均引入了Helium技術,由此助力嵌入式和IoT 開發(fā)者設計出更多支持ML和AI的低功耗芯片和解決方案。
芯片面積和成本對于嵌入式及物聯(lián)網視覺應用至關重要,為實現(xiàn)視覺用例高性能低功耗的持續(xù)性發(fā)展,Arm推出的Mali-C55是Arm目前面積最小、可配置性最高的圖像信號處理器。Mali-C55 的芯片面積僅為前幾代產品的近一半,并且可提供更強大的功能,大幅減少功耗并延長電池續(xù)航時間,與此同時,還降低了這些設備的成本。
在NPU方面,ArmEthos系列AI加速器可以滿足更高性能和更復雜的AI工作負載。近日,Arm推出了全新第三代面向邊緣AI的NPU產品Arm Ethos-U85 NPU,支持低功耗MCU系統(tǒng)中的AI加速;此外,為了幫助合作伙伴簡化系統(tǒng)開發(fā),Arm同時推出了全新的物聯(lián)網參考設計平臺Arm Corstone-320,集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP 和 Ethos-U85 NPU,為語音、音頻和視覺等廣泛的邊緣AI應用提供所需的性能。該參考設計平臺涵蓋了軟件、工具和支持,其中包括Arm虛擬硬件。該平臺的軟硬件結合特性將使開發(fā)者能夠在物理芯片就緒前便啟動軟件開發(fā)工作,從而加速推進產品進程,為日益復雜的邊緣AI設備縮短上市時間。
無論是IP、ISP、AI加速器亦或是物聯(lián)網參考設計平臺的推出,在面積和功率受限的邊緣側應用中如何實現(xiàn)最佳性能和功耗的平衡,是Arm始終關注的焦點,也是不斷突破技術,推動邊緣AI創(chuàng)新的初衷。
相較于在云端進行數(shù)據(jù)處理而言,邊緣智能在更接近數(shù)據(jù)采集源的端側或邊緣側物聯(lián)網網關完成數(shù)據(jù)處理的方式,可以加快決策速度、減少延遲、解決數(shù)據(jù)隱私問題、降低成本并提高能效,而且隨著AI和ML提升本地智能化水平,在端側完成決策的制定也得以實現(xiàn)。在設計邊緣AI芯片和系統(tǒng)時,需要在計算能力和能效之間找到合適的平衡。高性能的處理能力往往伴隨著更高的功耗,而邊緣設備往往對功耗和成本都有著嚴格限制。
Arm此前發(fā)布的多種物聯(lián)網參考設計包括Corstone-300、Corstone-310、Corstone-1000,及Arm智能視覺參考設計等,這些參考設計不僅包括了Arm或集成了合作伙伴IP的子系統(tǒng),還提供工具鏈,尤其是一些ML的工具鏈。每一個參考設計都依據(jù)一些現(xiàn)有的用例進行設計,在支持這些用例的時候Arm也提供了一些軟件參考設計和適用于這些用例的AI模型,都通過開源的模式提供給生態(tài)系統(tǒng)以及參考設計的用戶。最新發(fā)布的Corstone-320不僅提供芯片計算子系統(tǒng)IP組合,還附帶了軟件、AI模型庫和開發(fā)工具,以實現(xiàn)軟件的復用,同時也利用了Arm強大的生態(tài)系統(tǒng)。它還附帶了仿真Corstone-320完整系統(tǒng)的Arm虛擬硬件,以及單獨的CPU和NPU的固定虛擬平臺(FVP)模型,以簡化開發(fā)并加速產品設計,支持軟硬件并行協(xié)同開發(fā)。這種提供邊緣AI和智能物聯(lián)網計算子系統(tǒng)全套軟硬件和工具鏈的方法,使得合作伙伴能夠在一系列性能點上快速開發(fā),并聚焦于打造差異化價值。
此外,ArmEthosNPU在軟件工具鏈的一致性、易用性方面都有非常強大的優(yōu)勢。Arm生態(tài)系統(tǒng)合作伙伴們在使用最新的Ethos-U85時,可沿用之前Ethos的一系列工具鏈,例如Vela Compiler以及ML EvaluationKit都可從此前推出的Ethos-U55和Ethos-U65延展到Ethos-U85上,為開發(fā)者提供一致性的無縫開發(fā)體驗。
在這里,馬健著重強調Arm虛擬硬件對部署邊緣智能的助力作用。在云端進行AI開發(fā)時,相對來講,資源極其豐富,并且可以實現(xiàn)彈性擴展,所以開發(fā)者們不用擔心AI應用程序在云端跑不起來。但是如果把AI應用部署在邊緣側或端側,就會面臨硬件設備五花八門,外設和內存配置不統(tǒng)一等諸多問題,但開發(fā)者又不可能買來所有配置的芯片和開發(fā)板進行測試。在這種情況下,使用基于Arm虛擬硬件對計算子系統(tǒng)或芯片開發(fā)板的仿真平臺,可以迅速便捷地實現(xiàn)模型與目標硬件的適配。
Arm虛擬硬件已經在本土的百度智能云上落地,并且在國內的開發(fā)者社區(qū)中也正在進行基于Arm虛擬硬件的AI開發(fā)體驗創(chuàng)造營,歡迎志同道合的開發(fā)小伙伴一起加入。
在算力分配方面,不論是將AI的處理全權交給CPU,或是結合GPU或NPU等協(xié)同處理器一起提供支持,馬健很直接的表示,邊緣AI 的發(fā)展趨勢都與CPU相關。應邊緣AI和嵌入式AI的市場需求,Arm推出了業(yè)界首款AI微加速器Ethos-U NPU, 包括Ethos-U55、Ethos-U65,以及最新發(fā)布的Ethos-U85。AI技術發(fā)展迅速,新模型、新算子還在不斷涌現(xiàn),而NPU AI加速器無法完全保證支持所有AI應用需要的算子。在這時CPU 是一個完美的補充,使應用得以持續(xù)運行。而引入Helium 矢量擴展甚至是矩陣拓展的Arm Cortex-A應用處理器和Cortex-M嵌入式處理器更需要在CPU處理器上實現(xiàn)高效的執(zhí)行。
展望未來,AI正處于非常迅速的發(fā)展初期,尤其是邊緣AI。Arm將持續(xù)通過強大的產品組合,對新的Transformer模型提供原生的支持,對工具鏈保持一致、易用的特性,幫助整個物聯(lián)網生態(tài)更容易實現(xiàn)AI和ML的轉型。在幫助生態(tài)減少碎片化方面,Arm作為一個領先的基礎計算平臺,始終聚焦軟件生態(tài)標準以及硬件標準的投入。例如,SystemReady標準的建立就是實現(xiàn)在不同的、有差異化的Arm計算平臺和芯片平臺上,實現(xiàn)標準的軟件包,比如Linux Ubuntu標準軟件包和Yocto等其他軟件包,無需改變就能運行在不同的Arm計算平臺上。
在中國本土市場,Arm和百度飛槳 (PaddlePaddle)這一主流的AI框架也做了和Arm生態(tài)鏈、工具鏈的整合,所有這些努力都是使生態(tài)能夠更加統(tǒng)一,使技術能夠更加標準化,最終目的是使 AI 和軟件開發(fā)者能夠更便利地基于Arm架構、從云、邊、端打造統(tǒng)一的計算平臺,迅速地開發(fā)出所期望的新應用。
基于此,馬健坦言,Arm 將成為未來邊緣 AI 發(fā)展與創(chuàng)新的堅實基石。
(本文來源于《EEPW》2024.5)
評論