CEVA憑借NeuPro-M異構(gòu)安全處理器架構(gòu)
● 第三代 NeuPro AI/ML 架構(gòu)在 SoC 和小芯片層面提供 20至1,200 TOPS可擴(kuò)展性能,能夠?qū)?nèi)存帶寬消耗減低六倍
本文引用地址:http://m.butianyuan.cn/article/202201/430936.htm● 目標(biāo)是在汽車、工業(yè)、5G 網(wǎng)絡(luò)和手機(jī),監(jiān)控?cái)z像頭和邊緣計(jì)算領(lǐng)域中廣泛使用 AI/ML處理
CEVA,全球領(lǐng)先的無線連接和智能傳感技術(shù)及集成IP解決方案的授權(quán)許可廠商宣布推出用于人工智能和機(jī)器學(xué)習(xí) (AI/ML) 推理工作的最新一代處理器架構(gòu)NeuPro-M。NeuPro-M由多個(gè)專用協(xié)處理器和可配置硬件加速器組成,是瞄準(zhǔn)廣闊的邊緣 AI 和邊緣計(jì)算市場的異構(gòu)處理器架構(gòu),能夠同時(shí)無縫處理深度神經(jīng)網(wǎng)絡(luò)的各種工作,性能較上一代產(chǎn)品提升 5到15 倍。NeuPro-M支持系統(tǒng)級芯片(SoC)和異構(gòu)SoC (HSoC)可擴(kuò)展性,最高性能可達(dá) 1,200 TOPS,并提供可選的穩(wěn)健安全啟動和端至端數(shù)據(jù)隱私功能,開創(chuàng)了業(yè)界先河。
NeuPro–M系列處理器初始包含以下預(yù)配置內(nèi)核:
● NPM11 – 單個(gè) NeuPro-M 引擎,在 1.25GHz 下算力高達(dá) 20 TOPS
● NPM18 – 8 個(gè) NeuPro-M 引擎,在 1.25GHz 下算力高達(dá) 160 TOPS
在處理 ResNet50卷積神經(jīng)網(wǎng)絡(luò)時(shí),單個(gè) NPM11內(nèi)核可將性能提升至上一代產(chǎn)品的五倍,并將內(nèi)存帶寬消耗減少六倍,從而實(shí)現(xiàn)高達(dá) 24 TOPS/W的出色功效,完美體現(xiàn)其業(yè)界領(lǐng)先的性能水平。
以成功的上一代產(chǎn)品為基礎(chǔ),NeuPro-M能夠處理所有已知的神經(jīng)網(wǎng)絡(luò)架構(gòu),并集成了下一代網(wǎng)絡(luò),如transformer、3D convolution、self-attention和全部類型的循環(huán)神經(jīng)網(wǎng)絡(luò)的原生支持。經(jīng)優(yōu)化的NeuPro-M可處理 250 多種神經(jīng)網(wǎng)絡(luò)、450 多種AI 內(nèi)核和 50 多種算法。嵌入式矢量處理單元(VPU)確保對未來新的神經(jīng)網(wǎng)絡(luò)拓?fù)浜虯I處理工作提供基于軟件的驗(yàn)證和支持。而且,對于常見基準(zhǔn)測試,CDNN離線壓縮工具可以將NeuPro-M的FPS/Watt性能提高 5到10 倍,并且對精度僅有極小的影響。
CEVA副總裁兼視覺業(yè)務(wù)部門總經(jīng)理 Ran Snir評論道:“隨著生成的數(shù)據(jù)越來越多,以及傳感器相關(guān)軟件工作負(fù)載不斷遷移到神經(jīng)網(wǎng)絡(luò)以獲得更好的性能和效率,對邊緣 AI和邊緣計(jì)算的人工智能和機(jī)器學(xué)習(xí)處理需求的增速驚人。由于這些設(shè)備的功率預(yù)算保持不變,我們必需找到創(chuàng)新方法,在這些日益復(fù)雜的系統(tǒng)邊緣使用人工智能。我們利用在數(shù)百萬臺無人機(jī)、安全攝像頭、智能手機(jī)和汽車系統(tǒng)應(yīng)用等設(shè)備中部署 AI 處理器和加速器的豐富經(jīng)驗(yàn)來設(shè)計(jì)NeuPro-M架構(gòu)。NeuPro-M創(chuàng)新的分布式架構(gòu)和共享內(nèi)存系統(tǒng)控制器將帶寬消耗和延遲降至最低,并提供出色的整體利用率和電源效率。這允許我們的客戶在 SoC 或 小芯片 (chiplet) 中連接多個(gè)NeuPro-M兼容內(nèi)核來應(yīng)對最嚴(yán)苛的 AI 工作,從而將智能邊緣處理器設(shè)計(jì)提升至全新的水平?!?/p>
NeuPro-M異構(gòu)架構(gòu)由特定功能協(xié)處理器和負(fù)載平衡機(jī)制組成,相比上一代產(chǎn)品,這是實(shí)現(xiàn)巨大的性能和效率飛躍的重要因素。通過將控制功能分配給本地控制器并以分層方式實(shí)現(xiàn)本地內(nèi)存資源,NeuPro-M 實(shí)現(xiàn)了處理數(shù)據(jù)流的靈活性,從而實(shí)現(xiàn)超過90%的利用率,并且在任意給定時(shí)間內(nèi)防止不同協(xié)處理器和加速器出現(xiàn)數(shù)據(jù)不足現(xiàn)象。它使CDNN 框架根據(jù)特定網(wǎng)絡(luò)、所需帶寬、可用內(nèi)存和目標(biāo)性能來實(shí)施各種數(shù)據(jù)流方案,從而獲得最佳的負(fù)載平衡。
NeuPro-M 架構(gòu)亮點(diǎn)包括:
● 由 4K MACs(乘累加單元)組成的主網(wǎng)格陣列,混合精度為 2到16 位
● 用于權(quán)重和激活操作的Winograd transform引擎,可將卷積時(shí)間減少兩倍,并允許在精度降低到少于0.5% 的情況下進(jìn)行 8 位卷積處理
● 用于避免每層具有零值權(quán)重或激活操作的Sparsity引擎,最多可將性能提升四倍,同時(shí)減少耗用內(nèi)存帶寬和降低功耗
● 具有完全可編程的矢量處理單元,用于處理未獲支持的全新神經(jīng)網(wǎng)絡(luò)架構(gòu)(具有全部數(shù)據(jù)類型),從 32 位浮點(diǎn)到 2 位二進(jìn)制神經(jīng)網(wǎng)絡(luò) (BNN)
● 將可配置的權(quán)重?cái)?shù)據(jù)壓縮至兩位,同時(shí)讀取內(nèi)存時(shí)進(jìn)行實(shí)時(shí)解壓縮以減少耗用內(nèi)存帶寬
● 使用動態(tài)配置兩級內(nèi)存架構(gòu),最大限度地減少與外部 SDRAM 之間的數(shù)據(jù)傳輸功耗
使用NeuPro-M 架構(gòu)中創(chuàng)新功能,同時(shí)使用 Winograd 變換正交機(jī)制、Sparsity引擎和低分辨率 4x4 位激活,可將網(wǎng)絡(luò)(如 Resnet50 和 Yolo V3)的循環(huán)次數(shù)減少三倍以上。
由于神經(jīng)網(wǎng)絡(luò)權(quán)重和偏差以及數(shù)據(jù)集和網(wǎng)絡(luò)拓?fù)涑蔀樗姓叩闹匾R產(chǎn)權(quán),因而業(yè)界迫切需要保護(hù)這些信息免遭未經(jīng)授權(quán)的使用。NeuPro-M架構(gòu)可選用信任根、身份驗(yàn)證和加密加速器來支持安全接入。
針對汽車市場,CEVA提供NeuPro-M 內(nèi)核及其 CEVA 深度神經(jīng)網(wǎng)絡(luò) (CDNN)深度學(xué)習(xí)編譯器和軟件工具包,不僅符合汽車 ISO26262 ASIL-B 功能安全標(biāo)準(zhǔn),并滿足嚴(yán)格的質(zhì)量保證標(biāo)準(zhǔn) IATF16949 和 A-Spice要求。
結(jié)合CEVA 屢獲殊榮的神經(jīng)網(wǎng)絡(luò)編譯器 CDNN 及其功能強(qiáng)大的軟件開發(fā)環(huán)境,NeuPro-M架構(gòu)可為客戶提供一個(gè)完全可編程的硬件/軟件 AI開發(fā)環(huán)境,最大限度地提升 AI操作性能。CDNN 包含創(chuàng)新的軟件,能夠充分利用客戶的 NeuPro-M定制硬件來優(yōu)化功耗、性能和帶寬。CDNN 軟件還包含了用于減少耗用內(nèi)存和優(yōu)化負(fù)載平衡算法的內(nèi)存管理器,并廣泛支持各種網(wǎng)絡(luò)格式(包括 ONNX、Caffe、TensorFlow、TensorFlow Lite、Pytorch 等)。CDNN 與常見的開源框架 (包括 Glow、tvm、Halide 和 TensorFlow) 兼容,并包含模型優(yōu)化功能,例如“層融合(layer fusion)”和“訓(xùn)練后量化(post training quantization)”,同時(shí)使用精確的守恒方法。
目前CEVA向主要客戶提供NeuPro-M授權(quán)許可,并于今年第二季提供全面授權(quán)許可。CEVA 還為客戶提供異構(gòu) SoC 設(shè)計(jì)服務(wù),幫助其進(jìn)行系統(tǒng)集成并支持系統(tǒng)設(shè)計(jì)和小芯片開發(fā),從而為NeuPro-M客戶帶來裨益。
評論