五家大廠邊緣AI芯片解決方案
隨著圍繞生成式人工智能的炒作對數(shù)據(jù)中心強大芯片產(chǎn)生了新的需求,隨著組織計劃在需要邊緣人工智能處理能力的物聯(lián)網(wǎng)部署上花費更多資金,對更小、更高效芯片的需求仍然強勁。
本文引用地址:http://m.butianyuan.cn/article/202310/451219.htm研究公司 Gartner 表示,邊緣基礎設施和端點設備中基于人工智能的應用程序的使用增加是其估計今年人工智能芯片收入將增長 20.9% 至 534 億美元的重要推動因素。預計 2024 年銷售額將進一步增長 25.6%,達到 671 億美元。
對于大量聯(lián)網(wǎng)的物聯(lián)網(wǎng)設備,在邊緣處理人工智能工作負載比云端更好,除了可以大幅削減數(shù)據(jù)傳輸和處理成本并確保數(shù)據(jù)隱私和安全之外,還可以提供近乎實時的推理和響應時間,高級員工全球咨詢公司德勤最近在《華爾街日報》發(fā)表的一篇文章中寫道。「通過將云的可擴展和彈性計算能力分布在更靠近設備和用戶在物理世界中生成和使用數(shù)據(jù)的地方,5G、邊緣計算和計算機視覺等領先技術可以使企業(yè)跨運營站點實現(xiàn)應用程序現(xiàn)代化并有助于提高客戶體驗、運營效率和生產(chǎn)力?!?/span>
以下是來自半導體領域領先和新興供應商的五種用于邊緣 AI 應用的炫酷芯片解決方案:AMD、Axelera AI、英特爾、Nvidia 和 SiMa.ai。
AMD
AMD 正在通過 Versal AI Edge 片上系統(tǒng)抓住邊緣 AI 機遇,該系統(tǒng)旨在為自動駕駛汽車、醫(yī)療保健系統(tǒng)、工廠和飛機的實時系統(tǒng)提供與 GPU 相比具有競爭力的每瓦性能。
該芯片由三個主要部分組成:標量引擎,包括兩個雙核 Arm 處理器,用于運行 Linux 級應用程序和安全關鍵代碼;具有確定性和并行性的適應性引擎,用于處理來自傳感器的數(shù)據(jù);以及可以運行通用程序的智能引擎。邊緣工作負載,例如人工智能推理、圖像處理和運動控制。
開發(fā)人員可以使用 AMD 的 Vitis 統(tǒng)一軟件平臺來利用 Versal AI Edge 芯片,該平臺附帶開源庫、模型庫、用于在所有 AMD 芯片架構上開發(fā)應用程序的單一編程模型以及視頻分析軟件開發(fā)套件。
Axelera AI
Axelera AI 通過新穎的芯片架構實現(xiàn)邊緣人工智能應用,該架構利用了初創(chuàng)公司專有的內(nèi)存計算和 RISC-V 控制數(shù)據(jù)流技術。
通過使用內(nèi)存計算,Axelera 可以將 Metis AIPU 上 SRAM 內(nèi)存的每個存儲單元視為一個計算元素,從而減少在不同位置之間移動數(shù)據(jù)的需要,并從根本上增加每個計算周期的操作數(shù)量。AIPU 有兩種外形尺寸:具有單個 MIPU 的 M.2 加速器模塊和具有一個或四個 MIPU 的 PCIe 加速器卡。
AIPU 可以提供每核每秒超過 50 兆兆次運算、每瓦 15 TOP 以及相當于單精度浮點格式(也稱為 FP32)的推理模型精度。
開發(fā)人員可以使用初創(chuàng)公司 Voyager 軟件開發(fā)套件來利用 Axcelera 的 Metis AIPU,該套件附帶運行邊緣 AI 應用程序所需的多個組件,例如運行時、推理服務器、編譯器和優(yōu)化軟件。
英特爾
英特爾通過各種芯片支持邊緣人工智能應用,這要歸功于其 OpenVINO 軟件工具包,該工具包優(yōu)化了深度學習模型以在 CPU 和 GPU 上運行。
OpenVINO 支持的處理器包括 Intel Celeron 6305E CPU,它具有兩個內(nèi)核、1.8 GHz 的基本頻率和 15 瓦功率范圍內(nèi)的集成顯卡。
僅使用 Celeron 的集成顯卡,該芯片在 yolo_v8n 模型中就可以達到每秒 111.95 幀的速度,用于使用 8 位數(shù)字格式進行物體檢測和圖像分類。
開發(fā)人員可以利用 OpenVINO 將賽揚 6305E 和其他英特爾處理器用于邊緣 AI 應用,OpenVINO 可以自動為給定任務選擇最佳處理器,并在多個處理器之間分配推理工作負載。
英偉達
Nvidia 為邊緣 AI 用例提供了多種芯片解決方案,其中包括 Jetson Orin Nano 系列,該系列在信用卡大小的片上系統(tǒng)中每秒執(zhí)行高達 40 兆次運算 (TOPS)。
Jetson Orin Nano 的尺寸為 69.6 毫米寬、45 毫米高,采用 Ampere 架構 GPU,具有 1,024 個 CUDA 核心和 32 個 Tensor 核心,加上 6 核 Arm Cortex-A78E CPU 和 8GB LPDDR5 內(nèi)存。這僅需要 7 瓦至 15 瓦的功率范圍。
除了提供 40 TOPS 的 AI 推理性能外,該芯片還可以支持每 1 到 2 個 CPU 核心最多兩個以 30 幀/秒、4K 分辨率運行的視頻編碼流。在視頻解碼方面,該芯片可支持每秒 1 路 60 幀的 4K 視頻流、2 路 30 幀的 4K 視頻流、5 路 60 幀的 1080p 流以及 11 路 30 幀的 1080p 流。
開發(fā)人員可以使用 Nvidia 的 Jetson 軟件堆棧來利用 Jetson Orin Nano 芯片,其中包括用于 AI 推理的 TensorRT 和 cuDNN 等軟件庫、容器運行時、Linux 內(nèi)核以及用于構建 GPU 加速應用程序的 CUDA 工具包。
SiMa.a
SiMa.ai 專注于通過其以軟件為中心的專用 MLSoC 芯片為邊緣提供高效節(jié)能的機器學習芯片解決方案。
MLSoC 配備了用于機器學習加速器的專用處理器和高性能應用處理器以及用于圖像預處理和后處理的計算機視覺處理器。
這些元件使 MLSoC 能夠為機器學習提供高達 50 兆兆次操作 (TOPS) 和每瓦 10 TOPS,在 4K 分辨率下視頻編碼高達每秒 30 幀,在 4K 分辨率下高達每秒 60 幀。視頻解碼分辨率和計算機視覺每秒高達 600 次 16 位千兆位運算。
開發(fā)人員可以使用 SiMa.ai 的 Palette 低代碼集成開發(fā)環(huán)境來利用 MLSoC,該環(huán)境能夠編譯和評估任何機器學習模型以及在芯片上部署和管理應用程序。
評論