745TFLOPS!Tenstorrent推768核RISC-V AI芯片:對標英偉達A100
8月28日消息,由傳奇芯片架構師Jim Keller領導的AI芯片新創(chuàng)公司Tenstorrent在近日的Hot Chips 2024活動上詳細介紹了其新一代基于RISC-V架構的BlackHole系列AI處理器,性能高達745 TOPS,盡管芯片集成的內存容量和帶寬低于英偉達A100,但是整體的AI性能和可擴展性更優(yōu)。
據介紹,這款Blackhole AI芯片共擁有768個RISC-V內核,包括16個Big RISC-V內核、752個Baby RISC-V內核,其中大量的Baby RISC-V內核被分別集成在140 個 Tensix 人工智能計算核心當中,241MB的片上SRAM內存和一系列高速連接,可以提供745TFLOPS 的 FP8 性能(FP16 時為 372 TFLOPS)。Blackhole還支持32GB 的 GDDR6 內存和基于以太網的互連,能夠在其 10 個 400Gbps 鏈路上實現(xiàn) 1TBps 的總帶寬。
Big RISC-V和Baby RISC-V
具體來說,與之前推出的基于PCIe的Greyskull 和 Wormhole加速芯片不同,Blackhole是一款獨立的AI計算機系統(tǒng)。
根據Tenstorrent ML 框架和編程模型高級研究員 Jasmina Vasiljevic 的說法,這主要歸功于其內部集成的16 個具有64 位、雙發(fā)射、順序執(zhí)行的Big RISC-V CPU內核,這些內核排列在四個集群中。至關重要的是,這些Big RISC-V CPU內核足夠強大,可以用作運行 Linux 的設備端主機。并且,還有與之配對的752 個“Baby RISC-V”內核,這些內核負責內存管理、片外通信和數(shù)據處理。
△Blackhole 加速器包含 16 個 Big RISC-V 和 752 個 Baby RISC-V 內核。
然而,Blackhole實際的AI計算則主要由 Tenstorrent自研的140 個 Tensix AI內核處理,每個內核由五個“Baby RISC-V”內核、一對路由器、一個計算綜合體和一些 L1 緩存組成。
這個計算綜合體則是由一個旨在加速矩陣工作負載的平鋪數(shù)學引擎和一個矢量數(shù)學引擎組成。前者將支持 Int8、TF32、BF/FP16、FP8 以及 2bit 到 8bit 的浮點數(shù)據類型,而矢量引擎則主要面向 FP32、INT16 和 INT32數(shù)據類型。
根據Tenstorrent 的 AI 軟件和架構高級研究員 Davor Capalija 的說法,這種配置意味著該芯片可以支持 AI 和 HPC 應用中的各種常見數(shù)據模式,包括矩陣乘法、卷積和分片數(shù)據布局。
△Blackhole 的 Baby RISC-V核心可以進行編程以支持各種數(shù)據移動模式
總的來說,Blackhole 的 Tensix 內核占了總共752 個Baby RISC-V 內核中的 700 個。如上圖,其余的Baby RISC-V 內核則負責內存管理(“D”代表 DRAM)、片外通信(“E”代表以太網)、系統(tǒng)管理(“A”)和 PCIe(“P”)。
Blackhole Galaxy系統(tǒng)
然而,就像英偉達的AI加速芯片通常被組成集群來使用一樣,Tenstorrent 的 Blackhole 也被設計為作為支持橫向擴展系統(tǒng)的一部分進行部署。Tenstorrent計劃將 32 個 Blackhole 加速器塞進一個 4x8 網格網絡中,并將其稱為 Blackhole Galaxy系統(tǒng)。
△Tenstorrent 的 Blackhole Galaxy 系統(tǒng)將 32 個 Blackhole 加速器組成了一個集群,可以實現(xiàn)近 24 petaFLOPS 的 FP8 性能。
總的來說,單個 Blackhole Galaxy 承諾可以帶來FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS算力,以及 1TB 的內存,能夠實現(xiàn) 16 TBps 的原始帶寬。
更重要的是,Tenstorrent 表示,該芯片的內核密集架構意味著這些系統(tǒng)中的每一個都可以用作計算或內存節(jié)點或11.2TBps 高帶寬的AI 交換機。
“你可以把它當作樂高積木來制作一個完整的訓練集群,”Davor Capalija 說。
Tenstorrent 認為,整個訓練集群可以只使用 Blackhole Galaxy 系統(tǒng)作為“樂高積木”來構建。
相比之下,英偉達最密集的 HGX/DGX A100 服務器系統(tǒng)基本都是8個GPU組成一個系統(tǒng),其FP16性能不到 2.5 petaFLOPS,相比之下Blackhole Galaxy 的速度提高了近 4.8 倍。事實上,在系統(tǒng)級別,Blackhole Galaxy 應該可以與英偉達的HGX/DGX H100 和 H200系統(tǒng)競爭,后者在FP8數(shù)據類型下,可以提供大約 15.8 petaFLOPS的算力。
Tenstorrent 使用板載以太網來進行連接,意味著它避免了與處理芯片到芯片和節(jié)點到節(jié)點網絡的多種互連技術相關的挑戰(zhàn),就像英偉達使用 NVLink 和 InfiniBand/以太網一樣。在這方面,Tenstorrent 的橫向擴展策略與 英特爾的Gaudi系列AI加速器平臺非常相似,后者也使用以太網作為其主要互連。
構建軟件生態(tài)系統(tǒng)
除了芯片之外,Tenstorrent 還披露了其加速器的 TT-Metalium 低級編程模型。
熟悉英偉達CUDA 平臺的人都知道,即使競品的硬件性能表現(xiàn)比英偉達更高,配套的軟件也仍可以決定其成敗。Capalija 解釋說,事實上,TT-Metalium 有點讓人想起 CUDA 或 OpenCL 等 GPU 編程模型,因為它是異構的,但不同之處在于它是從“為 AI 和橫向擴展”計算而構建的。
這些差異之一是內核本身是帶有 API 的普通 C++?!拔覀冋J為不需要特殊的內核語言,”他解釋說。
Tenstorrent 旨在支持許多標準模型運行時,如 TensorFlow、PyTorch、ONNX、Jax 和 vLLM 。結合包括 TT-NN、TT-MLIR 和 TT-Forge 在內的其他軟件庫,Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用運行時在其加速器上運行任何 AI 模型。
對這些高級編程模型的支持應該有助于抽象出跨這些加速器部署工作負載的復雜性,類似于我們在 AMD 和 Intel 加速器中看到的情況。
編輯:芯智訊-浪客劍 編譯自:theregister
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。