745TFLOPS！Tenstorrent推768核RISC-V AI芯片：對(duì)標(biāo)英偉達(dá)A100

發(fā)布人：芯智訊時(shí)間：2024-10-22 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

8月28日消息，由傳奇芯片架構(gòu)師Jim Keller領(lǐng)導(dǎo)的AI芯片新創(chuàng)公司Tenstorrent在近日的Hot Chips 2024活動(dòng)上詳細(xì)介紹了其新一代基于RISC-V架構(gòu)的BlackHole系列AI處理器，性能高達(dá)745 TOPS，盡管芯片集成的內(nèi)存容量和帶寬低于英偉達(dá)A100，但是整體的AI性能和可擴(kuò)展性更優(yōu)。

據(jù)介紹，這款Blackhole AI芯片共擁有768個(gè)RISC-V內(nèi)核，包括16個(gè)Big RISC-V內(nèi)核、752個(gè)Baby RISC-V內(nèi)核，其中大量的Baby RISC-V內(nèi)核被分別集成在140 個(gè) Tensix 人工智能計(jì)算核心當(dāng)中，241MB的片上SRAM內(nèi)存和一系列高速連接，可以提供745TFLOPS 的 FP8 性能（FP16 時(shí)為 372 TFLOPS）。Blackhole還支持32GB 的 GDDR6 內(nèi)存和基于以太網(wǎng)的互連，能夠在其 10 個(gè) 400Gbps 鏈路上實(shí)現(xiàn) 1TBps 的總帶寬。

Big RISC-V和Baby RISC-V

具體來說，與之前推出的基于PCIe的Greyskull 和 Wormhole加速芯片不同，Blackhole是一款獨(dú)立的AI計(jì)算機(jī)系統(tǒng)。

根據(jù)Tenstorrent ML 框架和編程模型高級(jí)研究員 Jasmina Vasiljevic 的說法，這主要?dú)w功于其內(nèi)部集成的16 個(gè)具有64 位、雙發(fā)射、順序執(zhí)行的Big RISC-V CPU內(nèi)核，這些內(nèi)核排列在四個(gè)集群中。至關(guān)重要的是，這些Big RISC-V CPU內(nèi)核足夠強(qiáng)大，可以用作運(yùn)行 Linux 的設(shè)備端主機(jī)。并且，還有與之配對(duì)的752 個(gè)“Baby RISC-V”內(nèi)核，這些內(nèi)核負(fù)責(zé)內(nèi)存管理、片外通信和數(shù)據(jù)處理。

△Blackhole 加速器包含 16 個(gè) Big RISC-V 和 752 個(gè) Baby RISC-V 內(nèi)核。

然而，Blackhole實(shí)際的AI計(jì)算則主要由 Tenstorrent自研的140 個(gè) Tensix AI內(nèi)核處理，每個(gè)內(nèi)核由五個(gè)“Baby RISC-V”內(nèi)核、一對(duì)路由器、一個(gè)計(jì)算綜合體和一些 L1 緩存組成。

這個(gè)計(jì)算綜合體則是由一個(gè)旨在加速矩陣工作負(fù)載的平鋪數(shù)學(xué)引擎和一個(gè)矢量數(shù)學(xué)引擎組成。前者將支持 Int8、TF32、BF/FP16、FP8 以及 2bit 到 8bit 的浮點(diǎn)數(shù)據(jù)類型，而矢量引擎則主要面向 FP32、INT16 和 INT32數(shù)據(jù)類型。

根據(jù)Tenstorrent 的 AI 軟件和架構(gòu)高級(jí)研究員 Davor Capalija 的說法，這種配置意味著該芯片可以支持 AI 和 HPC 應(yīng)用中的各種常見數(shù)據(jù)模式，包括矩陣乘法、卷積和分片數(shù)據(jù)布局。

△Blackhole 的 Baby RISC-V核心可以進(jìn)行編程以支持各種數(shù)據(jù)移動(dòng)模式

總的來說，Blackhole 的 Tensix 內(nèi)核占了總共752 個(gè)Baby RISC-V 內(nèi)核中的 700 個(gè)。如上圖，其余的Baby RISC-V 內(nèi)核則負(fù)責(zé)內(nèi)存管理（“D”代表 DRAM）、片外通信（“E”代表以太網(wǎng)）、系統(tǒng)管理（“A”）和 PCIe（“P”）。

Blackhole Galaxy系統(tǒng)

然而，就像英偉達(dá)的AI加速芯片通常被組成集群來使用一樣，Tenstorrent 的 Blackhole 也被設(shè)計(jì)為作為支持橫向擴(kuò)展系統(tǒng)的一部分進(jìn)行部署。Tenstorrent計(jì)劃將 32 個(gè) Blackhole 加速器塞進(jìn)一個(gè) 4x8 網(wǎng)格網(wǎng)絡(luò)中，并將其稱為 Blackhole Galaxy系統(tǒng)。

△Tenstorrent 的 Blackhole Galaxy 系統(tǒng)將 32 個(gè) Blackhole 加速器組成了一個(gè)集群，可以實(shí)現(xiàn)近 24 petaFLOPS 的 FP8 性能。

總的來說，單個(gè) Blackhole Galaxy 承諾可以帶來FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS算力，以及 1TB 的內(nèi)存，能夠?qū)崿F(xiàn) 16 TBps 的原始帶寬。

更重要的是，Tenstorrent 表示，該芯片的內(nèi)核密集架構(gòu)意味著這些系統(tǒng)中的每一個(gè)都可以用作計(jì)算或內(nèi)存節(jié)點(diǎn)或11.2TBps 高帶寬的AI 交換機(jī)。

“你可以把它當(dāng)作樂高積木來制作一個(gè)完整的訓(xùn)練集群，”Davor Capalija 說。

Tenstorrent 認(rèn)為，整個(gè)訓(xùn)練集群可以只使用 Blackhole Galaxy 系統(tǒng)作為“樂高積木”來構(gòu)建。

相比之下，英偉達(dá)最密集的 HGX/DGX A100 服務(wù)器系統(tǒng)基本都是8個(gè)GPU組成一個(gè)系統(tǒng)，其FP16性能不到 2.5 petaFLOPS，相比之下Blackhole Galaxy 的速度提高了近 4.8 倍。事實(shí)上，在系統(tǒng)級(jí)別，Blackhole Galaxy 應(yīng)該可以與英偉達(dá)的HGX/DGX H100 和 H200系統(tǒng)競(jìng)爭(zhēng)，后者在FP8數(shù)據(jù)類型下，可以提供大約 15.8 petaFLOPS的算力。

Tenstorrent 使用板載以太網(wǎng)來進(jìn)行連接，意味著它避免了與處理芯片到芯片和節(jié)點(diǎn)到節(jié)點(diǎn)網(wǎng)絡(luò)的多種互連技術(shù)相關(guān)的挑戰(zhàn)，就像英偉達(dá)使用 NVLink 和 InfiniBand/以太網(wǎng)一樣。在這方面，Tenstorrent 的橫向擴(kuò)展策略與英特爾的Gaudi系列AI加速器平臺(tái)非常相似，后者也使用以太網(wǎng)作為其主要互連。

構(gòu)建軟件生態(tài)系統(tǒng)

除了芯片之外，Tenstorrent 還披露了其加速器的 TT-Metalium 低級(jí)編程模型。

熟悉英偉達(dá)CUDA 平臺(tái)的人都知道，即使競(jìng)品的硬件性能表現(xiàn)比英偉達(dá)更高，配套的軟件也仍可以決定其成敗。Capalija 解釋說，事實(shí)上，TT-Metalium 有點(diǎn)讓人想起 CUDA 或 OpenCL 等 GPU 編程模型，因?yàn)樗钱悩?gòu)的，但不同之處在于它是從“為 AI 和橫向擴(kuò)展”計(jì)算而構(gòu)建的。

這些差異之一是內(nèi)核本身是帶有 API 的普通 C++?！拔覀冋J(rèn)為不需要特殊的內(nèi)核語言，”他解釋說。

Tenstorrent 旨在支持許多標(biāo)準(zhǔn)模型運(yùn)行時(shí)，如 TensorFlow、PyTorch、ONNX、Jax 和 vLLM 。結(jié)合包括 TT-NN、TT-MLIR 和 TT-Forge 在內(nèi)的其他軟件庫(kù)，Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用運(yùn)行時(shí)在其加速器上運(yùn)行任何 AI 模型。

對(duì)這些高級(jí)編程模型的支持應(yīng)該有助于抽象出跨這些加速器部署工作負(fù)載的復(fù)雜性，類似于我們?cè)?AMD 和 Intel 加速器中看到的情況。

編輯：芯智訊-浪客劍編譯自：theregister

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。