英特爾AI Gaudi 3 加速器：比 Nvidia H100慢但更便宜

作者：時間：2024-09-26 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

Intel 今天正式推出了適用于 AI 工作負(fù)載的 Gaudi 3 加速器。新處理器在 AI 和 HPC 方面的速度比 Nvidia 流行的 H100 和 H200 GPU 慢，因此英特爾將其 Gaudi 3 的成功押注在其較低的價格和較低的總擁有成本（TCO）上。
Intel 的 Gaudi 3 處理器使用兩個小芯片，其中包含 64 個張量處理器內(nèi)核（TPC、256x256 MAC 結(jié)構(gòu)，帶 FP32 累加器）、八個矩陣乘法引擎（MME，256 位寬矢量處理器）和 96MB 片上 SRAM 緩存，帶寬為 19.2 TB/s。此外，Gaudi 3 還集成了 24 200 GbE 網(wǎng)絡(luò)接口和 14 個媒體引擎，后者能夠處理 H.265、H.264、JPEG 和 VP9 以支持視覺處理。該處理器配備 128GB HBM2E 內(nèi)存，分為八個內(nèi)存堆棧，提供 3.67 TB/s 的巨大帶寬。

本文引用地址：http://m.butianyuan.cn/article/202409/463263.htm

與 Gaudi 3 相比，英特爾的 Gaudi 2 代表了巨大的改進(jìn)，Gaudi 2 具有 24 個 TPC、兩個 MME 和攜帶 96GB 的 HBM2E 內(nèi)存。但是，英特爾似乎簡化了 TPC 和 MME，因為 Gaudi 3 處理器僅支持 FP8 矩陣運算以及 BFloat16 矩陣和向量運算（即不再有 FP32、TF32 和 FP16）。
在性能方面，英特爾表示，Gaudi 3 可以在 600W TDP 左右的情況下提供高達(dá) 1856 BF16/FP8 矩陣 TFLOPS 以及高達(dá) 28.7 BF16 矢量 TFLOPS。與 Nvidia 的 H100 相比，至少在紙面上，Gaudi 3 的 BF16 矩陣性能略低（1,856 對 1,979 TFLOPS），F(xiàn)P8 矩陣性能低兩倍（1,856 對 3,958 TFLOPS），BF16 矢量性能明顯較低（28.7 對 1,979 TFLOPS）。
比原始規(guī)格更重要的是 Gaudi 3 的實際性能。它需要與 AMD 的 Instinct MI300 系列以及 Nvidia 的 H100 和 B100/B200 處理器競爭。而這還有待觀察，因為很大程度上取決于軟件和其他因素。目前，英特爾展示了一些幻燈片，聲稱與 Nvidia 的 H3 相比，Gaudi 100 可以提供顯著的性價比優(yōu)勢。
今年早些時候，英特爾表示，基于基板上八個 Gaudi 3 處理器的加速器套件將花費 125,000 美元，這意味著每個處理器的成本約為 15,625 美元。相比之下，Nvidia H100 卡目前的售價為 30,678 美元，因此英特爾確實計劃比其競爭對手擁有很大的價格優(yōu)勢。然而，由于基于 Blackwell 的 B100/B200 GPU 可能提供的巨大性能優(yōu)勢，這家藍(lán)色公司是否能夠保持其相對于競爭對手的優(yōu)勢還有待觀察。
“對 AI 的需求正在導(dǎo)致數(shù)據(jù)中心的大規(guī)模變革，該行業(yè)正在尋求硬件、軟件和開發(fā)人員工具的選擇，”英特爾執(zhí)行副總裁兼數(shù)據(jù)中心和人工智能事業(yè)部總經(jīng)理 Justin Hotard 說。隨著我們推出具有 P-core（性能核）和 Gaudi 3 AI 加速器的 Xeon 6，Intel 正在實現(xiàn)一個開放的生態(tài)系統(tǒng)，使我們的客戶能夠以更高的性能、效率和安全性實施其所有工作負(fù)載。
英特爾的 Gaudi 3 AI 加速器將從 IBM Cloud 和 Intel Tiber Developer Cloud 獲得。此外，基于英特爾至強(qiáng) 6 和高迪 3 的系統(tǒng)將于第四季度從戴爾、慧與和 Supermicro 全面上市，戴爾和 Supermicro 的系統(tǒng)將于 10 月發(fā)貨，Supermicro 的機(jī)器將于 12 月發(fā)貨。

新聞中心

英特爾AI Gaudi 3 加速器：比 Nvidia H100慢但更便宜

評論

相關(guān)推薦

技術(shù)專區(qū)