新聞中心

EEPW首頁 > 智能計算 > 新品快遞 > 英特爾AI Gaudi 3 加速器:比 Nvidia H100慢但更便宜

英特爾AI Gaudi 3 加速器:比 Nvidia H100慢但更便宜

作者: 時間:2024-09-26 來源: 收藏

Intel 今天正式推出了適用于 AI 工作負(fù)載的 Gaudi 3 。新處理器在 AI 和 HPC 方面的速度比 流行的 和 H200 GPU 慢,因此將其 Gaudi 3 的成功押注在其較低的價格和較低的總擁有成本 (TCO) 上。
Intel 的 Gaudi 3 處理器使用兩個小芯片,其中包含 64 個張量處理器內(nèi)核(TPC、256x256 MAC 結(jié)構(gòu),帶 FP32 累加器)、八個矩陣乘法引擎(MME,256 位寬矢量處理器)和 96MB 片上 SRAM 緩存,帶寬為 19.2 TB/s。此外,Gaudi 3 還集成了 24 200 GbE 網(wǎng)絡(luò)接口和 14 個媒體引擎,后者能夠處理 H.265、H.264、JPEG 和 VP9 以支持視覺處理。該處理器配備 128GB HBM2E 內(nèi)存,分為八個內(nèi)存堆棧,提供 3.67 TB/s 的巨大帶寬。
1727356491403023.png

本文引用地址:http://m.butianyuan.cn/article/202409/463263.htm

與 Gaudi 3 相比,的 Gaudi 2 代表了巨大的改進(jìn),Gaudi 2 具有 24 個 TPC、兩個 MME 和攜帶 96GB 的 HBM2E 內(nèi)存。但是,似乎簡化了 TPC 和 MME,因為 Gaudi 3 處理器僅支持 FP8 矩陣運算以及 BFloat16 矩陣和向量運算(即不再有 FP32、TF32 和 FP16)。
在性能方面,英特爾表示,Gaudi 3 可以在 600W TDP 左右的情況下提供高達(dá) 1856 BF16/FP8 矩陣 TFLOPS 以及高達(dá) 28.7 BF16 矢量 TFLOPS。與 相比,至少在紙面上,Gaudi 3 的 BF16 矩陣性能略低(1,856 對 1,979 TFLOPS),F(xiàn)P8 矩陣性能低兩倍(1,856 對 3,958 TFLOPS),BF16 矢量性能明顯較低(28.7 對 1,979 TFLOPS)。
比原始規(guī)格更重要的是 Gaudi 3 的實際性能。它需要與 AMD 的 Instinct MI300 系列以及 和 B100/B200 處理器競爭。而這還有待觀察,因為很大程度上取決于軟件和其他因素。目前,英特爾展示了一些幻燈片,聲稱與 Nvidia 的 H3 相比,Gaudi 100 可以提供顯著的性價比優(yōu)勢。
今年早些時候,英特爾表示,基于基板上八個 Gaudi 3 處理器的套件將花費 125,000 美元,這意味著每個處理器的成本約為 15,625 美元。相比之下,Nvidia H100 卡目前的售價為 30,678 美元,因此英特爾確實計劃比其競爭對手擁有很大的價格優(yōu)勢。然而,由于基于 Blackwell 的 B100/B200 GPU 可能提供的巨大性能優(yōu)勢,這家藍(lán)色公司是否能夠保持其相對于競爭對手的優(yōu)勢還有待觀察。
“對 AI 的需求正在導(dǎo)致數(shù)據(jù)中心的大規(guī)模變革,該行業(yè)正在尋求硬件、軟件和開發(fā)人員工具的選擇,”英特爾執(zhí)行副總裁兼數(shù)據(jù)中心和人工智能事業(yè)部總經(jīng)理 Justin Hotard 說。隨著我們推出具有 P-core(性能核)和 Gaudi 3 AI 的 Xeon 6,Intel 正在實現(xiàn)一個開放的生態(tài)系統(tǒng),使我們的客戶能夠以更高的性能、效率和安全性實施其所有工作負(fù)載。
英特爾的 Gaudi 3 AI 加速器將從 IBM Cloud 和 Intel Tiber Developer Cloud 獲得。此外,基于英特爾至強(qiáng) 6 和高迪 3 的系統(tǒng)將于第四季度從戴爾、慧與和 Supermicro 全面上市,戴爾和 Supermicro 的系統(tǒng)將于 10 月發(fā)貨,Supermicro 的機(jī)器將于 12 月發(fā)貨。



關(guān)鍵詞: 英特爾 AI Gaudi 3 加速器 Nvidia H100

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉