英偉達(dá)打臉AMD：H100在軟件加持下，AI性能比MI300X快47%！

發(fā)布人：芯智訊時(shí)間：2023-12-23 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

12月14日消息，AMD于本月初推出了其最強(qiáng)的AI芯片Instinct MI300X，其8-GPU服務(wù)器的AI性能比英偉達(dá)H100 8-GPU高出了60%。對(duì)此，英偉達(dá)于近日發(fā)布了一組最新的H100與MI300X的性能對(duì)比數(shù)據(jù)，展示了H100如何使用正確的軟件提供比MI300X更快的AI性能。

根據(jù)AMD此前公布的數(shù)據(jù)顯示，MI300X的FP8/FP16性能都達(dá)到了英偉達(dá)（NVIDIA）H100的1.3倍，運(yùn)行Llama 2 70B和FlashAttention 2 模型的速度比H100均快了20%。在8v8 服務(wù)器中，運(yùn)行Llama 2 70B模型，MI300X比H100快了40%；運(yùn)行Bloom 176B模型，MI300X比H100快了60%。

但是，需要指出的是，AMD在將MI300X 與英偉達(dá)H100 進(jìn)行比較時(shí)，AMD使用了最新的 ROCm 6.0 套件中的優(yōu)化庫(kù)（可支持最新的計(jì)算格式，例如 FP16、Bf16 和 FP8，包括 Sparsity等），才得到了這些數(shù)字。相比之下，對(duì)于英偉達(dá)H100則并未沒有使用英偉達(dá)的 TensorRT-LLM 等優(yōu)化軟件加持情況下進(jìn)行測(cè)試。

AMD對(duì)于英偉達(dá)H100測(cè)試的隱含聲明顯示，使用vLLM v.02.2.2推理軟件和英偉達(dá)DGX H100系統(tǒng)，Llama 2 70B查詢的輸入序列長(zhǎng)度為2048，輸出序列長(zhǎng)度為128。

而英偉達(dá)最新公布的對(duì)于DGX H100（帶有8個(gè)NVIDIA H100 Tensor Core GPU，帶有80 GB HBM3）測(cè)試，帶有公開的NVIDIA TensorRT LLM軟件，v0.5.0用于Batch-1，v0.6.1用于延遲閾值測(cè)量。工作量詳細(xì)信息與腳注與AMD之前的測(cè)試相同。

結(jié)果顯示，與 AMD展示的MI300X 8-GPU服務(wù)器性能相比，英偉達(dá)DGX H100 服務(wù)器在使用優(yōu)化的軟件加持后，速度提高了 2 倍多，相比 AMD MI300X 8-GPU 服務(wù)器快了47%。

DGX H100 可以在1.7 秒內(nèi)處理單個(gè)推理任務(wù)。為了優(yōu)化響應(yīng)時(shí)間和數(shù)據(jù)中心吞吐量，云服務(wù)為特定服務(wù)設(shè)置了固定的響應(yīng)時(shí)間。這使他們能夠?qū)⒍鄠€(gè)推理請(qǐng)求組合成更大的“Batch”，并增加服務(wù)器每秒的總體推理次數(shù)。MLPerf 等行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試也使用此固定響應(yīng)時(shí)間指標(biāo)來(lái)衡量性能。

響應(yīng)時(shí)間的微小權(quán)衡可能會(huì)導(dǎo)致服務(wù)器可以實(shí)時(shí)處理的推理請(qǐng)求數(shù)量產(chǎn)生不確定因素。使用固定的 2.5 秒響應(yīng)時(shí)間預(yù)算，英偉達(dá)DGX H100 服務(wù)器每秒可以處理超過(guò) 5 個(gè) Llama 2 70B 推理，而Batch-1每秒處理不到一個(gè)。

顯然，英偉達(dá)使用這些新的基準(zhǔn)測(cè)試是相對(duì)公平的，畢竟AMD也使用其優(yōu)化的軟件來(lái)評(píng)估其GPU的性能，所以為什么不在測(cè)試英偉達(dá)H100時(shí)也這樣做呢？

要知道英偉達(dá)的軟件堆棧圍繞CUDA生態(tài)系統(tǒng)，經(jīng)過(guò)多年的努力和開發(fā)，在人工智能市場(chǎng)擁有非常強(qiáng)大的地位，而AMD的ROCm 6.0是新的，尚未在現(xiàn)實(shí)場(chǎng)景中進(jìn)行測(cè)試。

根據(jù)AMD之前透露的信息顯示，其已經(jīng)與微軟、Meta等大公司達(dá)成了很大一部分交易，這些公司將其MI300X GPU視為英偉達(dá)H100解決方案的替代品。

AMD最新的Instinct MI300X預(yù)計(jì)將在2024年上半年大量出貨，但是，屆時(shí)英偉達(dá)更強(qiáng)的H200 GPU也將出貨，2024下半年英偉達(dá)還將推出新一代的Blackwell B100。另外，英特爾也將會(huì)推出其新一代的AI芯片Gaudi 3。接下來(lái)，人工智能領(lǐng)域的競(jìng)爭(zhēng)似乎會(huì)變得更加激烈。

編輯：芯智訊-浪客劍

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

英偉達(dá)打臉AMD：H100在軟件加持下，AI性能比MI300X快47%！

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

英偉達(dá)打臉AMD：H100在軟件加持下，AI性能比MI300X快47%！

相關(guān)推薦

技術(shù)專區(qū)

英偉達(dá)打臉AMD：H100在軟件加持下，AI性能比MI300X快47%！