Nvidia 的 Blackwell AI GPU 過熱問題似乎被夸大了
據(jù)稱,有關(guān) Nvidia 的 GB200 NVL72 服務(wù)器機架過熱的報道被夸大了。Business Insider 報道稱,Blackwell 的冷卻設(shè)計錯誤已經(jīng)得到解決。據(jù)稱,Semianalysis 的首席分析師 Dylan Patel 告訴 Business Insider,已經(jīng)存在了幾個月的 Blackwell 的設(shè)計問題已基本得到解決,并表示過熱問題在很大程度上被夸大了。
Semianalysis 的五位監(jiān)控半導體行業(yè)的分析師報告說,觸發(fā)幾家供應商“返工”的冷卻系統(tǒng)問題是一個“微小”的變化。Blackwell 的冷卻故障在 Nvidia 的大型 72 芯片服務(wù)器機架上尤其存在問題,該機架的功耗高達 120kW。由于機架內(nèi)部的 GPU 過熱,機架設(shè)計中的設(shè)計缺陷迫使 Nvidia 多次重新評估其設(shè)計。這阻礙了 Nvidia 的 GB200 硬件的出貨量,由于所需的設(shè)計更改而導致額外的延遲。
Nvidia 的 B200 GPU 是適用于 AI 工作負載的最強大處理芯片。例如,GB200 超級芯片具有數(shù)千瓦的可配置 TDP,峰值額定功率高達 2,700 瓦。這些荒謬的高功率數(shù)字使得空氣冷卻幾乎不可能在標準機架安裝外形尺寸的限制下使用。
這個物理問題迫使 Nvidia 要求在其最新的 Blackwell GPU 上進行液體冷卻。它還要求數(shù)據(jù)中心改造其服務(wù)器場,以適應支持液冷服務(wù)器所需的基礎(chǔ)設(shè)施。
Nvidia 可以通過創(chuàng)建速度較慢的風冷 GPU 來解決這個問題——GPU 制造商仍然以 H200 NVL 等 GPU 的形式這樣做。然而,為了保持在 AI GPU 軍備競賽的最前沿,Nvidia 不惜一切代價優(yōu)先考慮性能,這就是為什么該公司選擇以犧牲風冷為代價制造需要數(shù)千瓦功率的 GPU。
好消息是,Nvidia 的 72 芯片 Blackwell 冷卻問題顯然很小,并且已經(jīng)基本得到解決。此外,只有 Nvidia 的旗艦 72 芯片服務(wù)器機架存在問題。
評論