新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > Nvidia的Blackwell AI GPU過(guò)熱問(wèn)題似乎被過(guò)度夸大——半導(dǎo)體分析師透露,冷卻問(wèn)題已大多得到解決

Nvidia的Blackwell AI GPU過(guò)熱問(wèn)題似乎被過(guò)度夸大——半導(dǎo)體分析師透露,冷卻問(wèn)題已大多得到解決

作者:EEPW 時(shí)間:2024-11-21 來(lái)源:EEPW 收藏

Nvidia的GB200 NVL72服務(wù)器機(jī)架過(guò)熱問(wèn)題似乎被夸大了。根據(jù)《商業(yè)內(nèi)幕》的報(bào)道,Blackwell的冷卻設(shè)計(jì)缺陷已經(jīng)得到解決。Semianalysis的首席分析師Dylan Patel向《商業(yè)內(nèi)幕》表示,Blackwell的設(shè)計(jì)問(wèn)題已經(jīng)存在幾個(gè)月,但大多數(shù)問(wèn)題已經(jīng)得到解決,過(guò)熱問(wèn)題被夸大了。

本文引用地址:http://m.butianyuan.cn/article/202411/464808.htm

Semianalysis的五位半導(dǎo)體行業(yè)分析師表示,導(dǎo)致多個(gè)供應(yīng)商進(jìn)行“返工”的冷卻系統(tǒng)問(wèn)題是一個(gè)“小問(wèn)題”。Blackwell的冷卻問(wèn)題尤其在Nvidia的大型72芯片服務(wù)器機(jī)架中出現(xiàn),后者的功率需求可達(dá)到120kW。機(jī)架設(shè)計(jì)中的缺陷迫使Nvidia多次重新評(píng)估設(shè)計(jì),因?yàn)闄C(jī)架內(nèi)的GPU過(guò)熱。這導(dǎo)致Nvidia的GB200硬件出貨延遲,并因需要進(jìn)行設(shè)計(jì)更改而進(jìn)一步推遲。

Nvidia的B200 GPU是AI工作負(fù)載中最強(qiáng)大的處理芯片。例如,GB200超級(jí)芯片的可配置熱設(shè)計(jì)功率(TDP)高達(dá)幾千瓦,峰值功率可達(dá)2700瓦。這些極高的功率使得在標(biāo)準(zhǔn)機(jī)架形式中幾乎不可能使用空氣冷卻。

這一物理問(wèn)題迫使Nvidia在最新的Blackwell GPU上使用液體冷卻。同時(shí),它還要求數(shù)據(jù)中心重新改造服務(wù)器農(nóng)場(chǎng),以容納支持液冷服務(wù)器所需的基礎(chǔ)設(shè)施。

Nvidia可以通過(guò)制造較低功率的空氣冷卻GPU來(lái)解決這個(gè)問(wèn)題——該公司仍然制造這種類型的GPU,例如H200 NVL。然而,為了在AI GPU競(jìng)賽中保持領(lǐng)先,Nvidia優(yōu)先考慮性能,而不顧成本,這就是為什么該公司選擇制造需要數(shù)千瓦功率的GPU,而犧牲空氣冷卻的原因。

好消息是,Nvidia的72芯片Blackwell冷卻問(wèn)題似乎較輕微,且已大致得到解決。此外,只有Nvidia的旗艦72芯片服務(wù)器機(jī)架存在這個(gè)問(wèn)題。



關(guān)鍵詞:

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉