高性能計算市場大漲，不起眼的元器件價值量提升8倍

作者：時間：2024-04-01 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

隨著高性能計算（HPC）系統(tǒng)，特別是 AI 服務(wù)器的市場規(guī)模不斷擴(kuò)大，其核心處理器，包括 CPU、GPU、NPU、ASIC、FPGA 等，以及內(nèi)存、網(wǎng)絡(luò)通信等芯片元器件的性能和功耗水平都在提升。隨著性能提升，功率管理水平的提升顯得更加重要，因為 HPC 系統(tǒng)，特別是 AI 服務(wù)器的耗電量越來越大，對整個系統(tǒng)，以及主要芯片的功率管理能力提出了更高要求。

本文引用地址：http://m.butianyuan.cn/article/202404/457060.htm

在 AI 服務(wù)器中，CPU 需要供電，GPU 板卡需要供電，內(nèi)存（DDR4、DDR5、HBM）需要供電，各種接口也需要供電。此時，電源管理系統(tǒng)就顯得非常重要了，除了 AC/DC 電源、DC/DC 轉(zhuǎn)換器等，電源管理系統(tǒng)當(dāng)中用到的無源器件（以電感和電容為主）也發(fā)揮著關(guān)鍵作用，隨著系統(tǒng)性能和功耗的提升，對這些無源器件的性能和數(shù)量提出了更高、更多的要求。

性能優(yōu)異的無源器件可以提供更加穩(wěn)定的電壓和電流，以確保 AI 服務(wù)器等 HPC 系統(tǒng)正常運行，保證快速的瞬態(tài)響應(yīng)和較低的紋波。低損耗的無源器件可以提高 AI 服務(wù)器的能效，提升關(guān)鍵零部件的效率，節(jié)能環(huán)保。要保證 AI 服務(wù)器的可靠性和穩(wěn)定性，對電感提出了更高的需求。

AI 系統(tǒng)的供電挑戰(zhàn)

與普通服務(wù)器相比，AI 服務(wù)器所需的配置和耗能更高。由于 AI 服務(wù)器的功率較普通服務(wù)器高 6~8 倍，對電源的要求也同步提升，目前，市面上的通用服務(wù)器一般需要 2 個 800W 電源，AI 服務(wù)器最多需要 4 個 1800W 電源。

隨著服務(wù)器性能的提升，配套的電感變壓器數(shù)量必定會隨之增加。以芯片電感為例，有機(jī)構(gòu)報告指出，由于 GPU 數(shù)量的增加，AI 服務(wù)器一共需要 24~48 個電感，以每個 1 美元計算，與普通服務(wù)器相比，AI 服務(wù)器中的芯片電感價值量多出 60%-220%。

另外，在 AI 服務(wù)器中，多相或耦合電感等多合一形式逐步替代單電感應(yīng)用；為了解決散熱、損耗問題，超薄應(yīng)用和電源模塊類供電將更加廣泛。

數(shù)據(jù)中心需要越來越多的 AI 加速卡，要配置大量處理器（xPU），多采用大規(guī)模并行計算方案，與普通 CPU 相比，xPU 擁有大量小內(nèi)核，有助于神經(jīng)網(wǎng)絡(luò)訓(xùn)練和 AI 推理。然而，xPU 進(jìn)行 AI 計算、傳輸數(shù)據(jù)時會產(chǎn)生較大功耗。也就是說，xPU 是非常耗電的芯片，其嚴(yán)格的功耗要求對 AI 加速卡提出了新的挑戰(zhàn)，這也會影響系統(tǒng)性能。

AI 系統(tǒng)工作時，尤其是處理深度學(xué)習(xí)和推理等工作負(fù)載時，需要極高的計算功率。在系統(tǒng)層面，AI 加速器對提供近乎實時的結(jié)果發(fā)揮著關(guān)鍵作用。所有 xPU 都有多個高端內(nèi)核，這些內(nèi)核由數(shù)十億個晶體管構(gòu)成，消耗數(shù)百安培電流。這些 xPU 的內(nèi)核電壓已降至 1V 的水平。

AI 加速卡所需的峰值電流密度對任何主板來說都是非常沉重的負(fù)擔(dān)，難以處理。工作負(fù)載的高度動態(tài)特性和極高的電流瞬變會導(dǎo)致非常高的 di/dt 和持續(xù)數(shù)微秒的尖峰電壓瞬變，這些瞬變非常具有破壞性，可能會對 xPU 造成損害。AI 的平均工作負(fù)載會持續(xù)很長時間，解耦電容將無法始終提供滿足即時需求的能量，此時，需要消除 AI 加速器的瞬變，避免對整個配電網(wǎng)絡(luò)造成損害。

目前，xPU 穩(wěn)壓器（VR）的要求與標(biāo)準(zhǔn) PoL 穩(wěn)壓器有很大不同。某些應(yīng)用要求在小于 1V 的電壓下為 xPU 提供超過 1000A 的電流。此時，必須控制好功耗，不然，系統(tǒng)很難穩(wěn)定工作。

如何降低 AI 系統(tǒng)能耗，成為了產(chǎn)業(yè)難題。目前，降低 AI 系統(tǒng)能耗的思路主要有兩種：一、降低 AI 系統(tǒng)核心處理器的能耗；二、優(yōu)化電源管理系統(tǒng)，提高 AI 核心處理器電源管理的效率。然而，隨著 AI 等新興應(yīng)用的普及，傳統(tǒng)計算系統(tǒng)用到的 AC/DC、DC/DC、多相電源控制器和 DrMOS 功率級組合等方案，效率已經(jīng)達(dá)到天花板，需要更先進(jìn)的電源管理方案。

服務(wù)器電源系統(tǒng)在演進(jìn)

處理器的微型化導(dǎo)致了電源電壓降低，但消耗的電流不降反升，使得功耗持續(xù)增加。低電壓、大電流的發(fā)展趨勢帶來的問題之一是如何提升對負(fù)載波動的快速響應(yīng)能力。

隨著電壓降低，電壓的容許公差變得非常小。比如，為了避免處理器的誤操作，若以±3％的精度提供磁芯電壓，則電壓為 1V 時的公差必須控制在±30mV。對于服務(wù)器專用電源，即使在超過 1000A 的大電流負(fù)載驟變的驅(qū)動條件下，輸出電壓也必須盡可能保持穩(wěn)定。

在實際應(yīng)用中，低電壓、大電流發(fā)展趨勢一直在持續(xù)，通常采用高頻化和多相位化來應(yīng)對。以更高的頻率進(jìn)行開關(guān)操作允許采用體積更小的組件（如電容器和電感器）來管理和平滑輸入和輸出電路中的能量流動。對于基于普通硅功率半導(dǎo)體器件的轉(zhuǎn)換器，其典型開關(guān)頻率為 30～80kHz，在這樣的頻率下，可以采用被廣泛認(rèn)可的電容器，具有成本效益。然而，在這個頻率范圍之上，寄生效應(yīng)就會導(dǎo)致過多的電阻損耗和自生熱。

雖然提高頻率對改善負(fù)載響應(yīng)有很大作用，但也會極大地增加開關(guān)元件的損耗。此外，通過使用大容量外部電容器，可以在一定程度上抑制大電流應(yīng)用的電壓波動，但這會增加安裝面積和電容器成本。

考慮到上述諸多情況，TLVR(Trans-Inductor Voltage Regulators) 是目前應(yīng)對低電壓、大電流應(yīng)用中快速負(fù)載波動的主流電路配置方案。該方案是讓每個相位開關(guān)連接到一個帶額外繞組的電感器上，然后將每個相位的繞組和補(bǔ)償電感器串聯(lián)成回路，以便同時為每個相位提供電流。TLVR 能使處理器獲得較高的瞬態(tài)響應(yīng)性能，滿足負(fù)載要求，而且電源電壓幾乎不會降低，同時降低電源損耗，可保持較小的輸出電容值，從而減少安裝面積和系統(tǒng)成本。

電容也很重要

在高性能計算的電源管理系統(tǒng)中，除了電感，電容和熱敏電阻的更新?lián)Q代也在進(jìn)行中。

目前，AI 服務(wù)器在整體高性能計算市場的占比仍較低，因此，還沒有市調(diào)機(jī)構(gòu)統(tǒng)計 AI 服務(wù)器對 MLCC（片式多層陶瓷電容器）的消耗量，但是，就發(fā)展形勢來看，無源器件分銷商普遍看好電容，特別是 MLCC 在 AI 服務(wù)器中的應(yīng)用前景，2024 下半年將出現(xiàn)明顯增長態(tài)勢，MLCC 規(guī)格、單價都將大幅提升。

在技術(shù)層面，計算系統(tǒng)處理器都需要電容配合工作，傳統(tǒng)上，這些電容都采用鉭或聚合物電容器。以減少對去耦電容的依賴，可以將一小部分 II 類 MLCC（例如 X5R、X6S 或 X7R 器件）直接放置在處理器附近。目前，有些廠商正在努力將鋁聚合物去耦電容器嵌入到封裝內(nèi)的芯片載體中，與片上硅電容器一起工作，這樣可以克服高性能處理器所面臨的去耦挑戰(zhàn)，并支持更高的轉(zhuǎn)換器頻率，未來可能高達(dá) 10MHz。

無源器件廠商的機(jī)遇

前些天，在英偉達(dá)舉辦的 GTC 大會上，服務(wù)器代工大廠臺達(dá)電表示，在 AI 服務(wù)器電源轉(zhuǎn)換系統(tǒng)中，如何在電流快速飆升下，讓電壓保持在 GPU 工作的 0.8V，電感扮演著關(guān)鍵角色，它要能在高電流、低電壓狀態(tài)下保持穩(wěn)定工作才行。

搭載英偉達(dá)新款 Blackwell 架構(gòu)加速芯片的 AI 服務(wù)器功耗高達(dá) 1000W~1200W，電感用量較一般服務(wù)器增加 2~3 倍，同時，由于功耗明顯增加，需要的電感規(guī)格更高，使得平均單價（ASP）與一般服務(wù)器相比，高出 5~8 倍。. 另外，由于 DDR5 滲透率逐步提升，必須搭配更多、更好的電感。

AI 服務(wù)器的功耗顯著提升，為了改善瞬時響應(yīng)性能，需要新增 TLVR 電感，每臺 AI 服務(wù)器需新增 5~10 個，而 TLVR 電感的單價是一般電感的 3~5 倍。

不止最新的 AI 服務(wù)器，越來越多的高性能計算系統(tǒng)都需要更多、更好的電感。一般服務(wù)器僅升級 CPU，電感用量就會顯著增加，以 Eagle Stream 升級到 Birch Stream 為例，因為 CPU 功耗提升約 50%，電感用量要增加 50%~70%。

可見，對于各大無源器件廠商，特別是高品質(zhì)電感企業(yè)來說，新商機(jī)就在眼前。目前，業(yè)界排名靠前的相關(guān)廠商包括 TDK、國巨、順絡(luò)電子、臺慶科、ITG 和 EATON 等。

如前文所述，在高性能計算的電源管理系統(tǒng)當(dāng)中，芯片電感的用量正在增加，這不僅對國際大廠是好消息，對中國本土相關(guān)企業(yè)來說，也將迎來提升產(chǎn)品品質(zhì)和市占率的機(jī)遇期。中國芯片電感業(yè)起步較晚，在發(fā)展初期，技術(shù)研發(fā)和生產(chǎn)管理水平都落后于國際大廠，特別是 TDK、村田、奇力新和太陽誘電這幾家知名企業(yè)。最近幾年，中國本土的順絡(luò)電子一直在發(fā)力，排進(jìn)了全球前五位，此外，值得關(guān)注的本土芯片電感企業(yè)還包括鉑科新材、麥捷科技、屹通新材、天通股份、東睦股份、橫店東磁等。

結(jié)語

在高性能計算系統(tǒng)，特別是 AI 服務(wù)器的市場規(guī)模不斷擴(kuò)大的當(dāng)下，對關(guān)鍵芯片元器件的要求越來越高，不止 GPU 和 CPU 這些高性能處理器，對電源管理系統(tǒng)，及其相關(guān)芯片和元器件的用量和品質(zhì)要求也有顯著提升。

作為電源管理系統(tǒng)當(dāng)中不太顯眼，但又不能缺少，且用量較大的電感和電容來說，越來越高的計算系統(tǒng)功耗，正是它們充分發(fā)揮效能和作用的舞臺，相關(guān)新技術(shù)和新材料也有望不斷涌現(xiàn)出來。

對于無源器件廠商來說，具有高品質(zhì)產(chǎn)品的國家大廠依然會獲得更好的商機(jī)，而對于中國本土相關(guān)企業(yè)來說，國內(nèi)的巨大市場，給了它們足夠的施展空間，有更多機(jī)會搶奪國際大廠的市場份額。

新聞中心

高性能計算市場大漲，不起眼的元器件價值量提升8倍

AI 系統(tǒng)的供電挑戰(zhàn)

服務(wù)器電源系統(tǒng)在演進(jìn)

更多電感方案

電容也很重要

無源器件廠商的機(jī)遇

結(jié)語

評論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

高性能計算市場大漲，不起眼的元器件價值量提升8倍

AI 系統(tǒng)的供電挑戰(zhàn)

服務(wù)器電源系統(tǒng)在演進(jìn)

更多電感方案

電容也很重要

無源器件廠商的機(jī)遇

結(jié)語

評論

相關(guān)推薦

技術(shù)專區(qū)

高性能計算市場大漲，不起眼的元器件價值量提升8倍