人工智能正在引領數(shù)據(jù)中心物理基礎設施的新時代
人工智能(AI)目前正在對數(shù)據(jù)中心行業(yè)產(chǎn)生深遠影響,這種影響可歸因于OpenAI在2022年底推出的ChatGPT,該產(chǎn)品因其對查詢提供復雜且類似人類的響應的卓越能力而迅速受到歡迎。因此,作為人工智能技術(shù)的一個子集,生成式人工智能成為2023年上半年行業(yè)活動、財報和供應商生態(tài)系統(tǒng)討論的焦點。這種興奮是有道理的,因為生成式人工智能已經(jīng)引起了數(shù)十場討論。數(shù)十億美元的投資,預計到2027年將繼續(xù)讓數(shù)據(jù)中心資本支出提高到5000億美元以上。然而,由于訓練和部署支持生成式人工智能應用程序的大型語言模型(LLM)所需的計算能力顯著擴展,因此需要對數(shù)據(jù)中心的架構(gòu)進行更改。
雖然支持此類人工智能應用所需的硬件對許多人來說都是新的,但一部分數(shù)據(jù)中心行業(yè)已經(jīng)部署此類基礎設施多年。該領域通常被稱為高性能計算 (HPC) 或超級計算行業(yè)。從歷史上看,這個細分市場主要得到政府和高等教育機構(gòu)的支持,以部署一些世界上最復雜和精密的計算機系統(tǒng)。
生成式人工智能正在做的事情是,將人工智能應用程序和支持它們的基礎設施擴展到更廣泛的企業(yè)和服務提供商市場。向HPC行業(yè)學習讓我們了解基礎設施可能會是什么樣子。
圖 1:AI硬件影響
總結(jié)圖 1 所示的影響,人工智能工作負載將需要更多的計算能力和更高的網(wǎng)絡速度。這將導致更高的機架功率密度,這對數(shù)據(jù)中心物理基礎設施(DCPI)具有重大影響。對于電力基礎設施(也稱為灰色空間),預計架構(gòu)變化將受到限制。AI工作負載應該會增加對備用電源(UPS)和IT機架(機柜PDU和母線槽)配電的需求,但不會要求任何重大的技術(shù)變革。人工智能基礎設施將對DCPI產(chǎn)生變革性影響的地方在于數(shù)據(jù)中心的空白區(qū)域。
首先,由于AI IT硬件的功耗較高,需要更高功率的機架式PDU。在這些額定功率下,發(fā)生潛在故障或效率低下相關造成的成本可能很高。預計這將推動最終用戶采用智能機架PDU,并能夠遠程監(jiān)控和管理功耗和環(huán)境因素。這些機架PDU的成本比基本機架PDU高出許多數(shù)量級,而最終用戶無法監(jiān)控或管理其機架配電。
對于數(shù)據(jù)中心架構(gòu)來說,更具變革性的是需要液體冷卻來管理下一代CPU 和GPU運行AI工作負載時產(chǎn)生的更高熱負載。液體冷卻(包括直接液體冷卻和浸沒式冷卻)在更廣泛的數(shù)據(jù)中心行業(yè)中的采用不斷增加,預計隨著人工智能基礎設施的部署而加速。然而,考慮到采用液冷的的跑道歷史漫長,Dell’Oro預計生成式人工智能對液冷的影響在短期內(nèi)將受到限制。仍然可以部署采用風冷技術(shù)的當前一代IT基礎設施,但會犧牲硬件利用率和效率。
為了應對這一挑戰(zhàn),一些最終用戶正在使用閉環(huán)空氣輔助液冷系統(tǒng)改造其現(xiàn)有設施。這種基礎設施可以是后門熱交換器(RDHx)或直接液體冷卻的一種形式,其利用液體來捕獲機架或服務器內(nèi)產(chǎn)生的熱量,并在機架或服務器的后部將其排出,將其引導到熱通道中。這種設計使數(shù)據(jù)中心運營商能夠利用液冷的一些優(yōu)勢,而無需大量投資來重新設計設施。然而,為了大規(guī)模實現(xiàn)人工智能硬件的預期效率,需要專門建造的液冷設施。預計當前對液冷的興趣將在2025年開始在部署中體現(xiàn)出來,預計到2027年液冷收入將接近20億美元。
電力可用性可能顛覆人工智能的炒作將人工智能工作負載納入未來數(shù)據(jù)中心建設的計劃已經(jīng)實現(xiàn)。這是Dell’Oro上調(diào)數(shù)據(jù)中心物理基礎設施市場5年前景的主要原因,目前預計到2027年收入將以10%的復合年增長率增長。但是,盡管人工智能工作負載預計將為數(shù)據(jù)中心行業(yè)帶來巨大的市場增長,但仍有一些值得注意的因素可能會減緩這種增長。新冠加速了數(shù)字化的步伐,掀起了新數(shù)據(jù)中心建設的浪潮。然而,隨著需求的實現(xiàn),供應鏈難以跟上,導致數(shù)據(jù)中心物理基礎設施的交付時間在高峰時超過一年?,F(xiàn)在,隨著供應鏈限制的緩解,DCPI供應商正在解決積壓問題,并開始縮短交貨時間。
然而,對人工智能工作負載的需求正在形成數(shù)據(jù)中心行業(yè)的另一波增長浪潮。這種雙倍增長導致數(shù)據(jù)中心行業(yè)不斷增長的能源需求與公用事業(yè)公司向所需地點供電的速度之間存在差異。因此,這導致數(shù)據(jù)中心服務提供商探索“自帶電源”模式作為潛在的解決方案。雖然該模型的可行性仍在確定中,但數(shù)據(jù)中心提供商渴望一種創(chuàng)新方法來支持其長期增長戰(zhàn)略,而人工智能工作負載的激增是一個核心驅(qū)動力。
隨著對更多DCPI的需求與可用功率的平衡,有一點是明確的:人工智能正在開創(chuàng)DCPI的新時代。在這個時代,DCPI不僅將在促進數(shù)據(jù)中心發(fā)展方面發(fā)揮關鍵作用,還將定義性能、成本并幫助實現(xiàn)可持續(xù)發(fā)展。這與DCPI所扮演的歷史角色截然不同,特別是與近十年前的行業(yè)相比,當時DCPI幾乎是事后才想到的。
隨著AI增長浪潮的迅速到來,在AI策略中滿足DCPI要求至關重要。如果不這樣做,可能會導致AI IT硬件無處可插。
參考文獻:
AI is Ushering in a New Era for Data Center Physical Infrastructure - Lucas Beran joined Dell’Oro Group
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。