微軟出“奇招”,用沸騰液體為數(shù)據(jù)中心降溫
編者按:人工智能的快速發(fā)展,對計算機的性能提出了更高要求,計算機行業(yè)也已經(jīng)轉(zhuǎn)向能夠應(yīng)對更高電功率的芯片架構(gòu)。處理器電功率越高,芯片本身的溫度就會越高,風冷技術(shù)已經(jīng)無法滿足降溫需求,因此,微軟引入浸入式冷卻技術(shù),直接降低芯片表面的溫度,效率比在空氣中高出幾個數(shù)量級。
在美國華盛頓州昆西市,數(shù)量龐大的郵件和信息往返于微軟員工之間。而在位于哥倫比亞河(Columbia River)東岸的數(shù)據(jù)中心,裝有計算機服務(wù)器的鋼制貯槽中的液體正因這些數(shù)據(jù)而沸騰著。
與水不同的是,這個沙發(fā)型槽體中的液體對電子設(shè)備無害,經(jīng)過設(shè)計,其沸點約為122華氏度(約50攝氏度),比水的沸點低了90華氏度(約50攝氏度)。
因服務(wù)器運行溫度產(chǎn)生的沸騰作用,使熱量從正在運行的計算機處理器中散發(fā)。低溫沸騰使服務(wù)器能夠在全功率下持續(xù)運行,避免因過熱而出現(xiàn)故障。
在槽體內(nèi)部,沸騰液體所產(chǎn)生的蒸汽不斷上升,直到觸及到槽罐上的風冷式冷凝器變成液體。緊接著,這些“雨水”流回浸入式服務(wù)器中,形成一個封閉的循環(huán)冷卻系統(tǒng)。
工作于美國華盛頓州雷德蒙德的 Husam Alissa,是一名微軟數(shù)據(jù)中心的高級開發(fā)團隊的首席硬件工程師,他表示:“微軟是第一家在生產(chǎn)環(huán)境中采用兩相浸入式冷卻的云服務(wù)提供商?!?/p>
圖為 Azure 首席軟件工程師 Ioannis Manousakis(左),與微軟數(shù)據(jù)中心高級開發(fā)團隊首席硬件工程師Husam Alissa(右)正在檢查位于微軟數(shù)據(jù)中心的兩相浸入式冷卻槽
數(shù)據(jù)中心的摩爾定律
在計算機芯片風冷技術(shù)穩(wěn)定發(fā)展放緩之際,微軟長期計劃的下一步就是在生產(chǎn)環(huán)境中部署兩相浸入式冷卻,以滿足對于更快、更強大的數(shù)據(jù)中心計算機的需求。
幾十年來,得益于同一大小芯片上可容納的晶體管數(shù)量提升,芯片技術(shù)不斷進步,在不增加耗電量情況下,計算機處理器的速度幾乎每兩年就會翻一倍。
這種現(xiàn)象被稱為“摩爾定律”,以英特爾聯(lián)合創(chuàng)始人戈登?摩爾(Gordon Moore)的名字命名。戈登?摩爾在1965年觀察到了這一趨勢,并預(yù)測其將持續(xù)至少10年。摩爾定律在過去幾十年中得到了驗證,但是現(xiàn)在,這個趨勢已經(jīng)開始放緩。
這是因為晶體管的寬度已經(jīng)縮小到原子級,即將達到物理極限?!芭c此同時,面對諸如人工智能之類的高性能應(yīng)用,對更快速的計算機處理器的需求正在加速增長”,Alissa 表示。
為了滿足性能需求,計算機行業(yè)已經(jīng)轉(zhuǎn)向能夠應(yīng)對更高電功率的芯片架構(gòu)。例如,中央處理器(CPU)中的功率已從每芯片150瓦增加到300瓦以上;圖形處理器(GPU)的功率已增加到每芯片700瓦以上。
這些處理器電功率越高,芯片本身的溫度就會越高,容易出現(xiàn)故障,這就對冷卻效果提出了更高的要求。
工作于雷德蒙德總部的 Christian Belady 目前擔任微軟數(shù)據(jù)中心高級開發(fā)團隊的杰出工程師兼副總裁,他表示:“風冷已經(jīng)無法滿足需求了。因此我們引入了浸入式冷卻技術(shù),直接降低芯片表面的溫度。”
他強調(diào),熱傳遞在液體中的效率比在空氣中高出幾個數(shù)量級。
他還補充道,向液冷技術(shù)的轉(zhuǎn)變?yōu)檎麄€數(shù)據(jù)中心帶來了類似摩爾定律的思維方式。
他指出:“液冷使我們能夠提高冷卻效果,提升芯片集成度,實現(xiàn)了摩爾定律趨勢在數(shù)據(jù)中心層面的延續(xù)?!?/p>
圖為微軟杰出工程師兼數(shù)據(jù)中心高級開發(fā)團隊副總裁 Christian Belady 在位于微軟數(shù)據(jù)中心的兩相浸入式冷卻槽旁
來自加密貨幣礦工的一課
Belady 指出,液冷是一項成熟的技術(shù)。目前道路上行駛的大多數(shù)汽車都依靠它來防止發(fā)動機過熱。包括微軟在內(nèi)的幾家科技公司也正在試驗冷板技術(shù),讓液體通過金屬板后輸送到服務(wù)器,對服務(wù)器進行冷卻。
加密貨幣行業(yè)的從業(yè)者率先在計算設(shè)備使用了液體浸入式冷卻技術(shù),對記錄數(shù)字貨幣交易的芯片進行冷卻。
微軟研究了液體浸入式技術(shù)作為高性能應(yīng)用(如人工智能)冷卻解決方案時的表現(xiàn)。結(jié)果顯示,兩相浸入式冷卻可以將任何給定服務(wù)器的功耗減少5%到15%。
在這一結(jié)果的推動下,微軟團隊與數(shù)據(jù)中心 IT 系統(tǒng)制造商和設(shè)計商 Wiwynn 合作,開發(fā)了兩相浸入式冷卻解決方案。首個解決方案現(xiàn)正運行在微軟位于華盛頓州昆西市的數(shù)據(jù)中心中。
沙發(fā)型槽體中充滿了 3M 工程流體。3M 的液冷流體具有介電特性,使其成為有效的絕緣體。當服務(wù)器完全浸沒在這類液體中時,仍能正常運行。
Azure 首席架構(gòu)師、微軟技術(shù)研究員兼副總裁 Marcus Fontoura 表示,這種向兩相液體浸入冷卻技術(shù)的轉(zhuǎn)變,為有效管理云資源提供了更大的靈活性。
舉例來說,管理云資源的軟件可將數(shù)據(jù)中心計算需求的突發(fā)峰值分配給液冷貯槽中的服務(wù)器。這是因為,這些服務(wù)器可以在較高的功率下運行且不會有過熱的風險,這個過程也被稱為超頻。
Fontoura 指出:“打個比方,我們知道 Teams 的使用高峰是1點或2點,通常情況下,人們會在這個時間段內(nèi)的同一時間加入會議,而浸入式冷卻為我們處理這些突發(fā)負載提供了更大的靈活性?!?/p>
沸騰的液體帶走了微軟數(shù)據(jù)中心計算機服務(wù)器所產(chǎn)生的熱量
微軟是第一個在生產(chǎn)環(huán)境中使用兩相浸入式冷卻技術(shù)的云服務(wù)提供商
可持續(xù)的數(shù)據(jù)中心
Fontoura 補充道,將兩相浸入式冷卻服務(wù)器加入到現(xiàn)有計算資源中,還能夠促使機器學(xué)習軟件在整個數(shù)據(jù)中心更高效地管理包括電力、冷卻以及技術(shù)維護人員在內(nèi)的資源。
他強調(diào):“我們不僅會大大提高效率,還會對可持續(xù)發(fā)展產(chǎn)生巨大影響。我們部署的每一件 IT 設(shè)備都將得到充分利用,不會產(chǎn)生任何浪費?!?/p>
液體冷卻也是無水技術(shù),這將幫助微軟兌現(xiàn)承諾,即到2030年,微軟補充的水量將超過其全球運營的水消耗量。
Alissa 介紹道,穿過槽體的冷卻盤管可使蒸汽凝結(jié),并連接到一個單獨的封閉回路系統(tǒng),利用流體將熱量從槽內(nèi)傳遞到槽外的干冷卻器。由于這些盤管中的流體溫度總是高于周圍空氣溫度,因此無需通過噴水來調(diào)節(jié)空氣、進行蒸發(fā)冷卻。
同時,微軟也在與基礎(chǔ)設(shè)施行業(yè)的合作伙伴一同研究如何以一種既能減少流體流失、又對環(huán)境幾乎沒有影響的方式來運行槽體。
Azure 首席軟件工程師 Ioannis Manousakis 說:“如果方法得當,兩相浸入式冷卻將同時滿足我們在成本、可靠性和性能方面的所有要求,且與空氣冷卻相比,能耗非常小。”
圖為微軟團隊正在研究兩相浸入式冷卻技術(shù)。從左至右分別為:數(shù)據(jù)中心運營管理部門的 Dave Starkenburg,微軟數(shù)據(jù)中心高級開發(fā)團隊杰出工程師兼副總裁 Christian Belady,Azure 首席軟件工程師 Ioannis Manousakis 和微軟數(shù)據(jù)中心高級開發(fā)團隊首席硬件工程師 Husam Alissa
“我們讓服務(wù)器享受深海體驗”
對兩相浸入式冷卻技術(shù)的研究,是微軟多管齊下戰(zhàn)略的一部分,旨在使數(shù)據(jù)中心的建設(shè)、運營和維護更加可持續(xù)化且高效。
例如,數(shù)據(jù)中心高級開發(fā)團隊也在探索使用氫燃料電池代替柴油發(fā)電機,作為數(shù)據(jù)中心備用發(fā)電的可能性。
液冷項目與探索水下數(shù)據(jù)中心可能性的 Natick 項目類似,這種數(shù)據(jù)中心可以被快速部署,并且能夠被密封在類似水下管道內(nèi)的海床上運行數(shù)年,無需進行任何現(xiàn)場維護。
水下數(shù)據(jù)中心不再充滿工程流體,取而代之的是干燥的氮氣。服務(wù)器由風扇和一個熱交換管道系統(tǒng)進行冷卻,該系統(tǒng)通過密封管道將海水泵入。
Natick 項目中的一個重要發(fā)現(xiàn)表明,海底服務(wù)器的故障率是陸地數(shù)據(jù)中心同樣服務(wù)器的八分之一。初步分析表明,低濕度和低氧氣腐蝕作用是水下服務(wù)器性能優(yōu)越的主要原因。
根據(jù) Alissa 的預(yù)計,液體侵入式槽體內(nèi)的服務(wù)器將具備類似的優(yōu)越性能。他說:“我們讓服務(wù)器無需安置水下,即可擁有‘深海體驗’。”
Ioannis Manousakis 是 Azure 首席軟件工程師,圖為他從微軟數(shù)據(jù)中心的兩相浸入式冷卻槽體中取出一個刀鋒服務(wù)器。(照片由 Gene Twedt 為微軟拍攝)
展望未來
如果浸入式槽體中服務(wù)器的故障率如預(yù)期降低,微軟將可以轉(zhuǎn)向一種無需在出現(xiàn)故障時立即更換組件的模式。這不僅能夠控制蒸汽損失,還能允許將槽體部署在偏遠且難以維修的位置。
此外,Belady 指出,如果能夠把服務(wù)器密集地封裝在槽體內(nèi),就能重新構(gòu)想服務(wù)器的架構(gòu),并針對低延遲、高性能應(yīng)用和低維護操作進行優(yōu)化。
例如,這種槽體可以部署在城市中心的 5G 蜂窩通信塔下,用于自動汽車駕駛等應(yīng)用。
到目前為止,微軟在超大規(guī)模數(shù)據(jù)中心中只有一個運行工作負載的槽體。在接下來的幾個月中,微軟團隊將進行一系列測試,以證明槽體和這項技術(shù)的可行性。
Belady 說:“第一步是讓人們接受這個概念,并證明我們可以運行生產(chǎn)負載?!?/p>
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。