六種方法 實現(xiàn)數(shù)據(jù)中心電能管理
直到最近,許多機構都沒有考慮他們的數(shù)據(jù)中心基礎設施已經(jīng)不止一個十年了。只要有足夠的空間來容納新的服務器機架,現(xiàn)有的冷卻和電力能力和容量暫時還可以滿足新增加的需求。但是,隨著計算能力需求的不斷增加,現(xiàn)在這種狀況不會維持很久,因為在不久的將來,就會出現(xiàn)電力供應得緊張。
據(jù)市場調(diào)研公司IDC (CIO.com出版商的一個姊妹公司)的調(diào)查結(jié)果,在數(shù)據(jù)中心經(jīng)理所關心的事情中,容納和運行服務器所需要的計算機支持基礎設施是僅次于價格的第二大問題。IDC公司的高性能計算研究部副總裁Steve Conway說,“在三、四年前,這些問題是排在第12位的,這意味著,在那時它們根本就是不被重視的問題。”
這一狀況的改變,優(yōu)先反映了技術的變化和處理能力需求的急劇增長。虛擬化和多核處理器使我們能夠在一個很小的地方擺放更高密度的計算能力。所有類型企業(yè)與日俱增的核心業(yè)務處理,對電腦計算依賴的程度的提高,推動企業(yè)把越來越多的計算機機架放到它們現(xiàn)有的數(shù)據(jù)中心。與此同時,Gartner預測表示,到2008年底,世界上一半的數(shù)據(jù)中心的基礎設施將不能滿足近年來的高密度的設備對電力和冷卻的要求。
這些變化帶給像我自己這樣的(在一個高端科技超級計算機中心的管理者)主流數(shù)據(jù)中心的管理者,在今后的十年里要面對的一些問題:如何正確選定基礎設施支持設備,如何優(yōu)化冷卻為高密度服務器機架服務,如何平衡數(shù)據(jù)中心的效率與業(yè)務需求,以及如何跟蹤所有的可能影響執(zhí)行成敗的細節(jié)。
我工作的數(shù)據(jù)中心(設在美國陸軍工程師研究與發(fā)展中心( ERDC )的國防部超級計算機中心),正處于一個為期兩年的、對數(shù)據(jù)中心的基礎設施,進行完全徹底地檢查過程中。設計一個新的數(shù)據(jù)中心或改造一個舊的,是一個復雜的過程,但以下的六個想法,可以讓您在開始這項工作的初期,就保持一個正確的方向。這六個想法是根據(jù)在過去的十年里我們的經(jīng)驗總結(jié)出來的,并且是在陸軍工程師研究與發(fā)展中心正在進行的基礎設施現(xiàn)代化的過程中受到實地檢驗的。
1 決定您是否真的需要自己的數(shù)據(jù)中心
越來越多的計算機基礎設施是一項具有挑戰(zhàn)性的,投資昂貴的過程。在您決定下次升級前,一定要問問自己,“我是真的需要自己的數(shù)據(jù)中心嗎?”
一個最小的基礎設施將包括電源開關設備和發(fā)電機。但是,幾乎沒有一個數(shù)據(jù)中心的基礎設施僅僅就是這么多。還要增加容錯功能,包括電池或飛輪的不間斷電源( UPS )、后備供水(以防萬一您的市政供水中斷)、冗余組件、甚至可能是多個獨立的商業(yè)供電的接入。然后,你必須保護自己免受火災和自然災害。一旦數(shù)據(jù)中心的建成,你需要雇人來監(jiān)測和維護它。
正如Amazon公司首席技術官(CTO )Werner Vogels在最近的“下一代數(shù)據(jù)中心會議”中表示:除非你是在一個具有高效率的行業(yè),運行數(shù)據(jù)中心的本身就能直接得到回報,否則,在別人的數(shù)據(jù)中心運行您的應用程序可能會更好。
這個解決方案不見得對每個人都是正確的,但是,當公用事業(yè)費用上升和緊縮基礎設施的需求不斷增長時,它至少是值得考慮的。
2 權衡綠色設計的成本和效益
成本和消費的上升,使得對電力的關注推到數(shù)據(jù)中心規(guī)劃的前面。如變壓器,電線,冷卻系統(tǒng)和UPS,都存在著很大的的、固定的電力損耗,在電力到達第一臺服務器之前將有效功率切割掉一部分。
Green Grid(綠色網(wǎng)格),一個旨在提高數(shù)據(jù)中心能源效率的信息技術公司的協(xié)會,推薦通過去除冗余的組件來合理精簡基礎設施,僅僅安裝您需要的、使數(shù)據(jù)中心目前能夠滿足運行的設備。跟據(jù)該組織的《節(jié)能數(shù)據(jù)中心指南》,合理精簡基礎設施可以節(jié)省多達百分之五十的電費。
但是,還有一個日漸衰老的能源故事,在數(shù)據(jù)中心的升級規(guī)劃剛剛嶄露頭角時,美國的公用事業(yè)基礎設施已經(jīng)開始顯示出衰老的跡象,因為,電力供應似乎總是有問題。
在Minneapolis的大橋坍塌和近十年內(nèi)最初幾年的大規(guī)模停電,這些都是國家的重要基礎設施迅速下降的征兆。2003年8月14日,停電造成Great Lakes附近,大約 5000萬人沒有電力供應,像這樣的事件預計在未來幾年內(nèi),將變得更加普遍,除非采取重大措施來抑制需求,并增加老化電網(wǎng)的可靠性的能力。
根據(jù)最近的一份北美電力可靠性委員會(North American Electric Reliability Council)的關于長期電力可靠性的報告指出,在未來10年,對電力的需求預計將增長19%,但是,發(fā)電能力預計將僅能增長6%。這意味著供電的余量正在下降,每年激增的需求或區(qū)域性氣候事件,很可能比以往任何時候都更容易造成全國各地的停電事故。
隨著在短期內(nèi),市政電力中斷的可能變得更加頻繁,數(shù)據(jù)中心管理人員應當積極地設計自己的基礎設施以保證電力的可靠性,包括冗余電源分布和發(fā)電系統(tǒng),以防止在商業(yè)電力中斷時,系統(tǒng)出現(xiàn)故障。
顯然,你需要將你的基礎設施設計成盡可能地高效率(甚至可以把基礎設施的高效率當成設計要求)。但是,電力分配基礎設施節(jié)能的程度將取決于機構對持續(xù)可用性和增加能力的成本評估。例如,在ERDC,我們的超級計算任務需要非常強大的電腦可用性。我們的電力分配基礎設施包括:有冗余的開關、電池和發(fā)電機。這些使我們能夠在進行日常維護時,不用中斷運行。在組件發(fā)生故障時,也可以繼續(xù)長時間地緊急運行。這些冗余的設備雖然增加了我們固定的電力損耗,但是也考慮到我們的業(yè)務不能中斷的需求。
本文引用地址:http://m.butianyuan.cn/article/201706/354150.htm 3 通過設計達到“緊密結(jié)合冷卻”并提高靈活性
電腦在兩件事上是非常有效的:處理數(shù)字和將電力轉(zhuǎn)為熱量。進入數(shù)據(jù)中心的電量,大約有百分之三十在服務器內(nèi)轉(zhuǎn)變成熱量。
傳統(tǒng)的做法是,用設施以外的大型冷卻機組冷卻水,然后將冷卻水注入到在機房地板上的電腦室空調(diào)( CRAC )裝置。這種做法實質(zhì)上是使整個房間充滿冷空氣,但針對具體的熱源點,只提供了非常小的靈活性。
“緊密結(jié)合冷卻”的概念已經(jīng)流行于超級計算中心多年了,我們發(fā)現(xiàn)它是有效率的和有效力的。這個想法是把冷卻放在非常接近熱源的地方,目的是刪除熱源。這種做法可以有針對性地冷卻和控制熱源點,并能縮短空氣路徑,比將冷空氣移動到全房間需要更少的風扇電力。“緊密結(jié)合冷卻”可以使機架密度達到通常情況的4倍。根據(jù)客戶提高機架密度的需求,所有主要服務器廠商現(xiàn)在都能提供適合“緊密結(jié)合冷卻”的配置。
有許多基于“緊密結(jié)合冷卻”解決方案的機架和芯片。例如,有將冷卻裝置安裝在一個機架內(nèi),橫靠在服務器機架側(cè)面的設計,或?qū)⑵浞胖迷诿總€機架的頂部的 “自上而下”的冷卻辦法。也有的解決方案直接將冷卻水提供到機架的后門,或?qū)⒗鋮s器放置在機架的抽屜內(nèi),與電腦抽屜交錯安排。
以芯片為基礎的冷卻解決方案有兩個基本的形式。最簡單的是將冷卻水輸送到一個或多個位于服務器的熱源上方的冷卻器中。更為復雜的系統(tǒng)使用惰性液體,直接將其應用于服務器芯片的閉環(huán)系統(tǒng)。雖然這項技術最近才被通常的服務器采用,但超級計算機行業(yè)一直在使用這項技術,已經(jīng)幾十年了。2006年,ERDC的超級計算中心在它的一些Cray超級計算機上使用了芯片級的汽化熱交換冷卻系統(tǒng)。
所有這些方法都要求冷卻水的管道剛好到達計算機機架,你需要在設計你的數(shù)據(jù)中心的管道時,考慮好這一點。如果將冷卻水移動到數(shù)據(jù)中心的核心區(qū)域的這種想法使你的心跳停止、非常害怕的話,這里有大量的、如何最大限度地減少風險的工程方面的知識可以讓你放心。你需要采取措施包括:使水管在抬高的地板下面盡可能的低位置,安裝檢漏儀,將電與水管管道隔離,并提供泄漏控制功能裝置,如重力排水管道及接漏水盤。
4 地板磚方面的考慮也不容忽視
如果您沒有規(guī)劃或不能計劃“緊密結(jié)合冷卻”,這里仍然有一些你可以采取的措施,來提高冷卻效率。
盡量減少在機房抬高地板下的電纜和管道數(shù)量。這是空調(diào)裝置(CRAC)正在使用的空間,空調(diào)裝置把冷空氣推向您的計算機,并且,如果你能最大限度地減少冷空氣在流動過程中與電纜和管道相遇的中斷,那么,用于冷卻的能源效力將可以大大增加。盡量減少地板下的障礙物,也可以幫助消除數(shù)據(jù)中心的熱源點。
另一個措施是:你可以是委托流體動力學研究機構對數(shù)據(jù)中心進行研究,或購買您需要的軟件,自己執(zhí)行該項研究。這種方法使用了一個計算機模型來模擬圍繞數(shù)據(jù)中心的氣流,可以幫助您找出冷卻問題的原因和解決辦法,包括穿孔地板磚的最佳鋪設位置。
幾年前,ERDC超級計算中心采用了這種方法,以確認我們獲得了冷卻系統(tǒng)的最大能力。在數(shù)據(jù)中心,穿孔地板磚往往只是鋪設在服務器機架冷通道的前面。數(shù)據(jù)中心的綜合領導Paula Lindsey說:“令人驚訝的是,最有效的穿孔地板磚的鋪設并非總是在機器的前面。”在流體動力學的研究表明,我們需要在一些地板磚上,增加穿孔直徑,在關鍵位置上,讓更多地線纜和管道通過。
5 將支持設備移到外面
正確選擇您的計算機基礎設施支持系統(tǒng)的位置將提高數(shù)據(jù)中心能源效率,并讓您在將來更容易擴展規(guī)模。其中,您可以采取的最重要措施之一是:盡可能地將電源和冷卻設備移到數(shù)據(jù)中心以外的地方。事實上,如果你有空間,一個好的辦法是,將這些設備的大部分移到建筑物以外的地方。
下面是一個例子。對于在ERDC的一個新的超級計算中心,我們需要一個短期安裝以取得2兆瓦的額外電源。我們發(fā)現(xiàn),需要添加的UPS和發(fā)電機設備,不適合安裝在放置其余電力基礎設施的這個建筑物內(nèi)。在10年前,我們的數(shù)據(jù)中心選址在一個陡峭的山坡和道路之間的區(qū)域。其解決方案(將設備放置在室外由切割山坡形成的平地區(qū)域)是非常昂貴的,并在日程已經(jīng)很緊迫的情況下,這將增加時間延誤。
我們新的長期設計是,將這些組件的大部分放置在建筑物以外的一個模塊化新規(guī)劃出的公用設施區(qū)域。負責執(zhí)行升級的工程師Greg Rottman說:“當我們需要擴大規(guī)模時,這種將設備的移動,消除了建筑物圍墻對我們的限制,并在至少另一個10年內(nèi),應該能夠提供給我們靈活性,滿足我們擴容升級的需要。”
將傳輸和外部設備移到室外也有利于環(huán)保。在今年早些時候發(fā)表的一份報告中, Green Grid(綠色網(wǎng)格)發(fā)現(xiàn),進入數(shù)據(jù)中心的電力在電力輸送的單元、UPS設備和開關設備中,高達百分之二十五轉(zhuǎn)換成為熱量。將這些設備的移到數(shù)據(jù)中心以外,如果可能的話,移到建筑物的外面,這會降低您的整體能源消耗,因為不再需要能量來消除移走由這些設備所產(chǎn)生的熱量。
6 電源管理的監(jiān)控
你知道您的數(shù)據(jù)中心使用了多少電力嗎?您的服務器用電量比供應商所說的用電量是多了,還是少了?明年設備升級的耗電量與您的設施電容量是不是很接近?
一個用于電源和冷卻系統(tǒng)基礎設施監(jiān)測的系統(tǒng),必須是你對數(shù)據(jù)中心任何升級規(guī)劃的一部分。對能源使用積極的管理和監(jiān)控將幫助您計劃未來和評估您為提高數(shù)據(jù)中心的能源效率所采取措施的有效性。
對于要說服不直接管理數(shù)據(jù)中心業(yè)務的高級管理人員,讓其投資數(shù)據(jù)中心的升級,可以說是一種挑戰(zhàn)。您可以一點一滴地,在可以負擔得起的情況下,逐步建立數(shù)據(jù)中心的電源監(jiān)控系統(tǒng)。并觀察節(jié)約能源和提高效率的措施是否有效和有意義。這將有助于您建立一個長遠電源改進評價體系,并更有效地規(guī)劃未來。
作者介紹:John E. West是美國國防部高性能計算現(xiàn)代化計劃的高級研究員和在Vicksburg的美國陸軍工程師研究與發(fā)展中心的超級計算機中心的負責該計劃的執(zhí)行主任。
評論