國內(nèi)最快HPC背后懸疑獲解

作者：時間：2008-08-11 來源：賽迪網(wǎng)-中國計算機報

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

曙光５０００Ａ多網(wǎng)合一體系結(jié)構(gòu)圖

本文引用地址：http://m.butianyuan.cn/article/86761.htm

　　繼曙光4000A成功“服役”之后，新一代機型曙光 5000A再次落戶上海超算中心。這一代HPC相比前代機型的性能提高了一個數(shù)量級，其系統(tǒng)峰值運算速度達(dá)到230TFLOPS，是目前國內(nèi)速度最快的商用高性能計算機系統(tǒng)。它的技術(shù)創(chuàng)新如何體現(xiàn)，曙光又如何看待未來HPC的技術(shù)發(fā)展，日前，曙光副總裁聶華與記者交流了曙光5000A背后的故事。

　　曙光怎樣設(shè)計５０００Ａ

　　曙光5000A的技術(shù)參數(shù)已在發(fā)布時曝光，可具體技術(shù)細(xì)節(jié)卻鮮有透露。聶華介紹說，曙光5000A的結(jié)構(gòu)非常簡練，高性能計算機是用互聯(lián)網(wǎng)絡(luò)將很多計算單元耦合在一起的，為了增加耦合效率，設(shè)計廠商曾構(gòu)建了管理網(wǎng)絡(luò)、存儲網(wǎng)絡(luò)、以太網(wǎng)絡(luò)等各種網(wǎng)絡(luò)。這一次，曙光5000A極大簡化了整體網(wǎng)絡(luò)結(jié)構(gòu)，實現(xiàn)了多網(wǎng)合一。其體系結(jié)構(gòu)也不同于傳統(tǒng)集群或架構(gòu)巨量平行處理架構(gòu)（MPP），曙光提出超并行體系處理架構(gòu)（HPP），除結(jié)合集群結(jié)構(gòu)易擴展、易編程的優(yōu)勢外，還在高密度、高性能和耦合方面有了突出進(jìn)展。

　　硬件架構(gòu)之上是軟件結(jié)構(gòu)，軟件才是用戶運用高性能計算機的窗口。從基礎(chǔ)部件層、系統(tǒng)軟件層等底層開始，曙光5000A搭建了一個9層的軟件架構(gòu)，從域服務(wù)、資源調(diào)度、安全等層次進(jìn)行有機組合。在應(yīng)用層，曙光5000A擁有豐富的科學(xué)計算、商業(yè)計算以及信息化應(yīng)用軟件，為用戶提供了實用基礎(chǔ)。

　　除了架構(gòu)創(chuàng)新之外，曙光5000A的另一項引人關(guān)注的技術(shù)創(chuàng)新是高密度刀片服務(wù)器，這是曙光5000A最核心的計算單元。該刀片總體架構(gòu)為7U架構(gòu)，里面有10片計算刀片。值得強調(diào)的是，每片刀片集成了4路SMP的4核處理器，這就構(gòu)成了7U空間共計160核的超高密度設(shè)計，為常見1U服務(wù)器密度2.86倍。在刀片當(dāng)中，它還整合了網(wǎng)絡(luò)模塊、管理模塊、IOE擴展模塊和冗余電源模塊，尤其是內(nèi)置DDR Infiniband HCA和交換模塊，這是曙光創(chuàng)新的設(shè)計。這樣，相鄰結(jié)點MPI延遲為1.6us左右，而普通DDR交換機為3us以上，這一延遲直接影響著提升并行效率。同時，在內(nèi)置之后，系統(tǒng)減少了50%的高速IB線纜的數(shù)量，大量IB連線對現(xiàn)階段構(gòu)建大規(guī)模集成網(wǎng)構(gòu)成了威脅，銅纜容易形成不穩(wěn)定連接。因此，盡可能減少高速IB連線的數(shù)量，對于提高IB穩(wěn)定性來說意義很大。進(jìn)一步設(shè)想，整個系統(tǒng)還提供10個PCI-E 8X IO擴展插槽，雖然這些插槽目前處于閑置狀態(tài)，但如果都插上加速卡，就可以針對特別應(yīng)用構(gòu)建專用系統(tǒng)，這將帶來廣闊的應(yīng)用擴展空間。

　　胖節(jié)點則為計算子系統(tǒng)解決更具挑戰(zhàn)性的問題提供了保障。曙光配置了大約1/10規(guī)模的胖節(jié)點，與4路SMP結(jié)構(gòu)運算節(jié)點配合。在4路計算刀片中，每個核可以進(jìn)行64GB直接內(nèi)存尋址，這意味著具有挑戰(zhàn)性的一些工程計算程序可以更好地運行，胖節(jié)點則使每個核訪問128GB內(nèi)存成為可能。胖節(jié)點采用了改進(jìn)的8路SMP處理結(jié)構(gòu)，8個處理器之間實現(xiàn)交叉互聯(lián)，實現(xiàn)了每個刀片32個核的SMP擴展。曙光不只實現(xiàn)了設(shè)計峰值的高性能，也非常注重這款機型的高可用性。“針對集群系統(tǒng)曾流行一個觀點，當(dāng)發(fā)展到1萬個處理器核心時，系統(tǒng)的不可靠程度將增加，但曙光可以負(fù)責(zé)任地講，曙光5000A可以穩(wěn)定工作。”聶華說。

　　曙光為何鐘情ＡＭＤ

　　在今年公布的HPC TOP500榜單當(dāng)中，基于英特爾處理器的系統(tǒng)占了絕大部分的市場份額。為什么在英特爾有著明顯優(yōu)勢的市場，曙光在開發(fā)新機型時卻選擇了聯(lián)手AMD？盡管曙光5000A采用的是AMD的巴塞羅那4核處理器，但聶華毫不否認(rèn)，英特爾的處理器非常出色。“英特爾4核處理器的主頻就要比巴塞羅那表現(xiàn)得要好，這在TOP500的峰值測試中是非常占有優(yōu)勢的。”聶華說，“但最終讓曙光決定采用巴塞羅那的原因是由產(chǎn)品本身的設(shè)計決定的。”

　　聶華說，曙光5000A當(dāng)時的定位就是高效能計算機，而并非單純的高性能計算機。盡管當(dāng)前的2路計算刀片已經(jīng)非常成熟，但曙光還是決定研發(fā)高密度的4路計算刀片，這在保證提高生產(chǎn)力的同時，也能降低了系統(tǒng)規(guī)模，提高系統(tǒng)穩(wěn)定性。對于這項設(shè)計來說，曙光認(rèn)為AMD提供的巴塞羅那架構(gòu)是理想選擇。集成內(nèi)存控制器的“直連架構(gòu)”為目前AMD所獨有，處理器直接訪問內(nèi)存能夠降低延遲，而且能擴大內(nèi)存帶寬。在高性能計算領(lǐng)域，從CPU核心到內(nèi)存之間的數(shù)據(jù)交換往往受制于帶寬限制，這一現(xiàn)象導(dǎo)致的“內(nèi)存墻”限制了系統(tǒng)整體性能的提升。“當(dāng)然也有市場因素。但技術(shù)層面原因是最關(guān)鍵的。”聶華說，“英特爾的下一代架構(gòu)也將采用直連技術(shù)，到那時就沒有任何差別了，這也是未來趨勢。”

　　曙光如何看混合架構(gòu)

　　在IBM突破千萬億次計算的“走鵑”發(fā)布后，混合架構(gòu)成為業(yè)界爭論的焦點。究竟哪些系統(tǒng)適合采用混合架構(gòu)，它與軟件調(diào)優(yōu)哪個才是HPC的發(fā)展趨勢？聶華表示，混合架構(gòu)與軟件調(diào)優(yōu)是相互關(guān)聯(lián)，但又完全不同的兩個方向，硬件加速針對特別應(yīng)用，軟件調(diào)優(yōu)則使用相應(yīng)工具，整體可以獲得更好的并行性能，它們都可能為系統(tǒng)性能帶來幾倍甚至幾十倍的提升。

　　從曙光5000A本身的情況來看，系統(tǒng)中完全預(yù)留了協(xié)處理器的插槽位置，完全可以使用龍芯、FPGA甚至商用化硬件作為加速器。但這次曙光5000A并沒有采用加速器，這是與其用戶的應(yīng)用環(huán)境密切相關(guān)的。上海超算中心的特點是超大規(guī)模的通用計算平臺，面向的用戶眾多，只要是高性能計算的，都可以在這個平臺上進(jìn)行。而國外的高性能計算機則多是單個用戶專注于某項特定應(yīng)用，如IBM的“走鵑”就是為美國洛斯阿拉莫斯國家實驗室特別定制的。在這種情況下，對于上海超算中心來說，根本不能全部插上加速卡，只能面向部分特定用戶構(gòu)建少量加速結(jié)點。聶華表示，正因為上海超算中心是通用計算平臺，所以曙光5000A要選用通用CPU和通用架構(gòu)，這樣對用戶來說才實現(xiàn)了價值最大化。

　　如果某個用戶對計算能力的要求足夠高，或者可以面向具有同樣特定應(yīng)用的一類用戶群提供服務(wù)，專用的加速器技術(shù)也將會在曙光5000A或后續(xù)機型上推廣應(yīng)用。

新聞中心

國內(nèi)最快HPC背后懸疑獲解

評論

相關(guān)推薦

技術(shù)專區(qū)