中國工程院院士、清華大學計算機系教授鄭緯民:重視我國超算基礎軟件生態(tài)建設
今日,在 2023CCF 全國高性能計算學術年會(CCF HPC CHINA 2023)中,中國工程院院士、清華大學計算機系教授鄭緯民做了題為《重視我國超算基礎軟件生態(tài)建設》的主題演講。
本文引用地址:http://m.butianyuan.cn/article/202308/449936.htm會議伊始,鄭緯民教授提到了中國超算的情況:國產(chǎn)超算處于國際第一梯隊!國產(chǎn)超算是中國的一張名片!國產(chǎn)超算是信創(chuàng)的典范!
中國超算為何能躋身國際前列呢?首先,中國能做最快的計算機。過去十年,中國在頂尖超算系統(tǒng)研制處于國際領先行列,下圖為中國超級計算系統(tǒng)部署情況。
其次,TOP 500 的機器里,中國占有量基本是第一。比如 2022 年,500 臺里中國有 162 臺,占比 32.4%,位居世界第一。
第三,中國超算的應用也取得了很好的成果。以入圍 ACM Gordon Bell Prize 為例:2014 年中國超算就已經(jīng)應用在地震模擬當中,2016 年應用在大氣動力框架、相場模擬、海浪模擬,2017 年應用在地震模擬和大氣模擬,2018 年應用在圖計算框架,2021 年應用在量子模擬、人造太陽和第一性原理等領域。
此外,中國超算還多次獲得了國際超算最高獎 ACM Gorden Bell 獎。2016 年 ACM 戈登貝爾獎千萬核可擴展全球大氣動力學全隱式模擬。2017 年 ACM 戈登貝爾獎非線性大地震模擬。2021 年 ACM 戈登貝爾獎基于最優(yōu)收縮路徑的通用量子模擬器。
可見,中國超算已經(jīng)取得了不錯的成績,不過鄭緯民教授提出,中國超算在軟件生態(tài)建設上還存在幾點問題。
問題一:將領先算力高效轉(zhuǎn)化為解決科學與工程難題能力依然存在重大挑戰(zhàn)
將世界領先的計算能力高效轉(zhuǎn)化為解決尖端科學與工程難題的能力是世界范圍難題,且隨著異構架構路線的發(fā)展更加劇了該問題的鴻溝。關于應對方案,鄭緯民教授表示,超算基礎軟件是提升轉(zhuǎn)化能力的關鍵之一。
超算基礎軟件是實現(xiàn)并行應用開發(fā)、優(yōu)化、部署、運行高效的基礎和關鍵。國產(chǎn)超算系統(tǒng)已經(jīng)部署部分基礎軟件,仍有亟待解決的問題。
問二:國產(chǎn)超算平臺架構多樣,應用移植和調(diào)優(yōu)工作量大
國產(chǎn)超算平臺目前的情況是:不同國產(chǎn)超算平臺選擇各異架構實現(xiàn)算力跨域發(fā)展,加劇了應用在移植和優(yōu)化上面臨的困難;不同系統(tǒng)需要單獨編程與優(yōu)化;相同的應用需要在不同平臺單獨編程和優(yōu)化;編程復雜度高;異構架構在負載均衡、同步上需特殊考慮;不同編程語言和接口;程序很難簡單移植。此外,國產(chǎn)超算平臺的移植成本高昂。
對此,鄭緯民教授提出了針對這一問題的建議:加強跨平臺編譯優(yōu)化平臺的研究和建設、統(tǒng)一并行編程模型和編譯優(yōu)化平臺。一次編程,跨平臺高效運行。
問題三:國產(chǎn)超算平臺支持復雜應用全流程計算的能力亟須改善
鄭緯民教授提到大計算往往與大數(shù)據(jù)相伴,不過國產(chǎn)超算平臺軟件支持并不完備,無法實現(xiàn)全流程大數(shù)據(jù)處理與人工智能應用的快速移植和部署。此外 I/O 能力也存在不足——比如在由國家并行計算機工程技術研究中心研制的超級計算機神威·太湖之光上,分鐘級計算完成,卻需要 40 分鐘預處理和載入數(shù)據(jù)。鄭緯民教授的建議是加強國產(chǎn)超算 HPDA 系統(tǒng)軟件的建設。
問題四:跨超算中心協(xié)同研發(fā)和部署戰(zhàn)略應用的能力亟需提升——算力網(wǎng)絡
針對這一問題,鄭緯民教授提到要建立跨超算中心協(xié)同的戰(zhàn)略應用快速研發(fā)支持。高性能專項已支持「國家高性能計算環(huán)境領域應用平臺及服務體系研究與構建」等項目設計和實施跨中心協(xié)同開展領域應用的方案。
建立起更廣泛安全的計算與數(shù)據(jù)互連,開展相關基礎軟件創(chuàng)新,超級計算創(chuàng)新聯(lián)盟也許可以發(fā)揮更大作用。那如何實現(xiàn)這一艱巨任務呢?鄭緯民教授認為在這之前要先解決兩件事情,第一點就是算力互聯(lián)。算力互聯(lián)要求帶寬高、延遲低。
第二個要解決的是網(wǎng)絡傳輸問題。以氣象領域為例,氣象領域每分鐘可產(chǎn)生 90GB 數(shù)據(jù),一天 124TB 的數(shù)據(jù),如何將這些數(shù)據(jù)傳輸?shù)匠阒行模績煞N解決方案:高速網(wǎng)絡連接和隨身攜帶。
高性能網(wǎng)絡的優(yōu)點是體驗好,足不出戶就可以完成數(shù)據(jù)傳輸業(yè)務;缺點是包年租用價格太貴,100Gbps 專線列表價 266 萬-322 萬/年(含 IP)。隨身攜帶的優(yōu)勢是按需傳送,在可攜帶范圍內(nèi)吞吐量相對較高;缺點是體驗差,需要人員攜帶存儲設備乘坐交通工具送達,存在多次拷貝的問題。
不過太湖之光數(shù)據(jù)快遞業(yè)務試點技術方案(端到端彈性網(wǎng)絡)已經(jīng)可以帶來不錯的體驗。通過測算,采用 3 條 PON 彈性云專線聚合和云互連傳輸 4T 數(shù)據(jù)需 3.03 小時,初步測算單次傳輸價格低于 1000 元,比現(xiàn)有云專網(wǎng)包月、云專網(wǎng)彈性均具備價格優(yōu)勢,而且提供更好的體驗。
最后,鄭緯民教授表示中國超算已經(jīng)做出了很大的成績,未來再把生態(tài)做好,中國超算也一定會有更好的發(fā)展!
評論