阿里云發(fā)布飛天智算平臺,提供一站式AI計算開發(fā)服務
8月30日,阿里云宣布正式推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規(guī)模智算中心,以公共云和專有云兩種模式,為各類科研、公共服務和企業(yè)機構提供強大的智能計算服務,可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍。
本文引用地址:http://m.butianyuan.cn/article/202208/437837.htm
飛天智算平臺已在阿里內(nèi)部廣泛應用,支撐達摩院前沿AI和電商智能技術發(fā)展,并服務了小鵬汽車、深勢科技、上汽集團、中國氣象局、南方電網(wǎng)等機構和企業(yè),支撐自動駕駛、新藥研發(fā)、氣象預測、工業(yè)能源等行業(yè)大幅提升AI訓練效率。
據(jù)了解,該平臺提供基于阿里云磐久基礎設施的融合算力和大數(shù)據(jù)AI一體化平臺整體解決方案,可以運行在X86、GPU、ARM等多種芯片類型的服務器上,實現(xiàn)“一云多芯”,并以最高10倍IO優(yōu)化和5倍通信性能優(yōu)化,實現(xiàn)90%的千卡并行計算效率。
綠色技術方面,飛天智算在技術減排、能源結構優(yōu)化、區(qū)域布局優(yōu)化、供應鏈減碳以及資源利用優(yōu)化五個方面來降低單位算力的碳排放。在技術減排方面,通過液冷、電源技術以及智能運維等方式降低能耗,PUE最低可達1.09。
同時,開發(fā)人員可以在平臺上進行數(shù)據(jù)存儲、數(shù)據(jù)治理、數(shù)據(jù)分析、模型開發(fā)、模型訓練與推理的工作。并提供了預訓練模型,以及語音,圖像、自然語言處理、決策等領域的模型能力,以方便開發(fā)者更好的加速AI應用的開發(fā)。
目前,該平臺正在支撐建設兩座超大規(guī)模智算中心。其中,張北智算中心建設規(guī)模為12 EFLOPS(每秒1200億億次浮點運算)AI算力,將超過谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成為全球最大的智算中心。烏蘭察布智算中心建設規(guī)模為3 EFLOPS(每秒300億億次浮點運算)AI算力,位于“東數(shù)西算”內(nèi)蒙古樞紐節(jié)點。
阿里云智能全球銷售總裁蔡英華表示,智算不僅在于規(guī)模大,更是需要綠色、高效并且具備產(chǎn)業(yè)實踐。計算是一個龐大的復雜系統(tǒng),沒有體系化的核心技術能力,堆硬件是堆不出算力的,更無法帶來實際的產(chǎn)業(yè)價值。
據(jù)了解,智能計算不同于通用型計算,需要海量數(shù)據(jù)對AI模式進行訓練,算力被損耗在數(shù)據(jù)遷移、同步等環(huán)節(jié),千卡以上規(guī)模的算力輸出最低往往僅有40%左右。這導致了智能算力成本高昂,制約了產(chǎn)業(yè)發(fā)展。阿里云通過體系化的技術創(chuàng)新,改變了智能計算的損耗難題,將千卡并行計算效率提升至90%以上。
例如,在通信技術上,阿里云采用高性能自研Solar-RDMA網(wǎng)絡,實現(xiàn)端對端最低2微秒延遲,配合阿里云自研的無阻塞通信技術,讓計算過程中的數(shù)據(jù)交換速度最高提升5倍。同時,自然風冷、液冷等綠色技術的應用,讓智算中心的能耗降低,PUE最低可達1.09。
在AI開發(fā)層,阿里云提供大數(shù)據(jù)+AI一體化平臺支撐開發(fā)與運維全流程。尤其在模型訓練環(huán)節(jié),提供分布式訓練框架,可以對分布式策略進行自動組合和調優(yōu),將訓練效率提升了11倍以上。此外,阿里云為用戶提供了一站式的通用推理優(yōu)化工具,對算法模型進行量化、剪枝、稀疏化、蒸餾等操作,可將推理效率提升6倍以上。
不久前,小鵬汽車基于飛天智算在烏蘭察布建設智算中心“扶搖”,算力規(guī)模達600PFLOPS,是國內(nèi)最大的自動駕駛智算中心,將自動駕駛模型訓練提速近170倍。毫末智行基于飛天智算,實現(xiàn)128卡并行效率超96%,使自動駕駛模型訓練成本降低62%,訓練速度提升110%,讓模型迭代周期大幅縮短。
在生命科學領域,深勢科技采用飛天智算平臺之后,將集群性能優(yōu)化提升超過100%,讓分子動力學仿真模擬訓練效率提升了5倍。在工業(yè)領域,智己汽車運用高性能計算將工業(yè)仿真的效率提升了25%,智能駕駛訓練效率提升了70%,加速了新車型的研發(fā)上市。山東德州電力通過AI進行復核預測,準確率達到了98%,耗時從1小時縮短至幾分鐘。
在城市治理領域,四川成宜高速通過數(shù)字孿生進行車路協(xié)同優(yōu)化使事故率降低60%。重慶水務通過遙感數(shù)據(jù)與仿真推演實現(xiàn)水利調度預測準確性高達95%;南方電網(wǎng)與中國氣象局利用智算能力提升氣象預報的準確性與穩(wěn)定性。
此外,飛天智算還支撐了阿里巴巴的人工智能實踐,支撐阿里AI日均1萬億次調用,服務全球10億人。其中,拍立淘訓練速度提升了200倍,10億張圖片全量訓練時間從2.5個月縮短到8小時。達摩院大模型M6僅使用512張GPU,在10天內(nèi)就完成了10萬億參數(shù)模型訓練,能耗僅為GPT-3在同等參數(shù)規(guī)模下的1%。
評論