沐露晨曦之博大“芯”懷所望
1 智能化不斷催生智慧的芯
移動互聯(lián)網(wǎng)及云計算技術(shù)的迅猛發(fā)展,使得算力對人們生活的方方面面產(chǎn)生深遠的影響,并且與人均GDP 具有高度相關(guān)性,因此,算力基礎(chǔ)設(shè)施在“新基建”中發(fā)揮著舉足輕重的作用,而算力提供者也成為不斷推動數(shù)字經(jīng)濟向前發(fā)展的核心引擎??商峁姶笏懔Φ氖切阅茏吭降母叨颂幚砥?,所面向的是越來越復(fù)雜的邊緣計算。根據(jù)Gartner 分析,過去5 年來,全球邊緣計算復(fù)合增長率達到87.4%,2020 年市場規(guī)模超過424億美元。然而,高端處理器芯片由少數(shù)國際廠商壟斷的格局在行業(yè)內(nèi)由來已久,不過這個堅冰正在融化,燧原科技AI 云端芯片引發(fā)星火燎原[1],在通用高端處理器方面又將有誰帶來曙光?在上海張江的騰飛科技樓,通過與沐曦集成電路有限公司創(chuàng)始人、CEO 陳維良交流,我看到了打造全球一流國產(chǎn)GPU 芯片的希望所在。
如圖1 所示,著眼于信息技術(shù)產(chǎn)業(yè)鏈的結(jié)構(gòu),可以看到所需的基礎(chǔ)是芯片層,計算芯片對算力起著決定性作用,其中包括兩種類型,即中央處理器CPU 和圖形處理器GPU。CPU 作為計算機時代的核心引擎獨領(lǐng)風(fēng)騷數(shù)十年,始終是算力的主要承擔(dān)者,然而,后來至上的GPU 以其強大并行計算能力,將計算性能和效率提到更高的水平,并對各種新算法具有很強的適應(yīng)性。GPU 所具有的獨特優(yōu)勢可以同時滿足傳統(tǒng)高性能計算和新型AI 計算的需求,因而成為最重要的算力來源。
圖1 信息技術(shù)產(chǎn)業(yè)鏈結(jié)構(gòu)
主流高端GPU 分為針對通用算力的通用GPU(即General Purpose GPU,GPGPU)和針對游戲顯示的傳統(tǒng)GPU。如圖2 所示,當(dāng)前全球高性能GPU 市場被少數(shù)幾家國外公司壟斷,使得中國互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的大數(shù)據(jù)基礎(chǔ)設(shè)施受控于人,凸顯出國家安全及國計民生存在巨大不可控風(fēng)險,因此,核心算力芯片國產(chǎn)替代勢在必行。高性能GPU 的研發(fā)技術(shù)門檻非常高,具有長期GPU 核心技術(shù)積累的全建制人才隊伍才有可能勝任。為此,作為新崛起的集成電路新生力量,沐曦肩負起重任,致力于以中國人智慧創(chuàng)造出滿足中國智能化社會需要的先進GPU 芯片,而解決困擾我國高性能GPU 供應(yīng)鏈安全的問題,為算力經(jīng)濟提供強有力的支撐。
圖2 主流的高端GPU及其所占據(jù)市場
2 異構(gòu)化成就超酷的芯
作為行業(yè)資深的高端處理器設(shè)計專家,陳維良談到,要改變以往以CPU 作為算力核心的手段,就是要采用“異構(gòu)”體系,就是CPU 加上比其能效更高的計算單元。異構(gòu)計算的興起標(biāo)志著“摩爾定律”對于高性能計算芯片已不再完全適用,一方面,CPU 處理器性能再無法按照“摩爾定律”增長;另一方面,數(shù)據(jù)增長對計算性能要求超過了按“摩爾定律”增長的速度,所以只能由異構(gòu)計算提升算力,以此滿足日益增長的海量數(shù)據(jù)計算需求。其主要原因在于以數(shù)據(jù)計算為驅(qū)動力的同構(gòu)CPU難以適應(yīng)以高清視頻和影像、復(fù)雜多相流模型、海量平行數(shù)據(jù)計算、實時數(shù)據(jù)處理,以及其他新興高復(fù)雜度算法的需要,而GPU 的突出優(yōu)勢顯而易見。
著眼于圖3 所示的處理器內(nèi)部架構(gòu),各類CPU 遵循的都是馮諾依曼架構(gòu),按照存儲程序順序執(zhí)行,更擅長于邏輯控制,而在大規(guī)模并行計算能力上受到極大限制。GPU 則采用數(shù)量眾多的并行計算單元,非常適合處理大量數(shù)據(jù)計算,不僅可以在圖形、圖像處理領(lǐng)域大顯身手,還被用于科學(xué)計算、密碼破解、數(shù)值分析及海量數(shù)據(jù)處理、金融分析等需要大規(guī)模并行計算的領(lǐng)域。GPU 的優(yōu)化機理不再局限于延遲性能,而是基于吞吐能力,通過指令集從物理底層直接支持軟件可編程。
圖3 GPU優(yōu)于CPU的算力提升內(nèi)部架構(gòu)
當(dāng)今世界最先進的超級計算機(HPC)多數(shù)已經(jīng)轉(zhuǎn)向基于GPU 的異構(gòu)體系,如2019 年排名第一的HPC(Summit),95% 算力由GPU 提供。根據(jù)算法的不同,GPU 的計算速度可以比CPU 快10 倍到100 倍以上。將來的數(shù)據(jù)中心和大數(shù)據(jù)處理也越來越依賴基于GPU 的異構(gòu)算力來支撐。
3 新時代召喚博大的芯
對于國產(chǎn)化GPU 在解決AI 算力方面業(yè)已取得的巨大進展陳維良頗為振奮,他表示,這些進展包括兩個方面,其一主要側(cè)重于支持訓(xùn)練或推理類的AI 加速;其二是沐曦正在開發(fā)的GPU 芯片,專注于需要更通用的強大算力的科學(xué)計算,既支持AI 處理,還支持包括“計算物理”、“計算化學(xué)”等與計算緊密結(jié)合的學(xué)科,使計算成為常規(guī)手段,同時滿足與工業(yè)相關(guān)的算力需求,涵蓋各種設(shè)計和仿真等。當(dāng)今AI 屬于大框架下深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),相關(guān)算子可以預(yù)見,即便層數(shù)增加,網(wǎng)絡(luò)架構(gòu)變復(fù)雜,仍基于卷積運算方式。通用計算則種類極其繁雜,所需的算子各有千秋,因此通用異構(gòu)GPU 的概念將從圖形處理器(Graphics Processing Unit)超越而成為宏大處理器(Grand Processing Unit)。
GPU 所追求的就是超高性能,在運算指標(biāo)上往往采用FLOPS 單位,即每秒浮點運算次數(shù),其“單指令多數(shù)據(jù)(SIMD)”類型指令集利用數(shù)據(jù)級并行方式,執(zhí)行一個指令即可進行多個同時發(fā)生的計算。其單位已經(jīng)從GFLOPS 的十億級別上升到TFLOPS 的萬億級別,業(yè)界目前最高水平超過300 多個TFLOPS,而下一代將翻倍,這就成為國際和國產(chǎn)GPU 競相期待達到的目標(biāo)。
超高性能必然使功耗成為一個焦點問題,目前最高端GPU 可達到(300~500)W,在芯片及應(yīng)用中對信號傳輸帶寬和物理架構(gòu)設(shè)計都要通盤考慮。存儲器配合無疑是影響GPU 性能的最重要單元,內(nèi)部可以有多級的上百兆SRAM,而外部需要配規(guī)模巨大的高速DRAM。曾經(jīng)作為圖形處理器的GPU 有專用高速顯存GDDR 支持,并已發(fā)展到GDDR6。針對更高端的通用GPU,一種名為HBM(High Bandwidth Memory)的技術(shù)將顯存由平面擴展轉(zhuǎn)為向上延伸,以實現(xiàn)所占面積相同前提下存儲容量及位寬的數(shù)倍提升。這種堆疊封裝方法采用設(shè)計和工藝緊密結(jié)合的手段,顯存顆粒與GPU核心通過硅片中介層(Silicon Interposer)進行連接,從而獲得更低的工作電壓和功耗。HBM1.0/HBM2.0 屬于2.5D 技術(shù),現(xiàn)階段已可以大批量生產(chǎn),未來會實現(xiàn)3D垂直封裝。
在全球AI 產(chǎn)業(yè)高速變化的大環(huán)境下,廣泛的行業(yè)分布為其應(yīng)用拓展提供了廣闊前景,快速迭代算法推動AI 技術(shù)商用帶來了無限商機,算法實現(xiàn)的算力基礎(chǔ)就是通用GPU 的不斷升級換代。打造行業(yè)一流的GPU 公司,從而搶占AI 產(chǎn)業(yè)發(fā)展的制高點,需要在設(shè)計理念和創(chuàng)新架構(gòu)上持續(xù)超越。新一代通用GPU 芯片將具有更高度的并行處理能力、更低內(nèi)存延遲,并實現(xiàn)計算單元和內(nèi)存間的靈活而豐富的連接,而且在功效和能效管理水平上有更大的提高。
沐浴著AI 新時代曙光,晨曦正在展開算力提供者的視野,以敏銳眼光展望以AI 為代表的未來新潮流。國產(chǎn)新型通用GPU 基礎(chǔ)架構(gòu)的建立必將是一個艱辛的過程,走產(chǎn)學(xué)研結(jié)合之路,跟進產(chǎn)業(yè)成熟之旅,抓住未來通用計算的算力需求,才能實現(xiàn)高性能處理器的落地。GPU 對于通用平臺生態(tài)系統(tǒng)的建立至關(guān)重要,需要完善的IDE 支持,具備軟件兼容性,能夠銜接和復(fù)用針對眾多智能算法和機器學(xué)習(xí)軟件的存量應(yīng)用。面向未來布局,強強聯(lián)合有利于達到合力的效果,成為我國應(yīng)對嚴峻高端技術(shù)挑戰(zhàn),緊跟全球AI 日新月異算力增長需求,促進芯片設(shè)計和制造工藝能力突破的新興力量。期待來年宏大通用處理器GPU 脫穎而出。
參考文獻:
[1] 鄭小龍.決勝AI云端:芯火燎原看燧原[J].電子產(chǎn)品世界,2020(10):11-12.
(本文來源于《電子產(chǎn)品世界》雜志社2021年6月期)
評論