斷供英偉達(dá)高端GPU,國(guó)產(chǎn)芯片誰(shuí)來(lái)“續(xù)命”?
8月31日,英偉達(dá)發(fā)布公告稱,美國(guó)通知公司向中國(guó)出口A100和H100芯片將需要新的許可證要求,同時(shí)DGX或任何其他包含A100或H100芯片的產(chǎn)品,以及未來(lái)性能高于A100的芯片都將受到新規(guī)管制,同受限制的還包括AMD的M1250芯片。
隨后,9月1日—3日,在中國(guó)上海舉辦的世界人工智能大會(huì)(WAIC),國(guó)產(chǎn)芯片登場(chǎng)于聚光燈下,天數(shù)智芯、壁仞科技、燧原科技、瀚博半導(dǎo)體、寒武紀(jì)、地平線一眾國(guó)產(chǎn)AI芯片公司均展出了最新的技術(shù)和產(chǎn)品,先進(jìn)制程的大算力芯片迎來(lái)高光亮相。
一邊在面臨“生死圍剿”,一邊在“奮力發(fā)育”,博弈的拉力賽已然開(kāi)啟。
1
劍指HPC和AI,BAT難逃牽連
GPU芯片拉起警報(bào),已經(jīng)不是第一次了。
從2019年,華為被美國(guó)列入出口管制“實(shí)體清單”,到后來(lái)的“中興事件”,以及今年8月份美國(guó)政府直接豪擲527億美元,通過(guò)“芯片法案”,其中明文列舉了“中國(guó)護(hù)欄”條款,受到美國(guó)補(bǔ)貼企業(yè)禁止在中國(guó)大陸擴(kuò)大生產(chǎn)和投資更先進(jìn)的芯片,期限是10年,接著,美國(guó)商務(wù)部發(fā)布最終規(guī)定,對(duì)設(shè)計(jì)GAAFET(全柵場(chǎng)效應(yīng)晶體管)結(jié)構(gòu)集成電路所必須的EDA軟件等技術(shù)實(shí)施新的出口管制,相關(guān)禁令已于2022年8月15日正式生效。從芯片上“卡脖子”,意圖將中國(guó)排除在全球半導(dǎo)體供應(yīng)鏈之外,已經(jīng)成為美國(guó)的“陽(yáng)謀”。
而這一次的風(fēng)暴中心卻直指智能化、數(shù)字化的支柱產(chǎn)業(yè):HPC(高性能計(jì)算)和AI(人工智能)
為什么不限制Orin,而是限制GPU芯片?
“因?yàn)?a class="contentlabel" href="http://m.butianyuan.cn/news/listbylabel/label/英偉達(dá)">英偉達(dá)的GPU芯片對(duì)于訓(xùn)練人工智能系統(tǒng)至關(guān)重要,所以要卡在這個(gè)關(guān)鍵點(diǎn)上”。地平線創(chuàng)始人兼CEO余凱表示。
的確,GPU是AI時(shí)代的算力核心亦是人工智能競(jìng)爭(zhēng)的制高點(diǎn),訓(xùn)練集的反復(fù)訓(xùn)練和推理都需要強(qiáng)大算力的支撐,比如AI深度學(xué)習(xí)需要很高的并行計(jì)算、浮點(diǎn)計(jì)算以及矩陣運(yùn)算能力,基于CPU的傳統(tǒng)計(jì)算架構(gòu)無(wú)法充分滿足人工智能高性能并行計(jì)算(HPC)的需求,HPC主要包括數(shù)據(jù)中心、AI、FPGA和網(wǎng)絡(luò)四大應(yīng)用,而HPC應(yīng)用對(duì)于芯片的要求不在于微縮化,而是能否功耗更低,支撐更大的算力,因此需要發(fā)展適合HPC的專屬芯片,而AI00和H100則是目前最能高效匹配HPC計(jì)算需求的芯片配置了。
A100是英偉達(dá)2020年推出的數(shù)據(jù)中心級(jí)云端加速芯片,擁有540億晶體管,采用臺(tái)積電7nm工藝制程,支持FP16、FP32和FP64浮點(diǎn)運(yùn)算,為人工智能、數(shù)據(jù)分析和HPC數(shù)據(jù)中心等提供算力,F(xiàn)P64一般是衡量超級(jí)計(jì)算產(chǎn)品的重要指標(biāo)。
而H100是英偉達(dá)今年3月發(fā)布的最新一代數(shù)據(jù)中心GPU,集成800億晶體管,采用臺(tái)積電定制的4nm工藝,預(yù)計(jì)在今年下半年正式發(fā)貨。英偉達(dá)CEO黃仁勛此前表示,這款GPU具有超強(qiáng)的計(jì)算能力,20個(gè)H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。相比于A100,H100在FP16、FP32和FP64計(jì)算上比A100快三倍,非常適用于當(dāng)下流行且訓(xùn)練難度高的大模型。
“這兩款芯片都是具有足夠雙精度計(jì)算能力的高端GPU,主要用于HPC高性能計(jì)算領(lǐng)域,包括科學(xué)計(jì)算,CAE(計(jì)算機(jī)輔助工程),醫(yī)療等方面。尤其是對(duì)于超算中心而言,可謂是精準(zhǔn)打擊,超算中心即國(guó)家超級(jí)計(jì)算中心,由數(shù)千甚至更多處理器組成,具備超高算力,被譽(yù)為“計(jì)算機(jī)中的珠穆朗瑪峰”,主要滿足國(guó)家高科技領(lǐng)域和尖端技術(shù)研究的需求,很有可能國(guó)內(nèi)一些政府或者研究所相關(guān)單位的超算集群會(huì)因此受到影響?!币晃恍袠I(yè)人士表示到。
掃射的波及范圍不止于此,北京半導(dǎo)體行業(yè)協(xié)會(huì)副秘書長(zhǎng)朱晶表示:中國(guó)正在啟動(dòng)的東數(shù)西算戰(zhàn)略也會(huì)暫時(shí)受到影響,因?yàn)樗枰懔A(chǔ)設(shè)施支撐,另外,互聯(lián)網(wǎng)領(lǐng)域也難逃牽連。
目前國(guó)內(nèi)高端場(chǎng)景基本采用英偉達(dá)的A100,包括OEM廠商浪潮、聯(lián)想等,云服務(wù)公司阿里、騰訊、百度等,對(duì)于即將量產(chǎn)的H100,國(guó)內(nèi)主流廠商也已經(jīng)預(yù)定,如阿里云、百度云和騰訊云等,而國(guó)內(nèi)目前尚沒(méi)有能夠與A100、H100對(duì)標(biāo)的芯片產(chǎn)品,如果限制,等于各廠商的若干核心業(yè)務(wù)線都將被殃及,如百度智能云下的智慧金融、制造、醫(yī)療等,以及騰訊的數(shù)據(jù)分析和視頻分析領(lǐng)域等。
但誠(chéng)如硬幣兩面,既是難關(guān)也是闖關(guān),也許國(guó)產(chǎn)GPU廠商補(bǔ)位的機(jī)會(huì)到了。一位國(guó)內(nèi)GPU企業(yè)人員表示。
2
國(guó)產(chǎn)芯片誰(shuí)來(lái)“續(xù)命”?
不可否認(rèn),芯片半導(dǎo)體越來(lái)越具有戰(zhàn)略性質(zhì)。
芯片處理器的大量有機(jī)疊加,構(gòu)成了數(shù)據(jù)中心、智能計(jì)算中心、超算中心等大型基礎(chǔ)設(shè)施。更宏觀一點(diǎn)理解,這些芯片都是支撐政企數(shù)據(jù)上云、數(shù)字化進(jìn)程的底層元器件,可以說(shuō)是“新基建”的底層支撐,而高性能算力芯片更是“戰(zhàn)略咽喉”。
目前服務(wù)器加速,主要采用的是GPU芯片,占比接近90%,另外則是ASIC、FPGA等。GPGPU(通用GPU)芯片廣泛用于商業(yè)計(jì)算和大數(shù)據(jù)處理,如天氣預(yù)報(bào)、工業(yè)設(shè)計(jì)、基因工程、藥物發(fā)現(xiàn)、金融工程等,在人工智能領(lǐng)域,使用GPGPU(通用GPU)在云端運(yùn)行模型訓(xùn)練算法,可以顯著縮短海量訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí)長(zhǎng),減少能源消耗,從而進(jìn)一步降低人工智能的應(yīng)用成本。
不同應(yīng)用領(lǐng)域,對(duì)芯片計(jì)算能力及運(yùn)算精度要求也有所不同,比如用于商業(yè)計(jì)算和大數(shù)據(jù)處理(CAE仿真、物理化學(xué)、石油勘探、生命科學(xué)、氣象環(huán)境等),需要雙精度浮點(diǎn)、單精度浮點(diǎn)、32位整型運(yùn)算;人工智能(模型訓(xùn)練、應(yīng)用推理),要求混合精度浮點(diǎn)、半精度浮點(diǎn)、16位整形、8位整型運(yùn)算。
可喜的是,國(guó)內(nèi)GPU廠商已經(jīng)開(kāi)始嶄露頭角,成果初顯。
從熱鬧的PR新聞中,便可見(jiàn)一斑,進(jìn)軍算力芯片的國(guó)產(chǎn)廠商開(kāi)始頻“秀肌肉”,在今年世界人工智能大會(huì)上,瀚博半導(dǎo)體發(fā)布了首款7nm云端GPU SG100,用于圖像渲染、視頻和元宇宙等領(lǐng)域,同期,壁仞科技發(fā)布了公司自主研發(fā)的首款通用GPU芯片br100,可見(jiàn),躋身于算力芯片的國(guó)產(chǎn)GPU廠商隊(duì)伍正在加速攻關(guān),紛紛推出自研GPU。
目前國(guó)產(chǎn)高端算力芯片還有哪些呢?算力智庫(kù)基于當(dāng)下主要國(guó)產(chǎn)GPU廠商的進(jìn)展和產(chǎn)品參數(shù),不完全梳理如下:
1、海光信息(688041)
成立于2014年,不久前在科創(chuàng)板上市,海光信息的產(chǎn)品包括通用處理器(CPU)和協(xié)處理器(DCU),海光DCU屬于GPGPU的一種。
海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度,支持4個(gè)HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCm GPU計(jì)算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)。
從產(chǎn)品官宣的參數(shù)來(lái)看,海光DCU目前是國(guó)內(nèi)唯一支持FP64雙精度浮點(diǎn)運(yùn)算的產(chǎn)品,英偉達(dá)的A100、H100都支持FP64。
2、壁仞科技
成立于2019年,聚焦開(kāi)發(fā)原創(chuàng)性的通用計(jì)算體系,建立高效的軟硬件平臺(tái),同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決方案。
今年8月發(fā)布的首款通用GPU BR100,集成770億晶體管,支持FP16半精度浮點(diǎn)運(yùn)算,據(jù)該公司當(dāng)時(shí)宣稱,BR100的16位浮點(diǎn)算力能達(dá)到1000T以上,8位定點(diǎn)算力達(dá)到2000T以上,打破了全球的算力記錄,對(duì)標(biāo)的就是NVIDIA最高端的GPU芯片。
不過(guò)這款顯卡,目前還沒(méi)有上市被使用,具體性能如何,還有待后觀。
3、燧原科技
成立于2018年,主要聚焦AI云端算力領(lǐng)域,提供自主創(chuàng)新、全棧自研、具備完全自主知識(shí)產(chǎn)權(quán)的通用AI訓(xùn)練和推理產(chǎn)品,可廣泛用于云數(shù)據(jù)中心、超算中心、泛互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)及智慧城市等多個(gè)人工智能場(chǎng)景。
此前發(fā)布的第二代人工智能訓(xùn)練產(chǎn)品邃思2.0,支持從FP32、TF32、FP16、BF16 到INT8運(yùn)算,單精度FP32峰值算力40 TFLOPS,單精度張量TF32峰值算力160 TFLOPS。
4、天數(shù)智芯
成立于2015年,并在2018年正式啟動(dòng)7納米通用并行云端計(jì)算芯片設(shè)計(jì),是一家GPGPU高端芯片及超級(jí)算力系統(tǒng)提供商,瞄準(zhǔn)以云計(jì)算、人工智能、數(shù)字化轉(zhuǎn)型為代表的數(shù)據(jù)驅(qū)動(dòng)技術(shù)市場(chǎng)。
天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進(jìn)制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓(xùn)練,單芯算力每秒147T@FP16。
5、寒武紀(jì)(688256)
成立于2016年,2020年7月,寒武紀(jì)順利登陸A股,成為科創(chuàng)板AI芯片第一股。主要開(kāi)發(fā)云邊端一體、軟硬件協(xié)同、訓(xùn)練推理融合、具備統(tǒng)一生態(tài)的系列化智能芯片產(chǎn)品和平臺(tái)化基礎(chǔ)系統(tǒng)軟件,廣泛應(yīng)用于服務(wù)器廠商和產(chǎn)業(yè)公司。
寒武紀(jì)2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強(qiáng)了FP16、BF16以及FP32的浮點(diǎn)算力,在全新MLUarch03架構(gòu)和7nm先進(jìn)工藝加持下,8位定點(diǎn)算力最高為256TOPS。
在能耗都在150W的水平下,其算力與同期競(jìng)品英偉達(dá)的A10在同一水平。
6、地平線
成立于2015年,是目前國(guó)內(nèi)唯一一家實(shí)現(xiàn)車規(guī)級(jí)AI芯片前裝量產(chǎn)的公司,通過(guò)自研AI專用計(jì)算架構(gòu)BPU(Brain Processing Unit),地平線構(gòu)建了面向自動(dòng)駕駛領(lǐng)域的征程系列芯片,以及面向AIoT領(lǐng)域的旭日系列芯片兩大產(chǎn)品線。其中,公司于2021年7月發(fā)布了全場(chǎng)景整車智能中央計(jì)算芯片征程5,單芯片AI算力達(dá)128TOPS。
7、瀚博高新(301321)
成立于2018年,2022年8月18日在深交所創(chuàng)業(yè)板上市,在2022世界人工智能大會(huì)上展示其首款云端通用AI推理芯片SV100,以及瀚博統(tǒng)一計(jì)算架構(gòu)、全新數(shù)據(jù)中心(云端)AI 推理卡載天VA10、邊緣 AI 推理加速卡載天VE1、瀚博軟件平臺(tái)VastStream擴(kuò)展版。并且預(yù)覽展示(未發(fā)布)國(guó)產(chǎn)7nm云端GPU芯片SG100。載天VE1在40~65瓦功耗下,INT8峰值算力達(dá)100TOPS,吞吐率達(dá)到主流GPU的2倍,但延時(shí)不到主流GPU的5%。
對(duì)比來(lái)看,目前國(guó)內(nèi)廠商的芯片水平,相比于英偉達(dá)的A100和H100還是存在差距的,但是已經(jīng)有部分廠商正在努力慢慢向高端滲透,縮小差距,比如海光、寒武紀(jì)、壁仞科技,不過(guò)這中間意味著除了資金、人才等資源的高密集投入,也需要從生態(tài)配套上發(fā)力,包括操作系統(tǒng)、架構(gòu)創(chuàng)新和軟硬協(xié)同,如果真的能夠頂上來(lái),那么高端AI、FP方面的GPU也就不愁了。
不妨測(cè)算一下,萬(wàn)億市場(chǎng)規(guī)模,自產(chǎn)約4,000億,進(jìn)口約6,000億,假如完全國(guó)產(chǎn)替代我國(guó)芯片產(chǎn)值就將增長(zhǎng)150%,到這個(gè)時(shí)候,或許國(guó)產(chǎn)GPU才迎來(lái)真正崛起。
專有名詞注釋
FLOPS:即每秒浮點(diǎn)運(yùn)算次數(shù),是每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)(Floating-point operations per second;縮寫:FLOPS)的簡(jiǎn)稱,被用來(lái)評(píng)估處理器的性能,這個(gè)參數(shù)可以說(shuō)明顯卡或者GPU每秒能處理多少個(gè)像素點(diǎn)。
TFLOPS:TFLOPS是Tera和Floating-point operations per second兩個(gè)詞的組合,Tera則是萬(wàn)億的意思,合起來(lái)就是每秒浮點(diǎn)運(yùn)算多少萬(wàn)億次,一個(gè)TFLOPS等于每秒一萬(wàn)億(=10^12)次的浮點(diǎn)運(yùn)算,1TOPS相當(dāng)于1TFLOPS。
GPGPU:通用圖形處理器(General-purpose computing on graphics processing units,簡(jiǎn)稱GPGPU),通常,GPU 專用于圖形渲染。GPGPU 用于以前屬于高功率 CPU 領(lǐng)域的任務(wù),例如物理計(jì)算、加密/解密、科學(xué)計(jì)算和比特幣等加密貨幣的生成。
CPU:Central Processing Unit, 中央處理器,相當(dāng)于機(jī)器的“大腦”,主要包括運(yùn)算器(ALU, Arithmetic and Logic Unit)、控制單元(CU, Control Unit)、寄存器(Register)、高速緩存器(Cache)和它們之間通訊的數(shù)據(jù)、控制及狀態(tài)的總線。
GPU:Graphics Processing Unit, 圖像處理器,GPU最初用在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備上運(yùn)行繪圖運(yùn)算工作的微處理器。
BPU:Brain Processing Unit, 大腦處理器。
評(píng)論