國(guó)產(chǎn)AI芯片之爭(zhēng)才剛剛開(kāi)始

作者：時(shí)間：2023-07-04 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

近日，芯片巨頭 AMD 推出全新 AI GPU MI300 系列芯片，與英偉達(dá)在 AI 算力市場(chǎng)展開(kāi)競(jìng)爭(zhēng)。

本文引用地址：http://m.butianyuan.cn/article/202307/448271.htm

AMD 首席執(zhí)行官蘇姿豐介紹稱，MI300X 提供的高帶寬內(nèi)存（HBM）密度是英偉達(dá) H100 的 2.4 倍，HBM 帶寬是競(jìng)品的 1.6 倍。華爾街分析師也普遍認(rèn)為，AMD 的這款芯片將對(duì)目前掌握 AI 芯片市場(chǎng)逾八成份額的英偉達(dá)構(gòu)成有力挑戰(zhàn)，這款 MI300X 加速器，有望替代英偉達(dá)的同類產(chǎn)品。

然而，市場(chǎng)對(duì)本次新品的反響似乎并不熱烈。截至隔夜收盤(pán)，AMD 股價(jià)下跌超 3.6%，被挑戰(zhàn)的英偉達(dá)不跌反漲，股價(jià)單日大漲 3.90%。

至于當(dāng)日 AMD 股價(jià)下跌的原因，可能包括英偉達(dá)在 AI 發(fā)展方面更為成熟，而 AMD 公司的新品仍有待市場(chǎng)驗(yàn)證。此外，其客戶更關(guān)心的是價(jià)格問(wèn)題。作為參考，由于供需緊張，英偉達(dá) H100 的價(jià)格已經(jīng)達(dá)到 4 萬(wàn)美元/枚，而 AMD 沒(méi)有披露 MI300X 的定價(jià)，難以與英偉達(dá) H100 形成對(duì)比。

躥紅的英偉達(dá)

2022 年 ChatGPT 橫空出世，把 AI 行業(yè)的發(fā)展推向了一個(gè)新的高潮，生成式 AI 需要基于海量的數(shù)據(jù)進(jìn)行推理訓(xùn)練，高算力的 GPU 加速卡自然也成了市場(chǎng)的搶手貨。乘著 AI 的東風(fēng)，英偉達(dá)坐上了「算力霸主」的寶座。

據(jù)悉，微軟用幾億美元，耗費(fèi)上萬(wàn)張英偉達(dá) A100 芯片打造超算平臺(tái)，只為給 ChatGPT 和新版必應(yīng)提供更好的算力。不僅如此，微軟還在 Azure 的 60 多個(gè)數(shù)據(jù)中心部署了幾十萬(wàn)張 GPU，用于 ChatGPT 的推理。特斯拉 CEO 馬斯克也購(gòu)買(mǎi)了約 1 萬(wàn)個(gè) GPU，用于公司的兩個(gè)數(shù)據(jù)中心之一。除此之外，像亞馬遜、阿里、百度等眾多科技公司都在競(jìng)相部署 AI 芯片。

供需的極度不平衡讓英偉達(dá)的 GPU 一芯難求，開(kāi)啟漲價(jià)。據(jù)市場(chǎng)消息人士透露，英偉達(dá)的 A100 和 H100 AI GPU 訂單還在不斷增加，A800 和 H800 的售價(jià)已上漲 40%，新訂單交期可能要延長(zhǎng)到 12 月份。

在炙手可熱的 AI 浪潮下，英偉達(dá)賺得盆滿缽滿。英偉達(dá)表示，其截至 7 月的本季度銷(xiāo)售額預(yù)計(jì)將達(dá) 110 億美元，較華爾街之前的估計(jì)高出 50% 以上。不過(guò)，作為 AI 的基礎(chǔ)設(shè)施，算力芯片環(huán)節(jié)的「一家獨(dú)大」顯然不是有利于行業(yè)長(zhǎng)遠(yuǎn)發(fā)展的生態(tài)，市場(chǎng)迫切需要引入新的競(jìng)爭(zhēng)者，AMD 的出現(xiàn)或許有望「分擔(dān)」AI 市場(chǎng)的壓力。

與此同時(shí)，中國(guó)本土 AI 應(yīng)用和 AI 芯片初創(chuàng)公司也隨著 AI 的熱潮和風(fēng)投的關(guān)注而遍地開(kāi)花。那么，中國(guó)的 AI 芯片研究進(jìn)展如何了？哪些公司可以脫穎而出？

國(guó)產(chǎn) AI 芯片進(jìn)展幾何？

中國(guó)主要的 AI 芯片公司有寒武紀(jì)、華為昇騰、海光信息、沐曦科技、壁仞科技、燧原科技、天數(shù)智芯等，隨著 AI 應(yīng)用的普及和成效開(kāi)始凸顯，國(guó)產(chǎn) AI 芯片正迎來(lái)全面爆發(fā)和增長(zhǎng)，多家 AI 芯片獨(dú)角獸也將慢慢浮出水面。

寒武紀(jì)

在云端產(chǎn)品線，寒武紀(jì)已經(jīng)推出了四代芯片產(chǎn)品，分別為：思元 100、思元 270、思元 290（車(chē)載）以及思元 370 系列，用以支撐在云計(jì)算和數(shù)據(jù)中心場(chǎng)景下復(fù)雜度和數(shù)據(jù)吞吐量高速增長(zhǎng)的人工智能處理任務(wù)。此外，寒武紀(jì)還有一款在研產(chǎn)品思元 590，尚未正式發(fā)布，并且最有看頭的便是寒武紀(jì)的思元 590。

該芯片采用 MLUarch05 全新架構(gòu)，實(shí)測(cè)訓(xùn)練性能較在售旗艦產(chǎn)品思元 290 系列有大幅提升，有望成為國(guó)產(chǎn)先進(jìn) AI 算力芯片。據(jù)悉，思元 590 整體算力綜合性能大約是 A100 的 70%，其有望在部分場(chǎng)景替代英偉達(dá) A100。

不過(guò)，思元 590 的指令兼容性相對(duì)較差，后續(xù)可能影響部署。值得注意的是，其下一代產(chǎn)品的性能指標(biāo)大約是 A100 的 1.5 倍，但同樣面臨軟件生態(tài)影響，以及供應(yīng)鏈問(wèn)題。

華為昇騰

華為昇騰主要包括昇騰 910 和昇騰 310 兩款處理器，采用自家的達(dá)芬奇架構(gòu)。昇騰 310 主打面向邊緣場(chǎng)景的低功耗 AI 處理器，昇騰 910 是一款面向云端和數(shù)據(jù)中心的高性能 AI 處理器，可以支持超大規(guī)模的 AI 訓(xùn)練任務(wù)，表現(xiàn)十分優(yōu)秀。

據(jù)華為發(fā)布的信息，實(shí)際測(cè)試結(jié)果表明，在算力方面，昇騰 910 完全達(dá)到了設(shè)計(jì)規(guī)格，即：半精度 (FP16）算力達(dá)到 256 Tera-FLOPS，整數(shù)精度 (INT8) 算力達(dá)到 512 Tera-OPS，重要的是，達(dá)到規(guī)格算力所需功耗僅 310W，明顯低于設(shè)計(jì)規(guī)格的 350W。

據(jù)悉，在實(shí)際應(yīng)用過(guò)程中，昇騰 910 的處理速度比業(yè)界同類產(chǎn)品快 80% 以上。徐直軍表示，昇騰 910 總體技術(shù)表現(xiàn)超出預(yù)期，作為算力最強(qiáng) AI 處理器，當(dāng)之無(wú)愧。

不過(guò)昇騰 910 也有著很大的局限性。昇騰 910 依賴華為自身軟件生態(tài)、需要華為深度優(yōu)化及代碼移植，通用性相對(duì)要差一些，比如昇騰不能做 GPT-3，因?yàn)闀N騰 910 不支持 32 位浮點(diǎn)，而目前大模型訓(xùn)練幾乎都要使用 32 位的浮點(diǎn)。

沐曦科技

沐曦公司旗下主要有曦思和曦云兩款 AI 芯片，其中曦云 MXC 系列是該公司研發(fā)的用于 AI 訓(xùn)練及通用計(jì)算的 GPU 芯片。

MXC500 是沐曦對(duì)標(biāo) A100/A800 的算力芯片，F(xiàn)P32 浮點(diǎn)性能可達(dá) 15TFlops，作為對(duì)比的是 A100 顯卡 FP32 性能 19.5 TFLOPS。除了性能接近之外，MXC500 的完整軟件棧（MXMACA）還兼容 CUDA，預(yù)計(jì)年底規(guī)模出貨。

此外，沐曦的團(tuán)隊(duì)背景經(jīng)驗(yàn)十分豐富，其一些核心人員曾參與 AMD 的 MI100、MI200 產(chǎn)品開(kāi)發(fā)，這都是 AMD 目前最主流的 GPGPU 產(chǎn)品。

海光信息

海光信息是一個(gè)潛力股，拿海光 DCU（協(xié)處理器）系列深算一號(hào)和英偉達(dá)的 A100、AMD 的 MI100 來(lái)對(duì)比，其很多基本指標(biāo)上都達(dá)到國(guó)際同類高端產(chǎn)品的水平，雖然在整體性能上依然有明顯差距，但在國(guó)產(chǎn)替代的背景下其實(shí)已經(jīng)相當(dāng)優(yōu)秀，發(fā)展?jié)摿薮蟆?/span>

不過(guò)，海光信息若要使用新一代 GPGPU 架構(gòu)還需要 AMD 授權(quán)，存在迭代問(wèn)題。

壁仞科技

壁仞的 BR100 發(fā)布時(shí)，憑借其超高的參數(shù)與性能引起了強(qiáng)烈的轟動(dòng)。

參數(shù)方面，BR100 系列基于 7nm 制程工藝打造，擁有 770 億個(gè)晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開(kāi)發(fā)，采用 Chiplet（芯粒）、2.5D CoWoS 等先進(jìn)的設(shè)計(jì)、制造與封裝技術(shù)，可搭配 64GB HBM 2E 顯存，超 300MB 片上緩存，支持 PCIe 5.0、CXL 互聯(lián)協(xié)議等。

性能是 BR100 最具亮點(diǎn)的地方，擁有 1024 TOPS INT8，512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32，可實(shí)現(xiàn) 2.3TB/s 的外部 I/O 帶寬，支持 64 路編碼、512 路解碼等，號(hào)稱在 FP32（單精度浮點(diǎn)）、INT8（整數(shù)，常用于人工智能推理）等維度，均超越了國(guó)際廠商最新旗艦。

BR100 系列通用 GPU 芯片支持云端訓(xùn)練和推理，目前已經(jīng)到了收尾階段，預(yù)計(jì)將在今年流片。壁仞科技的第二款芯片已經(jīng)開(kāi)始啟動(dòng)架構(gòu)設(shè)計(jì)，之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計(jì)算的 GPU 芯片。

不過(guò)，BR100 還未有產(chǎn)品出來(lái)，其參數(shù)至今停留在實(shí)驗(yàn)室階段，屆時(shí)商用實(shí)測(cè)性能難以衡量。

阿里平頭哥

阿里的 AI 芯片，與 GPU 架構(gòu)有著很大的不同，因?yàn)樗麄冏龅耐耆腔?AI 算法優(yōu)化的架構(gòu)。

阿里曾表示，含光 800 是當(dāng)時(shí)全球最強(qiáng)的 AI 芯片，性能和能效比均為第一，1 顆含光 800 的算力相當(dāng)于 10 顆 GPU。

含光 800 芯片在業(yè)界標(biāo)準(zhǔn)的 ResNet-50 測(cè)試中，推理性能達(dá)到 78563 IPS，比目前業(yè)界最好的 AI 芯片性能高 4 倍；能效比 500 IPS/W，是第二名的 3.3 倍。

在業(yè)界，平頭哥發(fā)布的這款芯片也很被看好。

燧原科技

燧原科技，是少有的云端 AI 芯片創(chuàng)業(yè)公司，其完成對(duì) AI 訓(xùn)練芯片的二次迭代，僅用了三年時(shí)間，主要產(chǎn)品是「邃思」。

據(jù)介紹，燧原科技發(fā)布的邃思 2.0 的尺寸達(dá)到 57.5 毫米×57.5 毫米（面積為 3306mm2），達(dá)到了日月光 2.5D 封裝的極限，與上代產(chǎn)品一樣采用格羅方德 12nm FinFET 工藝，內(nèi)部共整合 9 顆芯片，單精度 FP32 算力為 40TFLOPS，單精度張量 TF32 算力為 160TFLOPS，整數(shù)精度 INT8 算力為 320TOPS。相比之下，英偉達(dá)基于 Ampere 架構(gòu)的 A100 GPU 的單精度浮點(diǎn)計(jì)算能力僅為 19.5TFLOPS。

昆侖芯

百度昆侖芯片是百度自主研發(fā)的云端 AI 通用芯片。在 2018 年 7 月舉辦的百度 AI 開(kāi)發(fā)者大會(huì)上，百度公司董事長(zhǎng)兼 CEO 李彥宏正式宣布，百度自研 AI 芯片命名為昆侖。百度昆侖 1 于 2019 年成功流片，采用三星 14nm 制程工藝，目前量產(chǎn)超過(guò) 2 萬(wàn)片，在百度搜索引擎和百度智能云生態(tài)伙伴等場(chǎng)景廣泛部署。百度昆侖 2 于 2021 年下半年實(shí)現(xiàn)量產(chǎn)，采用 7nm 先進(jìn)工藝，其性能比百度昆侖 1 再提升 3 倍。據(jù)悉，百度正計(jì)劃在年底做第三款昆侖芯片。

天數(shù)智芯

天數(shù)智芯主要包括天垓 100 和智鎧 100 兩款 AI 芯片，天垓 100 是一款基于 GPGPU 架構(gòu)芯片的高性能云端通用并行計(jì)算卡，據(jù)介紹，天垓 100 從底層硬件到上層軟件都是獨(dú)立設(shè)計(jì)開(kāi)發(fā)，不走購(gòu)買(mǎi)國(guó)外 GPU IP 的捷徑，確保了完全自主知識(shí)產(chǎn)權(quán)。隨后天數(shù)智芯又發(fā)布了其第二款產(chǎn)品「智鎧 100」，這款芯片被譽(yù)為「鎮(zhèn)館之寶」，吸引了眾多行業(yè)用戶的關(guān)注。

天數(shù)智芯 GPGPU 計(jì)算芯片主要針對(duì)云端 AI 訓(xùn)練+推理和云端通用計(jì)算，是國(guó)內(nèi)難得的兼容 CUDA 等異構(gòu)計(jì)算生態(tài)的數(shù)據(jù)中心高端計(jì)算芯片。

只靠算力，無(wú)法做英偉達(dá)的 PlanB

英偉達(dá)的強(qiáng)不只是體現(xiàn)在硬件產(chǎn)品上，在軟件平臺(tái)中，英偉達(dá)也有自己的護(hù)城河。

CUDA 就是英偉達(dá)推出的基于 GPU 的并行計(jì)算平臺(tái)和編程模型，可以用來(lái)加速大規(guī)模數(shù)據(jù)并行計(jì)算，使得 GPU 可以用于更加廣泛的科學(xué)計(jì)算和工程計(jì)算等領(lǐng)域。CUDA 的良好生態(tài)系統(tǒng)吸引了眾多學(xué)術(shù)機(jī)構(gòu)和高性能計(jì)算中心的關(guān)注和使用，也為英偉達(dá)提供了強(qiáng)有力的市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)?，F(xiàn)在 AMD 也在做同樣的事情，只是英偉達(dá)已經(jīng)占了先發(fā)優(yōu)勢(shì)，AMD 搭建起來(lái)可能會(huì)更為艱難。

CUDA 的重要性不言而喻，但是提供 CUDA 兼容層，需要廠商具備足夠的研發(fā)實(shí)力，上文提到的與 CUDA 兼容的有沐曦、海光、壁仞、天數(shù)智芯等公司，因此是否兼容 CUDA 也成為衡量 AI 芯片公司的標(biāo)的之一。

至于是否一定要兼容 CUDA，業(yè)界有著不同見(jiàn)解。專家稱，在小模型上 CUDA 仍然很重要，但在大模型上它的地位越來(lái)越輕了。如果未來(lái)中國(guó)市場(chǎng)以小模型為主，那 CUDA 還是有很大的影響力，而如果是以大模型為主，對(duì)于 CUDA 的依賴就越來(lái)越小了。

總而言之，重視軟件配適開(kāi)發(fā)至關(guān)重要。

對(duì)于建立國(guó)產(chǎn) IT 系統(tǒng)的行動(dòng)建議包括：設(shè)置合理國(guó)產(chǎn)系統(tǒng)及芯片性能要求和驗(yàn)證目的，從非關(guān)鍵應(yīng)用開(kāi)始嘗試導(dǎo)入部分國(guó)產(chǎn)芯片；加強(qiáng)軟件配適開(kāi)發(fā)，確保軟件對(duì)不同系統(tǒng)的兼容性、穩(wěn)定性和運(yùn)營(yíng)性能；建立加強(qiáng)對(duì)國(guó)內(nèi)基礎(chǔ) IT 軟硬件廠商的投資，確保廠商對(duì)產(chǎn)品開(kāi)發(fā)計(jì)劃的影響力；優(yōu)先考慮國(guó)內(nèi)供應(yīng)鏈和成熟平臺(tái)，積極采用半導(dǎo)體創(chuàng)新技術(shù)。

未來(lái)與英偉達(dá)的差距定然會(huì)逐步縮小

目前芯片已經(jīng)成為半導(dǎo)體行業(yè)中最具有發(fā)展?jié)摿Φ念I(lǐng)域之一，AI 芯片作為推動(dòng)芯片行業(yè)發(fā)展的核心市場(chǎng)，其行業(yè)價(jià)值無(wú)法估計(jì)，隨著 AI 芯片技術(shù)的逐漸成熟，其應(yīng)用場(chǎng)景逐步滲透到各類智能終端領(lǐng)域中，在我國(guó)科技發(fā)展中占據(jù)越來(lái)越重要的地位。

根據(jù) Gartner 的數(shù)據(jù)，在目前全球半導(dǎo)體產(chǎn)業(yè)中，中國(guó) GPU 的全球市場(chǎng)占比規(guī)模僅 1%。2022 年，在全球 6000 億美元的半導(dǎo)體采購(gòu)中，中國(guó)企業(yè)的芯片采購(gòu)規(guī)模達(dá)到 1490 億美元，占到四分之一；跨國(guó)企業(yè)的中國(guó)工廠芯片采購(gòu)規(guī)模達(dá)到 2130 億美元，占比 35%。

中國(guó)的芯片產(chǎn)業(yè)還有著巨大的發(fā)展?jié)摿?。未?lái)，中國(guó)芯片產(chǎn)業(yè)將繼續(xù)加大投資，國(guó)內(nèi)企業(yè)與英偉達(dá)的距離也一定會(huì)逐步縮小。