圖形處理器GPU行業(yè)研究:破曉而生,踏浪前行
GPU:核心計算底座
GPU,指 Graphics Processing Unit,圖形處理器,進行圖形和圖像相關(guān)運算工作的微 處理器。在該產(chǎn)品基礎(chǔ)上,衍生出 GPGPU,即 General Purpose Graphics Processing Unit,其在圖形處理器 GPU 的基礎(chǔ)上進行改造,使之可以進行部分科學(xué)計算和 AI 計算 等的處理器。GPU 概念自 20 世紀(jì) 70 年代末提出,其角色變換從最早分擔(dān) CPU 壓 力的附屬硬件,到由于能承擔(dān)大規(guī)模運算而逐漸被人們重視。
摩爾定律放緩無法匹配爆發(fā)式算力需求,GPU 興起
歷史上,由于摩爾定律的存在,使得 CPU 處理器的性能可以滿足應(yīng)用軟件不斷升級的 需求。但近幾年隨著半導(dǎo)體技術(shù)改進達到物理極限,電路復(fù)雜度逐漸提升。2016 年 3 月 24 日,英特爾宣布正式停用“Tick-Tock”處理器研發(fā)模式,未來研發(fā)周期將從兩年周 期向三年期轉(zhuǎn)變。至此,摩爾定律對英特爾幾近失效。 隨著互聯(lián)網(wǎng)用戶和各類網(wǎng)絡(luò)應(yīng)用的快速增長,數(shù)據(jù)體量的急劇膨脹,數(shù)據(jù)中心對計算的 需求也在迅猛上漲。諸如深度學(xué)習(xí)在線預(yù)測、直播中的視頻轉(zhuǎn)碼、圖片壓縮解壓縮以及 HTTPS 加密等各類應(yīng)用對計算的需求已遠遠超出了傳統(tǒng) CPU 處理器的能力所及。 一方面處理器性能再無法按照摩爾定律進行增長,另一方面數(shù)據(jù)增長對計算性能要求超 過了按“摩爾定律”增長的速度。CPU 處理器本身無法滿足計算性能需求,導(dǎo)致需求和 性能之間出現(xiàn)了缺口。解決方法是通過硬件加速,采用專用協(xié)處理器的異構(gòu)計算方式來 提升處理性能,而 GPU 憑借其相對通用靈活和適應(yīng)并行計算等特性成為主要選擇。
GPU 在并行運算層面具備一定優(yōu)勢
當(dāng)前主要興起的計算芯片分別為 GPU、ASIC、FPGA 等,其中 GPU 最初專用于圖形 處理制作,后逐漸應(yīng)用于計算。其內(nèi)部包含大量的運算單元核心,盡管單個核心緩存較 小,邏輯功能簡單,僅能執(zhí)行有限類型的邏輯運算操作,但其多核心架構(gòu)天然適合執(zhí)行 復(fù)雜的數(shù)學(xué)和幾何計算,且科學(xué)計算領(lǐng)域通用性較高,相比 CPU,綜合性能更好。當(dāng)前 缺點在于功耗過高,效率不足。
GPU 是核心計算資源底座。雖然提供各類計算資源的芯片種類眾多,但 GPU 依然是市 場的最為主要的支撐點。以在 AI 市場的應(yīng)用為例,IDC 研究發(fā)現(xiàn),2021 年上半年中國 人工智能芯片中,GPU 依然是實現(xiàn)數(shù)據(jù)中心加速的首選,占有 90% 以上的市場份額, 而 ASIC、FPGA、NPU 等其他非 GPU 芯片也在各個行業(yè)和領(lǐng)域被越來越多地采用, 整體市場份額接近 10%。
歷史復(fù)盤:當(dāng)前 GPU 進入高速發(fā)展期
前 GPU 時代,圖形處理器初具雛形:1981 年世界上第一臺個人電腦 IBM5150 由 IBM 公司發(fā)布,其搭配黑白顯示適配器與彩色圖形適配器,是最早的圖形顯示控制器。20 世 紀(jì) 80 年代初期,出現(xiàn)了以 GE 芯片為標(biāo)志的圖形處理器,GE 芯片的具備四位向量的浮 點運算功能,可以實現(xiàn)圖形渲染過程中的矩陣,裁剪,投影等運算,其出現(xiàn)標(biāo)志著計算 機圖形學(xué)進入以圖形處理器為主導(dǎo)的階段。后續(xù)隨著 GE 等圖形處理器功能不斷完善, 圖形處理功能逐漸由 CPU 向 GPU(前身)轉(zhuǎn)移。
GeForce 256 橫空出世,GPU 正式誕生:20 世紀(jì) 90 年代,NVIDIA 進入個人電腦 3D 市場,并于 1999 年推出具有標(biāo)志意義的圖形處理器 GeForce 256,真正意義上的 GPU 第一次出現(xiàn)。相較過往圖形處理器,第二代 GPU GeForce 256 將 T&L 硬件(用于處理 圖形的整體角度旋轉(zhuǎn)與光暈陰影等三維效果)從 CPU 中分離出來并整合進 GPU 中,使 得 GPU 可以獨立進行三維頂點的空間坐標(biāo)變換,將 CPU 從繁重的光照計算中解脫出 來。即便是低端 CPU,搭配了支持硬件 T&L 的顯卡也可以流暢地玩游戲,這使得英偉 達在市場競爭中能以產(chǎn)品價格獲得較大優(yōu)勢,市占率持續(xù)提升。 頂點編程確立 GPU 編程思路:經(jīng)過 2000 年的顯卡廠商洗牌后,S3、SIS 等廠商無力 與英偉達和 ATI 競爭,逐漸淡出了顯卡市場,擁有產(chǎn)品高速迭代能力的 ATI 成為繼 3Dfx 后唯一有實力和英偉達競爭的廠商。2002 年第三代 GPU 芯片陸續(xù)推出(如英偉達的 GeForce 4Ti 與 ATI 的 8500),其均具備頂點編程能力,可以通過賦予特定算法在工作 中改變?nèi)S模型的外形。頂點編程能力的出現(xiàn)確立了GPU芯片的編程思路,使后續(xù)GPU 芯片用于其他計算領(lǐng)域成為可能。但本時期 GPU 尚不支持像素級編程能力(片段編程 能力),其編程自由度尚不完備。
GPU 用于通用計算,GPGPU 概念出現(xiàn):2003 年 SIGGRAPH 大會上首次提出將 GPU 運用于通用運算,為 GPGPU 的出現(xiàn)打下基礎(chǔ)。其后 3 年,通過用統(tǒng)一的流處理器取代 GPU 中原有的不同著色單元的設(shè)計釋放了 GPU 的計算能力,第四代 GPU 均具有頂點 編程和片段編程能力,完全可編程的 GPU 正式誕生。由于 GPU 的并行處理能力強于 CPU,因此 GPU 可以在同一時間處理大量頂點數(shù)據(jù),使其在人體 CT、地質(zhì)勘探、氣象 數(shù)據(jù)、流體力學(xué)等科學(xué)可視化計算處理上具備較大優(yōu)勢,足以滿足各項實時性任務(wù)。后 續(xù)伴隨線性代數(shù)、物理仿真和光線跟蹤等各類算法向 GPU 芯片移植,GPU 由專用圖形 顯示向通用計算逐漸轉(zhuǎn)型。 架構(gòu)持續(xù)迭代,AI 計算關(guān)注度漸起:2010 年英偉達發(fā)布了全新 GPU 架構(gòu) Fermi,其是 支持 CUDA 的第三代 GPU 架構(gòu)(第一代與第二代分別是 G80 架構(gòu)與 GT200 架構(gòu))。 彼時英偉達在 Fermi 架構(gòu)的設(shè)計上并未對 AI 計算場景做特定設(shè)置,但 GPU 芯片在 AI 計算領(lǐng)域相較 CPU 芯片已擁有了較大優(yōu)勢(GTX580 峰值算力較 i7-920 峰值算力高出 一個數(shù)量級)。隨后在 2012、2014 年陸續(xù)發(fā)布的 Kepler 架構(gòu)、Maxwell 架構(gòu)中,盡管 英偉達并未在硬件層面對 AI 計算做特定優(yōu)化,但在軟件層面卻引入了深度神經(jīng)網(wǎng)絡(luò)加 速庫 cuDNN v1.0,使英偉達 GPU 的 AI 計算性能與易用性得到提升。
Pascal 架構(gòu)發(fā)布,AI 計算專精版本到來:Pascal 架構(gòu)在 2016 年 3 月被推出,是英偉 達面向 AI 計算場景發(fā)布的第一版架構(gòu)。其硬件結(jié)構(gòu)中加入了諸如 FP16(半精度浮點數(shù) 計算)、NVLink(總線通信協(xié)議,用于可用于單 CPU 配置多 GPU)、HBM(提升訪存 帶寬)、INT8 格式支持(支持推理場景)等技術(shù),而軟件層面也發(fā)布了面向推理加速場 景的 TensorRT 與開源通信函數(shù)庫 NCCL,Pascal 架構(gòu)在 AI 計算領(lǐng)域的前瞻性布局使 得英偉達后續(xù)架構(gòu)在競爭中具有著較大優(yōu)勢。 細分場景不斷追趕,GPU 迎來高速發(fā)展期:繼 Pascal 架構(gòu)后,面對 Google TPU 在 AI 計算層面帶來的壓力,英偉達先后更新了 Volta(2017)、Turing(2018)、Ampere(2020) 架構(gòu)。AI 計算領(lǐng)域的技術(shù)代差在 Volta 架構(gòu)通過引入第一代 Tensor Core 在訓(xùn)練場景進 行了拉平,隨后 Turing 架構(gòu)的第二代 Tensor Core 在推理場景上進行了拉平,直到 Ampere 時代,NV 才算再次鞏固了自己在 AI 計算領(lǐng)域的龍頭地位。雙方激烈競爭下, GPU 迎來高速發(fā)展期。
多點開花,GPU 市場高速成長
我們認為,當(dāng)前全社會對算力需求將長期保持提升態(tài)勢,而 GPU 作為支撐眾多科技領(lǐng) 域發(fā)展的底層核心,是數(shù)據(jù)計算的核心底座,在商業(yè)計算、人工智能等諸多板塊均有著 較為廣泛的使用,是科技行業(yè)的重要支撐。
GPU 的市場空間廣闊,正穩(wěn)健增長。依據(jù) T4 的統(tǒng)計數(shù)據(jù),2020 年全球 GPU 市場規(guī)模 價值 200 億美元,預(yù)計 2021 年將增長 15%,從 2015 年到 2025 年平均每年增長 13%, 從 80 億美元擴大到 350 億美元。而依據(jù) Allied Market Research 預(yù)測,2019 年全球 GPU 市場規(guī)模為 197.5 億美元,預(yù)計到 2027 年將達到 2008.5 億美元,2020 年至 2027 年的復(fù)合年增長率為 33.6%,對比來看 Allied Market Research 對 GPU 市場空 間更為樂觀。
從下游應(yīng)用來看,GPU 需求仍在快速增長期。游戲領(lǐng)域是 GPU 應(yīng)用的傳統(tǒng)應(yīng)用領(lǐng)域, 參考 GPU 全球龍頭英偉達的營收數(shù)據(jù),其游戲領(lǐng)域業(yè)務(wù)收入由 2019 年的 55.18 億元 增長至 2021 年的 124.62 億元,近三年符合增長率 31.20%,整體趨勢保持穩(wěn)定增長, 為英偉達占比最高的業(yè)務(wù)。另一方面,伴隨人工智能算法的不斷普及和應(yīng)用,以及對商 業(yè)計算和大數(shù)據(jù)處理的算力需求的不斷增長,全球范圍內(nèi)數(shù)據(jù)中心對計算加速硬件的需 求不斷上升。英偉達數(shù)據(jù)中心業(yè)務(wù)收入由 2019 年的 29.83 億美元增長至 2021 年的 106.13 億美元,近三年復(fù)合增長率高達 52.66%,增速遠超其他板塊業(yè)務(wù)。NVIDIA 數(shù) 據(jù)中心業(yè)務(wù)收入的快速增長體現(xiàn)了下游數(shù)據(jù)中心市場對于泛人工智能類芯片(以 GPU 為主)的旺盛需求。
國內(nèi)需求不斷涌現(xiàn),計算類 GPU 市場高速增長。依據(jù)前瞻產(chǎn)業(yè)研究院數(shù)據(jù),2020 年預(yù) 計國內(nèi)人工智能芯片市場規(guī)模約為 178 億元,且市場規(guī)模隨下游應(yīng)用領(lǐng)域的拓展而高速 增長。人工智能芯片由 GPU、ASIC、FPGA 與 NPU 構(gòu)成,其中 GPU 以科學(xué)計算型為 主,其憑借著在性能、能耗比與編程靈活性等領(lǐng)域的綜合優(yōu)勢,在人工智能芯片中占據(jù)主要地位。據(jù) IDC 數(shù)據(jù)顯示,2021 年中國加速服務(wù)器市場中 GPU 約占人工智能芯片 的 88.4%,測算可得 2021 年計算型 GPU 市場規(guī)模約為 222 億元。
多方需求驅(qū)動 GPU 市場持續(xù)增長。從載體層面分類,GPU 在 PC 端與服務(wù)器端均可搭 載,其中 PC 端多用于游戲影音娛樂,而服務(wù)器端則多用于科學(xué)計算。伴隨對海量數(shù)據(jù) 的處理需求逐漸增大,具備矩陣運算能力的 GPU 需求高速上行。同時,受益于多核并 行計算的基礎(chǔ)架構(gòu),GPU 已在機器學(xué)習(xí)和自動駕駛等領(lǐng)域有了較大規(guī)模的使用。
服務(wù)器層面,相對占比維度,據(jù) IDC 數(shù)據(jù)顯示,2018 年全年中國 GPU 服務(wù)器市場規(guī) 模約為 13.05 億美金(約合人民幣 90.05 億元),同比增長 131.2%。同時 IDC 預(yù)測, 到 2023 年中國 GPU 服務(wù)器市場規(guī)模將達到 43.2 億美金(約合人民幣 298 億元),未 來 5 年整體市場年復(fù)合增長率(CAGR)為 27.1%。GPU 服務(wù)器增速高于國內(nèi) X86 服 務(wù)器出貨量增速,當(dāng)前國內(nèi)服務(wù)器中 GPU 服務(wù)器占比迅速抬升。
全球格局:國際巨頭壟斷,國產(chǎn)廠商起步追趕
競爭格局:國際巨頭三強壟斷
全球 GPU 市場中,基本被 Nvidia、Intel 和 AMD 三家壟斷。據(jù) JPR 統(tǒng)計,全球 PC GPU 在 2022 年 Q2 出貨量達到 8400 萬臺,同比下降 34%,預(yù)計 2022-2026GPU 復(fù) 合增長率為 3.8%,在未來五年內(nèi) dGPU 在 PC 中滲透率增長至 30%。從市場格局來看, Nvidia、Intel 和 AMD 三家在 2022 年 Q2 市場占有率分別為 18%、62%和 20%,Intel 憑借其集成顯卡在桌面端的優(yōu)勢占據(jù)最大的市場份額。
獨顯市場中,Nvidia 占據(jù)領(lǐng)先地位。不同于整體市場,在獨顯市場中,Nvidia 與 AMD 雙雄壟斷市場,其 2022 年 Q2 市占率分別約為 80%和 20%,可以看到近年來 Nvidia 不 斷鞏固自己的優(yōu)勢,其獨立顯卡市占率整體呈現(xiàn)上升趨勢。
英偉達:GPU 王國締造者,AI 時代先行軍
英偉達是一家專注于 GPU 半導(dǎo)體設(shè)計的企業(yè)。公司成立于 1993 年,由黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng)立,1999 年英偉達推出 GeForce 256 芯片, 并首次定義了 GPU 的概念;隨后創(chuàng)新性的提出 CUDA 架構(gòu),讓此前只做 3D 渲染的 GPU 實現(xiàn)通用計算功能;進入 2010 年代后,英偉達在 AI 行業(yè)發(fā)展初期市場皆不看好 的情況下,前瞻性預(yù)見了 GPU 在 AI 市場的應(yīng)用并全力以赴開展相關(guān)布局;當(dāng)前,公司 以數(shù)據(jù)中心、游戲、汽車、專業(yè)視覺四大類芯片為收入基礎(chǔ),完成了硬件、系統(tǒng)軟件、 軟件平臺、應(yīng)用框架全棧生態(tài)的建設(shè)。
追溯公司歷史,英偉達以技術(shù)創(chuàng)新為基,持續(xù)推動 GPU 行業(yè)的發(fā)展,可以稱得上是 GPU 時代奠基人。我們認為,英偉達公司發(fā)展史可簡單劃分為四個階段:
(1)蓄力階段:1993 年黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng)立 英偉達,早期致力于圖形芯片的研發(fā)。但當(dāng)時市場上有 20 多家圖形芯片公司,三年后 這個數(shù)字飆升至 70 家,英偉達在其中并不突出。直到 1997 年英偉達決定放棄部分已 有的專利,轉(zhuǎn)而全面支持 Direct X(微軟標(biāo)準(zhǔn)),1997 年公司推出 RIVA 128,這是公 司第一款真正意義上取得成功的產(chǎn)品。
(2)崛起階段:1999 年公司推出 GeForce 256 并定義 GPU 芯片,這是世界上第一款 功能齊全,可從真正意義上替代 CPU 渲染圖形的芯片,并首次定義了 GPU 的概念,由 此英偉達走上了重塑顯卡行業(yè)的道路。2000 年,公司收購了顯卡先驅(qū)企業(yè) 3Dfx,再次 鞏固自身行業(yè)地位,在顯卡行業(yè)與 ATi 公司形成雙寡頭壟斷的格局。
(3)制霸階段:2006 年英偉達創(chuàng)新性推出 CUDA 架構(gòu)。CUDA 全稱 Compute Unified Device Architecture,是英偉達基于自有 GPU 的一個并行計算平臺和編程模型。CUDA 帶來兩方面巨大影響,于 GPU 行業(yè)而言,CUDA 使得只做 3D 渲染的 GPU 得以實現(xiàn) 通用計算功能,GPU 的應(yīng)用領(lǐng)域得以從游戲(圖形渲染)向外擴展至高性能計算、自 動駕駛等多個領(lǐng)域;而對于英偉達公司本身來說,其在早期大力推廣 CUDA,并對 CUDA 進行了編程語言擴展,如 CUDA C/C++,CUDA Fortran 語言等,使得開發(fā)人員能夠輕易地對 GPU 進行編程,目前 CUDA 是最主流的兩個 GPU 編程庫之一,奠定了英偉達 GPU 生態(tài)得以成型的基礎(chǔ)。而在英偉達大力推廣統(tǒng)一平臺 CUDA、不斷進行 GPU 架構(gòu) 迭代的同時,其最大的競爭對手 ATi 在被 AMD 收購后受其 CPU 業(yè)務(wù)拖累,發(fā)展受到限 制,英偉達在 GPU 領(lǐng)域的競爭地位在這一階段進一步得到鞏固。
(4)騰飛階段:押注 AI,數(shù)據(jù)中心業(yè)務(wù)開啟第二成長曲線。2012 年 Alex Krizhevsky 利用 GPU 進行深度學(xué)習(xí),通過幾天訓(xùn)練在 ImageNet 競賽中獲得冠軍,其將深度卷積 神經(jīng)網(wǎng)絡(luò) AlexNet 的準(zhǔn)確率提高了 10.8%,震撼了學(xué)術(shù)界,從此開啟 GPU 應(yīng)用于深度 學(xué)習(xí)的大門,毫無意外,其使用的正是 NVIDIA GTX 580 GPU 芯片和 CUDA 計算模型。 此后,英偉達 GPU 和 CUDA 模型成為深度學(xué)習(xí)(尤其是訓(xùn)練環(huán)節(jié))的首選芯片,而英 偉達也順勢推出海量專用于 AI 的芯片及配套產(chǎn)品,從顯卡硬件公司華麗轉(zhuǎn)型成為人工 智能公司。在人工智能的推動下,公司數(shù)據(jù)中心業(yè)務(wù) 2014~2022 財年復(fù)合增速達到 64.39%,其占收入比例也由 2014 年的不足 5%提升至 2022 財年的 40%。
而總覽英偉達歷史,即使公司在不同時期存在不同發(fā)展重點,但貫穿始終的,是其卓越 的創(chuàng)新能力、強大的芯片設(shè)計能力和穩(wěn)定的決策執(zhí)行能力。事實上,英偉達平均每兩年 推出一代芯片架構(gòu)、每半年推出一款新的產(chǎn)品,多年以來堅持不輟,從 2009 年的 Fermi 架構(gòu)到當(dāng)前的 Hopper 架構(gòu),公司產(chǎn)品性能穩(wěn)步提升,并始終引領(lǐng) GPU 芯片技術(shù)發(fā)展。
截至目前,英偉達 GPU 芯片已形成覆蓋數(shù)據(jù)中心、游戲、專業(yè)視覺和學(xué)術(shù)研究四大場 景的芯片產(chǎn)品陣列,其中消費級 GPU 和數(shù)據(jù)中心 GPU 是最核心場景。
與此同時,在英偉達領(lǐng)跑 GPU 市場的過程中,生態(tài)的建設(shè)也是不可缺少的一環(huán)。具體 來看,我們認為英偉達生態(tài)的建立,主要應(yīng)當(dāng)歸功于以下兩方面原因: (1)通過統(tǒng)一的計算平臺 CUDA,構(gòu)建開發(fā)者生態(tài)。CUDA 的存在使得開發(fā)者使用 GPU 進行通用計算的難度大幅降低,使得開發(fā)者可以相對簡單有效地對英偉達 GPU 芯片進 行編程。2006 年 CUDA 推出后,英偉達承擔(dān)巨大成本壓力,堅持使其成為所有 GPU 芯 片的統(tǒng)一計算平臺,而其競爭對手 AMD 經(jīng)過重重考慮選擇應(yīng)用開源計算框架 OpenCL, 其開源屬性決定其在效率上落后于 CUDA。經(jīng)過多年培育,目前英偉達基于 CUDA 平 臺已培育近 180 萬開發(fā)者,2020 年新增超過 50 個 SDK,GPU 開發(fā)者生態(tài)正在蓬勃發(fā) 展。
毋庸置疑,CUDA 是迄今為止最發(fā)達、最廣泛的生態(tài)系統(tǒng),也是深度學(xué)習(xí)庫最有力的支 持。隨著人工智能領(lǐng)域的蓬勃發(fā)展,GPU 和 CUDA 被從業(yè)者視為標(biāo)配,使用 GPU 做 加速計算已成為行業(yè)主流。雖然英偉達 GPU 本身硬件平臺的算力卓越,但其強大的 CUDA 軟件生態(tài)才是推升 GPU 計算生態(tài)普及的關(guān)鍵力量,其幫助英偉達成為 AI 產(chǎn)業(yè) 目前最大受益者,GPU 生態(tài)效應(yīng)使得英偉達處于領(lǐng)先地位。
(2)與此同時,英偉達自身也在不遺余力的進行配套軟硬件研發(fā),持續(xù)豐富各類 GPU 應(yīng)用場景。目前英偉達構(gòu)建了四層技術(shù)棧:硬件、系統(tǒng)軟件、軟件平臺、應(yīng)用框架,同 時針對不同場景(如醫(yī)療、智能機器人等)都有相關(guān)硬件和軟件平臺的開發(fā),英偉達自 身就是 GPU 應(yīng)用生態(tài)的核心開發(fā)者。
AMD:兼具 CPU+GPU,卓越性能引領(lǐng)算力時代
AMD 是一家專門為計算機、通信和消費電子行業(yè)設(shè)計和制造各種創(chuàng)新的微處理器(CPU、 GPU、APU、主板芯片組、電視卡芯片等)、閃存和低功率處理器解決方案的公司。公 司成立于 1969 年,由曾工作于仙童半導(dǎo)體的銷售高管 Jerry Sanders 創(chuàng)立,成立之初 生產(chǎn)邏輯芯片,后定位為高性價比的第二供應(yīng)商,與英特爾深度合作 X86 處理器,后英 特爾為鞏固自身優(yōu)勢斬斷合作關(guān)系,兩者競爭加劇。2006 年 7 月 24 日,AMD 正式收 購 ATI,成為一家同時擁有 CPU 和 GPU 生產(chǎn)技術(shù)的半導(dǎo)體公司,GPU 版圖由此展開。 公司自成立以來收入波動較大,近五年開始實現(xiàn)持續(xù)高增。公司2021年營業(yè)收入164.34 億元,同比大幅增長 68.33%,2016-2021 年 CAGR 30.92%。公司營業(yè)收入可分為數(shù) 據(jù)中心、客戶端、游戲和嵌入式解決方案業(yè)務(wù)收入,其中數(shù)據(jù)中心和游戲業(yè)務(wù)收入增速 最高,分別為 119.23%和 104.19%。
細究 AMD 的 GPU 發(fā)展史,可將其分為兩大階段。第一階段是收購前的 ATI 時代,隨 時代技術(shù)發(fā)展而進步,不斷推出 Radeon 系列,憑借性能與英偉達直面對抗;第二階段 是收購后的 AMD 時代,憑借高性價比戰(zhàn)略在中端市場占據(jù)一席之地。
第一階段,被收購前的互相追趕。1985 年 ATI 由加拿大華人何國源與另外兩位華人 Lee Ka Lau, Benny Lau 一起創(chuàng)辦成立,主攻圖形顯示芯片的研發(fā)。1985-1995 年,PC 圖 形技術(shù)仍處于 2D 時代,ATI 看到了圖形技術(shù)發(fā)展迅速, 1987 年推出 EGA Wonder 顯 卡系列,在技術(shù)和功能上相比 IBM 同期圖形適配器都有很大提升,是可應(yīng)用于市場上任 何一種圖形界面、軟件和顯示器的單卡,成為當(dāng)時 ATI 主要的零售產(chǎn)品。1995 年,隨 著 3D 圖形顯示技術(shù)的發(fā)展,眾多圖形廠商都紛紛推出旗下的第一代 3D 顯示卡,例如 NVIDIA 的 NV1、Matrox 的 Mlennium 以及 Mystique、PowerVR 的 PCX1、S3 的 Virge3D 等等,ATI 也推出 3D Rage 進軍 3D 市場。1999 年,英偉達推出 GeForce 256 重新定 義 GPU 芯片,并于 2000 年收購昔日王者 3Dfx 重塑行業(yè)格局,ATI 發(fā)布 Radeon 256 正式迎擊。2000-2006 年期間,ATI 于英偉達呈現(xiàn)雙寡頭壟斷格局, ATI 不斷提升自身 性能與英偉達直面競爭。但同時,ATI 在產(chǎn)品的高成本投入加上市場的不良反應(yīng)讓財務(wù) 狀況出現(xiàn)問題,最終于 2006 年被 AMD 收購。
第二階段,有的放矢,憑借高性價比牢牢占據(jù)一席之地。根據(jù) 2022 年 5 月,德國 3Dcenter 網(wǎng)站對市場上主流 GPU 的測評數(shù)據(jù)來看,在 1080p 分辨率中,AMD Radeon RX 6950 XT 的性能指數(shù)是 2230%,性能得分最強,但售價僅為 1240-1400 歐元,性價比指數(shù)為 70%,大幅超過 GeForce RTX 3090 Ti 的 41%。從整體來看,AMD 目前市場主流顯卡 的性價比得分超過 100%個數(shù)明顯超過英偉達,具有較強的性價比優(yōu)勢。
AMD 生態(tài)相對劣勢,但已推出 ROCm 生態(tài)。ROCm 是一個開放式軟件平臺,為追求 高靈活性和高性能而構(gòu)建,針對加速式計算且不限定編程語言,讓機器學(xué)習(xí)和高性能計 算社區(qū)的參與者能夠借助各種開源計算語言、編譯器、庫和重新設(shè)計的工具來加快代碼 開發(fā),適合大規(guī)模計算和支持多 GPU 計算,其創(chuàng)立目標(biāo)是建立可替代 CUDA 的生態(tài)。
總量與份額雙擊,國產(chǎn)廠商迎來發(fā)展黃金期
中美摩擦不斷,國產(chǎn)替代緊迫性和重要性進一步提升。2022 年 8 月 9 日,美國總統(tǒng)拜 登簽署《2022 年美國芯片與科學(xué)法案》,旨在為美國半導(dǎo)體的研究和生產(chǎn)提供約 520 億美元的政府補貼,來對抗中國及控制半導(dǎo)體產(chǎn)業(yè)鏈。8 月 31 日,英偉達發(fā)布公告,美 國政府對向中國和俄羅斯出口的 A100 和即將推出的 H100 芯片實施了新的許可要求。 據(jù)路透社消息,AMD MI250 芯片亦受到影響。高端 GPU 限制產(chǎn)品基本都是具備“64 位浮點數(shù)字”(FP64)雙精度算力的高性能顯卡,主要應(yīng)用于 AI、數(shù)據(jù)分析和 HPC 應(yīng) 用場景。此次受限雖然只針對高端 GPU 型號,但依然為我國廠商敲響了警鐘,國產(chǎn) GPU 落地有望加速推進。
龐大的需求+逐漸成熟的產(chǎn)業(yè)預(yù)示著廣闊的發(fā)展空間。在元宇宙、人工智能、云游戲、 自動駕駛等新場景和需求爆發(fā)式增長的背景下,我們判斷中國 GPU 市場將快速增長, 相比于 PC 市場,新增市場空間或更大。相比于 PC 等傳統(tǒng) IT 應(yīng)用場景,中國在人工智 能、自動駕駛領(lǐng)域與美國等強國處于同一競爭水平,且中國龐大市場有望為相應(yīng)細分領(lǐng) 域帶來更快的成長。另一方面,從國家安全角度,國產(chǎn) GPU 勢在必行,對于國產(chǎn) GPU 廠商而言是時代機遇。
國內(nèi)廠商奮力追趕,迎來時代黃金機遇
部分優(yōu)質(zhì)國產(chǎn) GPU 企業(yè)已逐步展現(xiàn)出發(fā)展?jié)摿?。我國部分國產(chǎn)廠商經(jīng)歷了從特殊行業(yè) 到黨政市場的應(yīng)用迭代升級,正逐步向民用等商業(yè)市場布局拓展,如景嘉微在經(jīng)過 JM5 系列和 JM7 系列應(yīng)用升級,當(dāng)前 JM9 系列已完成流片、封裝階段工作及初步測試工作。 海光信息自 2018 年布局 GPU 行業(yè)以來,產(chǎn)品迭代進展迅速,2021 年首款 DCU 產(chǎn)品 深算一號便已實現(xiàn)規(guī)?;鲐?,同時深算二號的研發(fā)也保持順利。
壁仞科技
公司主營業(yè)務(wù)為高端通用智能計算芯片。壁仞科技創(chuàng)立于 2019 年,公司致力于開發(fā)原 創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領(lǐng)域提供一體化的解決 方案。從發(fā)展路徑上,公司將首先聚焦云端通用智能計算,逐步在人工智能訓(xùn)練和推理、 圖形渲染等多個領(lǐng)域趕超現(xiàn)有解決方案,實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。2022 年 3 月,公司首款通用 GPU 芯片 BR100 成功點亮,后于 2022 年 8 月正式發(fā)布,創(chuàng)下 全球算力的新紀(jì)錄。
公司的產(chǎn)品體系主要涵蓋 BR100 系列通用 GPU 芯片、BIRENSUPA 軟件開發(fā)平臺以 及開發(fā)者云三大板塊。其中,BR100 系列通用 GPU 芯片是公司的核心產(chǎn)品,目前主要 包括 BR100、BR104 兩款芯片。BR100 系列針對人工智能(AI)訓(xùn)練、推理,及科學(xué) 計算等更廣泛的通用計算場景開發(fā),主要部署在大型數(shù)據(jù)中心,依托“壁立仞”原創(chuàng)架 構(gòu),可提供高能效、高通用性的加速計算算力。
BR100 系列在性能、安全等方面具備多項核心優(yōu)勢。公司致力于打造性能先進、競爭力 強的 GPU 芯片,并為此采取了大量技術(shù)措施,具體包括:支持 7nm 制程,并創(chuàng)新性應(yīng) 用 Chiplet 與 2.5D CoWoS 封裝技術(shù),兼顧高良率與高性能;支持 PCIe 5.0 接口技術(shù) 與 CXL 通信協(xié)議,雙向帶寬最高達 128 GB/s 等。2022 年公司正式推出壁礪?100,其 峰值算力達到國際廠商在售旗艦的 3 倍以上,超越了國際廠商同類的在售旗艦產(chǎn)品,競 爭優(yōu)勢十分顯著。同時,在安全方面,BR100 系列最高支持 8 個獨立實例,每個實例物 理隔離并配備獨立的硬件資源,可獨立運行。
摩爾線程
摩爾線程是一家以 GPU 芯片設(shè)計為主的集成電路高科技公司。公司誕生于 2020 年 10 月,專注于研發(fā)設(shè)計全功能 GPU 芯片及相關(guān)產(chǎn)品,支持 3D 高速圖形渲染、AI 訓(xùn)練推 理加速、超高清視頻編解碼和高性能科學(xué)計算等多種組合工作負載,兼顧算力與算效, 為中國科技生態(tài)合作伙伴提供強大的計算加速能力。在“元計算”賦能下一代互聯(lián)網(wǎng)的 愿景下,公司將持續(xù)創(chuàng)新面向元計算應(yīng)用的新一代 GPU,構(gòu)建融合視覺計算、3D 圖形 計算、科學(xué)計算及 AI 計算的綜合計算平臺,建立基于云原生 GPU 計算的生態(tài)系統(tǒng),助 力驅(qū)動數(shù)字經(jīng)濟發(fā)展。 公司的產(chǎn)品體系主要包括:MTT S60、MTT S2000、MTT S100 等硬件產(chǎn)品;MT Smart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR 等軟件產(chǎn) 品;以及 MUSA 統(tǒng)一系統(tǒng)架構(gòu)、DIGITALME 數(shù)字人解決方案、元計算應(yīng)用解決方案等 其他產(chǎn)品。
MTT S60 具備先進的硬件規(guī)格。MTT S60 顯卡由基于 MUSA 架構(gòu)的 GPU 蘇堤核心晶 片制成,采用 12nm 制程,包含 2048 個 MUSA 核心,單精度算力最高可達 6TFlops, 配置 8GB 顯存,基于 MUSA 軟件運行庫和驅(qū)動程序等軟件工具。在先進硬件規(guī)格的支 撐下,MTT S60 顯卡能夠在不同應(yīng)用場景中展現(xiàn)多重優(yōu)勢:豐富圖形 API、4K/8K 超高 清顯示、領(lǐng)先的硬件視頻編解碼能力、通用 AI 功能支持等。
基于 MUSA 先進架構(gòu),MTT S2000 致力于打造數(shù)據(jù)中心綠色多維算力。MTT S2000 采 用 12nm 制程,使用 4096 個 MUSA 核心,最大配置 32GB 顯存,單精度算力最高可達 到 12TFlops,支持 H.264、H.265、AV1 多路高清視頻編解碼,以及廣泛的 AI 模型算 法加速。同時,MTT S2000 還采用了被動散熱、單槽設(shè)計,以滿足數(shù)據(jù)中心高密度 GPU 配置方式。截至目前,MTT S2000 已經(jīng)能夠兼容 X86、ARM 等 CPU 架構(gòu)以及主流 Linux 操作系統(tǒng)發(fā)行版,并與浪潮、新華三、聯(lián)想、清華同方等多家服務(wù)器合作伙伴建立了合 作關(guān)系,產(chǎn)品生態(tài)持續(xù)完善。作為公司面向數(shù)據(jù)中心領(lǐng)域的 GPU 芯片,除了生態(tài)外, MTT S2000 還具備全功能 GPU、豐富的圖形 API 支持、綠色計算等優(yōu)勢?;诙嗑S算 力、生態(tài)完善等優(yōu)勢,MTT S2000 有望助力公司賦能 PC 云桌面、安卓云游戲、音視頻 云處理、云端 Unreal/Unity 應(yīng)用渲染和 AI 推理計算等多類應(yīng)用場景。
海思昇騰
海思半導(dǎo)體成立于 2004 年,是全球領(lǐng)先的 Fabless 半導(dǎo)體與器件設(shè)計公司,旗下芯片 共有五大系列,分別是用于智能設(shè)備的麒麟系列;用于數(shù)據(jù)中心的鯤鵬系列服務(wù)器 CPU; 用于人工智能的場景 AI 芯片組昇騰系列 SoC;用于通信連接的芯片(基站芯片天罡、 終端芯片巴龍);以及其他專用芯片(視頻監(jiān)控、機頂盒芯片、智能電視、運動相機、 物聯(lián)網(wǎng)等芯片)。
海思半導(dǎo)體是華為全資子公司,核心管理團隊皆有深厚的華為背景。公司董事長徐直軍 先生博士畢業(yè)于南京理工大學(xué),早在 1993 年就加入了華為,歷任華為無線產(chǎn)品線總裁、 戰(zhàn)略與 Marketing 總裁、產(chǎn)品與解決方案總裁、產(chǎn)品投資評審委員會主任、公司輪值 CEO、 戰(zhàn)略與發(fā)展委員會主任等。公司總經(jīng)理徐文偉先生 1991 年加入了華為,歷任華為國際 產(chǎn)品行銷及營銷總裁、歐洲片區(qū)總裁、戰(zhàn)略與 Marketing 總裁、銷售與服務(wù)總裁、片區(qū) 聯(lián)席會議總裁、企業(yè)業(yè)務(wù) BG CEO、公司戰(zhàn)略 Marketing 總裁、IRB 主任、戰(zhàn)略研究院 院長等。
公司針對人工智能領(lǐng)域應(yīng)用場景,推出了昇騰系列芯片,主要產(chǎn)品有昇騰 310 與昇騰 910 兩款 NPU。昇騰 310 芯片于 2017 年發(fā)布,是一款高能效、靈活可編程的人工智能 處理器,芯片在典型配置下可以輸出 16TOPS@INT8, 8TOPS@FP16,功耗僅為 8W。 昇騰 310 芯片采用自研華為達芬奇架構(gòu),集成豐富的計算單元, 提高 AI 計算完備度和 效率,進而擴展該芯片的適用性。芯片實現(xiàn)了全 AI 業(yè)務(wù)流程加速,大幅提高 AI 全系統(tǒng)的 性能,有效降低部署成本。 昇騰(HUAWEI Ascend) 910 于 2018 年推出,是業(yè)界算力最強的 AI 處理器,芯片基于 自研華為達芬奇架構(gòu) 3D Cube 技術(shù),實現(xiàn)業(yè)界最佳 AI 性能與能效。芯片架構(gòu)靈活伸縮, 支持云邊端全棧全場景應(yīng)用。在算力方面,昇騰 910 完全達到設(shè)計規(guī)格,半精度(FP16) 算力達到 320 TFLOPS,整數(shù)精度(INT8)算力達到 640 TOPS,功耗 310W。
百度昆侖
昆侖芯科技是一家 AI 芯片公司,前身是百度智能芯片及架構(gòu)部,在實際業(yè)務(wù)場景中深 耕 AI 加速領(lǐng)域已十余年,是一家在體系結(jié)構(gòu)、芯片實現(xiàn)、軟件系統(tǒng)和場景應(yīng)用均有深 厚積累的 AI 芯片企業(yè)。 昆侖芯科技研發(fā)實力雄厚,團隊成員擁有全球頂尖學(xué)術(shù)背景, 多數(shù)成員來自百度、高通、Marvell、Tesla 等行業(yè)頭部公司,并提出了 100%自研的、 面向通用人工智能計算的核心架構(gòu) XPU,研究成果也在 Hotchips、ISSCC 等國際頂級 學(xué)術(shù)會議中成功發(fā)表。
2011 年,為了深度學(xué)習(xí)運算的需要,百度開始基于 FPGA 研發(fā) AI 加速器,并于同年開 始使用 GPU。在過去幾年中,百度對 FPGA 和 GPU 都進行了大規(guī)模部署。在大規(guī)模 AI 運算的實踐探索中,百度推出昆侖芯片。
昆侖芯科技的主要產(chǎn)品有昆侖一代芯片、二代芯片以及基于兩代芯片開發(fā)的加速卡 K 系 列與 R 系列。昆侖第一代云端通用人工智能計算處理器發(fā)布于 2020 年,采用了公司十 年積累自研的 XPU-K 架構(gòu),芯片采用了 14nm 制程工藝,算力可以輸出 256 TOPS@INT8,64 TFLOPS@FP16,可用于云數(shù)據(jù)中心和智能邊緣,支持全 AI 算法, 落地已超過兩萬片。
昆侖第二代云端通用人工智能計算處理器發(fā)布于 2021 年,采用通用性和性能顯著提升 的 XPU-R 架構(gòu),制程工藝從 14nm 升級到 7nm,算力可以輸出 256 TOPS@INT8,128 TFLOPS@FP16。相比之下功能更加完備,支持硬件虛擬化,芯片間互聯(lián)和視頻編解碼。
第二代芯片的 XPU-R 架構(gòu)使二代芯片性能比 1 代提升 2-3 倍,全品類人工智能算法上 都達到了當(dāng)前業(yè)界領(lǐng)先水平的 1.5-2 倍。第二代芯片支持硬件的虛擬化,可實現(xiàn)計算單 元和存儲單元的物理隔離,優(yōu)化了加速芯片的利用率。在保證延時和吞吐量的情況下支 持推理和訓(xùn)練等混合工作負載。此外,二代芯片還支持高性能分布式 AI 系統(tǒng)、芯片間 K-Link 互聯(lián)支持訓(xùn)練和推理中模型并行和數(shù)據(jù)并行策略的通訊要求。
評論