AI算力芯片天下一分為四，中國實力漸顯

作者：時間：2023-12-15 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近年來「算力」逐漸成為學(xué)術(shù)界、產(chǎn)業(yè)界、公眾的熱詞，算力、算力網(wǎng)絡(luò)、算力指數(shù)、算力經(jīng)濟、東數(shù)西算、東數(shù)西存等新名詞不斷涌現(xiàn)。

本文引用地址：http://m.butianyuan.cn/article/202312/453950.htm

那么到底什么是算力？「算力」又如何成為近幾年的熱詞？

什么是算力？

算力是設(shè)備通過處理數(shù)據(jù)，實現(xiàn)特定結(jié)果輸出的計算能力?，F(xiàn)階段算力主要可分為基礎(chǔ)算力、智能算力和高性能計算算力三種類型。

基礎(chǔ)算力主要由基于 CPU 芯片的服務(wù)器提供，面向基礎(chǔ)通用計算。智能算力主要基于 GPU、FPGA、ASIC 等芯片的加速計算平臺提供，面向人工智能計算。高性能計算算力主要基于融合 CPU 芯片和 GPU 芯片打造計算集群，主要面向科學(xué)工程計算等應(yīng)用場景。

算力需求主要分為兩部分，包括訓(xùn)練算力和推理算力。訓(xùn)練芯片用來訓(xùn)練大模型，算力和精度要求高。推理芯片是在已經(jīng)完成訓(xùn)練的模型上，根據(jù)輸入數(shù)據(jù)反饋輸出結(jié)果，算力和精度要求都低很多。

2023 年，AI 大模型掀起的新一輪人工智能應(yīng)用熱潮，對智能算力的需求增長尤其顯著。《AI 算力產(chǎn)業(yè)鏈全景梳理報告》顯示，2023 年—2027 年，全球大模型訓(xùn)練端峰值算力需求量的年復(fù)合增長率有望達到 78.0%。全球大模型云端推理的峰值算力需求量的年復(fù)合增長率有望高達 113%。

據(jù)悉，人工智能計算市場以通用性為主，GPU 占到 90% 的市場份額。訓(xùn)練算力相關(guān)設(shè)備主要是英偉達的 A100 和 H100；推理算力相關(guān)設(shè)備主要是英偉達 T4 卡。

算力的通用選擇

A100 和 H100

A100 計算性能卓越，其強大的 GPU 架構(gòu)和多個 Tensor Core 單元支持大規(guī)模深度學(xué)習(xí)任務(wù)所需的高性能計算，尤其在處理復(fù)雜矩陣運算方面表現(xiàn)出色。其次，A100 提供高達 80 GB 的顯存容量，能夠滿足大型神經(jīng)網(wǎng)絡(luò)所需的大內(nèi)存空間，而且通過 NVLink 技術(shù)，多個 A100 GPU 可以共享大內(nèi)存，支持更大規(guī)模的模型訓(xùn)練。

此外，A100 支持高速的 PCIe Gen4 接口和 NVLink 技術(shù)，并集成了英偉達的 Tensor Core 技術(shù)，可以加速矩陣乘法和累積運算，實現(xiàn)了快速的數(shù)據(jù)傳輸和模型訓(xùn)練。A100 還得到了主流深度學(xué)習(xí)框架的廣泛支持和優(yōu)化，開發(fā)者可以充分發(fā)揮其性能優(yōu)勢，進行大模型的訓(xùn)練和推斷，而無須擔心兼容性問題。

綜合來看，A100 GPU 提供了卓越的計算性能、大內(nèi)存容量、高速的數(shù)據(jù)傳輸和深度學(xué)習(xí)加速技術(shù)，使其成為大模型訓(xùn)練的理想選擇。

H100 是英偉達的第 9 代數(shù)據(jù)中心 GPU，旨在為大規(guī)模 AI 和 HPC 實現(xiàn)相比于上一代英偉達 A100 Tensor Core GPU 數(shù)量級的性能飛躍。據(jù)悉，綜合 H100 中所有新的計算技術(shù)進步的因素，H100 的計算性能比 A100 提高了約 6 倍，進一步，可提升 AI 和 HPC 工作負載的強大擴展能力，顯著提升架構(gòu)效率。

英偉達 T4 是一款適用于數(shù)據(jù)中心和云計算的 GPU 加速器。它采用了 Turing 架構(gòu)，擁有 16GB GDDR6 顯存和 320 個 Tensor Cores。T4 主要針對深度學(xué)習(xí)推理任務(wù)進行了優(yōu)化，支持多種精度計算，包括 INT4、INT8、FP16 和 FP32。由于其高效的性能和低功耗特性，T4 非常適合用于圖像識別、語音識別、自然語言處理等深度學(xué)習(xí)應(yīng)用。對于那些需要快速進行大規(guī)模圖像處理和深度學(xué)習(xí)推理的場景，T4 是一種理想的選擇。

從如今的情況來看，GPU 已成為當前 AI 算力的核心硬件，英偉達也成為各大模型廠商的通用解。近日英偉達再度迭代 AI 芯片產(chǎn)品，不斷強化自己在行業(yè)內(nèi)的「統(tǒng)治力」。

11 月 13 日，英偉達宣布在 AI 芯片 H100 的基礎(chǔ)上，發(fā)布新一代 H200 芯片?；?Meta 的 Llama 2 大模型的測試表明，H200 的輸出速度大約是 H100 的兩倍。H200 在推理速度上也幾乎達到了 H100 的兩倍，帶寬增加了 2.4 倍。

相比上一代 A100 和 H100，H200 主要變化在于內(nèi)存，成為首款采用 HBM3e（高頻寬存儲器）的 GPU，使得帶寬從 H100 的每秒 3.35TB 提高至 4.8TB，提高 1.4 倍，存儲器總?cè)萘繌?H100 的 80GB 提高至 141GB，容量提高 1.8 倍，同時推理能耗大幅降低。

布局大模型，算力不夠用

在席卷全球的 AI 熱潮中，一個不容忽視的潛在阻力是算力的不足。根據(jù)今年 8 月 GPU Utils 更新的關(guān)于英偉達 H100 顯卡供需現(xiàn)狀的分析文章顯示，保守估計，H100 的供給缺口達到 43 萬張。

具體到各家的需求數(shù)據(jù)，GPUUtils 寫道：OpenAI 可能需要 5 萬張，Inflection 要 2.2 萬張，Meta 需要 2.5 萬張；大型云廠商例如 Azure、Google Cloud、AWS、Oracle 等每家可能需要 3 萬張；Lambda 和 CoreWeave 以及其他私有云可能總共需要 10 萬張；Anthropic、Helsing、Mistral、Character，每家可能要 1 萬張；到這里，需求量就已經(jīng)達到了約 43.2 萬張 H100，以每塊約 3.5 萬美元計算，GPU 的價值約為 150 億美元。

而這，還不包括像字節(jié)、百度、騰訊這樣需要大量 H800 的中國公司，以及一些需求正盛的金融公司：如 Jane Street、JP Morgan、Two Sigma、Citadel 等金融巨頭，正從數(shù)百臺 A100 或 H100 開始部署，逐步增加至數(shù)千張 A100/H100。

如今大模型之戰(zhàn)愈演愈烈，大模型公司想更快推出模型和 AI 應(yīng)用，就必須大量購入英偉達的芯片?？墒怯ミ_也沒有辦法在短期內(nèi)釋放出這么多的 A100/H100，因為英偉達 A100/H100 GPU 完全由臺積電代工生產(chǎn)，并使用臺積電先進 CoWoS 封裝技術(shù)。要知道臺積電先進 CoWoS 封裝產(chǎn)能是有限的。市場在爆發(fā)式增長，倘若英偉達按照上一年計劃制定的供給，則遠不能滿足蓬勃的市場需求，因此搶不到芯片的云廠商、互聯(lián)網(wǎng)巨頭不得不高價搶購。

如此一來。大模型公司尚未賺到錢，英偉達倒是賺得盆滿缽滿。英偉達對高算力芯片的壟斷，也成為硅谷眾多大廠的心病。它們一方面離不開英偉達，另一方面又不想永遠被英偉達掣肘。因此不少大模型公司都在想辦法擺脫英偉達的壟斷，有自研能力的紛紛自研，沒有自研能力的創(chuàng)造條件。

自研芯片的三大云廠商

微軟：Maia 100

11 月 15 日，微軟在西雅圖召開的 Ignite 大會上發(fā)布了兩款芯片，一款面向 AI，一款面向云計算。微軟發(fā)布的這款名為 Maia 100 的人工智能芯片，旨在與英偉達備受追捧的 AI 圖形處理單元展開競爭。第二款則是 Cobalt 100 Arm 芯片，面向通用計算任務(wù)并將與英特爾處理器爭奪市場。

根據(jù)微軟 CEO 納德拉的介紹，Maia 100 是一款 AI 加速芯片，基于 ARM 架構(gòu)設(shè)計，主要用于云端訓(xùn)練、推理以及 Azure 的高負載云端運算。不過納德拉否認了將向云計算客戶供貨的傳聞，這款自研芯片將優(yōu)先滿足微軟自身的需求，并在合適的時機向合作伙伴和客戶開放。

Azure 芯片部門負責人、微軟副總裁拉尼·博卡爾則補充道，Maia 100 已經(jīng)在 Bing 和 office 的人工智能套件上測試。合作伙伴 openAI 也開始使用這款芯片進行測試部分產(chǎn)品和功能，比如 GPT 3.5 Turbo。至于測試的效果如何，微軟暫時還沒有給出具體報告。但納德拉和博卡爾強調(diào) Maia 100 可以加快數(shù)據(jù)處理速度，尤其是在語音和圖像識別方面。

提速的關(guān)鍵，自然是算力。為了提升算力，微軟也是下了血本：采用臺積電的 5nm 制程工藝，晶體管數(shù)量達到 1050 億個。不過橫向?qū)Ρ鹊脑?，Maia 100 和英偉達、AMD 等大廠的產(chǎn)品在參數(shù)上還有很大差距。

作為全球頭部云供應(yīng)商之一，微軟是最后一家為云和人工智能提供定制芯片的公司。

谷歌：TPU v5e

2016 年，谷歌就公布了其初代 AI 張量處理單元（TPU），隨后在 2017 年作為 Google Cloud 基礎(chǔ)設(shè)施「Cloud TPU」推出，通常使用 FP32 和 FP16 等精度數(shù)據(jù)，如果降低 ML 的精度/DL 計算到 8 位（INT8）等，則將使得在 ML/DL 中的處理能力得到進一步提高。此外，通過僅合并專門用于 ML/DL 的算術(shù)單元，谷歌減少了 CPU 和 GPU 所需的高速緩存、分支預(yù)測和亂序執(zhí)行等復(fù)雜算術(shù)單元，可以以低功耗執(zhí)行專門針對 ML/DL 的計算。

之后，谷歌 TPU 又經(jīng)過了數(shù)次迭代，比如第二代 TPU v2 于 2017 年發(fā)布，第三代 TPU v3 于 2018 年發(fā)布，第四代 TPU v4 于去年發(fā)布，目前已開始服務(wù)和提供。

在今年 8 月的 Cloud Next 2023 大會上，谷歌公開了 Google Cloud 新款自研 AI 芯片 Cloud TPU v5e。TPU v5e 是谷歌專為提升大中型模型的訓(xùn)練、推理性能以及成本效益所設(shè)計。TPU v5e Pods 能夠平衡性能、靈活性和效率，允許多達 256 個芯片互連，聚合帶寬超過 400 Tb/s 和 100 petaOps 的 INT8 性能，使對應(yīng)的平臺能夠靈活支持一系列推理和訓(xùn)練要求。

從技術(shù)層面上來看，與英偉達 A100/H100 等通用型 GPU 相比，谷歌 TPU 設(shè)計初衷正是專注于深度學(xué)習(xí)領(lǐng)域，尤其是全面加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理效率。英偉達的 A100 和 H100，它們屬于廣義上的通用型 GPU，而不僅僅局限于深度學(xué)習(xí)和人工智能領(lǐng)域。這些 GPU 具有通用計算能力，適用于多種計算工作負載，包括但不限于：高性能計算、深度學(xué)習(xí)以及大規(guī)模數(shù)據(jù)分析。

與英偉達通用型 GPU 相比，谷歌 TPU 采用低精度計算，在幾乎不影響深度學(xué)習(xí)處理效果的前提下大幅降低了功耗、加快運算速度，尤其對于中型 LLM 設(shè)計者來說完全夠用，因此他們可能不需要依賴高性能的英偉達 A100/H100。同時，TPU 使用了脈動陣列等設(shè)計來優(yōu)化矩陣乘法與卷積運算。谷歌 TPU 追求專注于 AI 訓(xùn)練和推理，因此精簡化部分設(shè)計架構(gòu)，這也是 TPU 功耗、內(nèi)存帶寬和 FLOPS 都明顯低于英偉達 H100 的部分原因。

11 月 8 日, 谷歌公布擴大同 AI 安全和研究初創(chuàng)公司 Anthropic 的合作伙伴關(guān)系，Anthropi 將運用谷歌新一代的 Cloud TPU v5e 芯片進行 AI 推理。谷歌介紹，Anthropic 現(xiàn)在是首批大規(guī)模部署 Cloud TPU v5e 的企業(yè)之一。Cloud TPU v5e 是谷歌云迄今為止最多功能、效率最高且可擴展性最強的 AI 加速器。這種芯片讓 Anthropic 能以高性能且高效的方式為其 Claude 大語言模型（LLM）服務(wù)。

亞馬遜：訓(xùn)練芯片 Trainium、推理芯片 Inferentia

在亞馬遜、微軟和谷歌這三家中，亞馬遜是唯一一家在服務(wù)器中提供訓(xùn)練和推理兩種類型芯片的云提供商。

亞馬遜云科技目前有三條自研芯片生產(chǎn)線，分別是通用芯片 Graviton、專用 AI 芯片 Trainium(訓(xùn)練) 和 Inferentia(推理）以及 Nitro。

Graviton 是一款基于 ARM 架構(gòu)的通用處理器，目前已經(jīng)演進到第三代，即 Graviton3，相比 Graviton2，計算性能提高多達 25%，浮點性能提高多達 2 倍，加密工作負載性能最多加快 2 倍。而去年新推出的 Graviton 3E 特別提升了向量計算的性能，這項性能指標對于高性能計算 HPC 來說非常重要。

Trainium 和 Inferentia 是兩款機器學(xué)習(xí)專用芯片。前者面向訓(xùn)練場景，后者面向推理場景?；?Trainium 的 Trn1 實例和通用的 GPU 實例對比，單節(jié)點的吞吐率可以提升 1.2 倍，多節(jié)點集群的吞吐率可以提升 1.5 倍，從成本考慮，單節(jié)點成本可以降低 1.8 倍，集群的成本更是降低了 2.3 倍。而推理芯片 Inferentia 目前推出了第二代，可大規(guī)模部署復(fù)雜的模型，例如大型語言模型 (LLM) 和 Diffusion 類模型，同時成本更低。以 Stable Diffusion 2.1 的版本為例，基于第二代 Inferentia 的 Inf2 實例可實現(xiàn) 50% 的成本節(jié)約。

Nitro 是亞馬遜云科技的第一款自研芯片產(chǎn)品，去年推出的第五代 Nitro 將每瓦性能提高了 40%。Nitro 提升了亞馬遜云科技在基礎(chǔ)架構(gòu)上的靈活性，大大加快了各種計算實例的推出速度，目前亞馬遜云科技的實例類型已經(jīng)超過 600 種。另外，Nitro 還是目前商業(yè)化最為成功的 DPU 芯片。

兩大模型語言開發(fā)商：OpenAI VS Anthropic 的算力來源

OpenAI 一直都依賴于英偉達的最新型號芯片來訓(xùn)練其模型。在 H100/A100 緊缺的當下，OpenAI 也陷入焦慮期，一方面緊急囤貨，一方面尋求新的路徑。

據(jù)悉，生成式人工智能領(lǐng)導(dǎo)者 OpenAI 正在探索自研 AI 芯片，甚至已經(jīng)評估了潛在的收購目標。知情人士表示，隨著訓(xùn)練人工智能模型的芯片短缺情況惡化，OpenAI 內(nèi)部關(guān)于人工智能芯片戰(zhàn)略的討論至少從去年就開始了。OpenAI 正在考慮采取多種策略來推進其芯片的「自給自足」計劃，包括與更多芯片制造商合作以提高供應(yīng)商的多元化、收購 AI 芯片制造商、加大內(nèi)部設(shè)計芯片的力度等等。

報道還提到，OpenAI 的首席執(zhí)行官 Sam Altman 已將購買更多人工智能芯片作為公司的首要任務(wù)。目前，OpenAI 與大多數(shù)競爭對手一樣，依靠基于 GPU 的硬件來開發(fā) ChatGPT、GPT-4 和 DALL-E 3 等模型。GPU 并行執(zhí)行多項計算的能力使其非常適合訓(xùn)練當今最強大的人工智能。

值得注意的是，微軟是 OpenAI 背后強大的金主之一，擁有 OpenAI 49% 的股份，總投資額約 130 億美元。

OpenAI 的競爭對手 Anthropic 也有兩大支撐者，分別是亞馬遜和谷歌。

亞馬遜曾在一份文件中表示，它已經(jīng)以可轉(zhuǎn)換票據(jù)的形式向 Anthropic 投資了 12.5 億美元，并有能力以第二筆票據(jù)的形式再投資 27.5 億美元，這一選擇權(quán)將于明年第一季度到期。亞馬遜還與 Anthropic 達成協(xié)議，后者將使用 AWS 的云服務(wù)和自研芯片。

谷歌方面，除了提供新一代 TPU，該科技巨頭此前已承諾向這家初創(chuàng)公司投資 20 億美元，據(jù)悉，在最新一輪融資中，Alphabet 旗下谷歌向 Anthropic 投資約 5 億美元，并承諾未來再投資約 15 億美元，這筆投資是在今年早些時候谷歌向 Anthropic 投入 5.5 億美元的基礎(chǔ)上所進行。

投資初創(chuàng)公司獲得算力

無論是微軟、Meta、亞馬遜這樣的巨頭，還是 OpenAI、Anthropic 這樣的超級獨角獸他們都不希望自己的 AI 算力與單一公司綁定。

d-Matrix

Sid Sheth 和 Sudeep Bhoja 就瞄準 AIGC 時代的 AI 推理算力需求，于 2019 年創(chuàng)立了 d-Matrix。今年 9 月，位于美國硅谷的 AI 芯片初創(chuàng)公司 d-Matrix 獲得 1.1 億美元的 B 輪融資，由新加坡頂尖投資公司淡馬錫（Temasek）領(lǐng)投，加州風投公司 Playground Global、微軟和三星等 14 家投資者跟投。

d-Matrix 致力于構(gòu)建一種使用存內(nèi)計算（In-Memory Computing，IMC）技術(shù)和芯片級橫向擴展互連進行數(shù)據(jù)中心 AI 推理的新方法。據(jù)稱，該處理器將提供比 CPU 和 GPU 更快的 AI 推理性能，適用于大型 Transformer 模型。d-Matrix 認為，在 AI 領(lǐng)域雖然存在英偉達這樣難以撼動的龍頭企業(yè)，但自己與英偉達不同，部分原因在于其技術(shù)針對的是 AI 處理過程中的「推理」（Inference）環(huán)節(jié)，而不是通過制造訓(xùn)練大型 AI 模型的技術(shù)來與英偉達競爭?；?Transformer 的模型通常在高性能 GPU 上進行訓(xùn)練，但執(zhí)行推理是一個能效問題，而不僅僅是性能問題。d-Matrix 提出了一種創(chuàng)新解決方案，聲稱可以將硬件的效率提高 10-30 倍。

Rain Neuromorphics Atomic Semi Cerebras

Rain Neuromorphics Atomic Semi Cerebras 由臺積電前工程副總 Keith McKay 在 2018 年創(chuàng)立，總部位于美國加利福尼亞州，曾以推出超大芯片而引發(fā)關(guān)注。其 AI 超算處理器 Cerebras WSE 比 iPad 還要大。二代擁有 2.6 萬億個晶體管和 85 萬個 AI 優(yōu)化內(nèi)核。它們還發(fā)布過一種 brain-scale 技術(shù)，可以運行超過 120 萬億個連接的神經(jīng)網(wǎng)絡(luò)。今年 Cerebras 還一口氣開源了 7 個 GPT 模型，參數(shù)量分別達到 1.11 億、2.56 億、5.9 億、13 億、27 億、67 億和 130 億，同時 Cerebras 也提供大模型訓(xùn)練推理等云服務(wù)。目前為止，該公司已融資 7.2 億美元。據(jù)悉，OpenAI 已參投了至少三家芯片公司，Rain Neuromorphics 就在列，其余兩家是 Cerebras 和 Atomic Semi。

除此之外，2022 年成立并致力于開發(fā)用于文本應(yīng)用的大語言模型（LLM）專用芯片的公司 MatX、成立于 2022 年并旨在使人工智能計算更具可訪問性和可負擔性的公司 Tiny Corp 都在努力成為 AI 算力芯片中具有分量的挑戰(zhàn)選手。

能否選擇 AMD？

今年 6 月，AI 算力市場的二號玩家、芯片廠商 AMD 推出全新人工智能 GPUMI300 系列芯片，與英偉達在人工智能算力市場展開競爭。據(jù) AMD 首席執(zhí)行官蘇姿豐介紹稱，MI300X 提供的高帶寬內(nèi)存（HBM）密度是英偉達 H100 的 2.4 倍，HBM 帶寬是競品的 1.6 倍。

有分析指出，從性能上 MI300 性能顯著超越 H100，在部分精度上的性能優(yōu)勢高達 30% 甚至更多。憑借 CPU+GPU 的能力，MI300 產(chǎn)品組合性能更高、同時具有成本優(yōu)勢。不過從軟件生態(tài)方面來看，現(xiàn)有的 AMD MI300 還不足以威脅英偉達的市場份額，想撼動英偉達在人工智能行業(yè)的地位，AMD 還需時間。

據(jù)悉，微軟、Meta、甲骨文、谷歌、Supermicro/Quantadirect、亞馬遜等公司已經(jīng)向 AMD 下了大約 205,000 臺 MI300 的訂單。在這之中，有 120,000 臺專門供應(yīng)給微軟，25,000 臺給 Meta，12,000 臺給甲骨文，8,000 臺給谷歌，5,000 臺給亞馬遜公司，35,000 臺給其他公司。

天風國際分析師郭明錤在社交平臺上表示，AMD 的 AI 芯片出貨量預(yù)計在 2024 年、2025 年快速增長。到 2024 年，AMD 的 AI 芯片出貨量（主要是 MI300A）預(yù)計將達到英偉達出貨量的約 10%，微軟有望成為 AMD AI 芯片的最大客戶，緊隨其后的是亞馬遜。如果微軟與 AMD 的合作進展順利，AMD 獲得 Meta 和谷歌的訂單，預(yù)計 2025 年 AMD 的 AI 芯片出貨量將達到英偉達（基于 CoWoS 封裝技術(shù)）的 30% 或更多。

這里仍需注意的是，要考慮到內(nèi)存制造商的 HBM 產(chǎn)量、臺積電的 CoWoS 產(chǎn)量、封裝產(chǎn)量等影響因素。

討論完國外的情況，再看看國內(nèi)的算力芯片公司都有哪些機會。

中國本土的 AI 芯片如何了？

近幾個月來，在美國對中國半導(dǎo)體的進一步打壓下，中國市場的 AI 算力進一步吃緊，尋求算力的國產(chǎn)化機遇再次崛起。

中國算力供應(yīng)鏈主要參與者有華為、寒武紀以及諸多其他算力芯片公司，比如燧原科技、沐曦、壁仞科技、天數(shù)智芯等。

基于目前中國 AI 大模型算力布局，無論是訓(xùn)練還是推理，AI 大模型算力主要分為三派：

一是華為鯤鵬和昇騰 AI 生態(tài)的算力方案，沒有英偉達 GPU 參與；二是混合型算力支持，大量采用英偉達 A100 芯片，部分環(huán)境增加 AMD、英特爾芯片，以及天數(shù)智芯、寒武紀、海光等國產(chǎn)芯片及加速卡融合跑大模型訓(xùn)練；三是租用性價比更高的服務(wù)器云算力，補充算力不足情況。

下面看一下國產(chǎn)算力公司的具體實力。

在國內(nèi)算力中，華為昇騰是最有實力的一家。在 AI 算力芯片方面，昇騰系列 AI 處理器，是基于華為自主研發(fā)的達芬奇架構(gòu)設(shè)計的 AI 芯片。目前主要包括了昇騰 910（用于訓(xùn)練）和昇騰 310（用于推理）兩款處理器，采用自家的達芬奇架構(gòu)。

昇騰 910 的整數(shù)精度（INT8）算力可達 640TOPS，在業(yè)內(nèi)其算力處于領(lǐng)先水平，性能水平接近于英偉達 A100。主要應(yīng)用于云端，可以為深度學(xué)習(xí)的訓(xùn)練算法提供強大算力。功耗只有 310W，同時采用了 7nm 先進工藝進程，支持 128 通道全高清視頻解碼。

據(jù)悉目前多家 A 股上市公司已經(jīng)提前采用本土的算力芯片進行 AI 推理與訓(xùn)練的應(yīng)對，華為昇騰 910B 成為多家上市公司的首選。

早在 10 月 24 日，科大訊飛聯(lián)合華為發(fā)布基于昇騰生態(tài)的大模型底座——飛星一號?？拼笥嶏w董事長劉慶峰介紹，「飛星一號」是訊飛跟華為共同搭建的、完全國產(chǎn)的算力底座，可以讓大模型訓(xùn)練和推理效率翻番，科大訊飛將在該平臺的基礎(chǔ)上訓(xùn)練對標 GPT-4 的大模型。華為輪值董事長徐直軍表示，「飛星一號」平臺，讓星火的訓(xùn)練和推理效率均翻番。

劉慶峰表示，訊飛星火大模型 3.0 是首個真正在國產(chǎn)算力平臺上訓(xùn)練出的大模型，華為最新的芯片都率先給訊飛使用?？拼笥嶏w相關(guān)負責人在此前的機構(gòu)調(diào)研中表示，華為昇騰 910B 的能力基本可對標英偉達 A100。

寒武紀也是一家非常重要的本土算力供應(yīng)商。

思元 370 是寒武紀第三代云端產(chǎn)品，采用 7nm 制程工藝，是寒武紀首款采用 Chiplet 技術(shù)的 AI 芯片，最大算力高達 256TOPS(INT8)。寒武紀新一代云端智能訓(xùn)練新品思元 590 芯片還沒發(fā)布，但已經(jīng)受到很多關(guān)注和討論，特別是寄予在大模型訓(xùn)練和推理任務(wù)中一定程度上替代 A100 的厚望。

據(jù)悉寒武紀主要是 ASIC 架構(gòu)，劣勢是通用性會比較差，優(yōu)勢是某些特定應(yīng)用場景下，算力可以做到比 GPU 更高；有測試結(jié)果顯示，590 性能接近 A100 90% 的性能；590 基本支持主流的模型，綜合性能接近 A100 80% 的水平。

寒武紀此前中標了浙江臺州智能計算集群項目（合同金額 5.28 億元）和沈陽汽車城智能計算中心項目（合同金額 1.55 億元）。根據(jù)券商研報顯示，這兩筆訂單有望集中在四季度集中交付。

此外，還有諸多云廠商、算力租賃廠商，他們購買芯片搭建算力中心，用來提供云服務(wù)或者對外出租，提供給諸多不愿意自建算力中心的客戶使用。

百度昆侖芯片是百度自主研發(fā)的云端 AI 通用芯片。長久以來，百度在文心一言大模型的推理端使用的都是自家研發(fā)的昆侖芯 2 代，但在訓(xùn)練端，他們卻主要依賴英偉達的 V100 和 A100。

壁仞科技去年發(fā)布了一款規(guī)格極高的產(chǎn)品，但主要還是停留在紙面數(shù)據(jù)，并且在軟件層面也還有很多工作要做，距離成熟的生態(tài)軟件、規(guī)模化的出貨、客戶端的個適配還有很長的路要走。天數(shù)智芯、沐曦也都陸續(xù)有產(chǎn)品推出，這幾家公司雖不像第一梯隊的企業(yè)有更成熟的產(chǎn)品經(jīng)驗，但他們的產(chǎn)品也廣受市場期待。

燧原已擁有邃思系列芯片、云燧訓(xùn)練和推理加速卡以及云燧智算機的全系列算力產(chǎn)品線。目前燧原已經(jīng)為大型科研機構(gòu)部署了千卡規(guī)模的 AI 訓(xùn)練算力集群，并成功落地；燧原還與騰訊合作，在 OCR 文字識別，智能交互，智能會議等方面發(fā)揮作用，性能達到了業(yè)界同類產(chǎn)品兩倍以上，性價比上具有很高優(yōu)勢。

中國科技巨頭開始尋求其他解法

在高端 AI 芯片可能被禁的大趨勢下，中國幾大公有云廠商都做出了加強囤積英偉達高端 GPU 的動作。這一方面是因為云廠商自身要加大大模型投入，打開 MaaS 市場，所以對 AI 算力有直接需求。另一方面也是因為 GPU 轉(zhuǎn)化為云資源池之后可以長期復(fù)用，對于云廠商來說是一個進可攻，退可守的局面。因此，今年上半年一度出現(xiàn)了市面上高端 AI 芯片全都流向云廠商，中小企業(yè)一卡難求的局面。

據(jù)悉，今年 8 月前后百度、騰訊、阿里巴巴和字節(jié)跳動四家公司合計向英偉達訂購了價值 50 億美元的 AI 芯片。這些芯片包括英偉達 2023 年發(fā)貨的 10 萬塊 A800 芯片，價值 10 億美元，另外價值 40 億美元的芯片將在 2024 年交付。按照 10 億美元購入 10 萬張 A800 芯片來計算，每張 A800 芯片的價格達到 1 萬美元。

華為云 CEO 張平安在華為云盤古大模型 3.0 發(fā)布會上曾表示，「中國的算力很難跟上不斷增長的 AI 需求，而且 AI 算力缺乏穩(wěn)定性。許多公司花高價購買英偉達 GPU，但訓(xùn)練中 GPU 會出現(xiàn)故障不得不重新訓(xùn)練，交貨時間很長、代價大。我們希望在 AI 算力方面提供一種替代方案?！?/p>

不只是華為，多家公司都在不斷籌謀和嘗試其他解法。比如騰訊投資了燧原，百度開始尋求其他最優(yōu)解。

不過，雖然國產(chǎn) AI 算力已經(jīng)實現(xiàn)了一定程度的市場占比，不僅僅是概念與理論中的「紙上談兵」。但是也應(yīng)該看到，國產(chǎn) AI 芯片在核心性能、軟件生態(tài)以及出貨能力上依舊不理想，還有很長的路要走。

AI 算力開始漲價，英偉達卻「陷入焦慮」

近段時間，算力行業(yè)接連傳出漲價消息。11 月 1 日，中貝通信相關(guān)負責人在接受機構(gòu)調(diào)研時表示，受服務(wù)器供應(yīng)緊張影響，近期算力服務(wù)器價格漲幅較大，公司對客戶提供算力租賃服務(wù)的價格也會上漲，漲價幅度在與客戶協(xié)商中。

隨后在 11 月 16 日，中貝通信披露的關(guān)于簽訂算力服務(wù)框架合同的公告顯示，近日，公司與北京中科新遠科技有限公司簽訂了算力服務(wù)技術(shù)服務(wù)框架協(xié)議，公司向?qū)Ψ教峁┕灿?1920PAI 算力技術(shù)服務(wù)，合同總金額為 3.456 億元，單價為 18 萬元/P/年。值得注意的是，中貝通信 9 月 7 日披露的一則算力服務(wù)合同顯示，該合同單價為 12 萬元/P/年。與之相比，11 月這單合同中的算力服務(wù)漲價幅度達 50%。

11 月 14 日，匯納科技發(fā)布了關(guān)于擬對部分算力服務(wù)業(yè)務(wù)收費價格上調(diào)的公告。公告顯示，當日，公司接到合作方四川并濟科技有限公司通知，由于內(nèi)嵌英偉達 A100 芯片的高性能算力服務(wù)器算力需求大幅增加，相關(guān)高性能運算設(shè)備持續(xù)漲價，算力資源持續(xù)緊張，并濟科技決定對其 A100 算力服務(wù)收費擬上調(diào) 100%。鑒于此，自即日起，匯納科技擬將所受托運營的內(nèi)嵌英偉達 A100 芯片的高性能算力服務(wù)器算力服務(wù)收費同步上調(diào) 100%。

還有不少 A 股公司通過投資者互動平臺披露了近期漲價的意愿。包括云服務(wù)商青云科技、潤建股份等都表示將根據(jù)市場供需情況對價格進行調(diào)整。

一些企業(yè)也預(yù)見到算力漲價周期的來臨，并已提前做好準備。11 月 4 日，弘信電子在投資者互動平臺上表示，現(xiàn)階段，全球及國內(nèi)算力需求越來越爆發(fā)、英偉達算力芯片已出現(xiàn)大幅漲價，國產(chǎn)算力資源也呈現(xiàn)越來越緊俏的態(tài)勢。公司已與燧原科技達成 9152 片算力芯片的采購協(xié)議，快速鎖定了算力芯片的量和價格，未來對外供貨算力產(chǎn)品時，在目前可預(yù)見的市場供求關(guān)系下，無論搭載英偉達芯片的服務(wù)器還是搭載國產(chǎn)芯片的服務(wù)器，價格上漲的趨勢都比較明確。

AI 應(yīng)用繁榮發(fā)展帶來的算力需求持續(xù)上升及算力供應(yīng)的日益緊張。作為「芯片基石」供應(yīng)商的英偉達在這場狂風驟雨中出盡了風頭，然而如今，英偉達卻對自己的未來表示擔憂。

隨著英偉達公司 2024 財年第三季度業(yè)績的公布，該公司再次證明自己在關(guān)鍵的高增長技術(shù)領(lǐng)域中是一個主導(dǎo)力量。不過，英偉達現(xiàn)在正面臨越來越多的競爭威脅，這也是事實。

如今的 AI 算力芯片市場一分為四，分別為耀眼的英偉達、正在崛起的中國算力芯片公司、尋求自研的科技/云服務(wù)器大廠以及眾多雄心勃勃的初創(chuàng)公司。一系列的主要參與者可能侵蝕英偉達在關(guān)鍵產(chǎn)品類別中的領(lǐng)導(dǎo)地位，使得其在長期內(nèi)保持市場份額的能力存在不確定性。

英偉達表示，預(yù)計在美國擴大對華芯片出口限制后，公司第四季度在中國的銷售額將大幅下降。英偉達首席財務(wù)官科萊特·克雷斯在與分析師的電話會議上表示：「政府的出口管制將對我們的中國業(yè)務(wù)產(chǎn)生負面影響，但是我們還無法清楚地預(yù)測這種影響的嚴重程度?！箍死姿固寡裕苷哂绊?，公司今年第四季度對中國和其他受影響的地區(qū)的銷售額將大幅下降。

今年早些時候，克雷斯就表示，從長遠來看，禁止向中國銷售人工智能芯片將導(dǎo)致美國芯片行業(yè)永久失去機會。