六大科技巨頭的自研AI芯片進(jìn)程解讀

作者：時(shí)間：2024-02-21 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

2023 年，「生成式人工智能」無(wú)疑是科技行業(yè)最熱門的術(shù)語(yǔ)。

本文引用地址：http://m.butianyuan.cn/article/202402/455554.htm

OpenAI 推出的生成應(yīng)用 ChatGPT 引發(fā)了市場(chǎng)狂熱，促使各科技巨頭紛紛加入競(jìng)爭(zhēng)。

據(jù) TechNews 報(bào)道，目前 NVIDIA 通過提供 AI 加速器占據(jù)市場(chǎng)主導(dǎo)地位，但這導(dǎo)致了市場(chǎng)上其 AI 加速器的短缺。甚至 OpenAI 也打算開發(fā)自己的芯片，以避免受到供應(yīng)鏈緊張的限制。

在當(dāng)前的 AI 發(fā)展浪潮中，NVIDIA 無(wú)疑是 AI 算力的領(lǐng)跑者。其 A100/H100 系列芯片已獲得全球人工智能市場(chǎng)頂級(jí)客戶的訂單。

華爾街投資銀行 Bernstein Research 的分析師 Stacy Rasgon 表示，使用 ChatGPT 進(jìn)行的每次查詢的成本約為 0.04 美元。如果 ChatGPT 查詢規(guī)模擴(kuò)大到 Google 搜索量的十分之一，初始部署將需要價(jià)值約 481 億美元的 GPU 進(jìn)行計(jì)算，每年需要價(jià)值約 160 億美元的芯片來(lái)維持運(yùn)營(yíng)，以及類似的相關(guān)芯片執(zhí)行任務(wù)的數(shù)量。

因此，無(wú)論是為了降低成本、減少對(duì) NVIDIA 的過度依賴，甚至是進(jìn)一步增強(qiáng)議價(jià)能力，全球科技巨頭都啟動(dòng)了開發(fā)自己的 AI 加速器的計(jì)劃。

據(jù)科技媒體 The Information 援引行業(yè)消息人士報(bào)道，微軟、OpenAI、特斯拉、谷歌、亞馬遜和 Meta 等六大全球科技巨頭都在投資開發(fā)自己的 AI 加速器芯片。這些公司預(yù)計(jì)將與 NVIDIA 的旗艦 H100 AI 加速器芯片展開競(jìng)爭(zhēng)。

科技巨頭自研芯片進(jìn)展

微軟

2023 年 11 月，微軟在年度 IT 專業(yè)人士和開發(fā)者大會(huì) Ignite 上推出兩款自研芯片——云端 AI 芯片微軟 Azure Maia 100、服務(wù)器 CPU 微軟 Azure Cobalt 100。

Maia 100 是微軟為微軟云中大語(yǔ)言模型訓(xùn)練和推理而設(shè)計(jì)的第一款 AI 芯片，采用臺(tái)積電 5nm 工藝，擁有 1050 億顆晶體管，針對(duì) AI 和生成式 AI 進(jìn)行了優(yōu)化，支持微軟首次實(shí)現(xiàn)的低于 8 位數(shù)據(jù)類型（MX 數(shù)據(jù)類型）。微軟已經(jīng)在用搜索引擎 Bing 和 Office AI 產(chǎn)品測(cè)試該芯片。

Cobalt 100 是微軟為微軟云定制開發(fā)的第一款 CPU，也是微軟打造的第一款完整的液冷服務(wù)器 CPU，采用 Arm Neoverse CSS 設(shè)計(jì)、128 核。

微軟還定制設(shè)計(jì)了一個(gè) AI 端到端機(jī)架，并搭配了一個(gè)「助手」液冷器，原理類似于汽車散熱器。

兩款芯片明年年初開始在微軟數(shù)據(jù)中心推出，最初為微軟的 Copilot 或 Azure OpenAI Service 等服務(wù)提供動(dòng)力。微軟已經(jīng)在設(shè)計(jì)第二代版本的 Azure Maia AI 芯片和 Cobalt CPU 系列。

這些芯片代表了微軟交付基礎(chǔ)設(shè)施系統(tǒng)的最后一塊拼圖——從芯片、軟件和服務(wù)器到機(jī)架和冷卻系統(tǒng)的一切，微軟這些系統(tǒng)都是由上到下設(shè)計(jì)的，可以根據(jù)內(nèi)部和客戶的工作負(fù)載進(jìn)行優(yōu)化。

OpenAI

據(jù)悉，OpenAI 也正在探索自研 AI 芯片，同時(shí)開始評(píng)估潛在收購(gòu)目標(biāo)。在其招聘網(wǎng)站上，最近也出現(xiàn)了 AI 硬件共同開發(fā)、評(píng)估相關(guān)崗位。OpenAI 擬籌建的合資企業(yè)與總部位于阿布扎比的 G42 和軟銀集團(tuán)等潛在投資者進(jìn)行了討論，旨在解決當(dāng)前和預(yù)期的人工智能相關(guān)芯片供應(yīng)短缺問題。

毫無(wú)疑問，該項(xiàng)目的財(cái)務(wù)和運(yùn)營(yíng)規(guī)模顯然是巨大的。Altman 僅與 G42 的討論就集中在籌集 80 億至 100 億美元之間。該項(xiàng)目的全部范圍和合作伙伴名單仍處于早期階段，這表明建立此類設(shè)施網(wǎng)絡(luò)需要大量投資和時(shí)間。

盡管還不清楚 Altman 是否計(jì)劃購(gòu)買一家成熟的代工廠來(lái)生產(chǎn) AI 芯片，或建立一個(gè)全新的晶圓廠網(wǎng)絡(luò)來(lái)滿足 OpenAI 及其潛在合作伙伴的需求，但此前有人分析 Altman 可能會(huì)考慮把參與投資的芯片公司納入麾下，包括 CerebrasRain NeuromorphicsAtomic SemiCerebras、Rain Neuromorphics、tomic Semi。

特斯拉

電動(dòng)汽車制造商特斯拉也積極參與 AI 加速器芯片的開發(fā)。特斯拉主要圍繞自動(dòng)駕駛需求，迄今為止推出了兩款 AI 芯片：全自動(dòng)駕駛（FSD）芯片和 Dojo D1 芯片。

FSD 芯片用于特斯拉汽車的自動(dòng)駕駛系統(tǒng)，而 Dojo D1 芯片則用于特斯拉的超級(jí)計(jì)算機(jī)。它充當(dāng)通用 CPU，構(gòu)建 AI 訓(xùn)練芯片來(lái)為 Dojo 系統(tǒng)提供動(dòng)力。

谷歌

Google 也早在 2013 年就秘密研發(fā)專注 AI 機(jī)器學(xué)習(xí)算法芯片，并用于云計(jì)算數(shù)據(jù)中心，取代英偉達(dá) GPU。

這款 TPU 自研芯片 2016 年公開，為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運(yùn)算，如自然語(yǔ)言處理、計(jì)算機(jī)視覺和推薦系統(tǒng)模型。Google 其實(shí)在 2020 年的資料中心便建構(gòu) AI 芯片 TPU v4，直到 2023 年 4 月才首次公開細(xì)節(jié)。

2023 年 12 月 6 日，谷歌官宣了全新的多模態(tài)大模型 Gemini，包含了三個(gè)版本，根據(jù)谷歌的基準(zhǔn)測(cè)試結(jié)果，其中的 Gemini Ultra 版本在許多測(cè)試中都表現(xiàn)出了「最先進(jìn)的性能」，甚至在大部分測(cè)試中完全擊敗了 OpenAI 的 GPT-4。

而在 Gemini 出盡了風(fēng)頭的同時(shí)，谷歌還丟出了另一個(gè)重磅炸彈——全新的自研芯片 TPU v5p，它也是迄今為止功能最強(qiáng)大的 TPU。

根據(jù)官方提供的數(shù)據(jù)，每個(gè) TPU v5p pod 在三維環(huán)形拓?fù)浣Y(jié)構(gòu)中，通過最高帶寬的芯片間互聯(lián)（ICI），以 4800 Gbps/chip 的速度將 8960 個(gè)芯片組合在一起，與 TPU v4 相比，TPU v5p 的 FLOPS 和高帶寬內(nèi)存（HBM）分別提高了 2 倍和 3 倍。

除此之外，TPU v5p 訓(xùn)練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍，利用第二代 SparseCores，TPU v5p 訓(xùn)練嵌入密集模型的速度比 TPU v4 快 1.9 倍。TPU v5p 在每個(gè) pod 的總可用 FLOPs 方面的可擴(kuò)展性也比 TPU v4 高出 4 倍，且每秒浮點(diǎn)運(yùn)算次數(shù)（FLOPS）增加了一倍，單個(gè) pod 中的芯片數(shù)量也增加了一倍，大大提高了訓(xùn)練速度的相對(duì)性能。

亞馬遜

亞馬遜旗下的云計(jì)算服務(wù)提供商亞馬遜網(wǎng)絡(luò)服務(wù)（AWS），自 2013 年推出 Nitro1 芯片以來(lái)，它一直是開發(fā)自有芯片的先驅(qū)。AWS 此后開發(fā)了自研芯片的三個(gè)產(chǎn)品線，包括網(wǎng)絡(luò)芯片、服務(wù)器芯片、AI 機(jī)器學(xué)習(xí)芯片。

其中，AWS 自研 AI 芯片陣容包括推理芯片 Inferentia 和訓(xùn)練芯片 Trainium。

此外，AWS 于 2023 年初推出了專為人工智能設(shè)計(jì)的 Inferentia 2（Inf2）。它將計(jì)算性能提高了三倍，同時(shí)將加速器總內(nèi)存增加了四分之一。

它通過芯片之間直接超高速連接支持分布式推理，可處理多達(dá) 1750 億個(gè)參數(shù)，使其成為當(dāng)今 AI 芯片市場(chǎng)上最強(qiáng)大的內(nèi)部制造商。

Meta

Meta 在 2022 年之前繼續(xù)使用專為加速 AI 算法而定制的 CPU 和定制芯片組來(lái)執(zhí)行其 AI 任務(wù)。然而，由于 CPU 在執(zhí)行 AI 任務(wù)方面與 GPU 相比效率較低，Meta 放棄了 2022 年大規(guī)模推出定制設(shè)計(jì)芯片的計(jì)劃，而是選擇購(gòu)買價(jià)值數(shù)十億美元的 NVIDIA GPU。

盡管如此，在其他主要廠商開發(fā)內(nèi)部人工智能加速器芯片的浪潮中，Meta 也涉足內(nèi)部芯片開發(fā)。

2023 年 5 月 19 日，Meta 進(jìn)一步公布了其人工智能訓(xùn)練和推理芯片項(xiàng)目。該芯片功耗僅為 25 瓦，是 NVIDIA 同類產(chǎn)品功耗的 1/20。它采用 RISC-V 開源架構(gòu)。據(jù)市場(chǎng)報(bào)道，該芯片也將采用臺(tái)積電的 7 納米制造工藝生產(chǎn)。

美國(guó)去年 10 月擴(kuò)大禁止向中國(guó)出售先進(jìn)人工智能芯片，英偉達(dá)雖然迅速為中國(guó)市場(chǎng)量身訂造新芯片，以符合美國(guó)出口規(guī)定。但近日有消息指出，阿里巴巴、騰訊等中國(guó)云計(jì)算大客戶，并不熱衷購(gòu)買功能降低的減規(guī)版 H20 芯片，轉(zhuǎn)成國(guó)內(nèi)采購(gòu)。策略轉(zhuǎn)變顯示透過部分先進(jìn)半導(dǎo)體訂單轉(zhuǎn)給中國(guó)公司，將更依賴中國(guó)本土廠商芯片。

TrendForce 表示，中國(guó)云端業(yè)者約八成高階 AI 芯片購(gòu)自英偉達(dá)，五年內(nèi)可能降至 50%~60%。若美國(guó)繼續(xù)加強(qiáng)芯片管制，可能對(duì)英偉達(dá)中國(guó)地區(qū)銷售造成額外壓力。

新聞中心

六大科技巨頭的自研AI芯片進(jìn)程解讀

科技巨頭自研芯片進(jìn)展

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)