英偉達算力壟斷能否被打破?各大廠商下場展開自研AI芯片競賽
據(jù)市場研究公司Omdia披露,2023年第二季度,英偉達出貨了900噸H100 AI GPU。而一個帶有散熱器的H100 GPU的平均重量超過3公斤,因此英偉達在第二季度出貨了30多萬塊H100。
本文引用地址:http://m.butianyuan.cn/article/202310/451552.htm以ChatGPT為首的生成式AI工具在全球范圍內(nèi)掀起了一股熱潮,拉升了對英偉達H100、A100、H800和A800等高性能GPU的需求,這使得該公司在全球AI GPU市場拿下達90%的市占率。隨著英偉達從生成式人工智能熱潮中獲利,該公司未來一年的出貨量將加速增長,預(yù)計今年有望銷售約3600噸H100 GPU,相當(dāng)于大約120萬塊。
對抗英偉達
市面上的大模型越來越多,對算力的需求量爆炸式增長:對于云廠商來說,只能不斷的堆服務(wù)器;對于大模型開發(fā)者來說,對算力的需求也在趨緊。自英偉達發(fā)布大模型專用GPU并量產(chǎn)供貨后,據(jù)行業(yè)內(nèi)部消息稱,由于市場需求遠大于產(chǎn)能供應(yīng),2023年英偉達H100的產(chǎn)量早已銷售一空,現(xiàn)在交錢訂購,至少要到2024年中才能拿到貨。
英偉達GPU芯片不光不愁賣,利潤率還高得嚇人。美國金融機構(gòu)Raymond James在報告中透露,H100芯片成本約3320美元,但英偉達對其客戶的批量價格仍然高達2.5萬-3萬美元。這一點從季度財報中也能得到充分印證,英偉達Q2財季凈利潤高達61.8億美元,同比上升843%。
英偉達井噴式的業(yè)績增長和長期展望表明AI需求并非曇花一現(xiàn),AI芯片行業(yè)涵蓋了芯片設(shè)計、制造和應(yīng)用等多個領(lǐng)域。AI芯片的出現(xiàn)讓大規(guī)模的數(shù)據(jù)效率大大提升,技術(shù)升級帶來巨大的生產(chǎn)力飛躍,也正在對各個產(chǎn)業(yè)帶來革命性改變,甚至產(chǎn)業(yè)邏輯也需要被重估。
巨大的市場空間,以及超乎想象的前景,吸引全球眾多大型科技公司都在積極投入AI芯片研發(fā)與生產(chǎn),將進一步刺激行業(yè)競爭。在此趨勢下,AI芯片的戰(zhàn)役正愈演愈烈。
不管是為了降低成本,還是減少對英偉達的依賴、提高議價能力,在AI芯片市場要對抗英偉達,其他廠商當(dāng)前只能抓住英偉達的產(chǎn)能仍較低的窗口期進行布局。
作為英偉達的最大競爭對手,AMD發(fā)布了AI處理器MI300系列芯片,包括MI300A、MI300X兩個版本。其中MI300X是一款直接對標(biāo)英偉達H100芯片,專門面向生成式AI推出的加速器,采用了8個GPU Chiplet加4個I/O內(nèi)存Chiplet的設(shè)計,總共12個5nm Chiplet封裝在一起,使其集成的晶體管數(shù)量達到了1530億,高于英偉達H100的800億晶體管。
與英偉達的H100芯片相比,MI300X的HBM密度是前者的2.4倍,帶寬則為前者的1.6倍,理論上可以運行比H100更大的模型。此外,AMD還發(fā)布了“AMD Instinct Platform”,集合了8個MI300X,可提供總計1.5TB的HBM3內(nèi)存。
蘇姿豐表示,隨著模型參數(shù)規(guī)模越來越大,就需要更多的GPU來運行。而隨著AMD芯片內(nèi)存的增加,開發(fā)人員將不再需要那么多數(shù)量的GPU,能夠為用戶節(jié)省成本。盡管AMD也在加速布局,但要量產(chǎn),還要等到本財年第四季度。
英特爾
今年7月,英特爾面向中國市場推出了AI芯片Habana Gaudi 2,直接對標(biāo)英偉達的A100,是專為訓(xùn)練大語言模型而構(gòu)建,采用7nm制程,有24個張量處理器核心。數(shù)據(jù)顯示,從計算機視覺模型訓(xùn)練到1760億參數(shù)的BLOOMZ推理,Gaudi 2每瓦性能約A100的2倍,模型訓(xùn)練和部署的功耗降低約一半。
相比A100,Gaudi 2價格更有競爭力,且性能更高,接下來采用FP8軟件的Gaudi 2預(yù)計能夠提供比H100更高的性價比。值得注意的是,去年英特爾就已經(jīng)在海外發(fā)布了Gaudi 2。
而英特爾在舊金山舉行的“Intel Innovation”大會上透露,使用5nm工藝打造的下一代Gaudi 3將在性能方面大幅提升。其中,BF16下的性能提升了四倍、計算能力提升了2倍、網(wǎng)絡(luò)帶寬的1.5倍以及HBM容量的提升1.5倍。
在Gaudi 3之后, 英特爾還計劃推出一個代號為Falcon Shores的繼任者。按照其最初規(guī)劃,F(xiàn)alcon Shores芯片為“XPU”設(shè)計,即集成CPU和GPU。但在上個月的財報會上,英特爾調(diào)整了Falcon Shores的計劃,將其重新定位為獨立GPU,并將于2025年發(fā)布。
其實在產(chǎn)品路線上,英特爾近年一直強調(diào)XPU,即多樣化、多組合的異構(gòu)計算。在AI相關(guān)的產(chǎn)品線上,既有集成AI加速器的CPU處理器、有GPU產(chǎn)品,以及Habana Gaudi系列代表的ASIC類型AI芯片。
IBM
IBM最近公布了一款新的模擬AI芯片,這款新芯片旨在解決生成式人工智能的主要問題之一:高能耗。通過集成大量的相變存儲單元實現(xiàn)更高效的計算和能效,據(jù)稱其能效比英偉達H100高出14倍。這對于大型模型的運行來說尤為重要,因為這些大型模型通常需要更多的能量來運行,意味著在相同的能量消耗下,它能夠完成更多的計算任務(wù)。
IBM聲稱其14nm模擬AI芯片每個組件可以編碼3500萬個相變存儲設(shè)備,可以建模多達1700萬個參數(shù)。同時,該芯片模仿了人腦的運作方式,微芯片直接在內(nèi)存中執(zhí)行計算,適用于節(jié)能語音識別和轉(zhuǎn)錄。隨著技術(shù)的不斷發(fā)展,預(yù)計未來模擬芯片有望成為人工智能領(lǐng)域的新趨勢。
亞馬遜
亞馬遜已擁有兩款A(yù)I專用芯片 —— 訓(xùn)練芯片Trainium和推理芯片Inferentia。2018年底,AWS推出自研AI推理芯片Inferentia,可以以低成本在云端運行圖像識別、語音識別、自然語言處理、個性化和欺詐檢測等大規(guī)模機器學(xué)習(xí)推理應(yīng)用程序;2020年底,AWS推出專用于訓(xùn)練機器學(xué)習(xí)模型的Trainium。
2023年初,專為人工智能打造的Inferentia 2發(fā)布,將計算性能提高了三倍,加速器總內(nèi)存提高了四分之一,吞吐量提高了四分之一,延遲提高了十分之一。Inf2實例(可通過芯片之間的直接超高速連接支持分布式推理)最多可支持1750億個參數(shù),這使其成為大規(guī)模模型推理的有力競爭者。
在亞馬遜、微軟和谷歌這三家中,亞馬遜是唯一一家在服務(wù)器中提供兩種類型芯片(標(biāo)準(zhǔn)計算芯片和用于訓(xùn)練與運行機器學(xué)習(xí)模型的專用芯片)的云提供商,其在2015年收購以色列芯片設(shè)計公司Annapurna Labs為這些努力奠定了基礎(chǔ)。
谷歌
早在2013年,谷歌就已秘密研發(fā)一款專注于AI機器學(xué)習(xí)算法的芯片,并將其用在內(nèi)部的云計算數(shù)據(jù)中心中,以取代英偉達的GPU。2016年5月,這款自研芯片公諸于世,即TPU:TPU可以為深度學(xué)習(xí)模型執(zhí)行大規(guī)模矩陣運算,例如用于自然語言處理、計算機視覺和推薦系統(tǒng)的模型,其最初專為谷歌的超級業(yè)務(wù)云計算數(shù)據(jù)中心而生。
實際上2020年,谷歌就在其數(shù)據(jù)中心部署了人工智能芯片TPU v4。不過直到今年4月4日,谷歌才首次公開了技術(shù)細(xì)節(jié) —— 相比TPU v3,TPU v4性能提升2.1倍;基于TPU v4的超級計算機擁有4096塊芯片,整體速度提高了約10倍。谷歌稱,對于類似大小的系統(tǒng),谷歌能做到比Graphcore IPU Bow快4.3-4.5倍,比英偉達A100快1.2-1.7倍,功耗低1.3-1.9倍。
目前,谷歌已將負(fù)責(zé)AI芯片的工程團隊轉(zhuǎn)移到了谷歌云,旨在提高谷歌云出售AI芯片給租用其服務(wù)器的公司的能力,從而與更大的競爭對手微軟和亞馬遜云科技相抗衡。雖然英偉達提供的GPU算力優(yōu)勢在前,但AI行業(yè)頭部的OpenAI、Midjourney的算力系統(tǒng)并沒有采購英偉達的GPU,而是選擇了谷歌的方案。
微軟
據(jù)The Information報道,微軟計劃在下個月的年度開發(fā)者大會上推出該公司首款為人工智能設(shè)計的芯片。2019年,微軟就開始在內(nèi)部開發(fā)代號為“Athena”的芯片,目前芯片已經(jīng)提供給微軟和OpenAI進行測試。Athena是為訓(xùn)練和運行大型語言模型(LLM)的數(shù)據(jù)中心服務(wù)器設(shè)計的,同時可支持推理,能為ChatGPT背后的所有AI軟件提供動力。
Athena的首個目標(biāo)是為OpenAI提供算力引擎,以替代昂貴的英偉達A100/H100,如果與英偉達的產(chǎn)品擁有同等競爭力,每個芯片的成本將可以降低三分之一。若明年大規(guī)模推出,Athena將允許微軟內(nèi)部和OpenAI的團隊同時訓(xùn)練和推理模型。
Meta
2022年,Meta還在主要使用CPU(中央處理器)和專為加速AI算法而設(shè)計的定制芯片組合來運行其AI工作負(fù)載,然而效率往往并不如GPU。之后,Meta取消了在2022年大規(guī)模推出定制芯片的計劃,轉(zhuǎn)而訂購了價值數(shù)十億美元的英偉達GPU。
直到今年,Meta在5月19日公布了AI訓(xùn)練與推理芯片項目,稱其為“針對推理工作負(fù)載的內(nèi)部定制加速器芯片系列”。據(jù)介紹,MTIA芯片的功耗僅為25瓦,占英偉達等市場領(lǐng)先供應(yīng)商芯片功耗的一小部分,并使用了RISC-V(第五代精簡指令處理器)開源架構(gòu)。
OpenAI
路透社報道,至少從去年開始,OpenAI就已討論各種方案,以解決AI芯片短缺問題。OpenAI已將獲取更多AI芯片列為公司首要任務(wù),討論方案包括自研AI芯片、與包括英偉達在內(nèi)的其他芯片制造商更密切地合作,以及在英偉達之外實現(xiàn)供應(yīng)商多元化。
對于OpenAI來說,自研芯片不僅能解決GPU的短缺問題,同時也將有效降低硬件運行所需的成本,畢竟GPT-4的運行成本實在太高了。
特斯拉
目前,特斯拉已經(jīng)推出了兩種自研芯片:全自動駕駛(FSD)芯片和Dojo D1芯片。
FSD芯片是用于特斯拉汽車上的自動駕駛系統(tǒng)的芯片,自2019年開始,特斯拉就將車上的英偉達處理器換成了自研的融合高速運算、AI等功能的FSD芯片。
Dojo D1芯片則是用于特斯拉超級計算機Dojo的芯片,是一種高吞吐量、通用的CPU。2021年,在首屆特斯拉AI Day上展示了其首款A(yù)I訓(xùn)練芯片Dojo D1,以及基于該芯片構(gòu)建的完整Dojo集群ExaPOD,目的是為了加速特斯拉自動駕駛系統(tǒng)的訓(xùn)練和改進,成為從汽車圈跑出來的強大對手。
英偉達鞏固地位
整體來看,當(dāng)英偉達的一些主要客戶開始自己開發(fā)AI芯片,無疑會讓英偉達面臨更為激烈的競爭。除了現(xiàn)有A100、H100等熱門產(chǎn)品出貨持續(xù)維持增長以外,英偉達也在持續(xù)發(fā)布多項用于AI和數(shù)據(jù)中心的新產(chǎn)品,以進一步鞏固自身在AI領(lǐng)域的話語權(quán)和統(tǒng)治力。
值得注意的是,英偉達計劃每年都推出一代新的數(shù)據(jù)中心GPU架構(gòu),例如明年將會使用H200來取代現(xiàn)有的H100。從NVIDIA新公布的官方路線圖來看,英偉達對指定日期持謹(jǐn)慎態(tài)度,這一點可能主要是因為與代工廠同步其計劃以及軟件部署準(zhǔn)備方面所面臨的挑戰(zhàn)。
路線圖顯示,英偉達準(zhǔn)備在2024年推出Hopper GH200 GPU,然后在2024年至2025年之間的某個時間推出基于Blackwell的GB200 GPU,最終在2025年后推出GX200 GPU。當(dāng)然,這些所謂的GH200、GB200和GX200都是圖形處理器的代號,實際產(chǎn)品名稱應(yīng)該是H200、B100和X100等。
目前,英偉達的產(chǎn)能正在逐漸攀升,加之采購量逐漸放緩,應(yīng)該一段時間后就會達到供需平衡的階段。唯一的矛盾就只剩下價格了,考慮到英偉達的成本與售價有著近10倍的差距,降價的空間應(yīng)該很充裕。那么對于絕大多數(shù)的企業(yè)而言,采購英偉達的專業(yè)計算卡搭建高性能數(shù)據(jù)中心依舊是一個劃算的買賣。
而一些對性能要求較低的數(shù)據(jù)中心,相比之下用自研芯片建造會更合適:面向普通用戶的數(shù)據(jù)中心可以使用自研芯片,降低建造成本及后續(xù)的維護費用。隨著AI模型的應(yīng)用范圍擴大,企業(yè)顯然也需要在全球各地建設(shè)更多的數(shù)據(jù)中心,以便就近響應(yīng)用戶的使用需求。
雖然最有競爭力的MI300X采用了更大的192GB HBM3,但英偉達的產(chǎn)品也在迭代,等AMD正式發(fā)售MI300X時,英偉達可能也已經(jīng)推出了參數(shù)更強的產(chǎn)品;而且由于AMD未公布新品價格,采用192GB HBM3的MI300X成本可能與H100相比可能不會有顯著的價格優(yōu)勢。
其次,MI300X沒有H100所擁有的用于加速Transformer大模型的引擎,這也意味著用同樣數(shù)量的MI300X將花費更長的訓(xùn)練時間。MI300X可能更多是作為客戶買不到H100的“替代品”。
相較于硬件參數(shù),最重要的是在軟件生態(tài)的建立和開發(fā)方面,英偉達的CUDA經(jīng)過十幾年積累已構(gòu)建其他競爭對手短時間難以逾越的壁壘。
從當(dāng)前進程來看,英偉達此前積累下來的優(yōu)勢,即使在未來也不會輕易丟失。但是隨著其他企業(yè)的入局,英偉達的話語權(quán)也不會再那么強硬,在產(chǎn)品定價等方面,可能會讓渡出部分利潤來維持市場份額。
傳統(tǒng)半導(dǎo)體巨頭試圖分一杯羹并不讓人感到奇怪,需要英偉達警惕的是OpenAI和微軟同時宣布將啟動AI芯片研發(fā)計劃,作為AI芯片最核心的兩大用戶,如果他們的自研芯片計劃成功,顯然會對英偉達的生態(tài)地位和營收造成更為嚴(yán)重的影響。
評論