博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 悄然崛起的英偉達(dá)新對(duì)手

悄然崛起的英偉達(dá)新對(duì)手

發(fā)布人:芯東西 時(shí)間:2024-07-01 來(lái)源:工程師 發(fā)布文章

圖片

圖片

挑戰(zhàn)英偉達(dá)。本文授權(quán)轉(zhuǎn)載自公眾號(hào)“半導(dǎo)體行業(yè)觀察”,ID:icbank,作者:邵逸琦。

英偉達(dá)都有哪些對(duì)手?

首選當(dāng)然是AMD和英特爾,前者本身就有AI加速卡的業(yè)務(wù),集CPU和GPU設(shè)計(jì)能力與一身,而后者呢,作為x86架構(gòu)的奠基人,如今也涉足AI加速卡領(lǐng)域,可以見(jiàn)到它們所推出的產(chǎn)品不僅在參數(shù)上對(duì)標(biāo)英偉達(dá),還在定位與售價(jià)等方面發(fā)動(dòng)了一輪又一輪的攻勢(shì)。

而英偉達(dá)的客戶(hù)與博通和Marvell組成統(tǒng)一戰(zhàn)線后,也成了它的對(duì)手,不斷推陳出新的自研定制芯片,開(kāi)始取代傳統(tǒng)的通用AI加速卡,讓英偉達(dá)感受到了另一種壓力。

而在網(wǎng)絡(luò)領(lǐng)域,英偉達(dá)也迎來(lái)了自己的對(duì)手。


01.英偉達(dá)獨(dú)占AI網(wǎng)絡(luò)



進(jìn)入21世紀(jì)以來(lái),隨著云計(jì)算、大數(shù)據(jù)的日益普及,數(shù)據(jù)中心得到了快速發(fā)展。而InfiniBand在其中發(fā)揮了很大的作用,尤其是從2023年開(kāi)始,以ChatGPT為代表的大型AI模型依賴(lài)于InfiniBand,讓這一網(wǎng)絡(luò)技術(shù)的關(guān)注度進(jìn)一步提升。

眾所周知,現(xiàn)代數(shù)字計(jì)算機(jī)自誕生以來(lái)就一直采用馮·諾依曼體系結(jié)構(gòu),該體系結(jié)構(gòu)中有CPU(算術(shù)邏輯單元和控制單元)、內(nèi)存(RAM、硬盤(pán))和I/O(輸入/輸出)設(shè)備。20世紀(jì)90年代初,為了支持越來(lái)越多的外部設(shè)備,Intel率先在標(biāo)準(zhǔn)PC架構(gòu)中引入了外圍組件互連(PCI)總線設(shè)計(jì)。

隨后,互聯(lián)網(wǎng)進(jìn)入快速發(fā)展階段,在線業(yè)務(wù)和用戶(hù)規(guī)模的不斷增長(zhǎng)對(duì)IT系統(tǒng)容量提出了巨大挑戰(zhàn)。在摩爾定律的支持下,CPU、內(nèi)存、硬盤(pán)等部件都在飛速進(jìn)步,而PCI總線的更新?lián)Q代速度卻比較慢,大大限制了I/O性能,成為了整個(gè)系統(tǒng)的瓶頸。

為了解決這個(gè)問(wèn)題,Intel、微軟和SUN牽頭制定了“下一代I/O(NGIO)”技術(shù)標(biāo)準(zhǔn),而IBM、康柏和惠普則牽頭制定了“未來(lái)I/O(FIO)”,并于1998年聯(lián)合制定了PCI-X標(biāo)準(zhǔn)。

1999 年,F(xiàn)IO開(kāi)發(fā)者論壇和 NGIO 論壇合并成立了InfiniBand貿(mào)易協(xié)會(huì) (IBTA)。很快,在2000年,InfiniBand架構(gòu)規(guī)范1.0版本正式發(fā)布。InfiniBand誕生的目的就是為了取代PCI總線,它引入了RDMA協(xié)議,提供更低的延遲、更高的帶寬、更高的可靠性,從而實(shí)現(xiàn)更強(qiáng)大的I/O性能。

同樣在1999年5月,幾位從英特爾和伽利略科技公司出走的員工在以色列成立了一家叫Mellanox的芯片公司, Mellanox成立后加入了NGIO,后來(lái)NGIO與FIO 合并,Mellanox也加入了InfiniBand陣營(yíng),并于2001年推出了第一款I(lǐng)nfiniBand產(chǎn)品。

而隨著英特爾轉(zhuǎn)向PCI Express(PCIe),以及微軟退出InfiniBand,該網(wǎng)絡(luò)技術(shù)開(kāi)始轉(zhuǎn)向計(jì)算機(jī)集群互聯(lián)的應(yīng)用領(lǐng)域,而新成立的Mellanox開(kāi)始走上舞臺(tái),逐漸成為InfiniBand發(fā)展過(guò)程中的中堅(jiān)力量。

InfiniBand雖然同時(shí)被英特爾和微軟放棄,但它在新的領(lǐng)域中找到了增長(zhǎng)點(diǎn)。2012年以后,隨著高性能計(jì)算(HPC)需求的不斷增長(zhǎng),InfiniBand技術(shù)不斷取得長(zhǎng)足進(jìn)步,市場(chǎng)份額不斷提升。2015年,InfiniBand技術(shù)在TOP500榜單中的份額首次突破50%,達(dá)到51.4%(257個(gè)系統(tǒng))。這標(biāo)志著InfiniBand技術(shù)首次成功挑戰(zhàn)以太網(wǎng)技術(shù),成為超級(jí)計(jì)算機(jī)首選的內(nèi)部互連技術(shù)。

圖片

而Mellanox也在不斷成長(zhǎng):2010年,Mellanox與Voltaire合并,Mellanox和QLogic成為InfiniBand的主要供應(yīng)商;2013年,Mellanox進(jìn)一步進(jìn)軍網(wǎng)絡(luò)領(lǐng)域,收購(gòu)硅光技術(shù)公司Kotura和并行光互連芯片制造商IPtronics,進(jìn)一步鞏固其行業(yè)地位;到2015年,Mellanox已占據(jù)全球InfiniBand市場(chǎng)80%的份額。業(yè)務(wù)范圍從芯片擴(kuò)展到網(wǎng)卡、交換機(jī)/網(wǎng)關(guān)、遠(yuǎn)程通信系統(tǒng)、線纜和模塊,成為世界級(jí)網(wǎng)絡(luò)供應(yīng)商。

隨著AI的持續(xù)發(fā)展,InfiniBand的價(jià)值也日益顯現(xiàn),Mellanox也因其在該技術(shù)上近乎壟斷的地位而成為廠商眼里的香餑餑。

為什么InfiniBand對(duì)于AI如此重要?對(duì)于AI超級(jí)計(jì)算機(jī)來(lái)說(shuō),我們可以把它看作一個(gè)由許多圖形處理單元(GPUs)組成的集群,這些單元進(jìn)行大量復(fù)雜的計(jì)算。此外,還有一些中央處理單元(CPUs)負(fù)責(zé)指揮計(jì)算機(jī)的操作,再加上一些DRAM芯片和NAND芯片,成本大約分配為:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。

但上述所有的芯片需要互相連接,這可以通過(guò)InfiniBand或以太網(wǎng)電纜來(lái)實(shí)現(xiàn),也就是所謂的“網(wǎng)絡(luò)”,它們占硬件成本的10-15%,而目的就是提供盡可能高的帶寬,讓數(shù)據(jù)能快速傳輸,倘若不能實(shí)現(xiàn)更高的帶寬,那么無(wú)論在GPUs上花費(fèi)多少成本,最后都會(huì)變得毫無(wú)意義。

英偉達(dá)作為AI領(lǐng)域最早的探索者之一,很敏銳地察覺(jué)到了這一點(diǎn),同時(shí)決定將其關(guān)注點(diǎn)從游戲轉(zhuǎn)向AI。2019 年,英偉達(dá)以69億美元收購(gòu)Mellanox,超過(guò)了競(jìng)爭(zhēng)對(duì)手英特爾和微軟的出價(jià),后兩者的出價(jià)分別為60億美元和55億美元,這筆數(shù)額龐大的收購(gòu),為英偉達(dá)進(jìn)入網(wǎng)絡(luò)技術(shù)市場(chǎng)鋪平了道路。

當(dāng)時(shí)英偉達(dá)的CEO黃仁勛解釋稱(chēng),收購(gòu)Mellanox的原因是:“這是兩家全球領(lǐng)先的高性能計(jì)算公司的合并,我們專(zhuān)注于加速計(jì)算,而Mellanox則專(zhuān)注于互連和存儲(chǔ)?!?/span>

GPU和網(wǎng)絡(luò)技術(shù)捆綁銷(xiāo)售,聽(tīng)起來(lái)有點(diǎn)像強(qiáng)買(mǎi)強(qiáng)賣(mài),但令許多人都未預(yù)料到的是,由黃仁勛所打造的這一模式迅速取得了成功。截至今年1月,英偉達(dá)的年收入翻了一番多,達(dá)到609億美元,計(jì)算和網(wǎng)絡(luò)部門(mén)的銷(xiāo)售額增長(zhǎng)了215%,占英偉達(dá)業(yè)務(wù)的78%。雖然英偉達(dá)的GPU部分引起了大量關(guān)注,但其網(wǎng)絡(luò)業(yè)務(wù)也是成功的關(guān)鍵。在公司的最后一次財(cái)報(bào)電話會(huì)議上,黃仁勛表示,InfiniBand的收入同比增長(zhǎng)了5倍,意味著其增長(zhǎng)速度約為整個(gè)計(jì)算和網(wǎng)絡(luò)業(yè)務(wù)的兩倍。

英偉達(dá)將自身的GPU算力Mellanox的網(wǎng)絡(luò)技術(shù)相結(jié)合,打造出了一個(gè)強(qiáng)大的“計(jì)算引擎”,在計(jì)算基礎(chǔ)設(shè)施方面,英偉達(dá)無(wú)疑占據(jù)著領(lǐng)先優(yōu)勢(shì)。


02.英偉達(dá)的大威脅



過(guò)去,業(yè)界一直在使用英偉達(dá)配套的 InfiniBand 網(wǎng)絡(luò)解決方案來(lái)部署人工智能和機(jī)器學(xué)習(xí)技術(shù),原因很簡(jiǎn)單,它是目前最成熟的支持大規(guī)模部署的網(wǎng)絡(luò)技術(shù),但I(xiàn)nfiniBand并非完美,一方面由于收購(gòu),它變成了英偉達(dá)的獨(dú)家產(chǎn)品,另一方面,它的成本昂貴,絕非普通企業(yè)可以輕松承擔(dān)得起的。

英偉達(dá)的CEO黃仁勛曾調(diào)侃道,InfiniBand只占集群成本的20%,而它能將人工智能訓(xùn)練的性能提高20%,某種程度上已經(jīng)收回了成本,因而InfiniBand實(shí)際上是免費(fèi)的。但這樣的論斷顯然是有失偏頗的,客戶(hù)必須首先拿出集群成本的20%,才能真正榨取出集群的性能,這就意味著用120%的成本創(chuàng)造120%的性能。

相對(duì)比之下,基于以太網(wǎng)的集群通常只需要額外的10%甚至更低的成本,盡管后者在性能上往往難以與InfiniBand匹敵,但它憑著自己的低廉價(jià)格也爭(zhēng)取到了一部分用戶(hù)。事實(shí)上,如今高性能網(wǎng)絡(luò)的競(jìng)爭(zhēng),是InfiniBand與高速以太網(wǎng)的較量,資源充足的廠商會(huì)更傾向于選擇InfiniBand,而注重性?xún)r(jià)比的廠商則可能傾向于高速以太網(wǎng)。

但這樣的情況并非一成不變,即便是那些具備雄厚財(cái)力的大企業(yè),也在尋找更廉價(jià)更合適的網(wǎng)絡(luò)方案,英偉達(dá)與InfiniBand正在不斷受到挑戰(zhàn)。

2023年7月,Linux基金會(huì)宣布,將監(jiān)督成立一個(gè)超級(jí)以太網(wǎng)聯(lián)盟,該聯(lián)盟的創(chuàng)始成員包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特爾、Meta 和微軟的支持下,超以太網(wǎng)聯(lián)盟表示將致力于改進(jìn)以太網(wǎng),以滿(mǎn)足高性能計(jì)算和人工智能系統(tǒng)所需的低延遲和可擴(kuò)展性要求。

該聯(lián)盟創(chuàng)立的首要任務(wù)是定義和開(kāi)發(fā)他們所稱(chēng)的超以太網(wǎng)傳輸(UET)協(xié)議,這是一種新的以太網(wǎng)傳輸層協(xié)議,能更好地滿(mǎn)足人工智能和HPC工作負(fù)載的需求。

在高層次上,超以太網(wǎng)聯(lián)盟希望以外科手術(shù)的方式完善以太網(wǎng),只對(duì)實(shí)現(xiàn)目標(biāo)所必需的部分進(jìn)行改進(jìn)和改動(dòng)。從一開(kāi)始,該聯(lián)盟就著眼于改進(jìn)以太網(wǎng)技術(shù)的軟件層和物理層,但不改變其基本結(jié)構(gòu),以確保成本效益和互操作性。

聯(lián)盟的技術(shù)目標(biāo)包括開(kāi)發(fā)規(guī)范、應(yīng)用程序接口和源代碼,以定義超以太網(wǎng)通信的協(xié)議、接口和數(shù)據(jù)結(jié)構(gòu)。此外,聯(lián)盟還致力于更新現(xiàn)有的鏈路和傳輸協(xié)議,創(chuàng)建新的遙測(cè)、信令、安全和擁塞機(jī)制,以更好地滿(mǎn)足大型人工智能和高性能計(jì)算集群的需求。同時(shí),由于人工智能和高性能計(jì)算工作負(fù)載有許多不同之處,UET 將為適當(dāng)?shù)牟渴鹛峁﹩为?dú)的配置文件。

得益于這個(gè)超級(jí)以太網(wǎng)聯(lián)盟,過(guò)去以太網(wǎng)運(yùn)行人工智能工作負(fù)載的幾個(gè)問(wèn)題正在解決,也推動(dòng)了以太網(wǎng)在傳統(tǒng)HPC工作負(fù)載中的更廣泛采用,這也讓以太網(wǎng)網(wǎng)絡(luò)公司找到了反攻InfiniBand的機(jī)會(huì)。

圖片

超級(jí)以太網(wǎng)聯(lián)盟成員之一,以太網(wǎng)絡(luò)公司Arista Networks在今年2月的財(cái)報(bào)電話會(huì)議中,其首席執(zhí)行官Jayshree Ullal解釋了InfiniBand和以太網(wǎng)之間的區(qū)別:“如你所知,從歷史上看,當(dāng)單獨(dú)考慮InfiniBand和以太網(wǎng)時(shí)各有優(yōu)勢(shì)。傳統(tǒng)上,InfiniBand被認(rèn)為是無(wú)損的,而以太網(wǎng)被認(rèn)為有一些損失特性。然而當(dāng)你實(shí)際將一個(gè)完整的GPU集群連同光學(xué)設(shè)備等一同考慮,并查看所有數(shù)據(jù)包大小上的任務(wù)完成時(shí)間一致性時(shí),數(shù)據(jù)——包括來(lái)自博通的第三方數(shù)據(jù)——顯示在現(xiàn)實(shí)環(huán)境中比較這些技術(shù),以太網(wǎng)的任務(wù)完成時(shí)間大約快10%。所以,你可以孤立地看待這些技術(shù),也可以在實(shí)際集群中看待它們。而在實(shí)際集群中,我們已經(jīng)看到以太網(wǎng)的改進(jìn)。請(qǐng)記住,這只是我們今天所知的以太網(wǎng)。一旦我們有了超級(jí)以太網(wǎng)聯(lián)盟和一些改進(jìn),比如數(shù)據(jù)包噴灑、動(dòng)態(tài)負(fù)載平衡和擁塞控制,我相信這些數(shù)字會(huì)變得更好?!?/span>

“Arista聲稱(chēng)其以太網(wǎng)在任務(wù)完成速度上比InfiniBand快約10%,這一點(diǎn)令我們感到意外,特別是考慮到InfiniBand在當(dāng)前GPU集群中的深度滲透?!盝efferies分析師George Notter在會(huì)議后表示。

他指出,英偉達(dá)將GPUs與InfiniBand簡(jiǎn)單捆綁銷(xiāo)售是該技術(shù)成功的關(guān)鍵原因,換句話說(shuō),InfiniBand受歡迎的部分原因是因?yàn)樗c英偉達(dá)的GPU一起銷(xiāo)售,但這現(xiàn)在GPU的積壓訂單減少了,使用InfiniBand的動(dòng)機(jī)可能也會(huì)減少,這對(duì)Arista以及另一家以太網(wǎng)網(wǎng)絡(luò)公司博通來(lái)說(shuō)是個(gè)好消息。

“我們?cè)谒膫€(gè)主要的AI以太網(wǎng)集群中取得了進(jìn)展,這些集群都是我們戰(zhàn)勝I(mǎi)nfiniBand的案例。在所有四個(gè)案例中,我們現(xiàn)在正從試驗(yàn)轉(zhuǎn)向試點(diǎn),每年連接數(shù)千個(gè)GPU,”Arista首席執(zhí)行官Jayshree Ullal解釋道。Arista在上季度業(yè)績(jī)表現(xiàn)也非常不錯(cuò),截至3月的三個(gè)月中,Arista的收入同比增長(zhǎng)了16%,每股收益增長(zhǎng)了44%,分析師預(yù)計(jì)隨著AI基礎(chǔ)設(shè)施支出的增加,這一增長(zhǎng)將會(huì)加速。Arista約40%的業(yè)務(wù)來(lái)自微軟和Meta,這兩家公司都宣布明年將再次增加資本支出。Jefferies分析師George Notter最近還將Arista的評(píng)級(jí)從持有上調(diào)至買(mǎi)入,他表示:“現(xiàn)在,部署基于GPU的基礎(chǔ)設(shè)施(包括以太網(wǎng))的熱潮將會(huì)持久?!?/span>

Arista并不是唯一一家受益于“部署熱潮”的網(wǎng)絡(luò)公司。博通截至2月4日的三個(gè)月收入同比增長(zhǎng)了34%,達(dá)到120億美元,其中網(wǎng)絡(luò)收入增長(zhǎng)了46%,達(dá)到33億美元?!斑@主要是由于我們的兩個(gè)超大規(guī)??蛻?hù)對(duì)AI加速器的強(qiáng)勁需求,”博通首席執(zhí)行官Hock Tan在財(cái)報(bào)電話會(huì)議上解釋道。

對(duì)網(wǎng)絡(luò)硬件的需求比博通預(yù)期的還要快,“超大規(guī)??蛻?hù)以及部署AI數(shù)據(jù)中心的大型企業(yè)的強(qiáng)勁需求”推動(dòng)了這一增長(zhǎng)。因此,博通將其網(wǎng)絡(luò)業(yè)務(wù)的全年增長(zhǎng)預(yù)期從30%上調(diào)至35%。整體而言,博通今年的收入預(yù)計(jì)為500億美元,比去年增長(zhǎng)40%。

國(guó)外媒體The Next Platform提出了一個(gè)有趣的數(shù)學(xué)問(wèn)題:Arista Networks在AI集群互連銷(xiāo)售中每賺取7.5億美元,英偉達(dá)可能會(huì)損失15億至22.5億美元。在過(guò)去的12個(gè)月中,粗略估計(jì)英偉達(dá)在 InfiniBand 網(wǎng)絡(luò)方面的銷(xiāo)售額為64.7億美元,而數(shù)據(jù)中心的GPU計(jì)算銷(xiāo)售額為397.8億美元,在四比一的分紅率和穩(wěn)定的市場(chǎng)條件下,英偉達(dá)可以保留約13億美元,而超級(jí)以太網(wǎng)聯(lián)盟可以保留17億至26億美元,如果一切保持不變,InfiniBand的銷(xiāo)售目標(biāo)將達(dá)到120億美元。

該媒體指出,超級(jí)以太網(wǎng)聯(lián)盟的成員可以搶占的市場(chǎng)份額很大,但他們將通過(guò)從系統(tǒng)中移除收入來(lái)?yè)屨?,就像Linux對(duì)Unix所做的那樣,而不是將收入從一種技術(shù)轉(zhuǎn)換為另一種技術(shù),其中節(jié)省下來(lái)的資金將重新投入到GPU中。


03.挑戰(zhàn)英偉達(dá)



英偉達(dá)不止是在網(wǎng)絡(luò)領(lǐng)域受到挑戰(zhàn),正如我們前文中提到的,它的最大依仗——GPU正在受到AMD、英特爾、博通等公司的圍剿,盡管它坐擁3萬(wàn)億美元市值,但依然會(huì)倍感壓力。在網(wǎng)絡(luò)市場(chǎng),Arista現(xiàn)在無(wú)疑還是非常弱小的一家公司,相較于英偉達(dá)InfiniBand動(dòng)輒數(shù)十億美元的營(yíng)收,短期內(nèi)它還難以挑戰(zhàn),但巨頭們對(duì)于AI集群網(wǎng)絡(luò)壟斷的不滿(mǎn),讓Arista獲得快速發(fā)展的寶貴機(jī)會(huì),假以時(shí)日,它很有可能成為英偉達(dá)新的心腹大患。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達(dá)

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉