博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 自研芯片之后,AWS省了多少錢(qián)?

自研芯片之后,AWS省了多少錢(qián)?

發(fā)布人:旺材芯片 時(shí)間:2023-03-22 來(lái)源:工程師 發(fā)布文章

來(lái)源:內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自semianalysis,謝謝。


亞馬遜擁有的服務(wù)器比世界上任何其他公司都多,盡管它的內(nèi)部需求比谷歌、微軟、Meta 和騰訊小得多。Amazon Web Services (AWS) 長(zhǎng)期以來(lái)一直是云計(jì)算的代名詞。AWS 通過(guò)迎合初創(chuàng)企業(yè)和類(lèi)似企業(yè)的需求,提供可擴(kuò)展、可靠、低成本的計(jì)算和存儲(chǔ)解決方案,從而主導(dǎo)了市場(chǎng)。這個(gè)引擎推動(dòng)亞馬遜成為世界上最杰出的計(jì)算公司,但這種情況正在發(fā)生變化。


亞馬遜是一家了不起的技術(shù)公司,但他們?cè)谀承┓矫嬗兴啡?。技術(shù)實(shí)力、文化和/或業(yè)務(wù)決策將阻礙他們像前兩次那樣抓住下一波云計(jì)算浪潮。本文將涵蓋云計(jì)算的這 3 個(gè)階段,以及亞馬遜在前兩個(gè)階段的持續(xù)主導(dǎo)地位并不一定讓他們?cè)谟?jì)算未來(lái)的戰(zhàn)斗中處于領(lǐng)先地位。


我們還將概述亞馬遜的各種內(nèi)部半導(dǎo)體設(shè)計(jì),包括 Nitro、Graviton、SSD、Inferentia 和 Trainium。本概述將探討亞馬遜內(nèi)部半導(dǎo)體雄心的技術(shù)和總體擁有成本觀點(diǎn)。我們認(rèn)為,亞馬遜故意做的事情會(huì)損害其在人工智能和企業(yè)自動(dòng)化領(lǐng)域的地位,并最終導(dǎo)致他們失去計(jì)算市場(chǎng)份額。同時(shí),包括Microsoft Azure、Google Cloud、Nvidia Cloud、Oracle Cloud、IBM Cloud、Equinix Fabric、Coreweave、Cloudflare 和 Lambda 在內(nèi)的廠商,將從多個(gè)方向和不同程度上對(duì)抗亞馬遜的主導(dǎo)地位。

旺材芯片
,贊47

在我們深入研究我們的論文之前,我們需要先上一堂歷史課。


AWS 的出現(xiàn)


隨著亞馬遜零售業(yè)務(wù)規(guī)模的膨脹,它開(kāi)始遇到其單一的 90 年代軟件實(shí)踐的局限性。在這里,梅特卡夫定律(Metcaff’s law )有點(diǎn)適用——隨著每個(gè)附加服務(wù)或開(kāi)發(fā)人員的增加,復(fù)雜性以 n^2 的速度增長(zhǎng)。即使是簡(jiǎn)單的更改或增強(qiáng)也會(huì)影響許多下游應(yīng)用程序和用例,需要大量的溝通。因此,亞馬遜將不得不在一年中的某個(gè)時(shí)間點(diǎn)凍結(jié)大部分代碼更改,以便假期可以專(zhuān)注于錯(cuò)誤修復(fù)和穩(wěn)定性。


亞馬遜還存在重復(fù)工作和資源的重大問(wèn)題,只是為了建立一個(gè)簡(jiǎn)單的關(guān)系數(shù)據(jù)庫(kù)或計(jì)算服務(wù)。最聰明的工程師通常不是最好的溝通者這一事實(shí)加劇了這種情況,當(dāng)不同團(tuán)隊(duì)之間沒(méi)有共同目標(biāo)時(shí)尤其如此。大型軟件項(xiàng)目往往會(huì)達(dá)到臨界質(zhì)量,組織和應(yīng)用程序的規(guī)模會(huì)導(dǎo)致生產(chǎn)力和新功能的實(shí)施時(shí)間過(guò)長(zhǎng)。


微軟是最早遇到這個(gè)問(wèn)題的公司之一,他們最初通過(guò)引入項(xiàng)目經(jīng)理的角色來(lái)解決這個(gè)問(wèn)題。專(zhuān)職人員與開(kāi)發(fā)人員團(tuán)隊(duì)交流,管理組織、溝通和規(guī)范文檔等任務(wù),這在當(dāng)時(shí)是聞所未聞的,但它是一種有效的工具。僅此一項(xiàng)并不能解決所有問(wèn)題。


亞馬遜在多年后遇到了同樣的問(wèn)題,但他們?cè)谟龅竭@些問(wèn)題時(shí)采取了截然不同的方法。亞馬遜并沒(méi)有促進(jìn)團(tuán)隊(duì)之間的溝通,而是試圖通過(guò)利用“強(qiáng)化接口”來(lái)減少溝通。他們從這種單一的軟件開(kāi)發(fā)模式轉(zhuǎn)向面向服務(wù)的架構(gòu)。需要明確的是,其他公司和學(xué)術(shù)界也在實(shí)施這項(xiàng)技術(shù),但沒(méi)有人像亞馬遜那樣強(qiáng)烈地投入到這項(xiàng)技術(shù)中。


亞馬遜早期員工 Steve Yegge 回憶起亞馬遜的這個(gè)關(guān)鍵時(shí)刻。以下是他加入谷歌后對(duì)亞馬遜****雷霆的備忘錄的一部分,該備忘錄不小心被分享到了網(wǎng)上。


“所以有一天杰夫貝索斯發(fā)布了一項(xiàng)授權(quán)(mandate)。當(dāng)然,他一直都在這樣做,每當(dāng)這種情況發(fā)生時(shí),人們都會(huì)像被橡皮錘敲打的螞蟻一樣爭(zhēng)先恐后。但有一次——我想是在 2002 年左右,前后一年——他發(fā)布了一項(xiàng)如此公開(kāi)、如此龐大和令人目瞪口呆的授權(quán),以至于他的所有其他授權(quán)看起來(lái)都像是未經(jīng)請(qǐng)求的同行獎(jiǎng)金.


他的大使命是沿著這些路線進(jìn)行的:


  1. 今后所有團(tuán)隊(duì)都將通過(guò)服務(wù)接口公開(kāi)他們的數(shù)據(jù)和功能。

  2. 團(tuán)隊(duì)必須通過(guò)這些界面相互溝通。

  3. 不允許其他形式的進(jìn)程間通信:沒(méi)有直接鏈接,沒(méi)有直接讀取另一個(gè)團(tuán)隊(duì)的數(shù)據(jù)存儲(chǔ),沒(méi)有共享內(nèi)存模型,沒(méi)有任何后門(mén)。唯一允許的通信是通過(guò)網(wǎng)絡(luò)上的服務(wù)接口調(diào)用。

  4. 他們使用什么技術(shù)并不重要。HTTP、Corba、Pubsub、自定義協(xié)議——都無(wú)關(guān)緊要。貝佐斯不在乎。

  5. 所有服務(wù)接口,無(wú)一例外,都必須從頭開(kāi)始設(shè)計(jì)為可外部化的。也就是說(shuō),團(tuán)隊(duì)必須進(jìn)行規(guī)劃和設(shè)計(jì),才能將接口暴露給外界的開(kāi)發(fā)者。沒(méi)有例外。

  6. 任何不這樣做的人都會(huì)被解雇。

  7. 謝謝; 祝你今天過(guò)得愉快!


哈哈!在座的 150 多名前亞馬遜員工當(dāng)然會(huì)立即意識(shí)到#7 是我開(kāi)的一個(gè)小玩笑,因?yàn)樨愖羲菇^對(duì)不會(huì)在乎你的一天?!?/p>


這個(gè)分享中最具影響力的部分是第 5 個(gè)部分,即他們必須能夠?qū)⑦@些強(qiáng)化接口外部化。這是AWS的開(kāi)始。


從此以后!合乎邏輯的進(jìn)展是以類(lèi)似的方式抽象出計(jì)算和存儲(chǔ)硬件。由于許多團(tuán)隊(duì)一直在構(gòu)建服務(wù),并被告知如果他們與其他團(tuán)隊(duì)交談,他們將被解雇,因此沒(méi)有任何可以想象的方式讓 IT 集中規(guī)劃對(duì)服務(wù)器的需求以及計(jì)算和存儲(chǔ)需求的增長(zhǎng)。隨著團(tuán)隊(duì)的服務(wù)在內(nèi)部大受歡迎,他們需要能夠?yàn)槿蝿?wù)配置硬件。


又花了大約 4 年的時(shí)間,亞馬遜的團(tuán)隊(duì)終于采納了這些想法并創(chuàng)建了后來(lái)成為 AWS 的公開(kāi)產(chǎn)品。


我們將從頭快進(jìn),更多地談?wù)撨@個(gè)時(shí)代對(duì)今天的意義。早期,亞馬遜籠絡(luò)了所有初創(chuàng)公司,讓他們能夠真正建立自己的業(yè)務(wù)。雖然大多數(shù)早期采用者是 Netflix 和 Twitch 等軟件領(lǐng)域的非傳統(tǒng)新公司,但創(chuàng)新的硬件公司也都登上了勢(shì)不可擋的云貨運(yùn)列車(chē)。


“這太容易了。對(duì)于像我們這樣的新公司,您將永遠(yuǎn)不會(huì)再構(gòu)建傳統(tǒng)的數(shù)據(jù)中心?!盇rista 和 Sun Microsystems 的創(chuàng)始人,Google 和 VMware 最早的投資者之一Andy Bechtolsheim說(shuō)。


亞馬遜于 2006 年推出了存儲(chǔ)服務(wù) S3。緊隨其后的是計(jì)算服務(wù) EC2。2009年,提供關(guān)系型數(shù)據(jù)庫(kù)服務(wù)。然后是 Redshift 和 Dynamo DB。在他們的任何競(jìng)爭(zhēng)對(duì)手甚至接近之前,亞馬遜已經(jīng)與客戶(hù)進(jìn)行了數(shù)百次重要發(fā)布。要點(diǎn)是,這個(gè)時(shí)代的特點(diǎn)是 AWS 只是擁有比其他任何人都更好/更多的產(chǎn)品、應(yīng)用程序和服務(wù),以及更好的文檔。每次谷歌云或微軟 Azure 構(gòu)建一些東西時(shí),亞馬遜都會(huì)領(lǐng)先很多步和/或更容易使用。


雖然這是事實(shí),尤其是在云的初期,并且在某些類(lèi)別中一直持續(xù)到今天。AWS 出現(xiàn)的故事和生命周期仍在上演,盡管鴻溝已大大縮小。亞馬遜讓人們使用****付款的模式擾亂了 6 位數(shù)或 7 位數(shù)服務(wù)合同的傳統(tǒng)業(yè)務(wù),并將繼續(xù)這樣做。第一波云計(jì)算浪潮有一條長(zhǎng)長(zhǎng)的尾巴。


AWS 的王牌——規(guī)模(Scale)


隨著過(guò)去十年中期的到來(lái),大多數(shù)財(cái)富 500 強(qiáng)公司也開(kāi)始向云遷移。隨著云計(jì)算市場(chǎng)的成熟,其他公司認(rèn)識(shí)到了這個(gè)機(jī)會(huì)并開(kāi)始大力投資他們的云產(chǎn)品。尤其是 Microsoft Azure,通過(guò)利用其對(duì)企業(yè)友好的方法成為強(qiáng)有力的競(jìng)爭(zhēng)者。雖然谷歌云平臺(tái)最初因缺乏商業(yè)重點(diǎn)而難以獲得市場(chǎng)份額,但此后它改進(jìn)了產(chǎn)品并將很快實(shí)現(xiàn)盈利。


競(jìng)爭(zhēng)變得越來(lái)越激烈,但亞馬遜有一張王牌——規(guī)模。


有兩種方法可以看待這種規(guī)模優(yōu)勢(shì)。首先是從lens來(lái)看,亞馬遜實(shí)際上只是更大,在云空間中的足跡比其他任何人都多。云服務(wù)提供商需要一定程度的規(guī)模來(lái)利用其規(guī)模以較低的價(jià)格購(gòu)買(mǎi)硬件并分?jǐn)偲滠浖陀布O(shè)計(jì)成本。


云服務(wù)提供商還需要準(zhǔn)備好一定數(shù)量的容量供其他人隨時(shí)使用,這一點(diǎn)尤其重要。因?yàn)樵品?wù)提供商不能只集中計(jì)劃其服務(wù)器的利用率。即使是長(zhǎng)期合同,也常常伴隨著何時(shí)使用信用額度的高度不確定性。同時(shí),云提供商必須具有高利用率才能獲得足夠的投資回報(bào)率 (RoIC)。你越大,就越容易實(shí)現(xiàn)那些高利用率,并有足夠的過(guò)剩產(chǎn)能供客戶(hù)增加和減少。


由于云市場(chǎng)的規(guī)模意味著多家公司可以達(dá)到最小可行臨界質(zhì)量,因此這個(gè)lens的持續(xù)時(shí)間大多有限。亞馬遜擊中了那個(gè)曲棍球棒的時(shí)刻,大約是在 2010 年代的早期到中期。到了2012 年,亞馬遜實(shí)現(xiàn)了自成立以來(lái)的對(duì) AWS 進(jìn)行了 23 次降價(jià),到 2015 年他們總共進(jìn)行了 51 次。盡管競(jìng)爭(zhēng)開(kāi)始升溫,但 2017 年時(shí)代后降價(jià)明顯放緩,盡管私人兩位數(shù)百分比折扣非常普遍。至少,微軟和谷歌也早就達(dá)到了這種規(guī)模水平。在專(zhuān)門(mén)的應(yīng)用程序中,其他云也達(dá)到了有意義的規(guī)模,例如 CDN 中的 Cloudflare 或 AI 服務(wù)器中的 Oracle。


更重要的規(guī)模角度來(lái)自專(zhuān)用半導(dǎo)體的lens,無(wú)論是內(nèi)部還是與生態(tài)系統(tǒng)中的合作伙伴。亞馬遜和谷歌是這一轉(zhuǎn)型中最重要的領(lǐng)導(dǎo)者,但每家超大規(guī)模公司都已經(jīng)開(kāi)始部署至少一些內(nèi)部芯片。這涵蓋了從網(wǎng)絡(luò)、通用計(jì)算和ASIC。


亞馬遜也通過(guò)定制芯片節(jié)省了大量成本,這是競(jìng)爭(zhēng)對(duì)手難以復(fù)制的,尤其是在標(biāo)準(zhǔn) CPU 計(jì)算和存儲(chǔ)應(yīng)用程序中。定制芯片為云提供商帶來(lái) 3 大核心優(yōu)勢(shì)。


1、通過(guò)架構(gòu)創(chuàng)新為您獨(dú)特的工作負(fù)載設(shè)計(jì)芯片以獲得更高的性能。

2、對(duì)某些工作負(fù)載進(jìn)行戰(zhàn)略控制和鎖定。

3、通過(guò)消除無(wú)晶圓廠設(shè)計(jì)公司的利潤(rùn)堆疊來(lái)節(jié)省成本。


當(dāng)涉及到新的業(yè)務(wù)部門(mén)、部門(mén)或基礎(chǔ)設(shè)施變化時(shí),亞馬遜過(guò)去是,現(xiàn)在仍然是,以一種非常有創(chuàng)業(yè)精神的方式運(yùn)營(yíng)。他們的團(tuán)隊(duì)在很多方面都保持靈活和小規(guī)模,但他們?nèi)匀坏玫奖澈筮@個(gè)龐然大物組織的全力支持。我們最喜歡的與此相關(guān)的故事是他們開(kāi)始定制芯片。


Amazon Nitro


早在 2012 年,AWS 的一名工程師就有了一個(gè)想法。為什么不在每個(gè) EC2 實(shí)例和外部世界之間放置一個(gè)“加密狗”(dongle),一種專(zhuān)用硬件,以便所有數(shù)據(jù)都可以通過(guò)它流動(dòng)?這個(gè)加密狗將運(yùn)行安全、網(wǎng)絡(luò)和虛擬化任務(wù),例如管理程序?!凹用芄贰钡暮锰帉⒅苯犹岣?EC2 實(shí)例的性能、成本和安全性,同時(shí)還支持裸機(jī)實(shí)例。最初的一個(gè)小想法能夠變成亞馬遜的整個(gè)定制芯片工作,它設(shè)計(jì)了許多不同的芯片并每年為他們節(jié)省數(shù)百億美元。


AWS 制定了支持這種加密狗想法的定制芯片的規(guī)范。要求很簡(jiǎn)單,一個(gè)基于 Arm 的雙核片上系統(tǒng) (SoC),可以連接 PCIe。在與幾家公司接洽后,AWS 與Cavium合作,以避免構(gòu)建定制 SoC導(dǎo)致每臺(tái) EC2 服務(wù)器成本大幅增加的挑戰(zhàn),由此產(chǎn)生的 Cavium 部件很快就交付了。整個(gè)系統(tǒng),在獨(dú)立的 PCIe 卡和相關(guān)軟件上帶有定制的 SoC,被命名為“Nitro 系統(tǒng)”。它首次出現(xiàn)(盡管最初并未公開(kāi)討論)在 C3、R2 和 I2、EC2 實(shí)例中。


到 2022 年 8 月,AWS 部署了四代、超過(guò) 2000 萬(wàn)個(gè) Nitro 部件,每臺(tái)新的 EC2 服務(wù)器都至少安裝了一個(gè) Nitro 部件。


這種“加密狗”的主要成本優(yōu)勢(shì)是它卸載了亞馬遜的管理軟件,即管理程序,否則它會(huì)在現(xiàn)有的 CPU 上運(yùn)行。亞馬遜基礎(chǔ)設(shè)施中最常部署的 CPU 過(guò)去是,現(xiàn)在仍然是英特爾 14 納米 24 核 CPU。直到今天,Microsoft Azure 等其他云在非客戶(hù)的工作負(fù)載上占用了多達(dá) 4 個(gè) CPU 內(nèi)核。如果這在亞馬遜的所有基礎(chǔ)設(shè)施中都適用,那么現(xiàn)有服務(wù)器的虛擬機(jī)數(shù)量將減少約 15%,從而減少收入。


即使對(duì)每個(gè) Nitro 節(jié)省 2 個(gè) CPU 內(nèi)核的更為保守的估計(jì)(每?jī)?nèi)核成本保守估計(jì)約為四分之一的保留標(biāo)價(jià)),那么Nitro每年節(jié)省的成本也超過(guò) 70 億美元。


圖片


將這些工作負(fù)載從服務(wù)器 CPU 內(nèi)核轉(zhuǎn)移到定制的 Nitro 芯片不僅大大降低了成本,而且由于消除了與管理程序相關(guān)的嘈雜相鄰問(wèn)題(例如共享緩存、IO 帶寬和功率/熱量預(yù)算)而提高了性能。


此外,客戶(hù)還可以通過(guò)在管理程序管理層和服務(wù)器之間增加air gap來(lái)提高安全性。這種物理隔離消除了來(lái)自惡意租戶(hù)的邊信道升級(jí)攻擊的可能載體。


除了管理程序卸載節(jié)省,隨著 Nitro 的發(fā)展,它還在許多網(wǎng)絡(luò)工作負(fù)載中發(fā)揮了核心作用。例如,可以卸載 IPsec,僅此一項(xiàng)就可以為亞馬遜的每個(gè)主要客戶(hù)節(jié)省數(shù)百萬(wàn)美元。


圖片


亞馬遜定制芯片工作的核心直接來(lái)自他們與 Annapurna Labs 的合作以及后來(lái)在 2015 年對(duì) Annapurna Labs 的收購(gòu)。Annapurna 專(zhuān)注于用于網(wǎng)絡(luò)和存儲(chǔ)的服務(wù)器 SOC。應(yīng)該注意的是,Nitro 不僅僅是 1 個(gè)芯片,盡管我們是這樣稱(chēng)呼它的。但其實(shí)對(duì)于不同的用例,Nitro有多個(gè)版本和多個(gè)變體。


Amazon 在 EC2 之外的大多數(shù)頂級(jí)服務(wù)都與存儲(chǔ)和數(shù)據(jù)庫(kù)有關(guān)。Nitro 是亞馬遜在這些工作負(fù)載中獲得持久競(jìng)爭(zhēng)優(yōu)勢(shì)的主要推動(dòng)因素。傳統(tǒng)的服務(wù)器架構(gòu)在每臺(tái)服務(wù)器中至少放置了一些存儲(chǔ),這導(dǎo)致未使用的資源大量擱置。


圖片


亞馬遜能夠從每臺(tái)服務(wù)器上移除該存儲(chǔ)并將其移動(dòng)到集中式服務(wù)器中。然后客戶(hù)租用的服務(wù)器可以從網(wǎng)絡(luò)存儲(chǔ)啟動(dòng)。即使使用高性能 NVMe SSD,Nitro 也能做到這一點(diǎn)。這種存儲(chǔ)架構(gòu)的轉(zhuǎn)變幫助亞馬遜極大地節(jié)省了存儲(chǔ)成本,因?yàn)榭蛻?hù)不需要為超出他們想要使用的存儲(chǔ)量支付任何費(fèi)用。客戶(hù)可以無(wú)縫地動(dòng)態(tài)擴(kuò)展和收縮他們的高性能存儲(chǔ)池。


從使用通用硬件的計(jì)算和網(wǎng)絡(luò)角度來(lái)看,這是極其昂貴的,但由于在內(nèi)部特定于工作負(fù)載的 ASIC 上,Nitro 可以以較低的成本向租戶(hù)的虛擬機(jī)提供虛擬磁盤(pán)等服務(wù)。


圖片


亞馬遜對(duì)存儲(chǔ)的關(guān)注延伸到與 Marvell共同設(shè)計(jì)“AWS Nitro SSD”控制器。這些 SSD 專(zhuān)注于避免延遲峰值和避免延遲可變性,以及通過(guò) Amazon 管理的高級(jí)磨損均衡最大限度地延長(zhǎng) SSD 的使用壽命。未來(lái)的變體將包括一些計(jì)算卸載以提高查詢(xún)性能。


其他 2 大云也在嘗試走同樣的路線,但他們落后了很多年,并且需要一個(gè)需要一定利潤(rùn)的合作伙伴。谷歌選擇使用定制芯片與共同設(shè)計(jì)的英特爾 Mount Evans IPU,而微軟則結(jié)合了 AMD Pensando DPU,并最終在內(nèi)部開(kāi)發(fā)了用于存儲(chǔ)用例的基于 Fungible 的 DPU。在接下來(lái)的幾年里,這兩個(gè)競(jìng)爭(zhēng)對(duì)手都將堅(jiān)持使用第一代或第二代商用芯片。


亞馬遜正在安裝他們內(nèi)部設(shè)計(jì)的第 5 代 Nitro 。從基礎(chǔ)設(shè)施成本的角度來(lái)看,Nitro 帶來(lái)的優(yōu)勢(shì)不可低估。它可以大大降低亞馬遜的成本,然后可以將成本轉(zhuǎn)嫁給客戶(hù),或者帶來(lái)更高的利潤(rùn)。


Arm進(jìn)一步走向AWS


雖然 Nitro 確實(shí)使用了基于 Arm 的 CPU 內(nèi)核,但關(guān)鍵在于各種固定功能的特定于應(yīng)用程序的加速。AWS 對(duì)基于 Arm 的定制芯片的興趣不僅限于將他們自己的工作負(fù)載卸載到專(zhuān)用硬件。2013 年,AWS 對(duì)使用自己的芯片的想法有了更進(jìn)一步的發(fā)展。在一份名為“AWS Custom Hardware”的文檔中,工程師 James Hamilton 提出了兩個(gè)關(guān)鍵點(diǎn)。


  1. 服務(wù)器功能最終將整合到一個(gè) SoC 中。因此,要在云中進(jìn)行創(chuàng)新,AWS 需要在硅片上進(jìn)行創(chuàng)新。

  2. 移動(dòng)和物聯(lián)網(wǎng)平臺(tái)上出貨的 Arm CPU 數(shù)量將使投資能夠創(chuàng)建基于 Arm 的出色服務(wù)器 CPU,就像英特爾能夠在客戶(hù)端業(yè)務(wù)中利用 x86 接管 90 年代和 00 年代的服務(wù)器 CPU 業(yè)務(wù)一樣。


最終的結(jié)論是,AWS 需要做一個(gè)定制的 Arm 服務(wù)器處理器。順便說(shuō)一句,如果這份文件在其成立 10 周年之際公開(kāi)發(fā)布以展示它的遠(yuǎn)見(jiàn),那將是一件令人驚奇的事情。讓我們擴(kuò)展 James Hamilton 的這篇論文,看看使用 AWS 設(shè)計(jì)的基于 Arm 的 CPU 與外部同類(lèi)產(chǎn)品相比可以提供優(yōu)勢(shì)的兩種主要方式。


首先,它們?yōu)?AWS 提供了一種降低成本并為客戶(hù)提供更好價(jià)值的方法。它將如何實(shí)現(xiàn)這一目標(biāo)?根據(jù) James Hamilton 的觀點(diǎn),它可以通過(guò)使用 Arm 設(shè)計(jì)的 Neoverse 核心來(lái)利用 Arm 在移動(dòng)領(lǐng)域的規(guī)模。它還可以利用臺(tái)積電的制造規(guī)模,該規(guī)模遠(yuǎn)超英特爾,主要是由于智能手機(jī)市場(chǎng)。當(dāng)然,使用臺(tái)積電還可以獲得領(lǐng)先的工藝節(jié)點(diǎn),領(lǐng)先于英特爾。


我們估計(jì)到 2022 年亞馬遜的內(nèi)部 Graviton 2 和 3 CPU 將達(dá)到近 100 萬(wàn)個(gè)。僅這一數(shù)量就足以證明將核心設(shè)計(jì)外包給 Arm 的內(nèi)部 CPU 計(jì)劃是合理的,尤其是在亞馬遜繼續(xù)替代 AMD 和Intel 的CPU 是自己采購(gòu)的。亞馬遜的垂直整合策略是顯而易見(jiàn)的,即使唯一的好處是更便宜的 CPU。


圖片


將亞馬遜的 Graviton 單位體積與一般市場(chǎng)進(jìn)行比較,與英特爾和 AMD 相比仍然相形見(jiàn)絀。雖然我們認(rèn)為亞馬遜憑借其內(nèi)部安裝在 Arm 服務(wù)器領(lǐng)域的出貨量超過(guò)了Ampere Computing ,但與 x86 供應(yīng)商相比仍有很大差距。


圖片


現(xiàn)在,如果我們檢查平均銷(xiāo)售價(jià)格,由于 48 核和 64 核服務(wù)器 CPU 的高度組合以及無(wú)與倫比的 IO 能力,AMD 獲得了業(yè)內(nèi)最高的銷(xiāo)售價(jià)格。Ampere Computing 的 ASP 相似,大約在 600 美元左右。我們使用了我們自己對(duì) Graviton 2 和 Graviton 3 的制造、包裝和測(cè)試成本的估算。請(qǐng)注意,IP 許可成本未計(jì)算在內(nèi),但可能不會(huì)那么高,因?yàn)閬嗰R遜與 Arm 達(dá)成了一個(gè)非常友好的合作協(xié)議。


圖片


如果假設(shè) CPU 是 1 對(duì) 1 的替代品,那么亞馬遜改用內(nèi)部芯片可為他們節(jié)省數(shù)億美元。當(dāng)然,并不是所有的 CPU 都是平等的。即使是 AMD 的上一代 Milan 在許多方面仍然比英特爾、亞馬遜或Ampere 當(dāng)前一代芯片更快。即使忽略異常值,Graviton 在 2022 年的潛在節(jié)省也超過(guò) 3 億美元?,F(xiàn)在,亞馬遜的 CPU比英特爾的性能更高。同時(shí),功耗更低。這一事實(shí)層出不窮,節(jié)省的資金開(kāi)始快速增長(zhǎng)。我們認(rèn)為 Graviton 的總開(kāi)發(fā)成本可能在每年約 1 億美元的范圍內(nèi),這為他們節(jié)省了超過(guò) 2 億美元。


商業(yè)芯片供應(yīng)商正在不可逆轉(zhuǎn)地?fù)p失數(shù)億美元,并很快損失數(shù)十億美元的 TAM。英特爾是這里最大的輸家,從一家將數(shù)百萬(wàn)個(gè) CPU 銷(xiāo)售到云端的芯片公司,轉(zhuǎn)變?yōu)橐患覍?duì)這些 Graviton3 CPU 進(jìn)行利潤(rùn)率顯著降低的封裝的制造公司。


同樣重要的是,內(nèi)部 CPU 使亞馬遜能夠設(shè)計(jì) CPU 以最大限度地提高密度并最大限度地減少服務(wù)器和系統(tǒng)級(jí)能源,這對(duì)總體擁有成本有很大幫助。一個(gè)易于理解的工程決策是,亞馬遜將 Graviton 3 設(shè)計(jì)為只有 64 個(gè)內(nèi)核,盡管它有足夠的空間來(lái)擴(kuò)展芯片尺寸和功率。


將此與AMD 的 96 核 Epyc 進(jìn)行對(duì)比,后者速度更快,但也具有更高的功率。亞馬遜有意識(shí)的工程決策使他們能夠在每個(gè) 1U 服務(wù)器上放置 3 個(gè)CPU。同時(shí),AMD Genoa服務(wù)器每 1U 最多 2 個(gè) CPU,并且由于功率限制,它通常最終成為 2U 大小的服務(wù)器。一些與 AMD 和英特爾不同的更細(xì)微的工程選擇圍繞著 Graviton 的是后者是云原生的。


當(dāng)然,我們不應(yīng)忘記,競(jìng)爭(zhēng)也增加了英特爾和 AMD 降低 CPU 價(jià)格的壓力。AWS 也節(jié)省了他們的 x86 CPU!AMD 和英特爾必須在很大程度上超越亞馬遜,以證明他們?cè)谏虡I(yè)芯片上的巨額利潤(rùn)是合理的。我們毫不懷疑 AMD 在設(shè)計(jì) CPU 內(nèi)核和 SoC 方面更勝一籌,而英特爾也可以做到這一點(diǎn),但他們是否可以超過(guò) 2 倍以證明其約 60% 的數(shù)據(jù)中心利潤(rùn)率是合理的?毫無(wú)疑問(wèn),這是個(gè)艱難的提議。


微軟和谷歌都在進(jìn)行內(nèi)部服務(wù)器 CPU 方面的工作,但他們還沒(méi)有批量安裝任何東西。即使他們做到了,也很難想象他們能夠擊敗亞馬遜的第三代或者第四代產(chǎn)品。亞馬遜的巨大規(guī)模,尤其是在通用計(jì)算和存儲(chǔ)相關(guān)的垂直領(lǐng)域,不容小覷。這將在未來(lái)許多年繼續(xù)推動(dòng)云計(jì)算的持久優(yōu)勢(shì)。


下一個(gè)計(jì)算時(shí)代


到目前為止,我們只是對(duì)亞馬遜贊不絕口,但在我們甚至可以開(kāi)始談?wù)撛品?wù)提供商的未來(lái)之前,必須介紹亞馬遜優(yōu)勢(shì)的背景和現(xiàn)實(shí)。


總的來(lái)說(shuō),亞馬遜、半導(dǎo)體和科技都是 S 型曲線的故事。亞馬遜作為一家公司,致力于不斷發(fā)展。他們從未真正退出投資周期。在很多方面,他們?cè)谖幕隙季邆淇偰苷业较乱患笫碌哪芰?,而不一定是在他們的毒牙扎進(jìn)去后就榨取最大價(jià)值。


亞馬遜的文化、圍繞其云服務(wù)提供商模型的有意識(shí)的商業(yè)決策,以及與定制計(jì)算和網(wǎng)絡(luò)芯片相關(guān)的技術(shù)選擇,可能會(huì)讓他們?cè)谙乱粋€(gè)計(jì)算時(shí)代束手無(wú)策。雖然云的前兩個(gè)時(shí)代將繼續(xù)發(fā)揮作用,亞馬遜將從成為寡頭壟斷市場(chǎng)中領(lǐng)先的不受監(jiān)管的公用事業(yè)公司中獲取巨大價(jià)值,但下一個(gè)時(shí)代不一定屬于他們。來(lái)自現(xiàn)有競(jìng)爭(zhēng)對(duì)手和領(lǐng)先的新競(jìng)爭(zhēng)對(duì)手的巨大競(jìng)爭(zhēng)壓力。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 自研芯片

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉