深入理解AI芯片的核心技術(shù)
Nvidia的AI芯片路線圖分析與解讀在2023年10月的投資者會議上,Nvidia展示了其全新的GPU發(fā)展藍(lán)圖 [1]。與以往兩年一次的更新節(jié)奏不同,這次的路線圖將演進(jìn)周期縮短至一年。預(yù)計在2024年,Nvidia將推出H200和B100 GPU;到2025年,X100 GPU也將面世。其AI芯片規(guī)劃的戰(zhàn)略核心是“One Architecture”統(tǒng)一架構(gòu),支持在任何地方進(jìn)行模型訓(xùn)練和部署,無論是數(shù)據(jù)中心還是邊緣設(shè)備,無論是x86架構(gòu)還是Arm架構(gòu)。其解決方案適用于超大規(guī)模數(shù)據(jù)中心的訓(xùn)練任務(wù),也可以滿足企業(yè)級用戶的邊緣計算需求。AI芯片從兩年一次的更新周期轉(zhuǎn)變?yōu)橐荒暌淮蔚母轮芷?/span>,反映了其產(chǎn)品開發(fā)速度的加快和對市場變化的快速響應(yīng)。其AI芯片布局涵蓋了訓(xùn)練和推理兩個人工智能關(guān)鍵應(yīng)用,訓(xùn)練推理融合,并側(cè)重推理。同時支持x86和Arm兩種不同硬件生態(tài)。在市場定位方面,同時面向超大規(guī)模云計算和企業(yè)級用戶,以滿足不同需求。Nvidia旨在通過統(tǒng)一的架構(gòu)、廣泛的硬件支持、快速的產(chǎn)品更新周期以及面向不同市場提供全面的差異化的AI解決方案,從而在人工智能領(lǐng)域保持技術(shù)和市場的領(lǐng)先地位。Nvidia是一個同時擁有 GPU、CPU和DPU的計算芯片和系統(tǒng)公司。Nvidia通過NVLink、NVSwitch和NVLink C2C技術(shù)將CPU、GPU進(jìn)行靈活連接組合形成統(tǒng)一的硬件架構(gòu),并于CUDA一起形成完整的軟硬件生態(tài)。在AI計算芯片架構(gòu)方面,注重訓(xùn)練和推理功能的整合,側(cè)重推理。圍繞GPU打造ARM和X86兩條技術(shù)路線。在Nvidia的AI路線圖中,并沒有顯示提及Grace CPU的技術(shù)路線,而是將其納入Grace+GPU的SuperChip超級芯片路標(biāo)中。Nvidia Grace CPU會跟隨GPU的演進(jìn)節(jié)奏并與其組合成新一代超級芯片;而其自身也可能根據(jù)市場競爭的需求組合成CPU超級芯片,實現(xiàn)“二打一”的差異化競爭力。從需求角度來看,CPU的技術(shù)演進(jìn)速度并不像GPU那樣緊迫,并且CPU對于成本更加敏感。CPU只需按照“摩爾”或“系統(tǒng)摩爾”,以每兩年性能翻倍的速度進(jìn)行演進(jìn)即可。而GPU算力需要不到一年就要實現(xiàn)性能翻倍,保持每年大約2.5倍的速率增長。這種差異催生了超級芯片和超節(jié)點(diǎn)的出現(xiàn)。Nvidia將延用SuperChip超級芯片架構(gòu),NVLink-C2C和NVLink互聯(lián)技術(shù)在Nvidia未來的AI芯片架構(gòu)中將持續(xù)發(fā)揮關(guān)鍵作用。其利用NVLink-C2C互聯(lián)技術(shù)構(gòu)建GH200、GB200和GX200超級芯片。更進(jìn)一步,通過NVLink互聯(lián)技術(shù),兩顆GH200、GB200和GX200可以背靠背連接,形成GH200NVL、GB200NVL和GX200NVL模組。Nvidia可以通過NVLink網(wǎng)絡(luò)組成超節(jié)點(diǎn),通過InfiniBand或Ethernet網(wǎng)絡(luò)組成更大規(guī)模的AI集群。在交換芯片方面,仍然堅持InfiniBand和Ethernet兩條開放路線,瞄準(zhǔn)不同市場,前者瞄準(zhǔn)AI Factory,后者瞄準(zhǔn)AIGC Cloud。但其并未給出NVLink和NVSwitch自有生態(tài)的明確計劃。224G代際的速度提升,可能率先NVLink和NVSwitch上落地。以InfiniBand為基礎(chǔ)的Quantum系列和以Ethernet基礎(chǔ)的Spectrum-X系列持續(xù)升級。預(yù)計到2024年,將商用基于100G SerDes的800G接口的交換芯片;而到2025年,將迎來基于200G SerDes的1.6T接口的交換芯片。其中800G對應(yīng)51.2T交換容量的Spectrum-4芯片,而1.6T則對應(yīng)下一代Spectrum-5,其交換容量可能高達(dá)102.4T。從演進(jìn)速度上看,224G代際略有提速,但從長時間周期上看,其仍然遵循著SerDes速率大約3到4年翻倍、交換芯片容量大約2年翻倍的規(guī)律。雖然有提到2024年Quantum將會升級到800G,但目前我們只能看到2021年發(fā)布的基于7nm工藝,400G接口的25.6T Quantum-2交換芯片。路線圖中并未包含NVSwitch 4.0和NVLink 5.0的相關(guān)計劃。有預(yù)測指出Nvidia可能會首先在NVSwitch和NVLink中應(yīng)用224G SerDes技術(shù)。NVLink和NVSwitch作為Nvidia自有生態(tài),不會受到標(biāo)準(zhǔn)生態(tài)的掣肘,在推出時間和技術(shù)路線選擇上更靈活,從而實現(xiàn)差異化競爭力。SmartNIC智能網(wǎng)卡/DPU數(shù)據(jù)處理引擎的下一跳ConnectX-8/BlueField-4目標(biāo)速率為 800G,與1.6T Quantum和Spectrum-X配套的SmartNIC和DPU的路標(biāo)仍不明晰,NVLink5.0和NVSwitch4.0可能提前發(fā)力。Nvidia ConnectX系列SmartNIC智能網(wǎng)卡與InfiniBand技術(shù)相結(jié)合,可以在基于NVLink網(wǎng)絡(luò)的超節(jié)點(diǎn)基礎(chǔ)上構(gòu)建更大規(guī)模的AI集群。而BlueField DPU則主要面向云數(shù)據(jù)中心場景,與Ethernet技術(shù)結(jié)合,提供更強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施能力。相較于NVLink總線域網(wǎng)絡(luò),InfiniBand和Ethernet屬于傳統(tǒng)網(wǎng)絡(luò)技術(shù),兩種網(wǎng)絡(luò)帶寬比例大約為1比9。例如,H00 GPU用于連接SmartNIC和DPU的PCIE帶寬為128GB/s,考慮到PCIE到Ethernet的轉(zhuǎn)換,其最大可以支持400G InfiniBand或者Ethernet接口,而NVLink雙向帶寬為900GB/s或者3.6Tbps,因此傳統(tǒng)網(wǎng)絡(luò)和總線域網(wǎng)絡(luò)的帶寬比為1比9。雖然SmartNIC和DPU的速率增長需求沒有總線域網(wǎng)絡(luò)的增速快,但它們與大容量交換芯片需要保持同步的演進(jìn)速度。它們也受到由IBTA (InfiniBand) 和IEEE802.3 (Ethernet) 定義互通標(biāo)準(zhǔn)的產(chǎn)業(yè)生態(tài)成熟度的制約。互聯(lián)技術(shù)在未來的計算系統(tǒng)的擴(kuò)展中起到至關(guān)重要的作用。Nvidia同步布局的還有LinkX系列光電互聯(lián)技術(shù)。包括傳統(tǒng)帶oDSP引擎的可插拔光互聯(lián) (Pluggable Optics),線性直驅(qū)光互聯(lián)LPO (Linear Pluggable Optics),傳統(tǒng)DAC電纜、重驅(qū)動電纜 (Redrived Active Copper Cable)、芯片出光 (Co-Packaged Optics) 等一系列光電互聯(lián)技術(shù)。隨著超節(jié)點(diǎn)和集群網(wǎng)絡(luò)的規(guī)模不斷擴(kuò)大,互聯(lián)技術(shù)將在未來的AI計算系統(tǒng)中發(fā)揮至關(guān)重要的作用,需要解決帶寬、時延、功耗、可靠性、成本等一系列難題。對Nvidia而言,來自Google、Meta、AMD、Microsoft和Amazon等公司的競爭壓力正在加大。這些公司在軟件和硬件方面都在積極發(fā)展,試圖挑戰(zhàn)Nvidia在該領(lǐng)域的主導(dǎo)地位,這或許是Nvidia提出相對激進(jìn)技術(shù)路線圖的原因。Nvidia為了保持其市場地位和利潤率,采取了一種大膽且風(fēng)險重重的多管齊下的策略。他們的目標(biāo)是超越傳統(tǒng)的競爭對手如Intel和AMD,成為科技巨頭,與Google、Microsoft、Amazon、Meta和Apple等公司并駕齊驅(qū)。Nvidia的計劃包括推出H200、B100和“X100”GPU,以及進(jìn)行每年度更新的AI GPU。此外,他們還計劃推出HBM3E高速存儲器、PCIE 6.0和PCIE 7.0、以及NVLink、224G SerDes、1.6T接口等先進(jìn)技術(shù),如果計劃成功,Nvidia將超越所有潛在的競爭對手 [2]。盡管硬件和芯片領(lǐng)域的創(chuàng)新不斷突破,但其發(fā)展仍然受到第一性原理的限制,存在天然物理邊界的約束。通過深入了解工藝制程、先進(jìn)封裝、內(nèi)存和互聯(lián)等多個技術(shù)路線,可以推斷出未來Nvidia可能采用的技術(shù)路徑。盡管基于第一性原理的推演成功率高,但仍需考慮非技術(shù)因素的影響。例如,通過供應(yīng)鏈控制,在一定時間內(nèi)壟斷核心部件或技術(shù)的產(chǎn)能,如HBM、TSMC CoWoS先進(jìn)封裝工藝等,可以影響技術(shù)演進(jìn)的節(jié)奏。根據(jù)Nvidia 2023年Q4財報,該公司季度收入達(dá)到76.4億美元,同比增長53%,創(chuàng)下歷史新高。全年收入更是增長61%,達(dá)到269.1億美元的紀(jì)錄。數(shù)據(jù)中心業(yè)務(wù)在第四季度貢獻(xiàn)了32.6億美元的收入,同比增長71%,環(huán)比增長11%。財年全年數(shù)據(jù)中心收入增長58%,達(dá)到創(chuàng)紀(jì)錄的106.1億美元 [3]。因此Nvidia擁有足夠大的現(xiàn)金流可以在短時間內(nèi)對供應(yīng)鏈,甚至產(chǎn)業(yè)鏈?zhǔn)┘佑绊?。另外,也存在一些黑天鵝事件也可能產(chǎn)生影響,比如以色列和哈馬斯的戰(zhàn)爭就導(dǎo)致了Nvidia取消了原定于10月15日和16日舉行的AI SUMMIT [4]。業(yè)界原本預(yù)期,Nvidia將于峰會中展示下一代B100 GPU芯片 [5]。值得注意的是,Nvidia的網(wǎng)絡(luò)部門前身Mellanox正位于以色列。為了避免陷入不可知論,本文的分析主要基于物理規(guī)律的第一性原理,而不考慮經(jīng)濟(jì)手段(例如控制供應(yīng)鏈)和其他可能出現(xiàn)的黑天鵝事件(例如戰(zhàn)爭)等不確定性因素。當(dāng)然,這些因素有可能在技術(shù)鏈條的某個環(huán)節(jié)產(chǎn)生重大影響,導(dǎo)致技術(shù)或者產(chǎn)品演進(jìn)節(jié)奏的放緩,或者導(dǎo)致整個技術(shù)體系進(jìn)行一定的微調(diào),但不會對整個技術(shù)演進(jìn)趨勢產(chǎn)生顛覆式的影響。考慮到這些潛在的變化,本文的分析將盡量采取一種客觀且全面的方式來評估這些可能的技術(shù)路徑。我們將以“如果 A 那么 X;如果 B 那么 Y;…”的形式進(jìn)行思考和分析,旨在涵蓋所有可能影響技術(shù)發(fā)展的因素,以便提供更準(zhǔn)確、更全面的分析結(jié)果。此外,本文分析是基于兩到三年各個關(guān)鍵技術(shù)的路標(biāo)假設(shè),即2025年之前。當(dāng)相應(yīng)的前提條件變化,相應(yīng)的結(jié)論也應(yīng)該作適當(dāng)?shù)恼{(diào)整,但是整體的分析思路是普適的。
Nvidia的AI布局Nvidia在人工智能領(lǐng)域的布局堪稱全面,其以系統(tǒng)和網(wǎng)絡(luò)、硬件和軟件為三大支柱,構(gòu)建起了深厚的技術(shù)護(hù)城河 [6]。有分析稱Nvidia的H100顯卡有高達(dá)90%的毛利率。Nvidia通過扶持像Coreweave這樣的GPU云服務(wù)商,利用供貨合同讓他們從銀行獲取資金,然后購買更多的H100顯卡,鎖定未來的顯卡需求量。這種模式已經(jīng)超出傳統(tǒng)硬件公司的商業(yè)模式,套用馬克思在資本論中所述“金銀天然不是貨幣,貨幣天然是金銀?!保腥颂岢隽恕柏泿盘烊徊皇荋100,但H100天然是貨幣”的說法 [7]。這一切的背后在于對于對未來奇點(diǎn)臨近的預(yù)期 [8],在于旺盛的需求,同時更在于其深厚的技術(shù)護(hù)城河。Nvidia 2019年3月發(fā)起對Mellanox的收購 [9],并且于2020年4月完成收購 [10],經(jīng)過這次收購Nvidia獲取了InfiniBand、Ethernet、SmartNIC、DPU及LinkX互聯(lián)的能力。面向GPU互聯(lián),自研NVLink互聯(lián)和NVLink網(wǎng)絡(luò)來實現(xiàn)GPU算力Scale Up擴(kuò)展,相比于基于InfiniBand網(wǎng)絡(luò)和基于Ethernet的RoCE網(wǎng)絡(luò)形成差異化競爭力。NVLink自2014年推出以來,已經(jīng)歷了四個代際的演進(jìn),從最初的2014年20G NVLink 1.0,2018年25G NVLink2.0,2020年50G NVLink 3.0 到2022年的100G NVLink 4.0,預(yù)計到2024年,NVLink將進(jìn)一步發(fā)展至200G NVLink 5.0。在應(yīng)用場景上,NVLink 1.0至3.0主要針對PCIE板內(nèi)和機(jī)框內(nèi)互聯(lián)的需求,通過SerDes提速在與PCIE互聯(lián)的競爭中獲取顯著的帶寬優(yōu)勢。值得注意的是,除了NVLink1.0采用了20G特殊速率點(diǎn)以外,NVLink2.0~4.0皆采用了與Ethernet相同或者相近的頻點(diǎn),這樣做的好處是可以復(fù)用成熟的Ethernet互聯(lián)生態(tài),也為未來實現(xiàn)連接盒子或機(jī)框組成超節(jié)點(diǎn)埋下伏筆。NVSwitch 1.0、2.0、3.0分別與NVLink2.0、3.0、4.0配合,形成了NVLink總線域網(wǎng)絡(luò)的基礎(chǔ)。NVLink4.0配合NVSwitch3.0組成了超節(jié)點(diǎn)網(wǎng)絡(luò)的基礎(chǔ),這一變化的外部特征是NVSwitch脫離計算單板而單獨(dú)成為網(wǎng)絡(luò)設(shè)備,而NVLink則從板級互聯(lián)技術(shù)升級成為設(shè)備間互聯(lián)技術(shù)。在計算芯片領(lǐng)域,Nvidia于2020年9月發(fā)起ARM收購,期望構(gòu)建人工智能時代頂級的計算公司 [11],這一收購提案因為面臨重大監(jiān)管挑戰(zhàn)阻礙了交易的進(jìn)行,于2022年2月終止 [12]。但是,在同年3月其發(fā)布了基于ARM的Grace CPU Superchip超級芯片 [13]。成為同時擁有CPU、GPU和DPU的計算芯片和系統(tǒng)公司。從業(yè)務(wù)視角看,Nvidia在系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件三個方面占據(jù)了主導(dǎo)地位 [6]。系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件這三個方面是人工智能價值鏈中許多大型參與者無法有效或快速復(fù)制的重要部分,這意味著Nvidia在整個生態(tài)系統(tǒng)中占據(jù)著主導(dǎo)地位。要擊敗Nvidia就像攻擊一個多頭蛇怪。必須同時切斷所有三個頭才有可能有機(jī)會,因為它的每個“頭”都已經(jīng)是各自領(lǐng)域的領(lǐng)導(dǎo)者,并且Nvidia正在努力改進(jìn)和擴(kuò)大其護(hù)城河。在一批人工智能硬件挑戰(zhàn)者的失敗中,可以看到,他們都提供了一種與Nvidia GPU相當(dāng)或略好的硬件,但未能提供支持該硬件的軟件生態(tài)和解決可擴(kuò)展問題的方案。而Nvidia成功地做到了這一切,并成功抵擋住了一次沖擊。這就是為什么Nvidia的戰(zhàn)略像是一個三頭水蛇怪,后來者必須同時擊敗他們在系統(tǒng)和網(wǎng)絡(luò)、硬件以及軟件方面的技術(shù)和生態(tài)護(hù)城河。目前,進(jìn)入Nvidia平臺似乎能夠占據(jù)先機(jī)。OpenAI、微軟和Nvidia顯然處于領(lǐng)先地位。盡管Google和Amazon也在努力建立自己的生態(tài)系統(tǒng),但Nvidia提供了更完整的硬件、軟件和系統(tǒng)解決方案,使其成為最具吸引力的選擇。要贏得先機(jī),就必須進(jìn)入其硬件、軟件和系統(tǒng)級業(yè)務(wù)生態(tài)。然而,這也意味著進(jìn)一步被鎖定,未來更難撼動其地位。從Google和Amazon等公司的角度來看,如果不選擇接入Nvidia的生態(tài)系統(tǒng),可能會失去先機(jī);而如果選擇接入,則可能意味著失去未來。Nvidia布局了兩種類型網(wǎng)絡(luò),一種是傳統(tǒng)InfiniBand和Ethernet網(wǎng)絡(luò),另一種是NVLink總線域網(wǎng)絡(luò)。在傳統(tǒng)網(wǎng)絡(luò)中,Ethernet面向AIGC Cloud多AI訓(xùn)練和推理等云服務(wù),而InfiniBand面向AI Factory,滿足大模型訓(xùn)練和推理的應(yīng)用需求。在交換芯片布局方面,有基于開放Ethernet增強(qiáng)的Spectrum-X交換芯片和基于InfiniBand的封閉高性能的Quantum交換芯片。當(dāng)前Ultra Ethernet Consortium (UEC) 正在嘗試定義基于Ethernet的開放、互操作、高性能的全棧架構(gòu),以滿足不斷增長的AI和HPC網(wǎng)絡(luò)需求 [14],旨在與Nvidia的網(wǎng)絡(luò)技術(shù)相抗衡。UEC的目標(biāo)是構(gòu)建一個類似于InfiniBand的開放協(xié)議生態(tài),從技術(shù)層面可以理解為將Ethernet進(jìn)行增強(qiáng)以達(dá)到InfiniBand網(wǎng)絡(luò)的性能,或者說是實現(xiàn)一種InfiniBand化的Ethernet。從某種意義上說UEC在重走InfiniBand道路??偩€域網(wǎng)絡(luò)NVLink的主要特征是要在超節(jié)點(diǎn)范圍內(nèi)實現(xiàn)內(nèi)存語義級通信和總線域網(wǎng)絡(luò)內(nèi)部的內(nèi)存共享,它本質(zhì)上是一個Load-Store網(wǎng)絡(luò),是傳統(tǒng)總線網(wǎng)絡(luò)規(guī)模擴(kuò)大以后的自然演進(jìn)。從NVLink接口的演進(jìn)歷程可以看出,其1.0~3.0版本明顯是對標(biāo)PCIE的,而4.0版本實際上對標(biāo)InfiniBand和Ethernet的應(yīng)用場景,但其主要目標(biāo)還是實現(xiàn)GPU的Scale Up擴(kuò)展。從原始需求的角度來看,NVLink網(wǎng)絡(luò)在演進(jìn)過程中需要引入傳統(tǒng)網(wǎng)絡(luò)的一些基本能力,例如編址尋址、路由、均衡、調(diào)度、擁塞控制、管理控制和測量等。同時,NVLink還需要保留總線網(wǎng)絡(luò)基本特征,如低時延、高可靠性、內(nèi)存統(tǒng)一編址共享以及內(nèi)存語義通信。這些特征是當(dāng)前InfiniBand或Ethernet網(wǎng)絡(luò)所不具備的或者說欠缺的。與InfiniBand和Ethernet傳統(tǒng)網(wǎng)絡(luò)相比,NVLink總線域網(wǎng)絡(luò)的功能定位和設(shè)計理念存在著本質(zhì)上的區(qū)別。我們很難說NVLink網(wǎng)絡(luò)和傳統(tǒng)InfiniBand網(wǎng)絡(luò)或者增強(qiáng)Ethernet網(wǎng)絡(luò)最終會殊途同歸。Nvidia在AI集群競爭態(tài)勢中展現(xiàn)出了全面布局,涵蓋了計算(芯片、超級芯片)和網(wǎng)絡(luò)(超節(jié)點(diǎn)、集群)領(lǐng)域。在計算芯片方面,Nvidia擁有CPU、GPU、CPU-CPU/CPU-GPU SuperChip等全面的布局;在超節(jié)點(diǎn)網(wǎng)絡(luò)層面,Nvidia提供了NVLink和InfiniBand兩種定制化網(wǎng)絡(luò)選項;在集群網(wǎng)絡(luò)方面,Nvidia有基于Ethernet的交換芯片和DPU芯片布局。AMD緊隨其后,更專注于CPU和GPU計算芯片,并采用基于先進(jìn)封裝的Chiplet芯粒技術(shù)。與Nvidia不同的是,AMD當(dāng)前沒有超級芯片的概念,而是采用了先進(jìn)封裝將CPU和GPU Die合封在一起。AMD使用私有的Infinity Fabric Link內(nèi)存一致接口進(jìn)行GPU、CPU、GPU和CPU間的互聯(lián),而GPU和CPU之間的互聯(lián)仍然保留傳統(tǒng)的PCIE連接方式。此外,AMD計劃推出XSwitch交換芯片,下一代MI450加速器將利用新的互連結(jié)構(gòu),其目的顯然是與Nvidia的NVSwitch競爭 [15]。BRCM則專注于網(wǎng)絡(luò)領(lǐng)域,在超節(jié)點(diǎn)網(wǎng)絡(luò)有對標(biāo)InfiniBand的Jericho3-AI+Ramon的DDC方案;在集群網(wǎng)絡(luò)領(lǐng)域有基于Ethernet的Tomahawk系列和Trident系列交換芯片。近期BRCM推出其新的軟件可編程交換Trident 5-X12集成了NetGNT神經(jīng)網(wǎng)絡(luò)引擎實時識別網(wǎng)絡(luò)流量信息,并調(diào)用擁塞控制技術(shù)來避免網(wǎng)絡(luò)性能下降,提高網(wǎng)絡(luò)效率和性能 [16]。Cerebras/Telsa Dojo則“劍走偏鋒”,走依賴“晶圓級先進(jìn)封裝”的深度定制硬件路線。
工程工藝洞察和推演假設(shè)
半導(dǎo)體工藝演進(jìn)洞察根據(jù)IRDS的樂觀預(yù)測,未來5年,邏輯器件的制造工藝仍將快速演進(jìn),2025年會初步實現(xiàn)Logic器件的3D集成。TSMC和Samsung將在2025年左右開始量產(chǎn)基于GAA (MBCFET)的2nm和3nm制程的產(chǎn)品 [17]。按照TSMC給出的工藝演進(jìn)路標(biāo),2023~2025年基本以3nm工藝為主,2nm工藝在2025年以后才會發(fā)布。3nm技術(shù)已經(jīng)進(jìn)入量產(chǎn)階段,N3工藝和N3E版本已經(jīng)于2023年推出。2024年下半年開始生產(chǎn)N3P版本,該版本將提供比N3E更高的速度、更低的功耗和更高的芯片密度。此外,N3X版本將專注于高性能計算應(yīng)用,提供更高的時鐘頻率和性能,預(yù)計將于2025年開始量產(chǎn) [18]。工藝演進(jìn)的收益對于邏輯器件的收益小于50%,因此,未來單芯片算力提升將更依賴于先進(jìn)封裝技術(shù)。
先進(jìn)封裝演進(jìn)洞察TSMC的CoWoS先進(jìn)封裝工藝封裝基板的尺寸在2023年為4倍Reticle面積,2025年將達(dá)到6倍Reticle面積 [19]。當(dāng)前Nvidia H100 GPU的封裝基板尺寸小于2倍Reticle面積,AMD的MI300系列GPU的封裝基板尺寸大約為3.5倍Reticle面積,逼近當(dāng)前TSMC CoWoS-L工藝的極限。
HBM內(nèi)存演進(jìn)洞察HBM內(nèi)存的容量預(yù)計將在2024年達(dá)到24GB,并在2025年進(jìn)一步增長至36GB [20]。HBM4預(yù)計將帶來兩個重要的變化:首先,HBM接口位寬將從1024擴(kuò)展到2048;其次,業(yè)界正在嘗試將HBM內(nèi)存Die直接堆疊在邏輯Die的上方 [21][22]。這兩個變化意味著HBM內(nèi)存的帶寬和單個封裝內(nèi)能容納的容量都將持續(xù)增長。據(jù)報道,SK海力士已經(jīng)開始招聘CPU和GPU等邏輯半導(dǎo)體的設(shè)計人員。該公司顯然正在考慮將HBM4直接堆疊在處理器上,這不僅會改變邏輯和存儲器設(shè)備的傳統(tǒng)互連方式,還會改變它們的制造方式。事實上,如果SK海力士成功實現(xiàn)這一目標(biāo),這可能會徹底改變芯片代工行業(yè) [21][22]。
推演假設(shè)本文基于兩個前提假設(shè)來推演Nvidia未來AI芯片的架構(gòu)演進(jìn)。首先,每一代AI芯片的存儲、計算和互聯(lián)比例保持大致一致,且比上一代提升1.5到2倍以上;其次,工程工藝演進(jìn)是漸進(jìn)且可預(yù)測的,不存在跳變,至少在2025年之前不會發(fā)生跳變。到2025年,工藝將保持在3nm水平,但工藝演進(jìn)給邏輯器件帶來的收益預(yù)計不會超過50%。同時,先進(jìn)封裝技術(shù)預(yù)計將在2025年達(dá)到6倍 Reticle面積的水平。此外,HBM內(nèi)存容量也將繼續(xù)增長,預(yù)計在2024年將達(dá)到24GB,而在2025年將達(dá)到36GB。
Nvidia AI芯片架構(gòu)解讀互聯(lián)技術(shù)在很大程度上決定了芯片和系統(tǒng)的物理架構(gòu)。Nvidia利用NVLink-C2C這種低時延、高密度、低成本的互聯(lián)技術(shù)來構(gòu)建SuperChip超級芯片,旨在兼顧性能和成本打造差異化競爭力。與傳統(tǒng)的SerDes互聯(lián)相比,NVLink C2C采用了高密度單端架構(gòu)和NRZ調(diào)制,使其在實現(xiàn)相同互聯(lián)帶寬時能夠在時延、功耗、面積等方面達(dá)到最佳平衡點(diǎn);而與Chiplet Die-to-Die互聯(lián)相比,NVLink C2C具備更強(qiáng)的驅(qū)動能力,并支持獨(dú)立封裝芯片間的互聯(lián),因此可以使用標(biāo)準(zhǔn)封裝,滿足某些芯片的低成本需求。為了確保CPU和GPU之間的內(nèi)存一致性操作 (Cache-Coherency),對于NVLink C2C接口有極低時延的要求。H100 GPU的左側(cè)需要同時支持NVLink C2C和PCIE接口,前者H100 GPU的左側(cè)需要同時支持NVLink C2C和PCIE接口,前者用于實現(xiàn)與Nvidia自研Grace CPU組成Grace-Hopper SuperChip,后者用于實現(xiàn)與PCIE交換芯片、第三方CPU、DPU、SmartNIC對接。NVLink C2C的互聯(lián)帶寬為900GB/s,PCIE互聯(lián)帶寬為128GB/s。而當(dāng)Hopper GPU與Grace CPU組成SuperChip時,需要支持封裝級的互聯(lián)。值得注意的是,Grace CPU之間也可以通過NVLink C2C互聯(lián)組成Grace CPU SuperChip??紤]到成本因素,Nvidia沒有選擇采用雙Die合封的方式組成Grace CPU,而是通過封裝間的C2C互聯(lián)組成SuperChip超級芯片。從時延角度來看,NVLink C2C采用40Gbps NRZ調(diào)制,可以實現(xiàn)無誤碼運(yùn)行 (BER<1e-12),免除FEC,接口時延可以做到小于5ns。相比之下,112G DSP架構(gòu)的SerDes本身時延可以高達(dá)20ns,因為采用了PAM4調(diào)制,因此還需要引入FEC,這會額外增加百納秒量級的時延。此外,NVLink C2C采用了獨(dú)立的時鐘線來傳遞時鐘信號,因此數(shù)據(jù)線上的信號不需要維持通信信號直流均衡的編碼或擾碼,可以進(jìn)一步將時延降低到極致。因此,引入NVLink C2C的主要動機(jī)是滿足芯片間低時延互聯(lián)需求。從互聯(lián)密度來看,當(dāng)前112G SerDes的邊密度可以達(dá)到12.8Tbps每邊長,遠(yuǎn)遠(yuǎn)大于當(dāng)前H100的(900+128)GB/s * 8/2 = 4.112Tbps的邊密度需求。NVLink C2C的面密度是SerDes的3到4倍,(169Gbps/mm2 vs. 552Gbps/mm2)。而當(dāng)前NVLink C2C的邊密度還略低于SerDes (281Gbps/mm vs. 304Gbps/mm)。更高的邊密度顯然不是NVLink C2C需要解決的主要矛盾。從驅(qū)動能力來看,112G SerDes的驅(qū)動能力遠(yuǎn)大于NVLink C2C。這在一定程度上會制約NVLink C2C的應(yīng)用范圍,未來類似于NVLink C2C的單端傳輸線技術(shù)有可能進(jìn)一步演進(jìn),拓展傳輸距離,尤其是在224G 及以上SerDes時代,芯片間互聯(lián)更加依賴于電纜解決方案,這對與計算系統(tǒng)是不友好的,會帶來諸如芯片布局、散熱困難等一系列工程挑戰(zhàn),同時也需要解決電纜方案成本過高的問題。從功耗來看,112G SerDes的功耗效率為5.5pJ/bit,而NVLink C2C的功耗效率為1.3pJ/bit。在3.6Tbps互聯(lián)帶寬下,SerDes和NVLink C2C的功耗分別為19.8W和4.68W。雖然單獨(dú)考慮芯片間互聯(lián)時,功耗降低很多,但是H100 GPU芯片整體功耗大約為700W,因此互聯(lián)功耗在整個芯片功耗中所占比例較小。從成本角度來看,NVLink C2C的面積和功耗優(yōu)于SerDes互聯(lián)。因此,在提供相同互聯(lián)帶寬的情況下,它可以節(jié)省更多的芯片面積用于計算和緩存。然而,考慮到計算芯片并不是IO密集型芯片,因此這種成本節(jié)約的比例并不顯著。但是,如果將雙Chiplet芯粒拼裝成更大規(guī)模的芯片時,NVLink C2C可以在某些場景下可以避免先進(jìn)封裝的使用,這對降低芯片成本有明顯的幫助,例如Grace CPU SuperChip超級芯片選擇標(biāo)準(zhǔn)封裝加上NVLink C2C互聯(lián)的方式進(jìn)行擴(kuò)展可以降低成本。在當(dāng)前工藝水平下,先進(jìn)封裝的成本遠(yuǎn)高于邏輯Die本身。C2C互聯(lián)技術(shù)的另一個潛在的應(yīng)用場景是大容量交換芯片,當(dāng)其容量突破200T時,傳統(tǒng)架構(gòu)的SerDes面積和功耗占比過高,給芯片的設(shè)計和制造帶來困難。在這種情況下,可以利用出封裝的C2C互聯(lián)技術(shù)來實現(xiàn)IO的扇出,同時盡量避免使用先進(jìn)的封裝技術(shù),以降低成本。然而,目前的NVLink C2C技術(shù)并不適合這一應(yīng)用場景,因為它無法與標(biāo)準(zhǔn)SerDes實現(xiàn)比特透明的轉(zhuǎn)換。因此,需要引入背靠背的協(xié)議轉(zhuǎn)換,這會增加時延和面積功耗。Grace CPU 具有上下翻轉(zhuǎn)對稱性,因此單個芯片設(shè)計可以支持同構(gòu) Die 組成 SuperChip 超級芯片。Hopper GPU 不具備上下和左右翻轉(zhuǎn)對稱性,未來雙 Die B100 GPU 芯片可能由兩顆異構(gòu) Die 組成。NVLink 和 NVLink C2C 技術(shù)提供了更靈活設(shè)計,實現(xiàn)了 CPU 和 GPU 靈活配置,可以構(gòu)建滿足不同應(yīng)用需求的系統(tǒng)架構(gòu)。NVLink C2C 可以提供靈活的CPU、GPU算力配比,可組成 1/0,0.5/1,0.5/2,1/4,1/8 等多種組合的硬件系統(tǒng)。NVLink C2C支持Grace CPU和Hopper GPU芯片間內(nèi)存一致性操作 (Cache-Coherency),讓 Grace CPU 成為 Hopper GPU 的內(nèi)存控制器和 IO 擴(kuò)展器,實現(xiàn)了 4倍 IO 帶寬和5倍內(nèi)存容量的擴(kuò)展。這種架構(gòu)打破了HBM的瓶頸,實現(xiàn)了內(nèi)存超發(fā)。對訓(xùn)練影響是可以緩存更大模型,利用ZeRO等技術(shù)外存緩存模型,帶寬提升能減少Fetch Weight的IO開銷。對推理影響是可以緩存更大模型,按需加載模型切片推理,有可能在單CPU-GPU超級芯片內(nèi)完成大模型推理 [23]。有媒體測算Nvidia的H100利潤率達(dá)到90%。同時也給出了估算的H100的成本構(gòu)成,Nvidia向臺積電下訂單,用 N4工藝制造 GPU 芯片,平均每顆成本 155 美元。Nvidia從 SK 海力士(未來可能有三星、美光)采購六顆 HBM3芯片,成本大概 2000 美元。臺積電生產(chǎn)出來的 GPU 和Nvidia采購的 HBM3 芯片,一起送到臺積電 CoWoS 封裝產(chǎn)線,以性能折損最小的方式加工成 H100,成本大約 723 美元 [24]。先進(jìn)封裝成本高,是邏輯芯片裸Die成本的3 到4倍以上, GPU內(nèi)存的成本占比超過 60%。按照DDR: 5美金/GB,HBM: 15美金/GB以及參考文獻(xiàn) [25][26] 中給出的GPU計算Die和先進(jìn)封裝的成本測算,H100 GPU HBM成本占比為62.5%;GH200中HBM和LPDDR的成本占比為78.2%。雖然不同來源的信息對各個部件的絕對成本估算略有不同,但可以得出明確的結(jié)論:內(nèi)存在AI計算系統(tǒng)中的成本占比可高達(dá)60%到70%以上;先進(jìn)封裝的成本是計算Die成本的3到4倍以上。在接近Reticle面積極限的大芯片良率達(dá)到80%的情況下,先進(jìn)封裝無法有效地降低成本。因此,應(yīng)該遵循非必要不使用的原則。
與AMD和Intel GPU 架構(gòu)對比AMD的GPU相對于Nvidia更加依賴先進(jìn)封裝技術(shù)。MI250系列GPU采用了基于EFB硅橋的晶圓級封裝技術(shù),而MI300系列GPU則應(yīng)用了AID晶圓級有源封裝基板技術(shù)。相比之下,Nvidia并沒有用盡先進(jìn)封裝的能力,一方面在當(dāng)前代際的GPU中保持了相對較低的成本,另一方面也為下一代GPU保留了一部分工程工藝的價值發(fā)揮空間。Intel Ponte Vecchio GPU將Chiplet和先進(jìn)封裝技術(shù)推向了極致,它涉及5個工藝節(jié)點(diǎn)(包括TSMC和Intel兩家廠商的不同工藝),47個有源的Tile,并同時采用了EMIB 2.5D和Foveros 3D封裝技術(shù)。可以說,它更像是一個先進(jìn)封裝技術(shù)的試驗場。Intel 的主力AI芯片是Gaudi系列AI加速芯片 [27][28][29]。值得注意的是Gaudi系列AI芯片是由TSMC代工的Gaudi 2采用的是TSMC 7nm工藝,Gaudi 3采用的是TSMC 5nm工藝。
Nvidia未來AI芯片架構(gòu)推演
NVLink和NVLink C2C演進(jìn)推演互聯(lián)技術(shù)在很大程度上塑造了芯片和系統(tǒng)的物理架構(gòu)。從互聯(lián)技術(shù)的發(fā)展歷程出發(fā),以芯片布局為線索,并考慮工程工藝的物理限制,可以對Nvidia未來AI芯片架構(gòu)進(jìn)行預(yù)測。這種推演也有助于發(fā)掘?qū)ヂ?lián)技術(shù)的新需求。互聯(lián)技術(shù)的演進(jìn)是一個漸進(jìn)的過程,其基本技術(shù)要素如帶寬、調(diào)制和編碼等都遵循著其內(nèi)在的發(fā)展規(guī)律。這些物理規(guī)律相對穩(wěn)定,通過將這些技術(shù)進(jìn)行組合并結(jié)合當(dāng)前工程工藝的發(fā)展趨勢以及需求,就可以大致描繪和預(yù)測出互聯(lián)技術(shù)的發(fā)展方向。在這里不深入探討晦澀難懂的互聯(lián)技術(shù)本身的發(fā)展,而是從宏觀技術(shù)邏輯和外在可觀察的指標(biāo)兩個角度出發(fā),探討NVLink和NVLink C2C的歷史演進(jìn),并對其未來發(fā)展進(jìn)行預(yù)測。從NVLink的演進(jìn)看,當(dāng)前其演進(jìn)了四個代際,NVLink C2C當(dāng)前只有一個代際,通過與當(dāng)下不同協(xié)議的速率演進(jìn)對比及NVLink宣傳材料,可以清晰的看到每個代際的NVLink技術(shù)的競爭對手和其要解決的痛點(diǎn)問題。當(dāng)前接口有兩大開放的互聯(lián)生態(tài),PCIE互聯(lián)生態(tài)和Ethernet互聯(lián)生態(tài),CXL協(xié)議依托于PCIE互聯(lián)生態(tài),而InfiniBand則依托與Ethernet互聯(lián)生態(tài)。NVLink的主要目標(biāo)是解決GPU之間的互聯(lián)問題,而早期的GPU一定需要保留與CPU互聯(lián)的PCIE接口,用于GPU互聯(lián)是也天然的繼承了這一技術(shù),因此NVLink早期的競爭對手是PCIE。從PCIE、Ethernet和NVLink的發(fā)展軌跡來看,NVLink的SerDes速率介于同時期PCIE和Ethernet SerDes速率之間。這意味著NVLink利用了Ethernet生態(tài)成熟的互聯(lián)技術(shù)來對抗PCIE,實現(xiàn)接口速率超越PCIE。通過復(fù)用Ethernet生態(tài)的成熟互聯(lián)技術(shù),NVLink在成本方面也具有優(yōu)勢。值得注意的是,NVLink并未完全遵循Ethernet的互聯(lián)技術(shù)規(guī)范。例如,在50G NVLink3.0采用了NRZ調(diào)制,而不是Ethernet所采用的PAM4調(diào)制 [30]。這意味著NVLink3.0利用了100Gbps PAM4 SerDes代際的技術(shù),并通過采用更低階NRZ調(diào)制來實現(xiàn)鏈路的無誤碼運(yùn)行,免去FEC實現(xiàn)低時延。同樣以低時延著稱的InfiniBand在50G這一代際則完全遵從了Ethernet的PAM4調(diào)制,這在一定程度上使其在50G這一代際喪失了低時延的技術(shù)優(yōu)勢,市場不得不選擇長期停留在25G代際的InfiniBand網(wǎng)絡(luò)上。當(dāng)然,InfiniBand網(wǎng)絡(luò)也有其無奈之處,因為它需要復(fù)用Ethernet光模塊互聯(lián)生態(tài),所以它必須完全遵循Ethernet的互聯(lián)電氣規(guī)范,而與之對應(yīng)的NVLink3.0則只需要解決盒子內(nèi)或機(jī)框內(nèi)互聯(lián)即可。同樣的事情也會在100G代際的NVLink4.0上發(fā)生,NVLink4.0完全擺脫了盒子和框子的限制,實現(xiàn)了跨盒子、跨框的互聯(lián),此時為了復(fù)用Ethernet的光模塊互聯(lián)生態(tài),NVLink4.0的頻點(diǎn)和調(diào)制格式也需要遵從Ethernet互聯(lián)的電氣規(guī)范。以前InfiniBand遇到的問題,NVLink也同樣需要面對。在100G時代,可以觀察到Ethernet、InfiniBand和NVLink的SerDes速率在時間節(jié)奏上齊步走的情況。實際上,這三種互聯(lián)接口都采用了完全相同的SerDes互聯(lián)技術(shù)。同樣的情況在200G這一代際也會發(fā)生。與InfiniBand和Ethernet不同的是,NVLink是一個完全私有的互聯(lián)生態(tài),不存在跨速率代際兼容、同代際支持多種速率的接口和多廠商互通的問題。因此,在技術(shù)選擇上,NVLink可以完全按照具體應(yīng)用場景下的需求來選擇設(shè)計甜點(diǎn),在推出節(jié)奏上可以根據(jù)競爭情況自由把控,也更容易實現(xiàn)差異化競爭力和高品牌溢價。NVLink的發(fā)展可以分為兩個階段。NVLink1.0~3.0主要在盒子內(nèi)、機(jī)框內(nèi)實現(xiàn)GPU高速互聯(lián),對標(biāo)PCIE。它利用了Ethernet SerDes演進(jìn)更快的優(yōu)勢,采用了更高速的SerDes,同時在NVLink2.0時代開始引入NVSwitch技術(shù),在盒子內(nèi)、機(jī)框內(nèi)組成總線域網(wǎng)絡(luò),在帶寬指標(biāo)上對PCIE形成了碾壓式的競爭優(yōu)勢。NVLink4.0以后NVLink走出盒子和機(jī)框,NVSwitch走出計算盒子和機(jī)框,獨(dú)立成為網(wǎng)絡(luò)設(shè)備,此時對標(biāo)的是InfiniBand和Ethernet網(wǎng)絡(luò)。雖然NVLink4.0沒有公開的技術(shù)細(xì)節(jié),但是從NVLink網(wǎng)絡(luò)的Load-Store網(wǎng)絡(luò)定位和滿足超節(jié)點(diǎn)內(nèi)部內(nèi)存共享的需求上看,一個合理的推測是,NVLink4.0很可能采用了輕量FEC加鏈路級重傳的技術(shù)支持低時延和高可靠互聯(lián)。在時延和可靠性競爭力指標(biāo)上對InfiniBand和Ethernet形成碾壓式的競爭力,這更有利于實現(xiàn)內(nèi)存語義網(wǎng)絡(luò),支持超節(jié)點(diǎn)內(nèi)內(nèi)存共享。提供傳統(tǒng)網(wǎng)絡(luò)所不能提供的關(guān)鍵特性,才是NVLink作為總線域網(wǎng)絡(luò)獨(dú)立存在的理由。
基于NVLink C2C的產(chǎn)品目前只有GH200這一代,但是從Nvidia在該領(lǐng)域公開發(fā)表的論文中可以大致看出其技術(shù)發(fā)展的脈絡(luò)。從技術(shù)演進(jìn)上看,它是封裝內(nèi)Die間互聯(lián)的在均衡上的增強(qiáng)。從Nvidia SuperChip超級芯片路標(biāo)來看,它將在未來的AI芯片中繼續(xù)發(fā)揮重要作用。對于這類接口,仍需保持連接兩個獨(dú)立封裝芯片的能力和極低的時延和功耗。當(dāng)前的NVLink C2C采用9*40Gbps NRZ調(diào)制方式。未來NVLink-C2C可能會向更高速率和雙向傳輸技術(shù)方向演進(jìn)。而50G NRZ是C2C互聯(lián)場景下在功耗和時延方面的設(shè)計甜點(diǎn)。繼續(xù)維持NRZ調(diào)制,選擇合適工作頻率,走向雙向傳輸將是實現(xiàn)速率翻倍的重要技術(shù)手段。雖然NVLink C2C針對芯片間互聯(lián)做了優(yōu)化設(shè)計,但由于它與標(biāo)準(zhǔn)SerDes之間不存在速率對應(yīng)關(guān)系,無法實現(xiàn)與標(biāo)準(zhǔn)SerDes之間比特透明的信號轉(zhuǎn)換,因此其應(yīng)用場景受限。在與標(biāo)準(zhǔn)SerDes對接時需要多引入一層協(xié)議轉(zhuǎn)化會增加時延、面積和功耗開銷。未來可能存在一種可能性,即采用類似NVLink C2C這種高密單端傳輸技術(shù),同時與標(biāo)準(zhǔn)SerDes實現(xiàn)多對一的速率匹配,這種技術(shù)一旦實現(xiàn)將極大地擴(kuò)展C2C高密單端互聯(lián)技術(shù)的應(yīng)用空間,也有可能開啟SerDes面向更高速率演進(jìn)的新賽道。
從NVLink和NVSwitch的演進(jìn)來看,每一代速率會是上一代的1.5到2倍。下一代NVLink5.0大概率會采用200G每通道,每個GPU能夠出的NVLink接口數(shù)量從18個增加到32個,甚至更高。而NVSwitch4.0在端口速率達(dá)到200G以外,交換芯片的端口數(shù)量可能在NVSwitch3.0交換芯片64端口的基礎(chǔ)上翻2倍甚至4倍,總交換容量從12.8T到25.6T甚至51.2T [30]。
B100 GPU架構(gòu)推演以H100 GPU芯片布局為基礎(chǔ),通過先進(jìn)的封裝技術(shù)將兩顆類似H100大小的裸Die進(jìn)行合封,可以推演B100 GPU架構(gòu)。B100 GPU有兩種“雙Die”推演架構(gòu):IO邊縫合和HBM邊縫合[31][32]?!癏BM邊縫合”利用H100的HBM邊進(jìn)行雙Die連接,這種方案的優(yōu)點(diǎn)在于,它可以使得IO可用邊長翻倍,從而有利于擴(kuò)展IO帶寬。然而,它的缺點(diǎn)在于HBM可用邊長并沒有改變,因此無法進(jìn)一步擴(kuò)展HBM容量?!癐O邊縫合”利用H100的IO邊進(jìn)行雙Die連接,這種方案的優(yōu)勢在于HBM可用邊長能夠翻倍,從而有利于擴(kuò)展內(nèi)存。然而,它的缺點(diǎn)在于IO可用邊長并未改變,因此需要進(jìn)一步提升IO密度??紤]到每代芯片與上一代相比,在內(nèi)存、算力、互聯(lián)三個層面需要實現(xiàn)兩倍以上的性能提升,采用“IO 邊縫合”方案的可能性更大。采用“IO 邊縫合”的方案需要提升 IO 的邊密度。H100不具備旋轉(zhuǎn)對對稱性,而雙Die的B100仍需支持 GH200 SuperChip 超級芯片,因此B100可能由兩顆異構(gòu) Die組成。按照不同的長寬比采用“IO邊縫合的方式”B100 的面積達(dá)到3.3到3.9倍的Reticle面積,小于當(dāng)前TSMC CoWoS先進(jìn)封裝能夠提供的4倍Reticle面積的能力極限。計算 Die 之間互聯(lián)可以復(fù)用 NVLink C2C 互聯(lián)技術(shù),既利用 NVLink C2C出封裝的連接能力覆蓋Die間互聯(lián)的場景。為了實現(xiàn)計算Die的歸一化,可以將IO從計算Die中分離出來,形成獨(dú)立的IO Die。這樣,計算Die的互聯(lián)接口就實現(xiàn)了歸一化,使計算Die具備了旋轉(zhuǎn)對稱性。在這種情況下,仍然存在兩種架構(gòu):一種是同構(gòu)計算Die與IO Die合封,另一種是計算Die與IO Die分別封裝并用C2C互聯(lián)將二者連接。計算Die的同構(gòu)最大的優(yōu)勢在于可以實現(xiàn)芯片的系列化。通過靈活組合計算Die和IO Die,可以實現(xiàn)不同規(guī)格的芯片以適應(yīng)不同的應(yīng)用場景的需求。
Nvidia B100 有“異構(gòu) Die 合封”,“計算Die與IO Die分離,同構(gòu)計算 Die 與 IO Die 合封”,“計算 Die 與 IO Die 分離并分別封裝,并用C2C互聯(lián)將二者連接”三種架構(gòu)選項。Nvidia B100 如果采用單封裝雙 Die 架構(gòu),封裝基板面積達(dá)到 3.3~3.9倍 Reticle面積,功耗可能超過 1kW。計算 Die 之間互聯(lián)可以復(fù)用 NVLink C2C 互聯(lián)技術(shù)。將計算 Die 和 IO Die 分離可以實現(xiàn)計算 Die 的同構(gòu)化,降低成本。利用 NVLink C2C 出封裝互聯(lián)的能力,可以將 IO 扇出,降低 IO 邊密度壓力。需要注意的是,當(dāng)前 NVLink C2C 速率與 PCIE & NVLink 的 SerDes 無法匹配,因此需要 IO Die 上作協(xié)議轉(zhuǎn)換,無法做到協(xié)議無關(guān)。如果 C2C 互聯(lián)和 SerDes 速率能夠進(jìn)行多對一的匹配實現(xiàn)比特透明的 CDR,這樣可以消除協(xié)議轉(zhuǎn)換的開銷??紤]到B100 2024年推出的節(jié)奏,方案一、三匹配當(dāng)前先進(jìn)封裝能力,但方案三需要引入額外的協(xié)議轉(zhuǎn)換;方案二超出當(dāng)前先進(jìn)封裝能力。
X100 GPU架構(gòu)推演Nvidia X100如果采用單Socket封裝四Die架構(gòu),封裝基板面積將超過6倍Reticle面積,這將超出2025年的先進(jìn)封裝路標(biāo)的目標(biāo)。而如果采用雙Socket封裝架構(gòu),則需要使用10~15cm的C2C互聯(lián)技術(shù)來實現(xiàn)跨封裝的計算 Die間的互聯(lián),這可能需要對當(dāng)前NVLink C2C的驅(qū)動能力進(jìn)一步增強(qiáng)。Nvidia X100 GPU如果采用四Die架構(gòu),如果要控制封裝基板面積在6倍Reticle面積以下,匹配2025年先進(jìn)封裝路標(biāo),則需要在計算Die上通過3D堆疊的方式集成HBM [21][22]。因此X100如果不采用SuperChip超級芯片的架構(gòu)而是延續(xù)單封裝架構(gòu),要想在2025年推出,技術(shù)挑戰(zhàn)非常大。一方面需要先進(jìn)封裝基板達(dá)到6倍Reticle面積,另一方面需要實現(xiàn)在計算Die上堆疊HBM,同時要解決HBM和計算Die堆疊帶來的芯片散熱問題。在滿足2025年的工程約束的前提下,X100也可以采用SuperChip超級芯片架構(gòu)在B100雙Die架構(gòu)的基礎(chǔ)上進(jìn)行平面擴(kuò)展。在這種情況下,Nvidia X100 也有“異構(gòu) Die 合封”,“同構(gòu)計算 Die 與 IO Die 合封”,“計算 Die 與 IO Die 分別封裝”三種架構(gòu)選項。如果采用封裝間互聯(lián)的超級芯片的擴(kuò)展方式,先進(jìn)封裝的基板面積約束將不再會是瓶頸,此時只需要增強(qiáng)NVLink C2C的驅(qū)動能力。
H100/H200, B100, X100 GPU架構(gòu)演進(jìn)總結(jié)
基于以下兩個前提:每一代AI芯片的存儲、計算和互聯(lián)比例保持大致一致,且比上一代提升1.5到2倍以上;工程工藝演進(jìn)是漸進(jìn)且可預(yù)測的,不存在跳變,至少在2025年之前不會發(fā)生跳變。因此,可以對2023年的H100、2024年的B100和2025年的X100的架構(gòu)進(jìn)行推演總結(jié)。
對于工程工藝的基本假設(shè)如下:到2025年,工藝將保持在3nm水平,但工藝演進(jìn)給邏輯器件帶來的收益預(yù)計不會超過50%。同時,先進(jìn)封裝技術(shù)預(yù)計將在2025年達(dá)到6倍 Reticle面積的水平。此外,HBM內(nèi)存容量也將繼續(xù)增長,預(yù)計在2024年將達(dá)到24GB,而在2025年將達(dá)到36GB。
在上述前提假設(shè)條件下,針對H100/H200, B100, X100 GPU可以得到如下推演結(jié)論: 1. H200是基于H100的基礎(chǔ)上從HBM3升級到HBM3e,提升了內(nèi)存的容量和帶寬。 2. B100將采用雙Die架構(gòu)。如果采用異構(gòu)Die合封方式,封裝基板面積將小于當(dāng)前先進(jìn)封裝4倍Reticle面積的約束。而如果采用計算Die和IO Die分離,同構(gòu)計算Die和IO Die合封的方式,封裝基板面積將超出當(dāng)前先進(jìn)封裝4倍Reticle面積的約束。如果采用計算Die和IO Die分離,同構(gòu)計算Die和IO Die分開封裝的方式,則可以滿足當(dāng)前的工程工藝約束??紤]到B100 2024年推出的節(jié)奏,以及計算Die在整個GPU芯片中的成本占比并不高,因此用異構(gòu)Die合封方式的可能性較大。 3. 如果X100采用單Socket封裝,四個異構(gòu)Die合封裝的方式,需要在計算Die上堆疊HBM,同時需要先進(jìn)封裝的基板達(dá)到6倍Reticle面積。但是,如果采用SuperChip超級芯片的方式組成雙Socket封裝模組,可以避免計算Die上堆疊HBM,并放松對先進(jìn)封裝基板面積的要求,此時需要對NVLink C2C的驅(qū)動能力做增強(qiáng)。基于B100雙Die架構(gòu),采用雙Socket板級3D擴(kuò)展可以實現(xiàn)與X100同等的算力。類似的方法也可以應(yīng)用到X100中進(jìn)一步擴(kuò)展算力。板級擴(kuò)展可以降低對工程工藝的要求,以較低的成本實現(xiàn)算力擴(kuò)展。雖然基于人們對于先進(jìn)封裝的Chiplet芯粒架構(gòu)充滿了期待,但是其演進(jìn)速度顯然無法滿足AI計算系統(tǒng)“三年三個數(shù)量級”的增長需求 [33]。在AI計算領(lǐng)域基于先進(jìn)封裝Die間互聯(lián)Chiplet芯粒架構(gòu),很可能因為無法滿足AI計算領(lǐng)域快速增長的需求而面臨“二世而亡”的窘境,業(yè)界需要重新尋找旨在提升AI算力的新技術(shù)路徑,比如SuperChip超級芯片和SuperPOD超節(jié)點(diǎn)。因此,類似于NVLink C2C的低時延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來AI計算芯片的Scale Up算力擴(kuò)展中將起到至關(guān)重要的作用;面向AI集群Scale Out算力擴(kuò)展的互聯(lián)技術(shù)也同等重要。這兩中互聯(lián)技術(shù),前者是AI計算芯片算力擴(kuò)展的基礎(chǔ),而后者是AI計算集群算力擴(kuò)展的基礎(chǔ)。
總結(jié)與思考本文嘗試從第一性原理出發(fā),對Nvidia的AI芯片發(fā)展路線進(jìn)行了深入分析和解讀,并對未來的B100和X100芯片架構(gòu)進(jìn)行了推演預(yù)測。并且,希望通過這種推演提取出未來AI計算系統(tǒng)對互聯(lián)技術(shù)的新需求。本文以互聯(lián)技術(shù)為主線展開推演分析,同時考慮了芯片代際演進(jìn)的性能提升需求和工程工藝約束。最終得出的結(jié)論是:在AI計算領(lǐng)域,基于先進(jìn)封裝Die間互聯(lián)的Chiplet芯粒架構(gòu)無法滿足AI計算領(lǐng)域快速增長的需求,可能面臨“二世而亡”的窘境。低時延、高可靠、高密度的芯片間互聯(lián)技術(shù)在未來AI計算芯片的Scale Up算力擴(kuò)展中將起到至關(guān)重要的作用;雖然未展開討論,同樣的結(jié)論也適用于面向AI集群Scale Out算力擴(kuò)展的互聯(lián)技術(shù)。224G及以上代際中,面向計算集群的互聯(lián)技術(shù)也存在非常大的挑戰(zhàn)。需要明確指出的是,互聯(lián)技術(shù)并不是簡單地將芯片、盒子、機(jī)框連接起來的問題,它并不是一根連線而已,它需要在需求、技術(shù)、產(chǎn)業(yè)生態(tài)等各個方面進(jìn)行綜合考慮,需要極具系統(tǒng)性的創(chuàng)新以及長時間的、堅持不懈的投入和努力。除了互聯(lián)技術(shù)以外,通過對Nvidia相關(guān)技術(shù)布局的分析也引發(fā)了如下思考:1. 真正的差異化競爭力源于系統(tǒng)性地、全面地掌握整個價值鏈中主導(dǎo)無法快速復(fù)制的關(guān)鍵環(huán)節(jié)。Nvidia在系統(tǒng)和網(wǎng)絡(luò)、硬件、軟件這三個方面占據(jù)了主導(dǎo)地位,而這三個方面恰恰是人工智能價值鏈中許多大型參與者無法有效或快速復(fù)制的重要部分。然而,要在這三個方面中的任何一方面建立領(lǐng)導(dǎo)地位都離不開長時間堅持不懈的投入和努力帶來的技術(shù)沉淀和積累。指望在一個技術(shù)單點(diǎn)形成突破,期望形成技術(shù)壁壘或者技術(shù)護(hù)城河的可能性為零?!爸匾覠o法快速復(fù)制”是核心特征,其中“重要”更容易被理解,而“無法快速復(fù)制”則意味著“長時間堅持不懈的投入和努力”帶來的沉淀和積累,這是人們往往忽視的因素。2. 開放的產(chǎn)業(yè)生態(tài)并不等同于技術(shù)先進(jìn)性和競爭力。只有深入洞察特定領(lǐng)域的需求,進(jìn)行技術(shù)深耕,做出差異化競爭力,才能給客戶帶來高價值,給自身帶來高利潤。Nvidia基于NVLink C2C的SuperChip超級芯片以及基于NVLink網(wǎng)絡(luò)的SuperPOD超節(jié)點(diǎn)就是很好的例子。真正構(gòu)筑核心競爭力的技術(shù)是不會開放的,至少在有高溢價的早期不會開放,比如Nvidia的NVLink和NVLink C2C技術(shù),比如Intel的QPI和UPI。開放生態(tài)只是后來者用來追趕強(qiáng)者的借口(比如UEC),同時也是強(qiáng)者用來鞏固自己地位的工具(比如PCIE)。然而,真正的強(qiáng)者并不會僅僅滿足于開放生態(tài)所帶來的優(yōu)勢,而是會通過細(xì)分領(lǐng)域和構(gòu)筑特定領(lǐng)域的封閉生態(tài),實現(xiàn)差異化競爭力來保持領(lǐng)先地位。3. 構(gòu)筑特定領(lǐng)域的差異化競爭力與復(fù)用開放的產(chǎn)業(yè)生態(tài)并不矛盾。其關(guān)鍵在于要在開放的產(chǎn)業(yè)生態(tài)中找到真正的結(jié)合點(diǎn),并能夠果斷地做出取舍,勇敢地拋棄不必要的負(fù)擔(dān),只選擇開放產(chǎn)業(yè)生態(tài)中的精華部分,構(gòu)建全新的技術(shù)體系。為了構(gòu)筑特定領(lǐng)域的差異化競爭力,更應(yīng)該積極擁抱開放的產(chǎn)業(yè)生態(tài),主動引導(dǎo)其發(fā)展以實現(xiàn)這種差異化。比如,InfiniBand與Ethernet在低時延方面的差異化并不是天生的,而是人為構(gòu)造出來的。兩者在基礎(chǔ)技術(shù)上是相同的。InfiniBand在25G NRZ代際以前抓住了低時延這一核心特征,摒棄跨速率代際兼容的需求,卸掉了技術(shù)包袱,并且在HPC領(lǐng)域找到了合適的戰(zhàn)場,因此在低時延指標(biāo)上一直碾壓Ethernet,成功實現(xiàn)了高品牌溢價。而InfiniBand在56G PAM4這一代際承襲了Ethernet的互聯(lián)規(guī)范,因此這種低時延上的競爭力就逐漸喪失了。人為制造差異化競爭力的典型例子還有:同時兼容支持InfiniBand和Ethernet的CX系列網(wǎng)卡和BlueField系列DPU;內(nèi)置在NVSwitch和InfiniBand交換機(jī)中的SHARP在網(wǎng)計算協(xié)議和技術(shù);Nvidia基于NVLink C2C構(gòu)筑SuperChip超級芯片以及基于NVLink網(wǎng)絡(luò)構(gòu)筑SuperPOD超節(jié)點(diǎn)。4. “天下沒有免費(fèi)的午餐”,這是恒古不變的真理和底層的商業(yè)邏輯。商業(yè)模式中的“羊毛出在狗身上,由豬買單”其實就是變相的轉(zhuǎn)移支付,羊毛終將是出在羊身上,只是更加隱蔽罷了。這一規(guī)律同樣適用于對復(fù)雜系統(tǒng)中的技術(shù)價值的判斷上。自媒體分析H100的BOM物料成本除以售價得到90%的毛利率是片面的,因為高價值部分是H100背后的系統(tǒng)競爭力,而不僅僅是那顆眼鏡片大小的硅片。這里包含了H100背后的海量的研發(fā)投入和技術(shù)積累。而隱藏在這背后的實際上是人才。如何對中長期賽道上耕耘的人提供既緊張又輕松的研究環(huán)境,使研究人員能安心與具有長期深遠(yuǎn)影響的技術(shù)研究,是研究團(tuán)隊面臨的挑戰(zhàn)和需要長期思考的課題。從公開發(fā)表的D2D和C2C相關(guān)文獻(xiàn)中可以看到,Nvidia在這一領(lǐng)域的研究投入超過十年,針對C2C互聯(lián)這一場景的研究工作也超過五年。在五到十年的維度上長期進(jìn)行迭代研究,需要相當(dāng)強(qiáng)的戰(zhàn)略定力,同時也需要非常寬松的研究環(huán)境和持續(xù)的研究投入。5. 在人工智能時代,通過信息不對稱來獲取差異化競爭力或獲得收益的可能性越來越低。這是因為制造信息不對稱的難度和代價不斷飆升,而其所帶來的收益卻逐漸減少。在不久的未來,制造信息不對稱的代價將會遠(yuǎn)遠(yuǎn)超過收益。妄圖通過壟斷信息而達(dá)到差異化的競爭力,浪費(fèi)的是時間,而失去的是機(jī)會。隨著大模型的進(jìn)一步演進(jìn)發(fā)展,普通人可以通過人工智能技術(shù)輕松地獲取并加工海量的信息且不會被淹沒。未來的核心競爭力是如何駕馭包括人工智能在內(nèi)的工具,對未來技術(shù)走向給出正確的判斷。6. Nvidia并非不可戰(zhàn)勝,在激進(jìn)的技術(shù)路標(biāo)背后也隱藏著巨大的風(fēng)險。如何向資本證明其在AI計算領(lǐng)域的能夠長期維持統(tǒng)治地位,保持長期的盈利能力,以維持其高股價、實現(xiàn)持續(xù)高速增長,極具挑戰(zhàn)性。一旦2025年發(fā)布的X100及其配套關(guān)鍵技術(shù)不及預(yù)期,這將直接影響投資者的信心。這是Nvidia必須面臨的資本世界的考驗,在這一點(diǎn)上它并沒有制度優(yōu)勢。在一些基礎(chǔ)技術(shù)層面,業(yè)界面臨的挑戰(zhàn)是一樣的。以互聯(lián)技術(shù)為例,用于AI計算芯片Scale Up算力擴(kuò)展的C2C互聯(lián)技術(shù),以及面向AI集群Scale Out算力擴(kuò)展的光電互聯(lián)技術(shù)都存在非常大的挑戰(zhàn)。誰能在未來互聯(lián)技術(shù)演進(jìn)的探索中,快速試錯,最快地找到最佳路徑,少犯錯誤,誰就抓住了先機(jī)。在未來的競爭中有可能實現(xiàn)超越。
來源: 極客重生
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。