如何構建比英偉達更好的GPU

作者：nextplatform 時間：2024-04-08 來源：半導體產業(yè)縱橫

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

雖然很多人關注各種計算引擎的浮點和整數(shù)處理架構，但研究人員卻花費越來越多的時間研究內存層次結構和互連層次結構。這是因為計算很容易，而數(shù)據移動和存儲卻變得越來越困難。

本文引用地址：http://m.butianyuan.cn/article/202404/457235.htm

用一些簡單的數(shù)字來說明這一點：在過去的二十年中，CPU 和 GPU 的計算能力增加了 90,000 倍，但 DRAM 內存帶寬僅增加了 30 倍，互連帶寬也僅增加了 30 倍。近年來，該行業(yè)在某些方面取得了進步，但計算與內存的平衡仍然很遙遠，這意味著在用于大量 AI 和 HPC 工作負載的內存不足的計算引擎上花費過多。

正是考慮到這一點，研究人員考慮了 Eliyan 創(chuàng)建的網絡中物理層 (PHY) 的架構創(chuàng)新，這些創(chuàng)新在本周的 MemCon 2024 會議上以不同且非常有用的方式展現(xiàn)。聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Ramin Farjadrad 花了一些時間向大家展示 NuLink PHY 及其用例如何隨著時間的推移而發(fā)展，以及如何使用它們來構建比使用 PHY 更好、更便宜、更強大的計算引擎當前基于硅中介層的封裝技術。

PHY 是一種物理網絡傳輸設備，它將交換芯片、網絡接口或計算引擎上或內部的任何數(shù)量的其他類型的接口鏈接到物理介質（銅線、光纖、無線電信號），而物理介質又連接它們相互之間或網絡上。

硅中介層是一種特殊的電路橋，用于將 HBM 堆疊式 DRAM 內存連接到計算引擎，例如 GPU 和定制 ASIC，這些引擎通常用于 HPC 和 AI 領域的帶寬敏感應用。有時 HBM 使用也需要高帶寬內存的常規(guī) CPU。

Eliyan 于 2021 年在圣何塞成立，目前擁有 60 名員工。該公司剛剛獲得了 6000 萬美元的第二輪融資，由內存制造商三星和 Tiger Global Capital 領投 B 輪融資。Eliyan 于 2022 年 11 月在 A 輪融資中籌集了 4000 萬美元，由 Tracker Capital Management 領投，Celesta Capital、英特爾、Marvell 和內存制造商美光科技 (Micron Technology) 出資。

Farjadrad 在互聯(lián)網熱潮期間在 Sun Microsystems 和 LSI Logic 擔任設計工程師，曾擔任 Velio Communications（現(xiàn)為 LSI Logic 的一部分）的交換機 ASIC 首席工程師和聯(lián)合創(chuàng)始人，并且是聯(lián)合創(chuàng)始人和首席技術 Aquantia 的官員，該公司為汽車市場生產以太網 PHY。2019 年 9 月，Marvell 收購了 Aquantia，并讓 Farjadrad 負責網絡和汽車 PHY。Marvell 已成為最大的 PHY 制造商之一，在設計這些系統(tǒng)關鍵組件方面與 Broadcom、Alphawave Semi、Nvidia、Intel、Synopsis、Cadence 以及現(xiàn)在的 Eliyan 等公司競爭。

Eliyan 的其他聯(lián)合創(chuàng)始人包括 Syrus Ziai，他是工程和運營主管，并曾擔任高通公司 Ikanos 的工程副總裁。多年來，PsiQuantum 和 Nuvia 以及業(yè)務和企業(yè)發(fā)展主管 Patrick Soheili 曾負責 eSilicon 的產品管理和人工智能戰(zhàn)略主管。該公司因在 Apple iPod 音樂播放器中創(chuàng)建 ASIC 以及開發(fā) 2.5D ASIC 封裝和 HBM 內存控制器而聞名。當然，eSilicon 于 2019 年底被 Inphi 以 2.13 億美元收購，擴大了其 PHY 能力，2021 年 4 月，Marvell 在 2020 年 10 月以 100 億美元收購 Inphi，完成了這一循環(huán)。

PHY 以及 I/O SerDes 和重定時器都有資金。SerDes 與交換機 ASIC 中使用的那些用于將從設備發(fā)出的并行數(shù)據轉換為通過電線、光纖或空中傳輸?shù)拇袛?shù)據一樣，是一種特殊的 PHY，并且從某種思維方式來看，SerDes 也是一種特殊的 PHY。隨著帶寬的增加以及可以推送干凈信號的銅線長度的減少，重定時器將越來越多地被使用。

接下來，一起談談 2.5D 封裝。

2.5D 封裝

隨著摩爾定律在晶體管密度方面的增長速度放緩，并且晶體管的成本隨著每一種后續(xù)工藝技術的發(fā)展而不是下降，我們都已經意識到現(xiàn)代芯片蝕刻工藝的掩模版限制。使用普通極紫外 (EUV) 水浸光刻技術，可以在硅晶圓上蝕刻晶體管的最大尺寸為 26 毫米*33 毫米。

許多人可能沒有意識到，這也是硅中介層尺寸的限制，硅中介層允許小芯片在有機基板頂部相互鏈接，有機基板就像每個計算引擎插槽及其附屬 HBM 內存下方的主板。該硅中介層的尺寸取決于用于創(chuàng)建中間板的技術。中介層采用與芯片相同的光刻工藝制造，但如今使用一些技術，中介層可以達到 2,500 mm 2，而不是像芯片那樣具有 858 mm 2 的掩模版限制，并使用其他接近 1,900 mm 2 ；據 Farjadrad 稱，計劃將其提高到 3,300 mm 2。有機基板插座沒有這樣的面積限制。當您談論小芯片的 2.5D 封裝時，這一點很重要。

Farjadrad 向大家介紹了與 Eliyan 的 NuLink PHY 競爭的不同 2.5D 方法的饋送、速度和局限性。

以下是臺積電如何通過硅片晶圓芯片 (CoWoS) 工藝實現(xiàn) 2.5D，該工藝用于創(chuàng)建 Nvidia 和 AMD GPU 及其 HBM 堆棧等：

從技術上講，上圖顯示了臺積電的 CoWoS-R 內插器技術，該技術通常用于將 GPU、CPU 和其他加速器鏈接到 HBM 內存。CoWoS 的硅中介層僅限于大約兩個標線單元，這正是 Nvidia 上周剛剛推出的「Blackwell」B100 和 B200 GPU 的尺寸。這并非巧合。這已經是英偉達所能做到的最大規(guī)模了。

臺積電擁有一種不那么引人注目的 CoWoS-L 技術，該技術制造起來更加復雜，就像其他方法中使用的嵌入式橋一樣。

一種橋接技術稱為帶有嵌入式橋接的晶圓級扇出技術，該技術由芯片封裝商 Amkor Technology 倡導，并有來自 ASE Holdings 的一種名為 FOCoS-B 的變體。以下是這種封裝方法的速度：

高跡線密度意味著您可以以低功耗獲得高芯片間帶寬，但范圍有限，布線能力也有限。

英特爾將硅橋直接放入容納小芯片的有機基板中（減去中介層）的方法與 Eliyan 對 NuLink 所做的類似：

然而，EMIB 受到生產周期長、產量低、覆蓋范圍和可布線性有限等問題的困擾。

這樣就剩下了 Eliyan 提出的修改后的 2D MCM 流程 NuLink：

Farjadrad 說，NuLink 是一種 PHY，其數(shù)據速率約為傳統(tǒng) MCM 封裝的 10 倍，NuLink PHY 之間的走線長度可以達到 2 厘米至 3 厘米，這比 CoWoS 和其他 2.5D 封裝選項支持的 0.1 毫米走線長度增加了 20 倍至 30 倍。正如你所看到的，走線上的額外距離，以及 NuLink PHY 在這些走線上具有雙向信令的事實，使計算引擎設計變得與眾不同。

在當前的架構中，當你在內存和 ASIC 之間運行數(shù)據包時，數(shù)據包數(shù)據不是同時雙向的，我們需要自己的特殊協(xié)議來維護內存一致性，確保讀取和寫入之間沒有沖突。我們知道當我們制作一個 PHY 時，我們需要為特定的應用制作一個相關的協(xié)議。這是我們最大的區(qū)別之一。擁有最好的 PHY 是一回事，但將其與 AI 應用的正確專業(yè)知識相結合是另一個重要因素，我們知道如何做到這一點。

當 NuLink 于 2022 年 11 月首次推出時，它還沒有這個名字，Eliyan 還沒有提出使用 PHY 創(chuàng)建通用內存接口（UMI）的方法。NuLink 只是一種實現(xiàn) UCI-Express 小芯片互連協(xié)議的方法，并支持 Farjadrad 和他的團隊在幾年前創(chuàng)建的原始 Bunch of Wires（BoW）小芯片互連所支持的任何協(xié)議，并作為擬議標準捐贈給開放計算項目。以下是 Eliyan 如何將 NuLink 與各種內存和小芯片互連協(xié)議進行堆疊：

Intel MDFIO 是 Multi-Die Fabric I/O 的縮寫，用于將「Sapphire Rapids」至強 SP 處理器中的四個計算小芯片相互連接;EMIB 用于將這些小芯片鏈接到具有 HBM 的 Sapphire Rapids 的 Max 系列 CPU 變體的 HBM 內存堆棧。OpenHBI 基于 JEDEC HBM3 電氣互連，也是 OCP 標準。我們在這里寫的 UCI-Express 是一種時髦的 PCI-Express，帶有 CXL 相干性覆蓋層，旨在成為小芯片的晶粒到晶?；ミB。英偉達（Nvidia）的 NVLink 現(xiàn)在用于將 Blackwell GPU 復合體上的小芯片粘合在一起，但該表中缺少英特爾的 XeLink，用于「Ponte Vecchio」Max 系列 GPU 上的 GPU 小芯片。與 UCI-Express 不同，NuLink PHY 是雙向的，這意味著您可以擁有與 UCI-Express 一樣多或更多的電線，但走線的帶寬增加了一倍或更多。

如您所見，有一種昂貴的封裝選項，它使用凸塊間距為 40 微米到 50 微米的凸塊，而裸片到芯片的距離僅為 2 毫米左右。PHY 的帶寬密度可能非常高（小芯片上每毫米海灘的帶寬密度為 Tb/秒），并且功率效率因方法而異。延遲也全面低于 4 納秒。

在表格的右邊是互連 PHY，它們可以與標準的有機基板封裝一起使用，并使用 130 微米的凸塊，因此是更便宜的選擇。其中包括 Cadence 的 Ultralink PHY、AMD 的 Infinity Fabric PHY、Alphawave Semi 的 OIF 超短距離（XSR）PHY 以及 NuLink 版本。

更長的鏈路打開了計算和內存復合體的幾何形狀，并且還消除了 ASIC 和 HBM 之間的熱串擾效應。堆疊內存對熱量非常敏感，隨著 GPU 越來越熱，需要冷卻 HBM 才能正常工作。如果你能讓 HBM 離 ASIC 更遠，你就可以更快地運行 ASIC（Farjadrad 估計大約 20%），而且溫度更高，因為內存不夠近，無法直接受到 ASIC 熱量增加的影響。

此外，通過移除 GPU 等設備中的硅中介層或等效物，并轉向有機基板并使用更胖的凸塊和間隔組件，您可以將具有十幾個 HBM 堆棧的雙 ASIC 設備的制造成本從大約 12,000 美元（芯片加封裝良率約為 50%）降低到良率為 87% 的設備（成本約為 6,800 美元）。

再看兩個對比 UCI-Express、BoW 和 UMI 的圖表。

正如你所看到的，Eliyan 一直在推動其 PHY 的雙向功能，現(xiàn)在有能力同時進行雙向流量，它稱之為 UMI-SMD。

因此，NuLink PHY（現(xiàn)在被命名為 UMI）比 UCI-Express 更小、更快，你能用它做什么？

首先，您可以構建更大的計算引擎：

24 個或更多的 HBM 堆棧和 10 到 12 個重構的計算引擎包如何吸引您？這種設備需要四分之一到五分之一的時間來制造，因為它是在標準的有機基材上。在 1990 年代初，IBM 從 1989 年左右的巔峰開始下滑后，曾經有一句話與 IBM 掛鉤：你可以找到更好的，但你不能支付更多。

以下是 Eliyan 認為 HBM4 在未來可能會發(fā)揮的作用：

使用 NuLink UMI PHY 幾乎可以再次將其切成兩半，為您選擇的 XPU 留出更多的邏輯空間?；蛘撸绻阆敕艞壷薪閷?，制造一個更大的設備，并忍受一個 13 平方毫米 UMI PHY，你也可以構建一個更便宜的設備，并且仍然從每個 HBM4 堆棧中驅動 2 TB/秒。

早在 2022 年 11 月，當 Eliyan 提出其想法時，它就將帶有連接到其 HBM 內存的中介層的 GPU 與移除中介層并將 ASIC 加倍的機器進行了比較（就像 Blackwell 所做的那樣），并將 24 個 HBM 排名與這些 ASIC 小芯片進行了對比。

左邊是 Nvidia A100 和 H100 GPU 及其 HBM 內存的架構。中間是一張 Nvidia 圖表，顯示了隨著 AI 應用程序可用的更多 HBM 內存容量和更多 HBM 內存帶寬，性能如何提高。眾所周知，H200 配備 141 GB HBM3E 內存和 4.8 TB/秒帶寬，其工作量是 H100 的 1.6 到 1.9 倍，具有完全相同的 GH100 GPU，但只有 80 GB 的 HBM3 內存，3.35 TB/秒帶寬。

內存不是功耗的很大一部分，GPU 才是，我們迄今為止看到的少量證據表明，Nvidia、AMD 和 Intel 投入該領域的 GPU 都受到 HBM 內存容量和帶寬的限制——并且已經存在了很長時間，因為制造這種堆疊內存的困難。這些公司生產的是 GPU，而不是內存，他們通過提供盡可能少的 HBM 內存來對抗強大的計算量，從而最大限度地提高收入和利潤。它們總是比上一代顯示更多，但 GPU 計算總是比內存容量和帶寬增長得更快。Eliyan 提出的設計可以使計算和內存恢復平衡，并使這些設備更便宜。

也許這對 GPU 制造商來說有點太強大了，所以隨著 UMI 的推出，該公司已經退縮了一點，并展示了如何使用中介層和有機基板以及 NuLink PHY 的混合來制造更大、更平衡的 Blackwell GPU 復合體。

左下方是如何創(chuàng)建一個 Blackwell-Blackwell 超級芯片，該芯片具有一個以 1.8 TB/秒的速度運行的單個 NVLink 端口，將兩個雙小芯片 Blackwell GPU 連接在一起：

使用 NuLink UMI 方法，如上圖右側所示，有兩個端口在兩個 Blackwell GPU 之間提供大約 12 TB /秒的帶寬 - 略高于 Nvidia 提供的 10 TB /秒 NVLink 端口，這些端口在 B100 和 B200 中將兩個 Blackwell 芯片壓縮在一起。這是 Eliyan 超級芯片設計的帶寬的 6 倍，而不是 Nvidia B200 超級芯片設計（如果有的話）。如果 Nvidia 想要堅持其 CoWoS 制造工藝，Eliyan 可以在中介層上放置相同的 8 組 HBM3E 內存，但它可以在每個 Blackwell 設備上再放置 8 組 HBM3E，總共 32 組 HBM3E，這將產生 768 GB 的容量和 25 TB/秒的帶寬。

這種 UMI 方法適用于任何 XPU，也適用于任何類型的存儲器，你可以做這樣瘋狂的事情，所有這些都在一個巨大的有機基板上，不需要中介層：