深度分析AMD游戲GPU架構的成功與優(yōu)點

作者：techspot 時間：2023-11-21 來源：半導體產(chǎn)業(yè)縱橫

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

2019 年，AMD 推出了一款新的 GPU 架構，這是該公司七年來首次推出主要的圖形芯片設計。自首次亮相以來，該架構經(jīng)歷了兩次修訂，強調(diào)了 chiplet 和緩存在渲染領域的重要性。鑒于這些發(fā)展，評估 AMD 憑借其工程能力所取得的成就并考慮每次更新的影響是有意義的。

本文引用地址：http://m.butianyuan.cn/article/202311/453142.htm

我們將探索這項技術，評估其在游戲中的表現(xiàn)，并研究其對 AMD 的財務影響。

RDNA 是否像 Zen 一樣取得了巨大的成功? 或者，各種各樣的修改是否會給 AMD 帶來另一個「Bulldozer」時刻? 讓我們來看看。

為什么 GCN 需要改變

目前 AMD 的 GPU 分為兩個截然不同的產(chǎn)品領域，一個是針對游戲的，另一個是用于超級計算機、大數(shù)據(jù)分析和機器學習系統(tǒng)的。

然而，它們都有著相同的傳統(tǒng)——一種被稱為 Graphics Core Next（GCN）的架構。它首次出現(xiàn)于 2012 年，盡管在此過程中進行了一些重大修改，但仍使用了近 10 年。GCN 是對其前身 TeraScale 的徹底改革，從一開始，它就被設計為具有高度可擴展性，在圖形和通用計算（GPGPU）應用中同樣適用。

縮放是處理單元組合在一起的方式。從 GCN 的最初版本到最終版本，GPU 的基礎由 4 個計算單元 (CU) 組成。

每個處理器都包含 4 個 SIMD(單指令，多數(shù)據(jù)) 矢量單元，在 16 個數(shù)據(jù)點上執(zhí)行數(shù)學運算，大小為 32 位，還有一個標量單元用于基于整數(shù)的邏輯運算。

每個矢量 SIMD 都有一個 64 kB 的寄存器文件，所有四個單元共享一個 64 kB 的暫存塊 (稱為本地數(shù)據(jù)共享，LDS)，所有處理單元共享一個 16 kB 的 L1 數(shù)據(jù)緩存。四組 CU 共享一個 16 kB 的標量緩存和一個 32 kB 的指令緩存，所有這些緩存都鏈接到一個 GPU 級的 L2 緩存。

到 2018 年 GCN 5.1 發(fā)布時，這些都沒有太大變化，盡管對緩存層次結構的操作方式進行了多次改進。然而，對于游戲世界來說，GCN 有一些明顯的缺點，但可以總結為，對于開發(fā)者來說，從芯片中獲得處理吞吐量和帶寬利用率方面的最佳性能是一個挑戰(zhàn)。

例如，GPU 以 64 個線程為一組 (每個線程稱為一個波或波前) 進行調(diào)度，每個 SIMD 單元可以使用不同的波發(fā)出，最多排隊 10 個深度。然而，指令的發(fā)布率是每 4 個周期 1 次，因此為了確保單元保持繁忙，需要調(diào)度大量線程——這在計算世界中是可以實現(xiàn)的，而在游戲中則不然。

GCN 的第一個版本擁有稱為異步計算引擎（ACE）的硬件結構。當涉及到在 3D 游戲中的渲染幀時，GPU 會由排在長隊列中的系統(tǒng)發(fā)出命令。然而，它們并不都需要按照嚴格的線性順序完成，這就是 ACE 發(fā)揮作用的地方。

基于 GCN 的 GPU 基本上可以將隊列分成三種不同的類型 (分別用于圖形命令、計算工作和數(shù)據(jù)事務)，然后相應地對它們進行調(diào)度。然而，當時 Direct3D API 對該系統(tǒng)沒有太多支持，盡管 2015 年 Direct3D 12 發(fā)布后，異步著色就風靡一時。AMD 利用了這一點，使 GCN 更加專注于計算。

這一點從 AMD 在高端游戲顯卡市場推出的最新產(chǎn)品——售價 700 美元的 Radeon VII(見下圖) 中可以明顯看出。它在 4096 位寬總線上擁有 60 個 cu(完整芯片有 64 個 cu) 和 16gb HBM2 內(nèi)存，絕對是一個 GPU 怪物。

與同樣售價 700 美元的 GeForce RTX 2080 相比，它在某些游戲中可能會更快，但大多數(shù)基準測試結果表明，該架構并不適合現(xiàn)代 3D 游戲世界。

GCN 5.1 主要用于專業(yè)工作站卡，Radeon VII 本質上只不過是一款權宜之計的產(chǎn)品，專為游戲愛好者而設計，而下一代 GPU 正準備亮相。

僅僅四個月后，AMD 發(fā)布了長期運行的 GPU 架構的繼任者 RDNA。通過這一新設計，AMD 成功解決了 GCN 的大部分故障，第一款采用這種架構的顯卡 Radeon RX 5700 XT 清楚地突顯了它比 GCN 更適合游戲。

GPU 的「一小步」

2017 年推出 Ryzen 系列 CPU 時，采用了新的 Zen 設計，買家得到了全新的架構，從頭開始重新構建。RDNA 的情況并非如此，因為基本概念在本質上仍然類似于 GCN。然而，幾乎所有內(nèi)部的東西都經(jīng)過了調(diào)整，使游戲開發(fā)者更容易從 GPU 中獲得最大可能的性能。

每個 CU 的 SIMD 計數(shù)從 4 個切換到 2 個，每個 CU 現(xiàn)在處理 32 個數(shù)據(jù)點，而不是 16 個。調(diào)度單元現(xiàn)在可以以 32 或 64 的批處理線程，在前者的情況下，SIMD 單元現(xiàn)在可以被發(fā)出，并在每個周期處理一條指令。

僅這兩個變化就使開發(fā)人員更容易讓 GPU 保持忙碌，盡管這確實意味著編譯器在選擇正確的波大小進行處理時需要做更多的工作。AMD 為計算和幾何著色器選擇了 32，為像素著色器選擇了 64，盡管這并不是一成不變的。

CU 現(xiàn)在是成對分組的（稱為工作組處理器，WGP），而不是四元組，雖然指令和標量緩存仍然是共享的，但它們現(xiàn)在只需要為兩個 CU 提供服務。最初的 16kB L1 緩存被調(diào)整并重新標記為 L0，而新的 128kB L1 現(xiàn)在為四個 WGP 提供服務——兩個 WGP 都具有 128 字節(jié)大小的緩存線（有助于提高內(nèi)部帶寬利用率）。

現(xiàn)在，GPU 的每個部分都使用了無損數(shù)據(jù)壓縮，全面降低了延遲，甚至更新了紋理尋址單元。所有這些更改都有助于減少移動數(shù)據(jù)、刷新緩存等所浪費的時間。

但也許 RDNA 第一個版本最令人驚訝的方面不是架構上的變化，而是它的第一次迭代是在中端、中等價位的顯卡上。Radeon RX 5700 XT 中的 Navi 10 芯片并不是一塊巨大的硅片，里面裝有計算單元，而是只有 251 平方毫米的大小和 40 個 CU。它與 Radeon VII 中的 Vega 20 GPU 在同一臺積電 N7 工藝節(jié)點上制造，體積小 24%，這對晶圓產(chǎn)量來說非常好。

然而，它的 CU 也減少了 38%，盡管就晶體管數(shù)量而言，人們不可能指望所有額外的更新和緩存都是免費的。但在游戲中測試時，它的平均速度僅比 Radeon VII 慢 9%，最重要的是，它便宜了 300 美元。

總的來說，它是新架構的一個有希望的入口，因為 RDNA 是朝著正確方向邁出的一步，盡管有點小。由于其性能介于 Radeon RX Vega 56 和 Radeon VII 之間，它在速度、功耗和零售價格之間取得了良好的平衡。

不過，新 GPU 的推出并非沒有問題，盡管 RDNA 在近 30 種不同的產(chǎn)品中找到了歸宿（通過三種芯片設計變體），但一些人對 AMD 沒有更強大的產(chǎn)品可供銷售感到失望。

幸運的是，他們不用等太久這一問題就能被解決。

RDNA 第二輪

Radeon RX 5700 XT 發(fā)布一年多后，當世界正在與全球疫情作斗爭時，AMD 發(fā)布了 RDNA 2。從表面上看，除了兩個新的東西之外，幾乎沒有什么變化——紋理單元被升級，以便它們可以執(zhí)行光線三角形相交測試，并且添加了額外的最后一級緩存 (LLC)。

前者是一個具有成本效益的補充，使 GPU 能夠以最少的額外晶體管數(shù)量處理光線跟蹤，但后者并不是零碎的產(chǎn)品，因為它遠不止幾 MB。在 GPU 歷史上，6MB 的 LLC 被認為是「大」的，所以當 AMD 在第一個 RDNA 2 芯片 Navi 21 中硬塞進 128MB 時，它不僅震驚了 GPU 愛好者，而且永遠改變了圖形處理器的發(fā)展方向。

雖然由于芯片制造方法的改進，處理器變得越來越快，能力也越來越強，但 DRAM 卻很難跟上。要使數(shù)十億個微小的電容器收縮而不出現(xiàn)問題要困難得多。不幸的是，GPU 越強大，就需要越多的內(nèi)存帶寬來保持數(shù)據(jù)。

英偉達選擇采用美光的 GDDR6X 技術，并在 GPU 上添加大量內(nèi)存接口來解決這個問題。然而，這種 RAM 比標準 GDDR6 更貴，額外的接口只會使芯片尺寸更大。AMD 的方法是利用其 CPU 部門的緩存技術，并在其 RDNA2 芯片中注入大量 LLC。

通過這樣做，對容納快速 RAM 的寬內(nèi)存總線的需求顯著減少，所有這些都有助于控制 GPU 芯片尺寸和顯卡價格。芯片尺寸在這里很重要，因為 Navi 21 本質上是兩個 Navi 10（總共 80 個 CU），都被一堵緩存墻包圍。

后者由 103 億個晶體管組成，而新芯片容納了這個數(shù)字的兩倍多——268 億個。額外的 62 億美元主要用于所謂的無限緩存，盡管還有其他變化。AMD 對整個架構進行了重新調(diào)整和精簡，使 RDNA 2 芯片能夠以比其前身更高的時鐘速率運行。

當然，如果最終產(chǎn)品不好，這些都無關緊要。盡管 Radeon RX 6900 XT 的售價為 1000 美元，但它提供了 GeForce RTX 3090 級別的性能，價格比它低 500 美元。它并不總是處于平均水平，根據(jù)所使用的游戲和分辨率，700 美元的 GeForce RTX 3080 也一樣快。

在這個價位，AMD 的 Radeon RX 6800 XT 和 RX 6800 分別比 RTX 3080 低 50 美元和 120 美元。6800 和 RTX 3090 的性能相差近 30%，但價格相差 63%。AMD 可能沒有贏得性能桂冠，但不可否認，在 GPU 價格無處不在的時候，這些產(chǎn)品仍然非常強大，物有所值。

但與此相反的是光線追蹤性能。簡言之，它遠不如英偉達的 Ampere GPU 所實現(xiàn)的好，盡管考慮到這是 AMD 首次涉足物理正確光建模領域，其功能并不令人驚訝。

英偉達選擇設計和實現(xiàn)兩個大型定制 ASIC（專用集成電路），用于處理射線三角形相交和 BVH（邊界體積層次結構）遍歷計算，AMD 選擇了一種更溫和的方法。對于后者，將沒有專門的硬件，通過計算單元處理例程。

這個決定是基于保持模具尺寸盡可能小。Navi 21 芯片相當大，面積為 521 平方毫米，雖然英偉達很樂意提供更大的處理器（RTX 3090 中的 GA102 面積為 628 平方毫米），但增加定制單元會使該領域更加突出。

同年 11 月，微軟和索尼發(fā)布了他們的新 Xbox 和 PlayStation 游戲機，這兩款游戲機都采用了定制的 AMD GPU（CPU 和 GPU 在同一個芯片中），它使用 RDNA 2 來處理圖形方面的問題，不包括 Infinity Cache。由于需要保持這些芯片盡可能小，AMD 選擇這一特定路線的原因變得非常清楚。

這一切都是為了改善其圖形部門的財務狀況。

資金和利潤很重要

在 2021 年下半年之前，AMD 僅將其收入和營業(yè)收入數(shù)據(jù)分為兩個部門：處理器和顯卡，以及企業(yè)、嵌入式和半定制。筆記本電腦中顯卡和獨立 GPU 的銷售收入流入前者，而 Xbox 和 PlayStation 主機的 APU 銷售收入流入后者。

下圖是 2018 年第一季度到 2021 年第一季度的營業(yè)利潤率情況。

RDNA 于 2019 年第二季度推出，但這種銷售的收入要到下個季度才會真正開始顯現(xiàn)，因為只有兩種型號的顯卡安裝了這種新芯片。我們無法判斷運營利潤率的增長是否得益于 GPU 架構，因為這些數(shù)據(jù)還包括 CPU 銷售。

然而，從 2021 年第二季度開始，AMD 將報告部門重新劃分為四個部門:數(shù)據(jù)中心、客戶端、游戲和嵌入式。第三個部門涵蓋了所有與 GPU 相關的內(nèi)容，包括最終出現(xiàn)在主機中的 APU，并且畫面更加清晰。

現(xiàn)在可以看到，AMD 的顯卡部門的利潤是四個部門中最弱的。AMD 曾表示，在 2022 財年，僅一家客戶就貢獻了該公司全部收入的六分之一，其他人猜測這家客戶就是索尼。如果情況確實如此，那么 PlayStation 5 APU 的銷售額就占了游戲行業(yè)收入的 50% 以上。

在那個財政年度，獨立顯卡的發(fā)貨量急劇下降，毫無疑問，該部門的運營利潤率是由游戲機銷售保持的。AMD 使用臺積電制造絕大部分芯片，但訂單必須提前幾個月下——如果處理器在制造后沒有很快售出，它們必須留在配送中心，這損害了這段時間的利潤率。

目前還沒有足夠的信息來判斷 AMD 在 RDNA 上的投資是否盈利，因為不可能將對 Zen 的投資與數(shù)據(jù)中心和游戲的利潤分開。但收入數(shù)據(jù)顯示，在以上 6 個季度中，平均 16 億美元的收入導致了平均 15% 的營業(yè)利潤率——只有客戶端部門低于這個數(shù)字，這主要是由于個人電腦銷售的下滑。

與此同時，在同一時期，英偉達的圖形部門 (包括臺式機、筆記本電腦、工作站和汽車等的圖形處理器) 平均每季度收入約為 36 億美元，平均營業(yè)利潤率為 43%。這家綠色巨頭在獨立 GPU 市場上的市場份額比 AMD 大，所以更高的收入數(shù)字并不令人驚訝，但營業(yè)利潤率卻令人大開眼界。

大部分 PS5 的 APU 是一個 RDNA2 GPU。來源：Fritzchen Fritz

但值得考慮的是，AMD 賣給微軟和索尼的 APU 不會有很大的利潤，因為如果他們有，你就不可能花 400 美元買到一臺最新的游戲機了。一體機芯片的大規(guī)模生產(chǎn)有利于增加收入，但對直接利潤的影響不大。

如果去掉主機芯片帶來的收入，假設它們產(chǎn)生 10% 的利潤，這就意味著 RDNA 產(chǎn)生了相當多的利潤——運營利潤率可能高達 20%。雖然比不上英偉達，但我們都知道為什么這家公司的利潤率如此之高。

Chiplets 與計算

對于 AMD 來說，RDNA 2 無疑是一個工程上的成功，該設計在近 50 種不同的產(chǎn)品中得到了應用。然而，從財務角度來看，與其他領域相比，GPU 一直處于次優(yōu)地位。與此同時，AMD 發(fā)布了對 RDNA 的首次更新，該公司還宣布了一種新的僅用于計算的架構，稱為 CDNA。

這是 GCN 的哥斯拉，第一個使用該設計的芯片 (Arcturus) 擁有 128 個 CU，在 750 mm2 的芯片中。計算單元已經(jīng)升級為專用矩陣單元 (類似于英偉達的 Tensor)，在接下來的一年里，AMD 將兩個巨大的處理器裝進了一個 724 平方毫米的芯片中。它的代號為 Alderbaran(下圖)，很快成為許多超級計算機項目的首選 GPU。

回到游戲圖形領域，AMD 希望更多地利用其 CPU 專長。RDNA 2 中的無限緩存是由于為其 Zen 處理器開發(fā)高密度 L3 緩存和無限 Fabric 互連系統(tǒng)而產(chǎn)生的。

因此，對于 RDNA 3 來說，很自然地，它將使用另一個 CPU 成功:chiplets。

但是怎么做呢? 在中央處理器中物理分離內(nèi)核要容易得多，因為它們完全獨立運行。在絕大多數(shù) AMD 的臺式 PC、工作站和服務器 cpu 中，你會發(fā)現(xiàn)至少有兩個所謂的 chiplets:一個容納核心 (核心復雜芯片，CCD)，另一個容納所有輸入/輸出結構 (IOD)。它們之間的主要區(qū)別是 CCD 的數(shù)量。

在 GPU 中做這樣的事情是一項艱巨得多的任務。Navi 21 GPU 是一個由四個獨立處理器組成的大塊，每個處理器包含 10 個 WGP、光柵化器、渲染后端和 L1 緩存。有人可能會認為這些將是分離成離散 chiplets 的理想選擇，但是大量數(shù)據(jù)事務所需的互連系統(tǒng)將抵消任何成本節(jié)約，并增加了許多不必要的復雜性和功耗。

對于 RDNA 3, AMD 采取了一種更慎重的方法，一種產(chǎn)生于越來越小的工藝節(jié)點所面臨的限制。當臺積電等公司宣布一種新的制造工藝時，通常會提出更高的性能、更低的功耗和更高的晶體管密度。

然而，后者是一個整體數(shù)字——晶體管和其他與邏輯和處理相關的電路當然在繼續(xù)縮小，但與信號和存儲器有關的任何東西都沒有縮小。SRAM 使用一組晶體管作為易失性存儲器的一種形式，但這種排列不能像邏輯那樣被壓縮。

隨著 USB、DRAM 等的信號傳輸速度不斷提高，將這些電路更緊密地封裝在一起會導致各種干擾問題。臺積電的 N5 工藝節(jié)點的邏輯密度可能比 N7 高 20%，但 SRAM 和 IO 電路只好幾個百分點。

這就是為什么 AMD 選擇將 VRAM 接口和 L3 無限緩存推到一個芯片中，而將 GPU 的其余部分推到另一個芯片中。前者可以用更便宜、更不先進的工藝制造，而后者可以利用更好的東西。

2022 年 11 月，AMD 以 Navi 31 GPU 的形式推出了 RDNA 3。主芯片 (稱為圖形計算芯片，GCD) 是在臺積電的 N5 工藝節(jié)點上制造的，包含 96 個計算單元，芯片面積僅為 150 平方毫米。圍繞它的是 6 個內(nèi)存緩存芯片 (MCD)，每個芯片只有 31mm2 的硅，包括 16MB 的無限緩存，兩個 32 位 GDDR6 接口和一個無限鏈接系統(tǒng)。

如果 AMD 在 Navi 31 上堅持采用單片方法，那么整個芯片的尺寸可能只有 500 到 540 平方毫米左右，并且不需要在所有 chiplets 之間建立復雜的連接網(wǎng)絡，那么將它們?nèi)糠庋b起來也會更便宜。

AMD 已經(jīng)為這一切計劃了很多年，所以它顯然在盈利方面做得很好。這一切都源于晶圓產(chǎn)量和芯片制造成本的增加。讓我們用一些估計的價格來強調(diào)這一點——用于制造 MCD 的單個 N6 晶圓可能是 12,000 美元，但它可以產(chǎn)生超過 1,500 個這樣的芯片 (每個芯片 8 美元)。一塊 1.6 萬美元的 N5 晶圓可能生產(chǎn) 150 塊 GCD，每個晶圓的價格為 107 美元。

將一張 GCD 與 6 張 MCD 組合在一起，在你需要將它們包裝在一起的成本加進去之前，你需要花費 154 美元左右。另一方面，來自 N5 晶圓的單個 540 mm2 芯片的成本可能在 250 美元左右，因此使用 chiplets 的成本效益是顯而易見的。

前沿與保守變革

與 RDNA 3 小片段的使用一樣大膽，其余的更新則更為保守。寄存器文件以及 L0、L1 和 L2 緩存的大小都增加了，但是 L3 無限緩存的大小減小了。每個 SIMD 單元擴展到同時處理 64 個數(shù)據(jù)點，因此 wave64 處理現(xiàn)在是單周期的。

光線追蹤性能得到了適度的提升，通過調(diào)整單元來提高光線三角形相交的吞吐量，但在這方面沒有其他專門的硬件。CDNA 的矩陣單元也沒有被復制到 RDNA 上——這樣的操作仍然由計算單元處理，盡管 RDNA 3 確實有一個「人工智能加速器」(AMD 對這個單元的功能幾乎沒有說)。

新設計的處理性能引起了相當大的轟動，「雙重問題」一詞被廣為流傳。當使用時，它允許 SIMD 單元同時評估兩條指令，AMD 的營銷部門通過聲明 RDNA 2 的峰值 FP32 吞吐量加倍來證明這一點。

唯一的問題是，執(zhí)行雙重指令的能力嚴重依賴于編譯器 (將程序代碼轉換為 GPU 操作的驅動程序中的程序) 能夠發(fā)現(xiàn)何時可能發(fā)生這種情況。編譯器在這方面做得并不好，通常需要訓練有素的人眼輸入才能獲得最佳結果。

搭載 RNDA 3 芯片的最強大顯卡是 Radeon RX 7900 XTX，它一上市就受到了好評，價格為 1000 美元。雖然通常不如英偉達的 GeForce RTX 4090 快，但它肯定可以與 RTX 4080 相媲美，從那以后的幾個月里，AMD 的降價使它成為一個更好的選擇。

光線追蹤再一次不是一個優(yōu)勢，盡管聲稱提高了電源效率，但許多人對 Navi 31 所需的電量感到驚訝，尤其是在空閑時。雖然它確實比以前的 Navi 21 需要更少的功率，但對 Infinity Link 系統(tǒng)的需求部分抵消了使用更好的處理節(jié)點所帶來的好處。

與 RDNA 2 相比，另一個不足之處是產(chǎn)品范圍的廣度。在撰寫本文時，RDNA 3 可以在 18 個不同的產(chǎn)品中找到，盡管市場狀況可能迫使 AMD 在這件事上采取行動。

對一些人來說，更糟糕的是，當中低端 RDNA 3 顯卡最終出現(xiàn)時，它們相對于舊設計的性能改進有些被低估了——以 Radeon RX 7800 XT 為例，它只比即將推出的 RX 6800 XT 快了幾個百分點。

chiplets 的使用似乎并沒有給 AMD 的營業(yè)利潤率帶來多少好處。在 RDNA 3 出現(xiàn)后的三個季度中，游戲部門的收入和利潤率基本保持不變。當然，新的 GPU 實際上有可能有所改善，因為如果控制臺 APU 銷量下降，那么財務狀況保持不變的唯一途徑似乎是 GPU 變得更有利可圖。

然而，AMD 不再只向微軟和索尼銷售 APU。掌上電腦，如 Valve 的 Steam Deck，越來越受歡迎，由于所有這些電腦都配備了 AMD 芯片，這些銷售額將為游戲部門的銀行余額做出貢獻。

RDNA 的未來

如果盤點一下 AMD 在四年時間里通過 RDNA 所取得的成就，并評估這些變化的總體成功，最終結果將從 Bulldozer 和 Zen 之間得出。前者最初對該公司來說是一場近乎災難性的產(chǎn)品，但多年來因制造成本低廉而挽回了自己。另一方面，Zen 從一開始就表現(xiàn)出色，并迫使整個 CPU 市場發(fā)生了翻天覆地的變化。

在這段時間里，AMD 在獨立 GPU 領域的市場份額略有波動，有時會超過英偉達，有時會失去，但總的來說，它保持不變。

自成立以來，游戲部門已經(jīng)獲得了少量但穩(wěn)定的利潤，盡管利潤率目前似乎在下降，但沒有跡象表明厄運即將來臨。事實上，僅就利潤率而言，這是 AMD 第二好的部門。即使不是這樣，AMD 從嵌入式業(yè)務中賺取的現(xiàn)金 (多虧了收購賽靈思) 也綽綽有余，足以避免任何短期的整體虧損。

但 AMD 接下來將走向何方?

只有三種前進的道路:第一種是保持目前的小架構更新進程，繼續(xù)積累微薄的利潤，并保持整個 GPU 市場的一小部分。第二種是放棄高端桌面 GPU 領域，完全專注于主導預算和低端市場，專注于進一步縮 chiplet 尺寸和提高晶圓產(chǎn)量的技術。

第三條路線與第二條截然相反——忘記「物有所值」和擁有一個可以擴展到所有可能級別的架構，并盡一切努力確保它是 Radeon 顯卡，而不是 GeForce 顯卡，在每個性能圖表中都名列前茅。

來源：Fritzchen Fritz

英偉達在 RTX 4090 上實現(xiàn)了這一點，因為它使用了臺積電最好的工藝節(jié)點，就著色單元而言，它是能買到的最大的消費級 GPU。沒有什么花哨的把戲——這是一種蠻力的方法，而且效果很好。RTX 4080 中的整個 AD103 芯片僅比 Navi 31 中的 GCD 大 20%，并且具有相當相似的性能。

然而，RDNA 一直致力于最大限度地利用現(xiàn)有的處理能力。RDNA 2/3 中緩存系統(tǒng)的復雜性證明了這一點，因為英特爾和英偉達在他們的 GPU 中使用了更簡單的結構。

說到緩存，決定將大量的最后一級緩存插入 RDNA GPU 以抵消對超高速 VRAM 的需求，并提高光線追蹤性能，幾乎可以肯定是英偉達在 Ada Lovelace 架構上做同樣事情的靈感。

現(xiàn)在正處于 GPU 發(fā)展的一個階段，不同廠商設計圖形處理器的差異相對較小，僅從架構設計就能看到性能的巨大改進的日子已經(jīng)一去不復返了。

未來的 RDNA GPU 會像英特爾的 Ponte Vecchio 一樣多的芯片嗎?

如果 AMD 想要獨占鰲頭，它就需要推出一款擁有比我們目前看到的更多計算單元的 RDNA GPU。或者只是更有能力的—RDNA 3 中 SIMD 單元的變化可能是一個信號，表明在下一個版本中，我們可能會看到 CU 使用四個 SIMD 而不是兩個，以消除所有的雙重發(fā)行限制。

但即便如此，AMD 仍需要擁有更多的 CU，而實現(xiàn)這一目標的唯一途徑是擁有更大的 GCD，這意味著接受更低的產(chǎn)量或將芯片轉移到更好的工藝節(jié)點上。當然，這兩項都會影響利潤率，而且與英偉達不同，AMD 似乎不愿將 GPU 價格推高。

它也不太可能采取第二條路線，因為一旦完成了這一點，就幾乎沒有機會回來了。GPU 的歷史上有很多公司嘗試過，失敗過，一旦他們停止了在高端市場的競爭，就永遠消失了。

這就剩下了一個選擇——繼續(xù)當前的行動方針。在架構方面，英偉達已經(jīng)對其著色器內(nèi)核進行了多年的重制，只有過去兩代才顯示出許多相似之處。它還在開發(fā)和營銷機器學習和光線追蹤功能方面投入了大量資源，前者與 GeForce 品牌有著獨特的聯(lián)系。

AMD 多年來開發(fā)了許多技術，但在 RDNA 時代，它們都沒有特別要求 Radeon 顯卡來使用它們。憑借其 Zen 架構和其他 CPU 發(fā)明，AMD 將計算世界帶入了未來，迫使英特爾提高其游戲水平。它為大眾帶來了高能效的多線程處理——不是通過成為英特爾的廉價替代品，而是通過競爭。勝利，迎頭而上。

不可否認，RDNA 是一個成功的設計，因為它的使用是如此廣泛，但它肯定不是 Zen。如果游戲行業(yè)想要發(fā)展的話，僅僅做到物有所值或者以開源方式獲得社區(qū)的喜愛是不夠的。AMD 似乎擁有實現(xiàn)這一目標的所有工程技術和訣竅;他們是否會冒險完全是另一回事。

俗話說，幸運眷顧勇者。