蘋果M3芯片，深度解讀

發(fā)布人：旺材芯片時(shí)間：2023-11-03 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

以全新 M3 系列處理器為基礎(chǔ)，Apple 選擇一次性推出大部分堆棧，同時(shí)發(fā)布了基于普通 M3 的產(chǎn)品，以及更強(qiáng)大的 M3 Pro 和 M3 Max SoC。基于臺(tái)積電的 N3B 工藝，蘋果希望再次提高 CPU 和 GPU 性能的標(biāo)準(zhǔn)，并創(chuàng)下單個(gè)筆記本電腦 SoC 中使用的晶體管數(shù)量的新記錄。

新款 M3 芯片的推出與新款 MacBook Pro 筆記本電腦以及更新的 24 英寸 iMac 齊頭并進(jìn)。但由于蘋果沒有對任何這些設(shè)備進(jìn)行任何外部設(shè)計(jì)或功能更改——它們的尺寸、端口和部件與以前相同——它們是對這些設(shè)備內(nèi)部結(jié)構(gòu)的直接更新。因此，這些最新產(chǎn)品發(fā)布中的明星是新的 M3 系列 SoC 及其帶來的功能和性能。

憑借適用于 Mac（毫無疑問，還有高端 iPad）的最新一代高性能芯片，蘋果似乎充分利用了臺(tái)積電 N3B 工藝提供的密度和功耗改進(jìn)。但與此同時(shí)，他們也在改變 SoC 的配置方式；尤其是 M3 Pro 與其前身有很大不同。因此，盡管 M3 芯片本身并未達(dá)到“突破性”的水平，但我們將關(guān)注一些重要的變化。

首先，我們來看看三款新 M3 芯片的規(guī)格。所有三款芯片均在一個(gè)月內(nèi)發(fā)布（從技術(shù)上講，M3 Max 設(shè)備要到 11 月中旬才會(huì)上市），這是新一代 M 系列芯片迄今為止最雄心勃勃的發(fā)布。通常情況下，Apple 都是從小規(guī)模開始，然后逐步提升，例如M2，然后是 Pro 和 Max 變體，但這次我們得到的可能是所有單片（且適用于筆記本電腦）硅部件。

但蘋果也開始縮小體積。該公司正在使用這些新芯片來更新 MacBook Pro 系列和 iMac，這是該公司一些更昂貴（并且普遍認(rèn)為產(chǎn)量較低）的產(chǎn)品。這與從 MacBook Air 和其他更便宜的設(shè)備開始形成鮮明對比，后者消耗了大量的入門級芯片。這很可能是由于蘋果決定使用像 N3B 這樣的前沿節(jié)點(diǎn)（他們是唯一的客戶之一），這將帶來新的芯片產(chǎn)量和數(shù)量瓶頸。但是，當(dāng)然，蘋果永遠(yuǎn)不會(huì)證實(shí)這一點(diǎn)。不管怎樣，他們已經(jīng)徹底改變了這一代的芯片發(fā)布策略，首先從更昂貴的設(shè)備開始。

所有這三款芯片都共享一個(gè)通用架構(gòu)，并且從廣義上講，都是該架構(gòu)的擴(kuò)展版本，具有更多內(nèi)核、更多 I/O 和更多內(nèi)存通道。最小的芯片 M3 一開始有 250 億個(gè)晶體管（比 M2 多 50億個(gè)），而最高峰是 M3 Max 及其 920 億個(gè)晶體管。雖然蘋果提供了芯片die shot（當(dāng)今業(yè)界很少見），但他們不提供芯片尺寸，因此我們必須在設(shè)備發(fā)貨后看看這些芯片尺寸如何測量。

雖然蘋果尚未正式披露除 3 納米設(shè)計(jì)之外所使用的工藝，但考慮到唯一可用于這種大批量生產(chǎn)的臺(tái)積電 3 納米生產(chǎn)線是他們的 N3B 生產(chǎn)線，因此可以非常安全地打賭，我們這里我們看一下 N3B，它也被用在 A17 上。根據(jù)臺(tái)積電官方數(shù)據(jù)，N3B 提供了極高的晶體管密度，特征尺寸減少了 42%，iso-power 減少了約 25%。但即便如此，M3 Max 仍然是一款堅(jiān)固的芯片。

在其他方面，蘋果支持的內(nèi)存類型似乎沒有任何變化。在某些情況下，該公司的帶寬數(shù)據(jù)與 M2 系列的數(shù)據(jù)相同，表明該公司仍在使用 LPDDR5-6400 內(nèi)存。這有點(diǎn)令人驚訝，因?yàn)楦斓?LPDDR5X 內(nèi)存很容易獲得，而且 Apple 的 GPU 密集型設(shè)計(jì)往往會(huì)從額外的內(nèi)存帶寬中受益匪淺。目前最大的問題是，這是否是由于技術(shù)限制（例如蘋果的內(nèi)存控制器不支持 LPDDR5X），或者蘋果是否有意決定堅(jiān)持使用常規(guī) LPDDR5。

M3 CPU 架構(gòu)：速度明顯更快

在架構(gòu)方面，不幸的是，Apple 對于 M3 系列 SoC 中使用的 CPU 和 GPU 架構(gòu)相當(dāng)模糊。事實(shí)上，該公司全年都在嚴(yán)格控制泄密情況——即使現(xiàn)在我們也不知道 A17 SoC 中使用的 CPU 內(nèi)核的代號。

無論如何，鑒于蘋果在 A 和 M 系列芯片之間共享 CPU 架構(gòu)，我們無疑以前見過這些 CPU 內(nèi)核。問題是我們是在關(guān)注最近推出的 A17 SoC 的 CPU 內(nèi)核，還是 A16（Everest 和 Sawtooth）的 CPU 內(nèi)核。A17 是更有可能的候選者，特別是因?yàn)樘O果已經(jīng)擁有 N3B 的工作 IP。但嚴(yán)格來說，我們目前沒有足夠的信息來排除A16 CPU核心；特別是蘋果沒有就 M3 系列 CPU 內(nèi)核相對于 M2 提供的架構(gòu)改進(jìn)提供任何指導(dǎo)。

目前我們所知道的是，與 M2 系列相比，Apple 宣稱其高性能 CPU 內(nèi)核的性能提高了約 15%。或者，如果您更喜歡 M1 比較，則可提高 30%。蘋果沒有透露用于做出這一決定的基準(zhǔn)或設(shè)置，因此我們無法透露該估計(jì)的真實(shí)性。或者，就此而言，其中有多少來自 IPC 提升與時(shí)鐘速度提升。

與此同時(shí)，效率核心也得到了改進(jìn)，根據(jù)蘋果公司的說法，其增益比高性能核心更大。M3 系列效率核心比 M2 快 30%，比 M1 快 50%。

蘋果在其網(wǎng)站上發(fā)布了特定于應(yīng)用程序的基準(zhǔn)測試，盡管這些是系統(tǒng)級基準(zhǔn)測試。其中許多是 CPU 和 GPU 共同獲得的收益。這肯定與這些應(yīng)用程序的用戶相關(guān)，但它們并沒有告訴我們太多有關(guān) CPU 內(nèi)核本身的信息。

蘋果同樣模糊的性能/功率曲線圖也在很大程度上重申了這些說法，同時(shí)證實(shí)了性能/功率曲線變得平坦的長期趨勢正在持續(xù)。舉例來說：Apple 聲稱 M3 可以以一半的功耗提供與 M1 相同的 CPU 性能；但在等功率下，峰峰值性能僅高出 40% 左右。

從等性能的角度來看，連續(xù)幾代的工藝技術(shù)不斷降低功耗，但在解鎖更高的時(shí)鐘速度方面卻做得相對較少。這使得更高時(shí)鐘速度帶來的持續(xù)性能提升在功耗方面相對昂貴，這反過來又促使芯片供應(yīng)商增加整體功耗。根據(jù)蘋果的圖表，即使是 M3 也未能幸免，因?yàn)樗姆逯倒母哂?M1。

M3 GPU 架構(gòu)：具有網(wǎng)格著色和光線追蹤的新架構(gòu)

與此同時(shí)，在 GPU 方面，M3 系列芯片包含了更實(shí)質(zhì)性的 GPU 架構(gòu)更新。雖然蘋果公司對 GPU 架構(gòu)的底層組織一如既往地守口如瓶，但從功能角度來看，新架構(gòu)為蘋果平臺(tái)帶來了一些主要的新功能：網(wǎng)格著色和光線追蹤。

Apple 的 iPhone 15 Pro 系列 A17 SoC 也引入了這些相同的功能，幾乎可以肯定，這是該架構(gòu)的更大規(guī)模實(shí)現(xiàn)，就像前幾代的情況一樣。當(dāng)我們在這里討論筆記本電腦和臺(tái)式機(jī)時(shí)，這些功能將使 M3 GPU 與 NVIDIA/AMD/Intel 的最新獨(dú)立 GPU 設(shè)計(jì)大致相當(dāng)，所有這些設(shè)計(jì)公司幾年來都提供了類似的功能。用 Windows 的話說，M3 GPU 架構(gòu)將是DirectX 12 Ultimate 級（功能級別 12_2）設(shè)計(jì)，使 Apple 成為第二家在筆記本電腦 SoC 中提供如此高功能集成 GPU 的供應(yīng)商。

在這一點(diǎn)上，光線追蹤幾乎不需要介紹，因?yàn)檎麄€(gè) GPU/圖形行業(yè)在過去五年里一直在大力推廣物理上更加精確的渲染形式。另一方面，網(wǎng)格著色不太為人所知，因?yàn)樗岣吡虽秩竟艿赖男剩皇墙怄i新的圖形效果。然而，其重要性不容低估。網(wǎng)格著色顛覆了整個(gè)幾何渲染管道，以允許在可用幀速率下呈現(xiàn)更多幾何細(xì)節(jié)。它在很大程度上是一個(gè)“基線”功能——開發(fā)人員需要圍繞它設(shè)計(jì)引擎的核心——所以它在最初的采用中不會(huì)有太大影響，但它最終將成為一個(gè)決定成敗的功能，與 M3 之前的 GPU 兼容的分界點(diǎn)。我們今天已經(jīng)在 PC 游戲（例如最近發(fā)布的《心靈殺手 II》）中看到了這一點(diǎn)。

這一代 GPU 還配備了新的內(nèi)存管理功能/策略，蘋果將其稱為“動(dòng)態(tài)緩存”。根據(jù)蘋果產(chǎn)品展示中的有限描述，該公司似乎采取了新的努力來更好地控制和分配其 iGPU 使用的內(nèi)存，防止其分配比實(shí)際需要更多的內(nèi)存。GPU 過度分配內(nèi)存是很常見的（擁有它而不需要它比相反更好），但這是浪費(fèi)的，尤其是在統(tǒng)一內(nèi)存平臺(tái)上。因此，正如蘋果所說，“每項(xiàng)任務(wù)只使用所需的確切內(nèi)存量”。

值得注意的是，此功能對開發(fā)人員來說是透明的，并且完全在硬件級別上運(yùn)行。因此，無論蘋果在幕后做什么，它都被從開發(fā)者和用戶手中抽象出來。盡管用戶最終將受益于更多的可用 RAM，但當(dāng) Apple M3 Mac 的最低配置仍然是 8GB RAM 時(shí)，這無疑是一件好事。

然而，更令人好奇的是，蘋果聲稱這也將提高 GPU 性能。具體來說，動(dòng)態(tài)緩存將“顯著”提高 GPU 的平均利用率。目前尚不清楚內(nèi)存分配和 GPU 利用率之間的關(guān)系，除非蘋果針對的是一種極端情況，即由于缺乏 RAM，工作負(fù)載必須不斷交換到存儲(chǔ)。不管怎樣，蘋果認(rèn)為這一功能是新 GPU 架構(gòu)的基石，并且值得在未來進(jìn)行更仔細(xì)的研究。

然而，在性能方面，蘋果提供的指導(dǎo)非常少。在過去的幾代中，該公司至少提供了其 GPU 的一般計(jì)算吞吐量數(shù)據(jù)，例如普通 M2 GPU 的 5.6 TFLOPS。但對于 M3 GPU，我們沒有獲得任何此類吞吐量數(shù)據(jù)。因此，目前還不清楚這些 GPU 在現(xiàn)有應(yīng)用程序/游戲中的速度有多快，或者它們可以有多快。Apple 在其產(chǎn)品頁面上引用了 2.5 倍的數(shù)字，但查看注釋，這是具有硬件 RT (M3) 的 Redshift 與軟件 RT（其他所有內(nèi)容）的對比。

蘋果充其量只是在演示中展示了 GPU 性能/功率曲線圖，將 M3 與 M1 進(jìn)行了比較。蘋果再次聲稱 M3 在 iso 性能下消耗一半的電量。同時(shí)，等功率（峰值 M1，約 12.5W）下的性能大約提高了 50%。但M3的GPU功率限制也明顯更高，達(dá)到約17瓦。這釋放了更多的性能，但同樣消耗了更多的電量，并且沒有告訴我們 M3 GPU 與 M2 的比較如何。

M3 NPU：更快一點(diǎn)，但架構(gòu)沒有更新？

最后但并非最不重要的一點(diǎn)是，讓我們快速瀏覽一下 M3 的 NPU（神經(jīng)引擎）。從高層次來看，這又是 16 核設(shè)計(jì)。蘋果聲稱它提供了 18 TOPS 的性能，比 M2 的 NPU 高出約 14%（蘋果官方數(shù)據(jù)為 15%，很可能是由于舍棄了小數(shù)）。所有三款 M3 芯片似乎都具有相同的 16 核 NPU 設(shè)計(jì)，因此應(yīng)該具有相似的性能。

然而，18 TOPS 的數(shù)字卻令人大吃一驚。正如Ian Cutress 博士向我指出的那樣，18 TOPS 實(shí)際上比 A17 SoC 中的 NPU 慢。

發(fā)生什么了？

隨著 A17 SoC 的推出，蘋果開始引用 INT8 性能數(shù)據(jù)，而我們認(rèn)為之前版本的 NPU（A 系列和 M 系列）的 INT16/FP16 數(shù)據(jù)。該格式的精度較低，可以以較高的速率進(jìn)行處理（以精度換取吞吐量），因此引用的數(shù)字較高。

這里的 18 TOPS 數(shù)字顯然是 INT16/FP16 性能，因?yàn)檫@與過去的 M 系列聲明和 Apple 自己的圖表一致。那么，懸而未決的問題是，M3 中的 NPU 是否支持 INT8，因?yàn)?A17 最近才添加了 INT8。要么它確實(shí)支持 INT8，在這種情況下，Apple 正在努力實(shí)現(xiàn)一致的消息傳遞，要么它是缺乏 INT8 支持的老一代 NPU 架構(gòu)。

總體而言，這種差異更多的是出于好奇，而不是擔(dān)憂。但看看蘋果是否保持 A 和 M 系列的 NPU 架構(gòu)相同，或者我們是否看到這一代的差異，將會(huì)很有趣。

僅規(guī)格：M3、M2、M1

回到速度和饋送，我還整理了每一層 M 系列處理器的規(guī)格表，將它們與它們的前輩進(jìn)行比較。這有助于更好地說明這些部件在核心數(shù)量、性能、內(nèi)存支持和 I/O 方面如何隨著時(shí)間的推移而演變。

M 系列的vanilla系列是該系列中最簡單的。作為 M 系列芯片中的第一款產(chǎn)品，Apple 不斷增強(qiáng)該芯片的功能和性能。但他們并沒有在功能塊/核心方面添加太多?，F(xiàn)在已經(jīng)三代了，CPU還是4P+4E的設(shè)計(jì)，GPU也從第一代的8核發(fā)展到了M2和M3的10核。

一致的 128 位內(nèi)存總線為這頭小野獸提供了食物。由于蘋果沒有在這一代 M 系列中采用 LPDDR5X，因此內(nèi)存帶寬與 M2 保持不變，LPDDR5-6400 高達(dá) 24GB，可實(shí)現(xiàn) 100GB/秒的總內(nèi)存帶寬。

芯片的有限 I/O 也一直存在于各代產(chǎn)品中。M3 可以驅(qū)動(dòng)兩個(gè) 40Gbps USB4/Thunderbolt 端口，與 M2 和 M1 相同。此外，仍然僅支持兩個(gè)顯示器——內(nèi)部顯示器和單個(gè)外部顯示器。

盡管核心數(shù)量沒有增加，但隨著新功能和更復(fù)雜的核心設(shè)計(jì)占用更大的晶體管預(yù)算，晶體管數(shù)量在幾代人中持續(xù)增長。M3 擁有 250 億個(gè)晶體管，比 M2 多出 25%，比 M1 多出 56%。

然而，M3 Pro 的情況卻變得更加有趣。與以相對簡單的方式建立在前輩基礎(chǔ)上的兄弟姐妹不同，蘋果在第三代 M 系列芯片中重新平衡了 M3 Pro。因此，它在配置方面與 M2 Pro 存在一些顯著差異，并且在晶體管數(shù)量方面它并沒有像其他芯片那樣增長。

從CPU核心開始，雖然M3 Pro和M2 Pro一樣總共有12個(gè)CPU核心，但性能和效率核心之間的平衡已經(jīng)發(fā)生了變化。具體來說，它從8P+4E設(shè)計(jì)變成了6P+6E設(shè)計(jì)。雖然所有 CPU 核心的性能總體上都比 M2 同類產(chǎn)品更高，但這就是為什么 Apple 的配備 M2 Pro 的 MacBook Pro 的官方性能數(shù)據(jù)顯示它們在 CPU 性能方面僅提供了微弱的提升。對于多線程繁重的工作負(fù)載，計(jì)算硬件實(shí)際上并沒有增加。

GPU 核心數(shù)量也有所減少。M3 架構(gòu) GPU 提供 18 個(gè)核心，而 M2 Pro 則有 19 個(gè)核心。這與普通的 M3 或 M3 Max 不同，后者的 GPU 核心數(shù)量要么持平，要么略有增加。

最后，提供所有這些的是明顯更小的內(nèi)存總線。M1 Pro 和 M2 Pro 都配備了 256 位 LPDDR5 內(nèi)存總線，當(dāng)填充 LPDDR5-6400 時(shí)，可為 SoC 提供 200GB 的聚合內(nèi)存帶寬。然而，在 M3 Pro 上，Apple 已將內(nèi)存總線明確削減至 192 位寬，即刪除了四分之一的內(nèi)存總線，這反過來又將內(nèi)存帶寬降低了 25%，至 150GB/秒。

這些變化的結(jié)合意味著M3 Pro在高水平上看起來更像是更強(qiáng)大的普通M3，而不是精簡版的M3 Max。從某些方面來說，這只是一種半滿/半空的心態(tài)。但總體而言，CPU 核心的性能和效率的平衡比更接近 M3 的設(shè)計(jì)，總內(nèi)存帶寬也是如此。M3 Pro 應(yīng)該仍然明顯快于 M3，但在某些方面，它最終會(huì)在性能方面落后于 M2 Pro。

蘋果對 M3 Pro 更為保守的立場也體現(xiàn)在其晶體管數(shù)量上。M3 Pro 上的晶體管數(shù)量實(shí)際上比 M2 一代有所減少——從 400 億個(gè)減少到 370 億個(gè)。因此，無論使用何種工藝節(jié)點(diǎn)，這總體上都是一個(gè)稍微簡單的芯片。與 M1 Pro 相比，前兩代晶體管數(shù)量僅略有增長 (~10%)。

至于為什么蘋果不像其他 M3 SoC 那樣加大 M3 Pro 的體積，目前還只能猜測。但從根本上講，由于晶體管數(shù)量較少和芯片尺寸較小，M3 Pro 的生產(chǎn)成本應(yīng)該比 M2 Pro 低得多。N3B 良率可能在這里發(fā)揮了作用（較低的良率等于較高的芯片有效成本），但只有臺(tái)積電和蘋果知道情況是否屬實(shí)。

功耗也可能是一個(gè)因素，尤其是在 CPU 核心重新平衡時(shí)。8 個(gè)性能核心可提供出色的性能，但它們肯定會(huì)消耗大量電量。Max SoC 在某種程度上可以擺脫這個(gè)問題，因?yàn)樗鼈兪琼敿壭酒?，也適用于高端臺(tái)式機(jī)，并且面向臺(tái)式機(jī)替代級筆記本電腦用戶。但對于更多的移動(dòng) Mac 用戶來說，蘋果可能會(huì)通過抑制性能增長來降低功耗。

出于這些原因，看看審查基準(zhǔn)的結(jié)果將會(huì)很有趣。雖然這不太可能是蘋果公司會(huì)講述的故事，但他們筆記本電腦的性能和功耗應(yīng)該能夠?yàn)樗麄冎v述很多故事。

最后，我們擁有最大、最差的單片 M 系列芯片系列 Maxes。Max 芯片始終在核心數(shù)量和晶體管數(shù)量方面突破極限，與 M3 Pro 不同，M3 Max 延續(xù)了這一傳統(tǒng)。

與前代 M2 相比，蘋果在這里又增加了 4 個(gè)性能 CPU 核心，使其總數(shù)達(dá)到 12 個(gè)性能核心和 4 個(gè)效率核心。并使其成為唯一一款獲得 CPU 核心性能提升的 M3 芯片。因此，這將是唯一一款 M3 芯片，至少在有利的散熱條件下，多線程 CPU 性能應(yīng)該會(huì)顯著提高。盡管“有利的熱條件”確實(shí)是那里的關(guān)鍵詞，因?yàn)檫@是一個(gè)非常強(qiáng)大的冷卻芯片。

在 GPU 方面，GPU 核心數(shù)量略有增加，從 M2 Max 上的 38 個(gè)核心增加到 M3 Max 上的 40 個(gè)核心。由于沒有來自蘋果公司的任何良好的性能數(shù)據(jù)，很難估計(jì)這在實(shí)踐中會(huì)快多少。

為 M3 Max 提供與前兩個(gè)版本芯片相同的 512 位 LPDDR5 內(nèi)存總線。值得注意的是，這意味著蘋果的可用內(nèi)存帶寬在過去兩代中并未增加，無法跟上數(shù)量更多的 CPU 和 GPU 核心的需求，因此該公司需要從其芯片架構(gòu)中獲取更高的效率（和緩存命中率）以保持 SoC 的充足運(yùn)行。

從蘋果官方的芯片照片中，我們可以看到蘋果再次使用他們定制的 x128 LPDDR5 內(nèi)存芯片，從而使他們能夠僅在 4 個(gè)芯片上連接 512 位內(nèi)存總線。這一代的最大內(nèi)存容量已達(dá)到 128GB，這對這些內(nèi)存芯片中使用的芯片具有有趣的影響。除非蘋果正在做一些真正瘋狂的事情，否則獲得 128GB LPDDR5 的唯一方法就是使用 32Gbit LPDDR5 芯片（總共 32 個(gè)）。我不知道目前有誰提供這種容量的芯片，所以蘋果似乎已經(jīng)從提供它的任何人那里獲得了對該內(nèi)存的優(yōu)先使用權(quán)。對于其他所有人來說，我們應(yīng)該會(huì)在明年晚些時(shí)候在 Windows 筆記本電腦上看到 128GB LPDDR5(X) 配置。

隨著CPU核心、GPU核心的增加，以及芯片各個(gè)構(gòu)建模塊復(fù)雜性的普遍增加，M3 Max的晶體管總數(shù)已激增至920億個(gè)晶體管。這比 M2 Max 多了 37% 的晶體管，甚至比基于臺(tái)積電 N4 工藝構(gòu)建的 NVIDIA 大型 GH100 服務(wù)器 GPU 多了 15%（120 億）。N3B 構(gòu)建的 M3 Max 應(yīng)該要小得多（小于 400mm2？），但按照筆記本電腦標(biāo)準(zhǔn)，這仍然是一個(gè)巨大的芯片，更不用說如果蘋果將其中兩個(gè)放在一起進(jìn)行 Ultra 配置時(shí)會(huì)發(fā)生什么。無論蘋果為這些芯片向臺(tái)積電支付多少錢，它都不會(huì)便宜——但是有多少其他供應(yīng)商正在設(shè)計(jì)比大多數(shù)服務(wù)器芯片晶體管數(shù)量更多的筆記本電腦 SoC？

來源：半導(dǎo)體行業(yè)觀察

--End--

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

蘋果M3芯片，深度解讀

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

蘋果M3芯片，深度解讀

相關(guān)推薦

技術(shù)專區(qū)

蘋果M3芯片，深度解讀