Arm發(fā)布Cortex X4，功耗可降低40%！

發(fā)布人：旺材芯片時(shí)間：2023-05-30 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

來(lái)源：EETOP

今天，ARM 發(fā)布了新一代的移動(dòng)處理器內(nèi)核，包括 Cortex-X4、Cortex-A720、Cortex-A520，預(yù)計(jì)將很快用于驍龍 8 Gen 3 以及天璣 9300 等處理器。值得一提的是，新的核心基于 Arm v9.2 架構(gòu)，并且只支持 64 位指令集，不再支持 32 位移動(dòng)應(yīng)用。

Arm Cortex-X4，這是該公司的下一代旗艦性能核心，也是迄今為止設(shè)計(jì)的最高性能Arm核心。

據(jù)了解，新發(fā)布的 Cortex-X4 超大核相比 Cortex-X3 在性能上提升了 15% 左右，但是在能耗方面有比較大的改善，宣稱在相同頻率下可以降低 40% 的功耗。而 A720 作為 A715 性能核心的升級(jí)迭代版本，效率提升了 20%。Cortex-A520 相比上代的 Cortex-A510 效率提升 22%。

網(wǎng)上此前已經(jīng)爆出驍龍 8 Gen 3 采用的是 1+5+2 的叢集結(jié)構(gòu)，其中 "1" 指的是 Cortex-X4 超大核，而 "5" 猜測(cè)是 Cortex-A720 性能核心，而 "3" 則是 Cortex-A520 的能效核心，安兔兔跑分更是達(dá)到了 160 萬(wàn)分，相比驍龍 8 Gen 2 提升明顯。而天璣 9300 處理器預(yù)計(jì)同樣會(huì)采用 ARM 發(fā)布的新移動(dòng)處理器內(nèi)核，性能表現(xiàn)令人期待。

Arm表示，Cortex-X4的前端已經(jīng)發(fā)生了一些重大變化。指令獲取傳遞已經(jīng)被完全重新設(shè)計(jì)了。與Cortex-A715一樣，Cortex-X似乎也緊隨其后，也完全放棄了宏操作緩沖區(qū)。相反，Cortex-X4拓寬了流水線，支持多達(dá)10條指令。指令緩存也得到了相應(yīng)的增強(qiáng)。帶寬增加到每周期10條指令。

新的分支預(yù)測(cè)器的準(zhǔn)確性也得到了提高，在實(shí)際工作負(fù)載中觀察到的停滯現(xiàn)象明顯減少。隨著指令高速緩存和宏操作高速緩存的變化，分支預(yù)測(cè)錯(cuò)誤的懲罰被統(tǒng)一起來(lái)，并減少到10個(gè)周期。

后端部分也得到了增強(qiáng)。在執(zhí)行單元的整數(shù)方面，Arm將之前幾代的MUL單元更新為完整的MAC單元。這意味著X4現(xiàn)在有2個(gè)整數(shù)MAC單元。還增加了第三個(gè)分支單元。最后，還添加了兩個(gè)額外的整數(shù)ALU，總共有8個(gè)——其中6個(gè)位于專用流水線上。

Cortex-X4的亂序緩沖區(qū)從Cortex-X3的320增加了20%，達(dá)到了384個(gè)。事實(shí)上，Arm每一代都會(huì)將ROB增加10%至30%左右。從一個(gè)角度來(lái)看，Cortex-X4的ROB現(xiàn)在比英特爾的Sunny Cove核心更大，后者只有352個(gè)條目，盡管遠(yuǎn)遠(yuǎn)不及令人驚嘆的Golden Cove的512個(gè)條目ROB。

在浮點(diǎn)數(shù)方面，Arm對(duì)除法器/平方根單元進(jìn)行了完全流水線化。管道和單元本身保持不變。

在內(nèi)存子系統(tǒng)方面，Arm重新平衡了流水線。以前，Cortex-X3具有兩個(gè)通用的地址生成單元（AGU）和一個(gè)專用的加載AGU，而現(xiàn)在的Cortex-X4只有一個(gè)通用AGU，同時(shí)配備了兩個(gè)加載AGU和一個(gè)存儲(chǔ)AGU。

Cortex-X4上的私有L2緩存也得到了擴(kuò)大。系統(tǒng)集成商現(xiàn)在可以選擇集成高達(dá)2 MiB的L2緩存，這將使L2緩存與上一代相比翻倍。如果需要的話，在更受限制的環(huán)境下，系統(tǒng)設(shè)計(jì)師可以選擇使用較小的緩存大小。Arm表示，較大緩存不會(huì)增加延遲。這個(gè)選項(xiàng)可以在具有大內(nèi)存占用的應(yīng)用程序中實(shí)現(xiàn)更高的性能，因?yàn)樗梢愿l繁地引用靠近核心的內(nèi)存。