Arm發(fā)布Cortex X4,功耗可降低40%!
來(lái)源:EETOP
Arm Cortex-X4,這是該公司的下一代旗艦性能核心,也是迄今為止設(shè)計(jì)的最高性能Arm核心。
據(jù)了解,新發(fā)布的 Cortex-X4 超大核相比 Cortex-X3 在性能上提升了 15% 左右,但是在能耗方面有比較大的改善,宣稱在相同頻率下可以降低 40% 的功耗。而 A720 作為 A715 性能核心的升級(jí)迭代版本,效率提升了 20%。Cortex-A520 相比上代的 Cortex-A510 效率提升 22%。
網(wǎng)上此前已經(jīng)爆出驍龍 8 Gen 3 采用的是 1+5+2 的叢集結(jié)構(gòu),其中 "1" 指的是 Cortex-X4 超大核,而 "5" 猜測(cè)是 Cortex-A720 性能核心,而 "3" 則是 Cortex-A520 的能效核心,安兔兔跑分更是達(dá)到了 160 萬(wàn)分,相比驍龍 8 Gen 2 提升明顯。而天璣 9300 處理器預(yù)計(jì)同樣會(huì)采用 ARM 發(fā)布的新移動(dòng)處理器內(nèi)核,性能表現(xiàn)令人期待。
Arm表示,Cortex-X4的前端已經(jīng)發(fā)生了一些重大變化。指令獲取傳遞已經(jīng)被完全重新設(shè)計(jì)了。與Cortex-A715一樣,Cortex-X似乎也緊隨其后,也完全放棄了宏操作緩沖區(qū)。相反,Cortex-X4拓寬了流水線,支持多達(dá)10條指令。指令緩存也得到了相應(yīng)的增強(qiáng)。帶寬增加到每周期10條指令。
新的分支預(yù)測(cè)器的準(zhǔn)確性也得到了提高,在實(shí)際工作負(fù)載中觀察到的停滯現(xiàn)象明顯減少。隨著指令高速緩存和宏操作高速緩存的變化,分支預(yù)測(cè)錯(cuò)誤的懲罰被統(tǒng)一起來(lái),并減少到10個(gè)周期。
后端部分也得到了增強(qiáng)。在執(zhí)行單元的整數(shù)方面,Arm將之前幾代的MUL單元更新為完整的MAC單元。這意味著X4現(xiàn)在有2個(gè)整數(shù)MAC單元。還增加了第三個(gè)分支單元。最后,還添加了兩個(gè)額外的整數(shù)ALU,總共有8個(gè)——其中6個(gè)位于專用流水線上。
Cortex-X4的亂序緩沖區(qū)從Cortex-X3的320增加了20%,達(dá)到了384個(gè)。事實(shí)上,Arm每一代都會(huì)將ROB增加10%至30%左右。從一個(gè)角度來(lái)看,Cortex-X4的ROB現(xiàn)在比英特爾的Sunny Cove核心更大,后者只有352個(gè)條目,盡管遠(yuǎn)遠(yuǎn)不及令人驚嘆的Golden Cove的512個(gè)條目ROB。
在浮點(diǎn)數(shù)方面,Arm對(duì)除法器/平方根單元進(jìn)行了完全流水線化。管道和單元本身保持不變。
在內(nèi)存子系統(tǒng)方面,Arm重新平衡了流水線。以前,Cortex-X3具有兩個(gè)通用的地址生成單元(AGU)和一個(gè)專用的加載AGU,而現(xiàn)在的Cortex-X4只有一個(gè)通用AGU,同時(shí)配備了兩個(gè)加載AGU和一個(gè)存儲(chǔ)AGU。
Cortex-X4上的私有L2緩存也得到了擴(kuò)大。系統(tǒng)集成商現(xiàn)在可以選擇集成高達(dá)2 MiB的L2緩存,這將使L2緩存與上一代相比翻倍。如果需要的話,在更受限制的環(huán)境下,系統(tǒng)設(shè)計(jì)師可以選擇使用較小的緩存大小。Arm表示,較大緩存不會(huì)增加延遲。這個(gè)選項(xiàng)可以在具有大內(nèi)存占用的應(yīng)用程序中實(shí)現(xiàn)更高的性能,因?yàn)樗梢愿l繁地引用靠近核心的內(nèi)存。
總的來(lái)說(shuō),Cortex-X4在ISO頻率和L3(盡管具有較大的L2緩存)方面提供了約13%的IPC改進(jìn)。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。