Arm發(fā)布全新CPU: Cortex X925、A725 和A520
隨著半導(dǎo)體行業(yè)的不斷發(fā)展,Arm 通過(guò)突破技術(shù)界限,為終端用戶(hù)提供尖端解決方案,在核心和 IP 架構(gòu)創(chuàng)新方面處于領(lǐng)先地位,尤其是在移動(dòng)領(lǐng)域。2024 年,Arm 的年度戰(zhàn)略進(jìn)步重點(diǎn)是增強(qiáng)去年的 Armv9.2 架構(gòu),并帶來(lái)新的變化。Arm 已重新打造品牌并重新制定戰(zhàn)略,推出了客戶(hù)端計(jì)算解決方案 (CSS:Client Compute Solutions),這是去年整體計(jì)算解決方案 (TSC2023) 平臺(tái)的直接繼任者。
Arm 還在將其最新的 IP 和 Cortex 核心設(shè)計(jì)(包括最大的 Cortex X925、中間的 Cortex A725 以及更新的較小 Cortex A520)過(guò)渡到更先進(jìn)的 3 nm 工藝技術(shù)。Arm 承諾,與去年的設(shè)計(jì)相比,3 nm 工藝節(jié)點(diǎn)將提供前所未有的性能提升、能效和可擴(kuò)展性改進(jìn),以及對(duì)其 Cortex 系列核心的新前端和后端改進(jìn)。Arms 的新解決方案有望為下一代移動(dòng)和 AI 應(yīng)用程序提供支持,因?yàn)?Arm 及其完整的 AArch64 64 位指令執(zhí)行和面向移動(dòng)和筆記本電腦的解決方案方法有望重新定義最終用戶(hù)對(duì) Arm 產(chǎn)品上的 Android 和 Windows 的期望。
Arm 客戶(hù)端計(jì)算解決方案 (CSS):CSS 是新的 TCS
客戶(hù)端計(jì)算解決方案 (CSS) 的推出標(biāo)志著 Arm 戰(zhàn)略的一個(gè)重要里程碑,該戰(zhàn)略旨在為合作伙伴提供全面而全面的計(jì)算解決方案,供其在新一年的移動(dòng)設(shè)備周期中實(shí)施。CSS 是一個(gè)綜合平臺(tái),集成了硬件、軟件和工具,以?xún)?yōu)化客戶(hù)端設(shè)備的性能和效率。它旨在為各種設(shè)備(從智能手機(jī)和平板電腦到筆記本電腦甚至臺(tái)式電腦)提供無(wú)縫的計(jì)算體驗(yàn)。
Armv9.2 架構(gòu)于去年推出,代表著 Arm 路線圖向前邁出了重要一步。不過(guò),今年,Arm 將在前代產(chǎn)品成功的基礎(chǔ)上,引入一系列新功能和改進(jìn)。改進(jìn)后的 Armv9.2 系列的主要亮點(diǎn)之一是使用增強(qiáng)的安全功能,包括內(nèi)存標(biāo)記擴(kuò)展 (MTE:memory tagging extensions ) 和機(jī)密計(jì)算架構(gòu) (CCA:confidential compute architecture)。這些功能可針對(duì)各種安全威脅提供強(qiáng)大的保護(hù),使設(shè)備更加安全。
CSS 利用為 2024 年設(shè)計(jì)的最新 Armv9.2 內(nèi)核,包括高性能 Cortex X925、均衡的 Cortex A725 以及節(jié)能且更新的 Cortex A520。這些內(nèi)核與 Arm 的全新 Immortalis G925 GPU 相得益彰,旨在以移動(dòng)設(shè)備大小的封裝提供卓越的圖形性能和效率。這些組件共同構(gòu)成了現(xiàn)在所謂的 CSS 平臺(tái)的基礎(chǔ),該平臺(tái)旨在為移動(dòng)領(lǐng)域的現(xiàn)代設(shè)備提供強(qiáng)大而多功能的計(jì)算解決方案。
CSS 的主要特點(diǎn)之一是其強(qiáng)大的可擴(kuò)展性,可適應(yīng)不同的市場(chǎng),例如移動(dòng)設(shè)備和筆記本電腦。該平臺(tái)旨在適應(yīng)不同的設(shè)備外形和性能要求,適合多種任務(wù)和應(yīng)用。無(wú)論是高端游戲、專(zhuān)業(yè)內(nèi)容創(chuàng)作還是日常生產(chǎn)力任務(wù),CSS 都可以根據(jù)各種用例的需求進(jìn)行定制。
Arm 的客戶(hù)端計(jì)算解決方案 (CSS) 平臺(tái)代表著 IP 設(shè)計(jì)和架構(gòu)改進(jìn)方面邁出了重要一步,在性能和效率方面提供了多項(xiàng)重大改進(jìn)。隨著第二代 Armv9.2 Cortex CPU 集群的推出,包括新的 Cortex-X925(大)、Cortex-A725(中)和更新的 Cortex-A520(?。﹥?nèi)核,CSS 平臺(tái)旨在授權(quán)給合作伙伴時(shí)提供極致的移動(dòng)計(jì)算性能。
此外,CSS 平臺(tái)還包括適用于 Android 的全面參考軟件堆棧、由新的 Arm 計(jì)算機(jī)視覺(jué)庫(kù)(KleidiAI 和 KleidiCV)支持的優(yōu)化 AI,以及通過(guò) Arm Performance Studio 提供的強(qiáng)大工具環(huán)境。這種典型的整體方法可確保 Arm 的物理實(shí)現(xiàn)達(dá)到 3.6 GHz 以上的速度,并在 3 nm 節(jié)點(diǎn)上提供最佳的功率、性能和面積 (PPA) 指標(biāo)。談到 3 nm 模式,Arm 表示臺(tái)積電和三星 3 nm 是其 CSS 核心集群的主要選擇,盡管最有可能的是與臺(tái)積電一起獲得晶圓廠分配的情況,因?yàn)槲覀儾淮_定是否有人會(huì)使用三星而不是臺(tái)積電。
除了安全性增強(qiáng)之外,基于 3 nm 的 Armv9.2 還承諾大幅提升性能,尤其是新的大核心 Cortex X925,Arm 認(rèn)為它是移動(dòng)領(lǐng)域的新 IPC 之王。該架構(gòu)已針對(duì)更高的時(shí)鐘速度和更高的效率進(jìn)行了優(yōu)化,從而可以提供更高的每瓦計(jì)算能力。這是通過(guò)多項(xiàng)架構(gòu)創(chuàng)新實(shí)現(xiàn)的,包括更寬的執(zhí)行管道、改進(jìn)的分支預(yù)測(cè)和增強(qiáng)的亂序執(zhí)行功能。這些增強(qiáng)功能提高了內(nèi)核的每周期指令數(shù) (IPC),確保它們可以輕松處理最苛刻的工作負(fù)載。
過(guò)渡到 3 納米工藝技術(shù)
轉(zhuǎn)向 3 納米工藝技術(shù)代表著半導(dǎo)體制造的重大飛躍,在性能、功耗和芯片密度方面均有顯著改善。這一轉(zhuǎn)變使 Arm 能夠提供更強(qiáng)大、更高效的處理器,能夠高效處理最苛刻的應(yīng)用程序。
3 nm 工藝的主要優(yōu)勢(shì)之一是它能夠在更小的面積內(nèi)封裝更多晶體管,從而提高性能并降低功耗。這對(duì)于移動(dòng)和便攜式設(shè)備至關(guān)重要,因?yàn)殡姵貕勖蜔峁芾硎顷P(guān)鍵考慮因素。3 nm 工藝還使 Arm 能夠在 Cortex X925 內(nèi)核上提高時(shí)鐘速度,確切地說(shuō)最高可達(dá) 3.8 GHz。這可以實(shí)現(xiàn)更快、響應(yīng)更快的計(jì)算體驗(yàn),并將整體 IPC 性能推向超越現(xiàn)有水平。
Arm 聲稱(chēng),更新后的 Armv9.2 架構(gòu)、全新 CSS 平臺(tái)以及 3 納米制程技術(shù)的結(jié)合,旨在全面提升性能和效率。從理論上講,這應(yīng)該能夠?yàn)樗蓄?lèi)型的設(shè)備實(shí)現(xiàn)其參考 CPU 核心集群設(shè)計(jì),現(xiàn)在兩個(gè) Cortex X 核心已成為常態(tài),而去年的參考設(shè)計(jì)只有一個(gè)。Arm 進(jìn)行并展示的基準(zhǔn)測(cè)試和實(shí)際測(cè)試(不應(yīng)全盤(pán)接受)顯示,單線程和多線程性能都有了顯著提升,使得這些新解決方案成為各種應(yīng)用的理想選擇。Arm 甚至宣稱(chēng),其最大核心 Cortex X925 在單線程 IPC 方面處于領(lǐng)先地位,超越了英特爾和 AMD 的產(chǎn)品,這是一個(gè)大膽的說(shuō)法。
至于電源效率,新內(nèi)核旨在提供更高的每瓦計(jì)算能力,從而降低能耗并延長(zhǎng)電池壽命。這對(duì)于移動(dòng)設(shè)備來(lái)說(shuō)尤其重要,因?yàn)橛脩?hù)需要更長(zhǎng)的電池壽命,同時(shí)又不影響性能。電源效率的提高還意味著更好的熱管理,確保設(shè)備即使在繁重的工作負(fù)載下也能保持涼爽和響應(yīng)迅速。
除了性能和效率的提升,新解決方案還帶來(lái)了增強(qiáng)的安全性和AI功能。Armv9.2架構(gòu)的內(nèi)存標(biāo)記擴(kuò)展(MTE)和機(jī)密計(jì)算架構(gòu)(CCA)可針對(duì)各種安全威脅提供強(qiáng)大的保護(hù),確保數(shù)據(jù)和應(yīng)用程序的安全。
新內(nèi)核和 GPU 增強(qiáng)的 AI 功能也值得關(guān)注。隨著 AI 在現(xiàn)代應(yīng)用中的重要性日益提高,新解決方案旨在加速 AI 工作負(fù)載,提供更快、更高效的 AI 處理。這是通過(guò)專(zhuān)用的 AI 加速器和優(yōu)化來(lái)實(shí)現(xiàn)的,這些加速器和優(yōu)化充分利用了新架構(gòu)和工藝技術(shù)的潛力。
工藝技術(shù)向 3 nm 遷移為半導(dǎo)體制造帶來(lái)了許多機(jī)遇和挑戰(zhàn)。對(duì)于軟 IP,更大、更復(fù)雜的微架構(gòu)需要更強(qiáng)的電壓調(diào)節(jié)和緩解功能,以確保穩(wěn)定性和性能。關(guān)鍵目標(biāo)是優(yōu)化目標(biāo)節(jié)點(diǎn)上的正確 PPA(功率、性能、面積)。對(duì)于物理 IP,工藝復(fù)雜性帶來(lái)了自身的挑戰(zhàn),包括擴(kuò)展限制和支持更寬動(dòng)態(tài)電壓和頻率縮放 (DVFS) 頻譜的要求。此外,在極端功率密度下,這應(yīng)該可以緩解熱問(wèn)題,并確保設(shè)備高效運(yùn)行,這在移動(dòng)設(shè)備中非常重要
為了應(yīng)對(duì)這些挑戰(zhàn),Arm 全面審視 RTL 和物理實(shí)現(xiàn)的共同開(kāi)發(fā)。這確保了其計(jì)算 IP 能夠滿(mǎn)足性能預(yù)期,同時(shí)克服先進(jìn)工藝技術(shù)的挑戰(zhàn)。
Armv9.2、CSS 和 3 nm 技術(shù)的進(jìn)步為各種應(yīng)用開(kāi)辟了新的可能性,包括開(kāi)發(fā)人員訪問(wèn)新的 Arm Kleidi 庫(kù)。在移動(dòng)領(lǐng)域,這些解決方案使更強(qiáng)大、更高效的智能手機(jī)和平板電腦能夠處理復(fù)雜的任務(wù),例如 AI 驅(qū)動(dòng)的攝影、游戲和生產(chǎn)力。
新的解決方案以便攜式外形尺寸為 PC 市場(chǎng)提供臺(tái)式機(jī)級(jí)性能,使其成為筆記本電腦和二合一設(shè)備的理想選擇。改進(jìn)的性能和效率也有利于專(zhuān)業(yè)內(nèi)容創(chuàng)作,從而實(shí)現(xiàn)更快的渲染、編輯和多任務(wù)處理。
在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,新解決方案提供了高級(jí)人工智能應(yīng)用所需的計(jì)算能力,從自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)到自主系統(tǒng)和機(jī)器人技術(shù)。增強(qiáng)的人工智能功能可確保這些應(yīng)用程序高效運(yùn)行,從而提供更快、更準(zhǔn)確的結(jié)果。
隨著 Arm 不斷突破半導(dǎo)體技術(shù)的界限,專(zhuān)注于增強(qiáng) Armv9.2 架構(gòu)、推出 CSS 平臺(tái)以及過(guò)渡到 3 nm 工藝技術(shù)標(biāo)志著向前邁出了重要一步。這些進(jìn)步大大提高了性能、能效和安全性,使新一代設(shè)備能夠輕松處理最苛刻的應(yīng)用程序。
結(jié)合這些技術(shù),我們能夠提供強(qiáng)大且多功能的計(jì)算解決方案,該解決方案可以擴(kuò)展到不同的設(shè)備外形和用例。無(wú)論是高端游戲、專(zhuān)業(yè)內(nèi)容創(chuàng)作還是日常生產(chǎn)力任務(wù),Arm 的最新解決方案都旨在提供最佳的計(jì)算體驗(yàn)。
好的硬件得益于好的軟件
Arm 硬件的進(jìn)步得益于一個(gè)復(fù)雜的軟件生態(tài)系統(tǒng),該生態(tài)系統(tǒng)旨在充分發(fā)揮其處理器的潛力。這個(gè)生態(tài)系統(tǒng)的核心是新的 Kleidi 庫(kù),它在優(yōu)化人工智能 (AI) 和基于計(jì)算機(jī)的應(yīng)用程序方面發(fā)揮著至關(guān)重要的作用。這些庫(kù)為開(kāi)發(fā)人員提供了量身定制的工具,以最大限度地提高 Arm 最新內(nèi)核的性能和效率。
KleidiAI 是專(zhuān)注于加速 AI 工作負(fù)載的關(guān)鍵組件。它包括一套針對(duì) Arm 架構(gòu)優(yōu)化的全面計(jì)算內(nèi)核,能夠高效執(zhí)行各種 AI 任務(wù),例如機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和數(shù)據(jù)分析。通過(guò)為常見(jiàn)的 AI 操作提供高度優(yōu)化的例程,KleidiAI 可讓開(kāi)發(fā)人員在保持能源效率的同時(shí)實(shí)現(xiàn)顯著的性能提升。隨著 AI 應(yīng)用在移動(dòng)設(shè)備、智能家居系統(tǒng)和工業(yè)自動(dòng)化中變得越來(lái)越普遍,這一點(diǎn)變得越來(lái)越重要。
另一方面,KleidiCV 則針對(duì)計(jì)算機(jī)視覺(jué)工作負(fù)載。該庫(kù)為圖像處理、對(duì)象檢測(cè)和場(chǎng)景識(shí)別等任務(wù)提供了優(yōu)化的功能。將 KleidiCV 與 Arm 的架構(gòu)集成可確保應(yīng)用程序能夠快速高效地處理視覺(jué)數(shù)據(jù),使其成為增強(qiáng)現(xiàn)實(shí)、自動(dòng)駕駛汽車(chē)和智能監(jiān)控系統(tǒng)的理想選擇。通過(guò)利用這些優(yōu)化的庫(kù),開(kāi)發(fā)人員可以構(gòu)建在基于 Arm 的硬件上流暢運(yùn)行的復(fù)雜應(yīng)用程序,充分利用 3 nm 工藝技術(shù)帶來(lái)的性能和能效改進(jìn)。
除了 Kleidi 庫(kù)之外,Arm 還提供了一套強(qiáng)大的開(kāi)發(fā)工具和平臺(tái)??蛻?hù)端計(jì)算解決方案 (CSS) 平臺(tái)包括參考軟件堆棧和性能優(yōu)化工具,如 Arm Performance Studio,它提供有關(guān)應(yīng)用程序性能的詳細(xì)見(jiàn)解,并幫助開(kāi)發(fā)人員微調(diào)其軟件以實(shí)現(xiàn)最高效率。這個(gè)全面的支持系統(tǒng)確保開(kāi)發(fā)人員能夠快速有效地將創(chuàng)新應(yīng)用程序推向市場(chǎng),充分利用 Arm 最新的架構(gòu)進(jìn)步。
在接下來(lái)的幾頁(yè)中,我們將分解 Arm 在其 2024 CPU 集群中的改進(jìn),包括新的 Cortex X925 和 Cortex A725 內(nèi)核以及使用最小內(nèi)核 Cortex A520 所做的改進(jìn)。
Arm Cortex X925:引領(lǐng)單線程 IPC 的發(fā)展
Arm Cortex-X925 代號(hào)為“Black Hawk”,Arm 宣稱(chēng),它處于單線程每時(shí)鐘指令 (IPC) 性能的最前沿,至少?gòu)?Arm 的說(shuō)法來(lái)看,它在很大程度上為提高性能和效率奠定了基礎(chǔ)。該核心是 Arm 轉(zhuǎn)向 3 nm 工藝節(jié)點(diǎn)的關(guān)鍵部分,并與第二代 Armv9.2 架構(gòu)無(wú)縫集成。如果 Arms 的說(shuō)法屬實(shí),那么 Cortex X925 將成為高性能移動(dòng)計(jì)算領(lǐng)域的領(lǐng)導(dǎo)者,也是 Arm 及其對(duì)高效 PPA 的關(guān)注是 Arm 2024 CPU 核心集群驅(qū)動(dòng)力的一個(gè)例子。
Cortex-X925 的架構(gòu)改進(jìn)旨在最大程度地提高 IPC。其突出特點(diǎn)之一是 10 寬的解碼和調(diào)度寬度,大大增加了每個(gè)周期處理的指令數(shù)量。這一增強(qiáng)功能使內(nèi)核能夠同時(shí)執(zhí)行更多指令,從而提高執(zhí)行單元的利用率和整體吞吐量。
Arm 將指令窗口大小增加了一倍,以支持這種寬指令路徑,從而允許在任意給定時(shí)間執(zhí)行更多指令。這減少了停頓并提高了執(zhí)行管道的效率。此外,該內(nèi)核的 L1 指令緩存 (I$) 帶寬增加了 2 倍,L1 指令轉(zhuǎn)換后備緩沖區(qū) (TLB) 大小也增加了類(lèi)似倍數(shù)。這些增強(qiáng)功能確保內(nèi)核可以快速獲取和解碼指令,從而最大限度地減少延遲并最大限度地提高性能。
Cortex-X925 還具有高度先進(jìn)的分支預(yù)測(cè)單元,可減少錯(cuò)誤預(yù)測(cè)的分支數(shù)量。通過(guò)采用折疊式無(wú)條件直接分支等技術(shù),Arm 消除了多個(gè)架構(gòu)障礙,從而實(shí)現(xiàn)了更精簡(jiǎn)、更高效的執(zhí)行路徑。這可以減少管道刷新次數(shù)并提高持續(xù) IPC 水平。
Arm Cortex-X925 的前端展示了設(shè)計(jì)中的大量改進(jìn),包括提高指令吞吐量和減少延遲。這些改進(jìn)的核心是 10 寬的解碼和調(diào)度寬度,與以前的架構(gòu)相比,這使內(nèi)核能夠在每個(gè)周期處理更多指令。這種寬指令路徑增加了指令處理的并行性,使內(nèi)核能夠同時(shí)執(zhí)行更多任務(wù)。
此外,Cortex-X925 的指令窗口大小增加了一倍,可容納更多指令并最大限度地減少流水線停頓。L1 指令緩存 (I$) 帶寬也增加了 2 倍,同時(shí) L1 指令轉(zhuǎn)換后備緩沖區(qū) (iTLB) 大小也進(jìn)行了類(lèi)似的擴(kuò)展。這些增強(qiáng)功能確保內(nèi)核能夠快速獲取和解碼指令,從而顯著減少獲取瓶頸并提高整體性能。
Cortex-X925 后端的亂序 (OoO) 執(zhí)行能力顯著提升,增幅達(dá) 25-40%。這一提升使內(nèi)核能夠更靈活、更高效地執(zhí)行指令,從而減少空閑時(shí)間并提高整體性能。此外,內(nèi)核的寄存器文件結(jié)構(gòu)也得到了增強(qiáng),增加了重新排序緩沖區(qū)大小和指令發(fā)出隊(duì)列,最終有助于更順暢、更快速地執(zhí)行指令。
盡管性能出色,Cortex-X925 的設(shè)計(jì)也注重節(jié)能。3 nm 工藝技術(shù)至關(guān)重要,可實(shí)現(xiàn)比前幾代產(chǎn)品更好的節(jié)能效果。內(nèi)核的設(shè)計(jì)包括動(dòng)態(tài)電壓和頻率調(diào)節(jié) (DVFS) 等功能,可根據(jù)工作負(fù)載調(diào)整功率和性能水平。這可確保高效利用能源,延長(zhǎng)電池壽命并減少熱量輸出。
Cortex-X925 還集成了先進(jìn)的電源管理功能,例如每核 DVFS 和改進(jìn)的電壓調(diào)節(jié)。這些功能有助于更有效地管理功耗,確保內(nèi)核在不影響能效的情況下提供高性能。這種平衡對(duì)于需要持續(xù)性能和長(zhǎng)電池壽命的移動(dòng)設(shè)備尤其有益。
Cortex-X925 還針對(duì)基于 AI 的工作負(fù)載進(jìn)行了設(shè)計(jì)和優(yōu)化,具有專(zhuān)用的 AI 加速器和軟件優(yōu)化,可提高 AI 處理效率。憑借高達(dá) 80 TOPS(每秒萬(wàn)億次操作),該內(nèi)核可以處理從自然語(yǔ)言處理到計(jì)算機(jī)視覺(jué)的復(fù)雜 AI 任務(wù)。這些功能得到了 Arm 的 Kleidi AI 和 Kleidi CV 庫(kù)的進(jìn)一步支持,這些庫(kù)為開(kāi)發(fā)人員提供了構(gòu)建高級(jí) AI 應(yīng)用程序所需的工具。
有趣的是,Arm 本身并未涉足 NPU 或 AI 加速器領(lǐng)域。相反,它允許其合作伙伴(如聯(lián)發(fā)科)整合自己的產(chǎn)品,以確保核心集群能夠提供必要的支持和集成功能。憑借其參考軟件堆棧和優(yōu)化庫(kù),CSS 平臺(tái)為開(kāi)發(fā)人員提供了堅(jiān)實(shí)的基礎(chǔ)。全面的 Arm Performance Studio 提供了先進(jìn)的工具環(huán)境,可幫助開(kāi)發(fā)人員針對(duì)新架構(gòu)優(yōu)化其應(yīng)用程序。
CSS 平臺(tái)通過(guò)其重新煥發(fā)活力的 Windows on Arm OS 與 Android、Linux 變體和 Windows 等操作系統(tǒng)集成,確保了廣泛的兼容性和易于開(kāi)發(fā)。這種跨操作系統(tǒng)支持使開(kāi)發(fā)人員能夠快速高效地構(gòu)建利用 Cortex-X925 功能的應(yīng)用程序,以及整個(gè)更新的 Armv9.2 核心集群,這不僅可以加快上市時(shí)間,還可以確??缍喾N設(shè)備的兼容性。
Arm Cortex A725:中核效率的提升
Arm Cortex-A725 旨在平衡性能和能效,是第二代 Armv9.2 架構(gòu)的關(guān)鍵組件。它定位為中端內(nèi)核,與高性能 Cortex-X925 相得益彰,為日常計(jì)算任務(wù)提供強(qiáng)大的功能,同時(shí)保持能效。該內(nèi)核特別針對(duì)需要穩(wěn)定性能但又不需要頂級(jí)內(nèi)核高功耗的設(shè)備,例如智能手機(jī)、平板電腦和筆記本電腦。
Cortex-A725 在其前身 Cortex-A720 的成功基礎(chǔ)上進(jìn)行了多項(xiàng)關(guān)鍵架構(gòu)改進(jìn)。其中一項(xiàng)重大改進(jìn)是增加了指令發(fā)布隊(duì)列和擴(kuò)展了重新排序緩沖區(qū),這使得內(nèi)核能夠同時(shí)處理更多指令并亂序執(zhí)行這些指令以提高效率。亂序執(zhí)行窗口大小的增加使 Cortex-A725 能夠更好地利用其執(zhí)行單元,從而更順暢、更快地處理復(fù)雜的工作負(fù)載。
該內(nèi)核還受益于新的 1MB L2 緩存配置,可更快地訪問(wèn)常用數(shù)據(jù)和指令。這種更大的緩存大小旨在減少延遲并提高性能,特別是對(duì)于需要快速數(shù)據(jù)檢索的應(yīng)用程序。此外,Cortex-A725 的寄存器文件結(jié)構(gòu)也得到了增強(qiáng),進(jìn)一步簡(jiǎn)化了數(shù)據(jù)處理并減少了瓶頸。
能效是 Cortex-A725 設(shè)計(jì)的一個(gè)關(guān)鍵方面。隨著領(lǐng)先的 2024 Cortex 芯片預(yù)計(jì)將采用臺(tái)積電等公司最新推出的 3nm 工藝技術(shù)制造,這些節(jié)點(diǎn)的改進(jìn)性能能夠推動(dòng)能效的大幅提升,而 Arm 在 A725 中也大量采用了這一點(diǎn)??傮w而言,Arm 宣稱(chēng) A725 與前幾代產(chǎn)品相比可顯著節(jié)省電量。與 Cortex-A720 相比,Cortex-A725 的能效提高了 25%(L3 流量減少了 20%),使其成為需要長(zhǎng)電池壽命的移動(dòng)設(shè)備的理想選擇。
該內(nèi)核還具有先進(jìn)的電源管理功能,包括動(dòng)態(tài)電壓和頻率調(diào)節(jié) (DVFS) 和half-slice斷電模式。這些功能允許 Cortex-A725 根據(jù)當(dāng)前工作負(fù)載調(diào)整其功耗,確保高效利用能源而不犧牲性能。
Arm Cortex A520:相同的 2023 核心,針對(duì) 3 nm 進(jìn)行了優(yōu)化
Arm Cortex-A520 在架構(gòu)上并沒(méi)有什么不同,與去年推出的 TCS2023 相比也沒(méi)有變化。相反,它針對(duì)最新的 3 nm 工藝技術(shù)進(jìn)行了優(yōu)化,提高了效率和性能。該內(nèi)核是第二代 Armv9.2 架構(gòu)的一部分,可為移動(dòng)和嵌入式設(shè)備中的日常任務(wù)提供一些額外的計(jì)算能力,同時(shí)保持峰值能效并降低 Arm 最小內(nèi)核的預(yù)期功耗。
這些架構(gòu)調(diào)整確保 Cortex-A520 可以最大限度地發(fā)揮 3 nm 工藝的潛力,實(shí)現(xiàn)更高的晶體管密度和更好的整體性能,而無(wú)需對(duì)其基本設(shè)計(jì)進(jìn)行任何重大更改。
與 Cortex-A520 (TCS23) 相比,Cortex-A520 的節(jié)能效果顯著,達(dá)到 15%。這一改進(jìn)對(duì)于電池續(xù)航時(shí)間較長(zhǎng)的設(shè)備(如智能手機(jī)和物聯(lián)網(wǎng) (IoT) 設(shè)備)至關(guān)重要。通過(guò)優(yōu)化功耗,Cortex-A520 可確保高效性能,同時(shí)又不影響能耗。
上圖清晰地說(shuō)明了 Cortex-A520 與其前代產(chǎn)品 Cortex-A55 和之前的 Cortex-A520 (TCS23) 相比的功率和性能關(guān)系。專(zhuān)為 3 nm 設(shè)計(jì)的最新 Cortex-A520 顯著提高了各個(gè)性能級(jí)別的功率效率。這意味著 Cortex-A520 在給定性能點(diǎn)上消耗的功率顯著降低,表明 Arm 致力于在 2024 年的核心集群中提供性能提升,并專(zhuān)注于從功率角度對(duì)三個(gè) Cortex 核心中最小的一個(gè)進(jìn)行改進(jìn)。
2024 年推進(jìn) 3 納米技術(shù)
總體而言,Arm 面向客戶(hù)端 PC 的 CSS 依賴(lài)于兩個(gè)超高性能 Arm Cortex-X925 通用內(nèi)核(每個(gè)內(nèi)核高達(dá) 3MB L2 緩存,時(shí)鐘頻率超過(guò) 3.60 GHz,支持 SVE、SVE2)、四個(gè)高性能 Cortex-A725 內(nèi)核、兩個(gè)節(jié)能 Cortex-A520 內(nèi)核和一個(gè) Immortalis-G925 圖形處理器。Arm 最新的 CSS 最多可支持 14 個(gè) CPU 內(nèi)核。CSS 是一種可用于生產(chǎn)的物理實(shí)現(xiàn),可在 3nm 工藝技術(shù)上制造(可能是臺(tái)積電的 N3E——盡管這只是猜測(cè))。
Arm CSS 實(shí)現(xiàn)的實(shí)際規(guī)格可能會(huì)由處理器供應(yīng)商更改以滿(mǎn)足其性能和功率目標(biāo),但 Arm 用于性能評(píng)估的 FPGA 包括 Cortex-X925 內(nèi)核(2 MB L2,3.80 GHz)、16MB L3、32MB 系統(tǒng)級(jí)緩存、2 GHz 的 DSU 和 LPDDR5X-8533 內(nèi)存。
Arm 客戶(hù)業(yè)務(wù)線高級(jí)副總裁兼總經(jīng)理 Chris Bergey 表示:“我們現(xiàn)在在 Arm、CPU 和 GPU 上提供物理實(shí)現(xiàn),使構(gòu)建和部署基于 Arm 的解決方案變得更加容易,并且不會(huì)留下任何意外,從而實(shí)現(xiàn)新的性能點(diǎn)和計(jì)算能力,并幫助加快產(chǎn)品上市時(shí)間?!?/p>
“Arm 正在提供更多價(jià)值,與領(lǐng)先的代工合作伙伴合作,針對(duì)新的 3nm 工藝節(jié)點(diǎn)優(yōu)化整個(gè)堆棧。這使我們能夠以物理形式提供 IP??蛻?hù)端 CSS 將物理實(shí)現(xiàn)與 Armv9 架構(gòu)在 AI 方面的優(yōu)勢(shì)結(jié)合在一起?!?Bergey說(shuō)。
Arm 表示,Geekbench 6 單核得分與 TCS23 相比,Cortex-X925 CPU 的峰值性能提升了 36%。它還將前 10 個(gè)應(yīng)用程序中的 5 個(gè)應(yīng)用程序的啟動(dòng)時(shí)間平均縮短了 33%,從而提高了工作效率,并在移動(dòng)設(shè)備上提供了更流暢的用戶(hù)體驗(yàn)。此外,根據(jù) Speedometer 2.1 基準(zhǔn)測(cè)試,它的網(wǎng)頁(yè)瀏覽速度提高了 60%,并在包括光線追蹤和可變速率著色 (VRS) 在內(nèi)的七個(gè)圖形基準(zhǔn)測(cè)試中將峰值圖形性能平均提高了 30% 。
與 Cortex-X4 相比,新的 Cortex-X925 平臺(tái)在使用旨在加速現(xiàn)代 Arm CPU 上的 AI 應(yīng)用的 KleidiAI 庫(kù)時(shí),在 LLaMA 3(80 億個(gè)參數(shù))中性能提升高達(dá) 42%,在 Phi 3(38 億個(gè)參數(shù))AI 模型中性能提升高達(dá) 46%。
從這次發(fā)布會(huì)我們可以看到,Arm選擇在2024 年改進(jìn)和完善其IP,而不是完全重新定義并做出突破性的改變。繼去年推出 Armv9.2 系列內(nèi)核之后,Arm 在 2024 年的最新 Cortex 系列架構(gòu)中做出了一些顯著改變,明確且有意轉(zhuǎn)向更先進(jìn)的 3 nm 工藝節(jié)點(diǎn),三星和臺(tái)積電 3 nm 均作為 2024 年平臺(tái)基于客戶(hù)端的 CSS 的基礎(chǔ)。
Cortex-X925、Cortex-A725 和 Cortex-A520 內(nèi)核已針對(duì) 3 nm 工藝進(jìn)行了優(yōu)化,顯著提升了性能和能效。Cortex-X925 的解碼和調(diào)度寬度增強(qiáng)了 10 倍,時(shí)鐘速度提高到 3.8 GHz,有望為單線程 IPC 性能樹(shù)立新標(biāo)準(zhǔn)。Arm 更新后的 v9.2 平臺(tái)非常適合高性能應(yīng)用,包括 AI 工作負(fù)載和高端游戲,無(wú)論是在移動(dòng)領(lǐng)域還是在 Microsoft 的 Windows on Arm 生態(tài)系統(tǒng)中。
從總體來(lái)看,從 Arm 對(duì)新 CSS 平臺(tái)和去年的 TCS2023 版本的內(nèi)部性能比較來(lái)看,Arm 聲稱(chēng)性能提升了 30% 到 60%,具體取決于任務(wù)和工作量。如果這是可信的,那么性能改進(jìn)是令人難以置信的,而向 3 nm 的過(guò)渡可能是性能的主要改進(jìn)因素,而不是底層架構(gòu)的改進(jìn)。
Cortex-A725 在性能和效率之間取得平衡,使其適用于多種中端設(shè)備。得益于增加緩存大小和擴(kuò)展重新排序緩沖區(qū)等架構(gòu)增強(qiáng)功能,Arm 聲稱(chēng)這些改進(jìn)比上一代產(chǎn)品實(shí)現(xiàn)了高達(dá) 35% 的性能效率。更新后的 Cortex-A520 主要側(cè)重于在 3 nm 節(jié)點(diǎn)上進(jìn)行優(yōu)化,同時(shí)力求保持無(wú)與倫比的能效,與上一代產(chǎn)品相比,實(shí)現(xiàn)了 15% 的節(jié)能。該核心針對(duì)低強(qiáng)度工作負(fù)載進(jìn)行了優(yōu)化,使其成為物聯(lián)網(wǎng)設(shè)備和低成本智能手機(jī)等對(duì)功耗敏感的應(yīng)用的理想選擇。
AI 功能一直是 Arm 最新產(chǎn)品的重要關(guān)注點(diǎn)。Cortex-X925 和 Cortex-A725 內(nèi)核主要集成專(zhuān)用 AI 加速器,允許訪問(wèn)優(yōu)化的軟件庫(kù)(例如 KleidiAI 和 KleidiCV),從而確保高效的 AI 處理。這些增強(qiáng)功能對(duì)于從神經(jīng)語(yǔ)言模型到 LLM 等各種應(yīng)用都至關(guān)重要。
Arm 還繼續(xù)通過(guò)由新 CSS 平臺(tái)驅(qū)動(dòng)的、通常熟練且全面的生態(tài)系統(tǒng)支持其最新的核心集群,該生態(tài)系統(tǒng)與 Arm Performance Studio 以及 Kleidi AI 和 CV 庫(kù)相結(jié)合。這些提供的工具為開(kāi)發(fā)人員提供了充分利用新架構(gòu)功能的強(qiáng)大基礎(chǔ)。這有效地縮短了整體上市時(shí)間,并促進(jìn)了各個(gè)行業(yè)的創(chuàng)新,例如內(nèi)容創(chuàng)建和設(shè)備上的 AI 推理。CSS 平臺(tái)與 Android、Linux 和 Windows(Arm 上的 Windows)等操作系統(tǒng)的集成確保了更大的采用范圍。它推動(dòng)了更廣泛的開(kāi)發(fā)水平,使軟件和應(yīng)用程序可以在比前幾代更多的設(shè)備上使用。
總而言之,Arm 將其所有最新 CPU 設(shè)計(jì)都轉(zhuǎn)向 3 nm 工藝技術(shù),并對(duì) Cortex-X925 和 Cortex-A725 內(nèi)核進(jìn)行改進(jìn),表明其戰(zhàn)略重點(diǎn)是優(yōu)化現(xiàn)有架構(gòu),而不是進(jìn)行徹底的改變。這些改進(jìn)包括增加每個(gè)內(nèi)核的緩存大小、轉(zhuǎn)向更寬的管道,以及為 2024 年增強(qiáng) DSU-120 內(nèi)核集群,這無(wú)疑在紙面上帶來(lái)了顯著的性能和能效提升。
在使新設(shè)備能夠處理要求苛刻的應(yīng)用程序的同時(shí),這些效率和性能方面的改進(jìn)大多是在轉(zhuǎn)向更先進(jìn)但更具挑戰(zhàn)性的 3 納米節(jié)點(diǎn)時(shí)實(shí)現(xiàn)的。隨著 Arm 繼續(xù)突破其 IP 的極限,這些技術(shù)應(yīng)該為更強(qiáng)大、更高效、更智能的設(shè)備鋪平道路,塑造移動(dòng)設(shè)備未來(lái)的可能性和能力,無(wú)論是新一代支持 AI 的設(shè)備還是移動(dòng)游戲,Arm 都希望提供這一切。
來(lái)源:半導(dǎo)體行業(yè)觀察
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。