新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > Arm技術日:為AI終端準備了哪些新基石?

Arm技術日:為AI終端準備了哪些新基石?

—— 終端CSS、 CPU、GPU及Kledi軟件上新登場
作者:王瑩 時間:2024-07-14 來源:EEPW 收藏
編者按:過去一年,移動終端設備的長足進步令人贊嘆,例如人工智能(AI)從手機到筆記本電腦的巨大創(chuàng)新,并誕生了“新一代AI手機”和AIPC。據(jù)IDC預測,2024年全球新一代AI手機的出貨量將達到1.7億部,占智能手機市場總量的近15%。在中國市場,新一代AI手機在2027年將達到1.5 億臺,占有超過一半的份額。在AIPC方面,今年是AIPC的發(fā)展元年,2028 年中國下一代AIPC年出貨量將是2024年的60倍。

一切皆有可能,且盡在掌控之中,其基石就是新一代的高級計算。為此,Arm不久前在京舉辦了“技術媒體分享日”,介紹了Am終端CSS、CPU、 GPU及Kledi“軟件與軟件社區(qū)參與計劃”等,并回答了媒體問題。

本文引用地址:http://m.butianyuan.cn/article/202407/460971.htm

1   概覽:使用Al優(yōu)化的Arm CSS賦能終端

Arm終端事業(yè)部智能手機市場高級總監(jiān)Steve Raphael稱,Am是實現(xiàn)下一波計算性能需求的基石,不僅賦能設備端實現(xiàn)更高的AI性能,同時聚焦于降低能效,為當今的計算平臺帶來了高效的性能。

最新的Arm計算平臺是Am終端計算子系統(tǒng)(Arm CSSforClient)。Arm首次在終端領域為ArmCPU和GPU交付物理實現(xiàn)(如圖1)。這讓構建基于Arm架構的解決方案變得更加簡單和可靠,同時實現(xiàn)新的性能點和計算能力,并助力加速產品上市進程。

1720916092182740.png

圖1 Arm終端CCS參考平臺

Arm力求提供更多價值,例如針對新的3納米工藝節(jié)點對整個堆棧進行優(yōu)化。Am終端CSS將物理實現(xiàn)與Armv9的AI優(yōu)勢結合在一起。 Armv9架構是2021年推出的,專為高性能和AI而設計的,并在過去幾年中提高了在矢量加速、機器學習(ML)等領域的計算能力;增強系統(tǒng)的安全性和穩(wěn)健性;更重要的是,增加了面向AI的功能。在去年Armv9.2取得成功的基礎上,現(xiàn)在正通過全新的Arm Cortex+ -x CPU和Arm Immortalis GPU來提供高性能,并以效率為核心,終端CSS能夠為合作伙伴生態(tài)系統(tǒng)帶來所需的性能,并且加速其產品上市進程。所有這些與持續(xù)的軟件投資相結合,為開發(fā)者構建起-一個平臺,幫助他們能夠在Arm平臺上打造更卓越、快速的AI體驗。

2   終端CSS:面向高端終端設備

Amm終端事業(yè)部產品管理總監(jiān)Steve Hopper首先回年以來,Arm通過全面計算解決方案(TCS)不斷突破移年以來,Arm 通過全面計算解決方案(TCS)不斷突破移動端計算的極限。第一代解決方案引入了全新的Amv9 CPU集群、性能強大的Arm Mali GPU以及一整套系統(tǒng)IP產品。2022年, Arm發(fā)布了第二代全面計算解決方案,帶來了Armv9 CPU集群,并推出了新的旗艦級GPU系列Arm Immortalis。在去年的全面計算解決方案中,Am推出了新一代Amv9.2 CPU集群和基于第五代GPU架構的新GPU系列,持續(xù)推進這一勢頭。 Arm的終端解決方案已連續(xù)三代實現(xiàn)兩位數(shù)的性能和效率提升。

1720940661955436.png

圖2

在Specint和Geekbench等基準測試中,計算性能每年提高超過15%。在各種GPU基準測試和實際游戲內容中,圖形性能提升超過20%。更重要的是,Arm持續(xù)實現(xiàn)了超過15%的同比效率提升。

今年,Am將其終端解決方案升級為Arm終端計算子系統(tǒng)(CSS),該計算子系統(tǒng)專為高端終端設備細分市場設計,將在性能、效率和可擴展性方面帶來突破性變化。

Am終端CSS囊括最新的Amv9.2 Cortex CPU集群和Arm Immortalis與Arm Mali GPU、CoreLink互連系統(tǒng)IP,以及知名代工廠采用3納米工藝生產就緒的CPU和GPU物理實現(xiàn)。該平臺為Am的合作伙伴提供了生產芯片的最快途徑。通過物理實現(xiàn),Arm的合作伙伴能夠利用前沿3納米工藝的各種優(yōu)勢,同時實現(xiàn)高度靈活、可定制的芯片設計。

具體來看,Arm終端CSS采用最新Armv9.2 CPU集群,其中集成了Arm目前最高性能的Arm Cortex-X925 CPU、最高效的Cortex- -A725 CPU和更新后的Cortex-A520 CPU。這為AI和其他實際用例計算工作負載提供出色的性能和效率(圖3)。

1720941061555040.png

圖3 Arm終端CSS的要素

最新發(fā)布的Armv9.2 CPU集群在性能上實現(xiàn)了大幅提升,這得益于Am從多維度著手進行優(yōu)化。除了內存延遲,以及最大化內存帶寬和緩存大小,從多個關內存延遲,以及最大化內存帶寬和緩存大小,從多個關鍵因素入手,進而實現(xiàn)CPU性能的提高。

而針對能效優(yōu)化方面, Steve Hopper強調了能效提升是一個多因素的結果,它涉及到工藝節(jié)點、核心設計、軟件優(yōu)化以及系統(tǒng)級緩存等多個方面。例如在系統(tǒng)級緩存方面,Arm終端CSS的參考實現(xiàn)中,系統(tǒng)級緩存已經(jīng)擴展到了16MB,這有助于減少內存流量,進而可降低能耗。

2.1 CPU、GPU和NPU的關系

拍照和拍視頻可能是大眾最常使用的手機功能之一,而要想拍攝出具有逼真焦外成像(Bokeh)效果的照片和視頻,并不是一-項簡單的工作負載。AI攝像頭的焦外成像管線由深度估計、分割、摳圖和混合等多個階段組成,以確保生成高質量的影像。在Steve Hopper的技術分享中列舉了一個案例,該案例的管線中的AI可在NPU上運行,但Arm已經(jīng)證明它同樣可以在CPU上運行,并且它的運行速度正越來越快。Am終端CSS的亮點之一正是計算攝影和AI攝像頭用例。與去年TCS23中的CPU相比,今年終端CSS中的Cortex- X925運行焦外成像工作負載算法實現(xiàn)了24%的性能提升。

當下智能手機市場中的成像解決方案非常復雜,在CPU、GPU和NPU上運行的都有。市場不斷創(chuàng)新,涌現(xiàn)出新的算法、數(shù)據(jù)類型或運算符。CPU 所具備的優(yōu)勢在于它的靈活性,以及可以滿足未來技術需求。例如,研發(fā)中的新技術可以首先在CPU上實現(xiàn),而NPU則需要特定的編碼,這增加了研發(fā)工作的難度。因此,新的算法通常首先出現(xiàn)在CPU或GPU上,最后當硬件分離時才會遷移到NPU上。通過CPU與NPU緊密協(xié)作,將能共同推動技術前沿的發(fā)展。

而針對端側AI推理的處理器協(xié)同工作,Steve Hopper表示,CPU因其易于訪問并極為靈活,是一個較為理想的進行AI推理的地方。對于卸載到NPU上進行成本比較高的工作負載而言,CPU也是比較合適的運行推理的地方。未來,期待看到在高端設備中CPU、GPU和NPU三者相輔相成。但對于一些稍微低級別設備來說,廠商可能很難承擔NPU的費用,CPU往往是運行此類工作負載的理想目標。

3   適用于Al及未來的高性能、高效率CPU集群

在過去的一年里,圍繞2023 Arm全面計算解決方案(TCS23)中的CPU集群,人們見到了許多令人矚目的產品和發(fā)布。這些產品共同引領了AI等新的高級用例的激增。如今,AI運行于Arm平臺和Arm的CPU集群之,上。這些工作負載的計算密集度越來越高。因此Arm需要不斷發(fā)展技術,以應對這一挑戰(zhàn)。 正是在這一新技術和新用例的交匯之際,Arm推出了新的Armv9.2CPU集群(圖4)。

1720941953571728.png

圖4 Armv9 CPU集群的代際更新及最新產品

Arm終端事業(yè)部高級產品經(jīng)理ManishPandey介紹了兩個全新的IP (旗艦CPU Arm Cortex-X系列和高效CPU Arm Cortex-A700系列的新產品),以及另外兩個經(jīng)過更新的IP一可用于3納米工藝的更新的Amm Cortex—A500系列CPU,以及具有新功能的更新的DSU。這些產品被集成至Arm迄今為止針對安卓系統(tǒng)速度最快的計算平臺一新的 Arm終端CSS。

Arm Cortex-X925是Arm迄今為止速度最快、性能最強的CPU,其單線程性能提升了36%,AI 性能提高了46%,是Arm Cortex- -X系列有史以來最大幅度的IPC同比提升。要實現(xiàn)如此優(yōu)異的性能,并非只涉及單個因素, 而是來自每時鐘周期指令數(shù)(IPC)、 頻率、編譯器、 操作系統(tǒng)(OS)、封裝等多個方面的投入。除了性能的提升以外,Arm也始終與其合作伙伴需求以及行業(yè)發(fā)展保持同頻,并致力于為其合作伙伴提供相關工具,幫助他們的產品實現(xiàn)逐年的性能提升,并且可以確保最終成品保持在他們的片上面積以及功耗預算之內。

在終端設備市場,隨著智能手機性能提升的同時,散熱問題也是眾所關注的焦點。在這一-方面, Arm持續(xù)投入,以確保其基礎IP在典型的功耗預算內實現(xiàn)最大的性能表現(xiàn)。在Arm終端CSS中,Arm也以特定工藝節(jié)點的物理IP為目標,確保在這些工藝節(jié)點上獲得最佳性能, 同時達到最低的能耗和最小的發(fā)熱量。

3.1   Cortex-X925的命名含義

此次Arm針對Cortex- -X925改成了以三位數(shù)的命名方此次Arm針對Cortex- -X925改成了以三位數(shù)的命名方式。據(jù)了解,今年改名的原因主要在于,Arm革新了新一代CPU的設計理念,得益于新設計所實現(xiàn)的微架構改進和頻率提升,Cortex- -X925 是Cortex- -X推出以來取得最高IPC同比增幅的CPU,通過命名的調整,Arm用來彰顯其與前代產品的突出表現(xiàn)。此外,新推出的Immortalis- -G925 GPU在性能方面也實現(xiàn)了驚人的提升,通過將GPU和CPU的命名統(tǒng)一起來,也能清楚表明這兩款產品作為旗艦高端IP的定位。Steve Raphael進一步說明, Arm Cortex- -X系列將持續(xù)定位為Arm和合作伙伴定制合作的專用高端CPU。而對于Cortex-. A700系列,Arm同樣看重,也將持續(xù)保持這一高效產品線。

3   新GPU定位:從手游到AI

作為人們日常數(shù)字生活中不可或缺的一部分,Arm GPU賦能了從當今智能手機上的沉浸式游戲,到各類邊緣側人工智能(AI) 體驗的方方面面。目前,Arm合作伙伴的GPU出貨量已超過100 億顆,而這一卓越成就歸功于Arm在業(yè)界領先的生態(tài)系統(tǒng)。這些GPU廣泛應用于包括智能手機、平板電腦、智能電視、機頂盒、智能手表和XR可穿戴設備在內的各類消費電子設備。

去年此時,Am推出了新的第五代GPU架構及一系 列新的GPU,包括Arm Immortalis -G720 GPU。MediaTek的天璣9300系統(tǒng)級芯片(SoC)平臺便采用此GPU。之后,知名手機廠商vivo和OPPO的旗艦智能手機都先后采用了該芯片。

今年,Amm推出了第二代基于Am第五代GPU架構構建的GPU產品,成為Am終端計算子系統(tǒng)(CsS)的重Malir -G725 GPU和Amm Malir -G625 GPU,它們適用于從旗艦智能手機、高端手機,到智能手表、入門級移動設備等各類消費電子設備,這些GPU產品的兩大設計重心:

●   作為手機游戲持續(xù)演進的一部分,實現(xiàn)沉浸式視覺體驗;

●   在主流應用中加速實現(xiàn)AI體驗。

安謀科技(Arm China)市場總監(jiān)王剛提供了一組數(shù)據(jù):Immortalis——G925 GPU與Immortal—G720相比,性能提升了37%。這款產品還有多項技術改進,如片段預處理、光線追蹤和可擴展性的提升等(圖5)。Arm還針對- -些關鍵AIML用例改進了AI性能,并與生態(tài)系統(tǒng)緊密合作,更大限度地提高了Arm GPU的性能。此外,Mali-G725和Mali——G625這兩款產品可為各類不同級別的設備帶來出色的游戲體驗。

1720960236745164.png

圖5 Immortalis- G925整體性能提升

具體來看下Am GPU在AI性能方面的表現(xiàn),與前幾代產品一樣,Am持續(xù)提升GPU對AI/ML性能和效率的支持,并關注于AI等主要領域。在圖像處理(如分割或分類)方面,與其去年參考平臺中的Immortalis-G720相比,Am終端CSS參考平臺中的Immortalis -G925性能顯著提升了41%。在超級采樣任務中,使用神經(jīng)網(wǎng)絡放大圖像時,性能提升了將近30%;在自然語言處理和語音轉文本方面,更是取得了50%性能提升。

王剛強調道,在衡量整個GPU的能效和性能時,Am不局限于某一兩種基準測試, 而是更注重實際用例的表現(xiàn),如游戲體驗和普通用戶的UI使用體驗,這些實際應用場景被視為基準測試的重要補充。

4   通過軟件加速邊緣AI開發(fā)

在飛速發(fā)展的AI時代,Arm正支持全球數(shù)百萬開發(fā)者,確保他們能夠獲得所需的性能、工具和軟件庫, 從而順利地打造下一波令人驚嘆的AI體驗。

為此,Arm推出了Arm Kleidi,這是一項廣 泛的“軟件和軟件社區(qū)參與計劃”,旨在加速AI發(fā)展。其中的第一個舉措是推出面向熱門AI框架的Arm Kleidi軟件庫。這使開發(fā)者可以直接取得Am CPU的出色AI功能,而如今全球從云端到邊緣側的大多數(shù)AI推理工作負載都在這些Amm CPU上運行。開發(fā)者可以借助Arm超過多數(shù)據(jù)(SIMD)擴展以支持機器學習(ML)工作負載,多數(shù)據(jù)(SIMD)擴展以支持機器學習(ML)工作負載,到如今的Armv9架構在Arm CPU上囊括了加速和保護高級生成式AI工作負載的功能,這些創(chuàng)新持續(xù)推動AI能力和性能的提升。

Arm Kleidi提供了一個輕量級的軟件庫,由于設計時已盡可能減少了對外部軟件環(huán)境的依賴性,使其能夠輕松整合到多種庫中。作為一個開源項目,Kleidi面向全行業(yè)開放,也將會不斷加入新特性、提升性能,并覆蓋更多運算內核。

Kleidi軟件庫包含面向AI工作負載的KleidiAI和面向運行于Arm CPU上出色的計算機視覺工作負載的KleidiCV (圖6)。該軟件庫可以被直接嵌入到熱[門]的AI框架中,開發(fā)者無需進行任何操作。如此一來,開發(fā)者可以輕松地啟用Arm CPU的AI功能,從而快速構建AI應用,并在盡可能廣泛的設備上實現(xiàn)最出色性能。

1720960782632263.png

圖6

總結來說,安謀科技(Arm China)開發(fā)者生態(tài)高級經(jīng)理李陳魯在講演中分享了的內容涵蓋了:Kleidi 將能在使用Arm CPU的任何地方加速ML;通過Arm的協(xié)作、內容創(chuàng)作和工具方面的突破,進一步推動移動圖ADPF的貢獻以及MTE在消費電子設備中的落地來進ADPF的貢獻以及MTE在消費電子設備中的落地來進一步增強安卓系統(tǒng);以及在打造Windows on Arm的原生生態(tài)系統(tǒng)方面取得了巨大進展。

(本文來源于《EEPW》



評論


技術專區(qū)

關閉