Arm 通過(guò)新的 PyTorch 和 ExecuTorch 集成加速?gòu)脑频竭叺娜斯ぶ悄埽?賦能開(kāi)發(fā)者即刻實(shí)現(xiàn)性能提升
Arm 控股有限公司(納斯達(dá)克股票代碼:ARM,以下簡(jiǎn)稱“Arm”)近期宣布通過(guò)將 Arm? Kleidi 技術(shù)集成到 PyTorch 和 ExecuTorch,賦能新一代應(yīng)用在 Arm CPU 上運(yùn)行大語(yǔ)言模型 (LLM)。Kleidi 匯集了最新的開(kāi)發(fā)者賦能技術(shù)和關(guān)鍵資源,旨在推動(dòng)機(jī)器學(xué)習(xí) (ML) 技術(shù)棧中的技術(shù)協(xié)作和創(chuàng)新。通過(guò)這些重要進(jìn)展,Arm 致力于為任一 ML 技術(shù)棧的開(kāi)發(fā)者提供更為順暢的體驗(yàn)。
Arm 戰(zhàn)略與生態(tài)部開(kāi)發(fā)者技術(shù)副總裁 Alex Spinelli 表示:“Arm 正與領(lǐng)先的云服務(wù)提供商和框架設(shè)計(jì)者緊密合作,以打造便捷的開(kāi)發(fā)環(huán)境,讓軟件開(kāi)發(fā)者能夠輕松地在基于 Arm 架構(gòu)的硬件上加速人工智能 (AI) 和 ML 工作負(fù)載。自該技術(shù)推出的四個(gè)月以來(lái),Kleidi 已在 Arm CPU 上加速開(kāi)發(fā)并顯著提升主要的 AI 性能。Arm 與 PyTorch 社區(qū)的緊密合作印證了該技術(shù)可以大大減少開(kāi)發(fā)者利用高效 AI 所需的工作量。”
與領(lǐng)先框架集成,實(shí)現(xiàn)顯著云端優(yōu)勢(shì)
在云端,Kleidi 以利用 Arm Compute Libraries (ACL) 增強(qiáng) PyTorch 帶來(lái)的成果為基礎(chǔ),為世界各地在 Arm 平臺(tái)上優(yōu)化 AI 的開(kāi)發(fā)者打造藍(lán)圖。通過(guò)為開(kāi)發(fā)者免去不必要的工程工作,以便開(kāi)發(fā)者能將 Arm 視為運(yùn)行其關(guān)鍵 ML 工作負(fù)載的首選平臺(tái)。作為實(shí)現(xiàn)這一愿景的關(guān)鍵一步,Arm 直接與 PyTorch 和 TensorFlow 進(jìn)行 Arm Kleidi Libraries 的集成合作,這包括將基本的 Arm 軟件庫(kù)直接集成到上述的領(lǐng)先框架中。
重要的是,這意味著當(dāng)新的框架版本發(fā)布時(shí),應(yīng)用開(kāi)發(fā)者能夠自動(dòng)從其大幅的性能提升中受益,而無(wú)需額外在 Arm 平臺(tái)上重新編譯。這項(xiàng)投入已對(duì)合作伙伴關(guān)系產(chǎn)生了積極影響:
· Arm 聊天機(jī)器人演示由 Meta Llama 3 LLM 驅(qū)動(dòng),并運(yùn)行在亞馬遜云科技 (AWS) Graviton 處理器上,首次在主線 PyTorch 中實(shí)現(xiàn)了實(shí)時(shí)聊天響應(yīng)。
o 根據(jù)在 AWS Graviton4 上所測(cè)得的數(shù)據(jù)顯示,通過(guò)將 Kleidi 技術(shù)集成到開(kāi)源 PyTorch 代碼庫(kù),詞元 (token) 首次響應(yīng)時(shí)間可提高 2.5 倍。
· 通過(guò)優(yōu)化 torch.compile 以充分利用通過(guò) ACL 提供的 Kleidi 技術(shù),在基于 AWS Graviton3 上所測(cè)得的數(shù)據(jù)顯示,各類 Hugging Face 模型推理工作負(fù)載上的性能可提升 1.35 至 2 倍。
這些僅是出色的云端示例之一,卻代表了在 Arm 平臺(tái)上普及 ML 工作負(fù)載時(shí)可實(shí)現(xiàn)的性能加速類型。Arm 將持續(xù)投入,以確保開(kāi)發(fā)者的 AI 應(yīng)用可以在其技術(shù)上從云到邊都能完美運(yùn)行,其中包括實(shí)現(xiàn)新功能的向前兼容,進(jìn)而使得開(kāi)發(fā)者能夠即刻從中受益。
合作助力開(kāi)發(fā)者緊跟生成式 AI 發(fā)展步伐
隨著新的語(yǔ)言模型版本快速地推陳出新,生成式 AI 掀起了一波 AI 創(chuàng)新熱潮。Arm 持續(xù)與 ML 技術(shù)棧的各個(gè)關(guān)鍵環(huán)節(jié)緊密合作,攜手 AWS 和 Google 等云服務(wù)提供商以及 Databricks 等迅速壯大的 ML 獨(dú)立軟件開(kāi)發(fā)商 (ISV) 社區(qū),進(jìn)而幫助開(kāi)發(fā)者立于技術(shù)前沿。
Google Cloud Compute 產(chǎn)品管理高級(jí)總監(jiān) Nirav Mehta 表示:“Arm 和 Google Cloud 致力于為開(kāi)發(fā)者提升 AI 的可訪問(wèn)性和敏捷性,而 Kleidi 代表了通過(guò)軟硬件協(xié)同優(yōu)化滿足 AI 需求所取得的重要進(jìn)展。隨著我們的客戶正積極采用基于 Arm 架構(gòu)的定制 CPU —— Axion,我們期待在整個(gè) ML 技術(shù)棧中為客戶帶來(lái)更加順暢的集成體驗(yàn)?!?
Databricks 軟件工程師Lin Yuan 表示:“利用 Databricks Data Intelligence Platform 進(jìn)行 AI 和 ML 工作流的企業(yè),將受益于跨 ML 軟件棧的 Arm Kleidi 集成所帶來(lái)的性能優(yōu)化。借助由 Databricks ML Runtime 集群提供支持的 Arm 架構(gòu) AWS Graviton 處理器,企業(yè)可以從各種 ML 軟件庫(kù)的加速中受益,同時(shí)降低云服務(wù)提供商的成本?!?
協(xié)助開(kāi)發(fā)者將 Arm 提供的資源應(yīng)用到實(shí)際用例中至關(guān)重要,為此 Arm 創(chuàng)建示例軟件棧和學(xué)習(xí)資源,向開(kāi)發(fā)者展示如何在 Arm CPU 上構(gòu)建 AI 工作負(fù)載,進(jìn)而迅速推動(dòng)了 Arm 系統(tǒng)的廣泛采用,并加快了開(kāi)發(fā)者在 Arm 系統(tǒng)上的部署速度。第一個(gè)案例是通過(guò) Kleidi 技術(shù)加速聊天機(jī)器人的實(shí)現(xiàn),今年晚些時(shí)候 ML Ops 和檢索增強(qiáng)生成 (RAG) 也將添加至這些用例,并計(jì)劃在 2025 年實(shí)現(xiàn)更多成果。
持續(xù)提升端側(cè)性能
基于 Kleidi 在端側(cè)的發(fā)展勢(shì)頭,KleidiAI 還將被集成到 ExecuTorch(PyTorch 新的端側(cè)推理運(yùn)行時(shí))。這項(xiàng)集成預(yù)計(jì)將于 2024 年 10 月完成,并有望為目前正在 ExecuTorch 中進(jìn)行生產(chǎn)測(cè)試或?qū)崿F(xiàn)的端側(cè)應(yīng)用帶來(lái)顯著的性能提升。目前已完成的多項(xiàng) KleidiAI 集成包括與 Google XNNPACK 和 MediaPipe,以及騰訊的混元大模型,為其實(shí)際工作負(fù)載帶來(lái)了顯著提升。
Kleidi 將繼續(xù)與 PyTorch 和 ExecuTorch 的各版本以及其他主要 AI 框架進(jìn)行集成。從云數(shù)據(jù)中心到端側(cè)設(shè)備,開(kāi)發(fā)者現(xiàn)在可以即刻在各類設(shè)備上基于 Arm 平臺(tái)高效運(yùn)行高性能 AI 工作負(fù)載。Arm 將繼續(xù)積極地面向 PyTorch 社區(qū)推出增強(qiáng)功能,并專注于針對(duì)各種整數(shù)格式提供量化優(yōu)化,進(jìn)一步提高性能,賦能 Arm CPU 大規(guī)模無(wú)縫運(yùn)行新一代 AI 體驗(yàn)。
實(shí)現(xiàn)更多成果以賦能開(kāi)發(fā)者
PyTorch 正在推動(dòng) ML 開(kāi)發(fā)領(lǐng)域的開(kāi)拓創(chuàng)新。近日,Arm 加入 PyTorch 基金會(huì)成為 Premier 成員,這對(duì)于 Arm 的 AI 之旅來(lái)說(shuō),無(wú)疑是一個(gè)重要時(shí)刻。Arm 將持續(xù)致力于賦能全球各地的開(kāi)發(fā)者在 Arm 平臺(tái)上充分發(fā)揮端到端 AI 的潛力,進(jìn)而塑造前沿的 AI 和應(yīng)用功能。
評(píng)論