博客專欄

EEPW首頁(yè) > 博客 > 加州大學(xué)團(tuán)隊(duì)開(kāi)發(fā)異構(gòu)編程新模型,開(kāi)辟提升處理器性能新路徑

加州大學(xué)團(tuán)隊(duì)開(kāi)發(fā)異構(gòu)編程新模型,開(kāi)辟提升處理器性能新路徑

發(fā)布人:深科技 時(shí)間:2024-03-03 來(lái)源:工程師 發(fā)布文章
如果你關(guān)注數(shù)碼科技,那么你一定對(duì)“性能過(guò)剩論不陌生。對(duì)于普通用戶來(lái)說(shuō),如今的芯片性能足以應(yīng)對(duì)大多數(shù)的日常場(chǎng)景。

 然而,人工智能應(yīng)用領(lǐng)域的熱潮似乎又重新點(diǎn)燃了許多人對(duì)于算力的需求。與此同時(shí),在圖形處理與渲染、高性能計(jì)算等領(lǐng)域,人們對(duì)提升處理器性能的追求從未停歇。 不過(guò),在摩爾定律與登納德縮放定律都面臨危機(jī)的今天,除了依賴制程的發(fā)展和核心數(shù)的增加,我們還能找到其他可行的路徑來(lái)提升計(jì)算機(jī)性能嗎? 近期,由美國(guó)加州大學(xué)河濱分校的副教授曾宏偉(Hung-Wei Tseng)領(lǐng)導(dǎo)的研究團(tuán)隊(duì),提出了一種以新的軟件框架提高現(xiàn)有計(jì)算機(jī)處理速度的方法,為我們提供了一種新的性能提升思路。 圖片圖丨曾宏偉(來(lái)源:加州大學(xué)河濱分校) 為了處理不同類型的數(shù)據(jù),現(xiàn)代計(jì)算機(jī)大都集成了多種處理器,并引入異構(gòu)計(jì)算模型以提升性能。
然而,由于傳統(tǒng)的編程框架,包括領(lǐng)域特定語(yǔ)言(domain-specific languages),只能將代碼區(qū)域(code region)分配給一種處理器,使得其他計(jì)算資源閑置而無(wú)法用于當(dāng)前函數(shù)的運(yùn)算,因此現(xiàn)有編程模型并不能充分發(fā)揮異構(gòu)模型的潛力。 而這項(xiàng)名為“同步異構(gòu)多線程(simultaneous and heterogenous multithreading,SHMT)的編程和執(zhí)行模型,旨在克服現(xiàn)有編程模型未能充分利用異構(gòu)計(jì)算系統(tǒng)潛力的限制。 與傳統(tǒng)模型不同,SHMT 可以充分利用異構(gòu)的并行類型。通過(guò)結(jié)合多種處理單元(如 CPU、GPU、TPU 等)的優(yōu)勢(shì),這種模型能有效提升計(jì)算效率和能效。 圖片圖丨 SHMT 的執(zhí)行模型(c)相比于傳統(tǒng)異構(gòu)計(jì)算機(jī)(a)與使用了軟件流水技術(shù)的傳統(tǒng)異構(gòu)計(jì)算機(jī)(b)的優(yōu)勢(shì)(來(lái)源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture) 此前的研究已經(jīng)證明,使用了不同處理模型與設(shè)計(jì)理念的協(xié)處理器和硬件加速器,都能以出色的性能執(zhí)行相同的函數(shù),這為 SHMT 的實(shí)現(xiàn)提供了可能。
不過(guò),要將同一函數(shù)的計(jì)算分解到不同類型的計(jì)算資源中,系統(tǒng)面臨以下三個(gè)挑戰(zhàn):  第一,SHMT 需要某種機(jī)制來(lái)描述和劃分在不同的計(jì)算分區(qū)上的等效操作和數(shù)據(jù); 第二,SHMT 必須能夠高效地協(xié)調(diào)異構(gòu)硬件上的執(zhí)行; 第三,由于不同的硬件單元會(huì)提供不同質(zhì)量水平的結(jié)果,SHMT 必須在不產(chǎn)生大量額外開(kāi)銷的情況下確保結(jié)果。 為了解決這些困難,研究人員開(kāi)發(fā)了一個(gè)由三個(gè)主要部分組成的系統(tǒng)架構(gòu): 首先,SHMT 引入了一種虛擬硬件的概念,允許開(kāi)發(fā)者將計(jì)算任務(wù)借助一系列虛擬操作(Virtual Operations,VOPs)的形式從 CPU“卸載。
VOPs 定義了 SHMT 底層硬件可支持的可用操作,進(jìn)而使整個(gè) SHMT 子系統(tǒng)抽象為一個(gè)單一且強(qiáng)大的加速器。
圖片圖丨矢量或矩陣平鋪處理模型類型的 VOP 列表(來(lái)源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture) 其次,SHMT 有一套至關(guān)重要的運(yùn)行時(shí)系統(tǒng)。它不僅作為虛擬硬件的“驅(qū)動(dòng)程序,在程序執(zhí)行期間動(dòng)態(tài)解析 VOPs,還負(fù)責(zé)評(píng)估硬件資源的能力,并據(jù)此做出智能的調(diào)度決策。
它將 VOPs 進(jìn)一步分解為高級(jí)操作(High-Level Operations,HLOPs),這些 HLOP 作為 SHMT 中的基本調(diào)度單位,每個(gè) HLOP 負(fù)責(zé)執(zhí)行 VOP 運(yùn)算的特定部分,且均具有硬件無(wú)關(guān)性,確保了運(yùn)行時(shí)系統(tǒng)能夠根據(jù)實(shí)際情況靈活調(diào)整任務(wù)分配。 更進(jìn)一步地,SHMT 采用了一種質(zhì)量感知的工作竊?。≦uality-Aware Work-Stealing,QAWS)調(diào)度策略,以優(yōu)化資源利用率和提升系統(tǒng)性能。
這種策略通過(guò)動(dòng)態(tài)調(diào)整工作負(fù)載分配來(lái)平衡各種硬件資源的使用,減少空閑時(shí)間,避免性能瓶頸,同時(shí)保證了任務(wù)執(zhí)行的質(zhì)量。

圖片

圖丨SHMT 概覽(來(lái)源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture)


為了檢驗(yàn)這一模型,該課題組使用 NVIDIA Jetson Nano 模塊定制了一個(gè)嵌入式系統(tǒng)平臺(tái),以模擬移動(dòng)設(shè)備、數(shù)據(jù)中心服務(wù)器等常見(jiàn)使用場(chǎng)景進(jìn)行驗(yàn)證。
該系統(tǒng)原型由下圖所示部分構(gòu)成:
圖片圖丨 SHMT 原型平臺(tái)構(gòu)成示意圖(來(lái)源:DeepTech)
在基準(zhǔn)應(yīng)用程序上的檢測(cè)結(jié)果顯示,相較于基準(zhǔn)方法,采用性能最佳策略的 QAWS 的 SHMT 速度提高了 1.95 倍。 實(shí)驗(yàn)表明,所有 QAWS 策略均能有效地提高結(jié)果質(zhì)量,MAPE(平均絕對(duì)百分比誤差)平均值低于 2%,接近于手動(dòng)優(yōu)化的 Oracle 場(chǎng)景。且無(wú)論采樣率如何變化,QAWS-TS 策略的性能都名列前茅。
圖片圖丨(a)質(zhì)量與 QAWS 采樣率的關(guān)系,(b)速度提升與 QAWS 采樣率的關(guān)系(來(lái)源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture) 更為重要的是,由于 SHMT 減少了執(zhí)行時(shí)間,并將計(jì)算任務(wù)轉(zhuǎn)移到耗電更低的 Edge TPU 上,因此它在節(jié)約能耗方面展現(xiàn)出了巨大潛力。
實(shí)驗(yàn)結(jié)果顯示,與基線 GPU 相比,SHMT 在 QAWS-TS 策略下平均減少了 51% 的能耗和 78% 的能量延遲積。
同時(shí),得益于 Edge TPU 專用邏輯提供的加速功能,以及 SHMT 并行編程模型使用的低數(shù)據(jù)交換算法,這一模型也不會(huì)導(dǎo)致顯著的內(nèi)存和通信開(kāi)銷。
圖片圖 | 相關(guān)論文(來(lái)源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture)
近日,相關(guān)論文以《同步異構(gòu)多線程》(Simultaneous and Heterogenous Multithreading)為題,在加拿大多倫多舉行的第 56 屆 IEEE/ACM 國(guó)際微架構(gòu)研討會(huì)上發(fā)表[1]。
加州大學(xué)河濱分校的博士研究生徐冠杰(Kuan-Chieh Hsu)為第一作者,曾宏偉副教授擔(dān)任通訊作者。
曾宏偉對(duì)媒體表示,“你不必增加新的處理器,因?yàn)楝F(xiàn)有的就足夠了。因此,僅需使用現(xiàn)有的處理組件,就相當(dāng)于降低了計(jì)算機(jī)硬件成本,同時(shí)減少了服務(wù)器等設(shè)備運(yùn)行時(shí)的能源消耗,也減少了碳排放與水消耗。 但這一模型也面臨一些挑戰(zhàn)與局限性。例如,如何有效管理和調(diào)度多種類型的計(jì)算資源以實(shí)現(xiàn)最優(yōu)能效、如何降低編程模型的復(fù)雜性、如何降低通信開(kāi)銷以及如何擴(kuò)展應(yīng)用平臺(tái)與場(chǎng)景等問(wèn)題,而這些也正是曾宏偉團(tuán)隊(duì)未來(lái)的研究方向。


參考文獻(xiàn):

1.Kuan-Chieh Hsu and Hung-Wei Tseng. 2023. Simultaneous and Heterogenous Multithreading. In Proceedings of the 56th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO '23). Association for Computing Machinery, New York, NY, USA, 137–152. https://doi.org/10.1145/3613424.3614285

2.https://news.ucr.edu/articles/2024/02/21/method-identified-double-computer-processing-speeds 


支持:Ren


排版:劉雅坤


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: 加州大學(xué)

技術(shù)專區(qū)

關(guān)閉