詳細解析眾核多計算模式系統(tǒng)的構(gòu)建

作者：時間：2018-08-02 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

0 引言

本文引用地址：http://m.butianyuan.cn/article/201808/385126.htm

在航空航天、醫(yī)療服務、地質(zhì)勘探等復雜應用領域，需要處理的數(shù)據(jù)量急劇增大，需要高性能的實時計算能力提供支撐。與多核處理器相比，眾核處理器計算資源密度更高、片上通信開銷顯著降低、性能/功耗比明顯提高，可為實時系統(tǒng)提供強大的計算能力。

在復雜應用領域當中，不同應用場景對計算的需求可能不同。例如，移動機器人在作業(yè)時，可能需要同時執(zhí)行路徑規(guī)劃、目標識別等多個任務，這些任務需要同時執(zhí)行;在對遙感圖像處理時，需要對圖像數(shù)據(jù)進行配準、融合、重構(gòu)、特征提取等多個步驟，這些步驟間既需要同時執(zhí)行，又存在前驅(qū)后繼的關系。因此，基于眾核處理器進行計算模式的動態(tài)構(gòu)造，以適應不同的應用場景和應用任務成為一種新的研究方向。文獻[1]研究了具有邏輯核構(gòu)造能力的眾核處理器體系結(jié)構(gòu)，其基本思想是基于多個細粒度處理器核構(gòu)建成粗粒度邏輯核，將不斷增加的處理器核轉(zhuǎn)化為單線程串行應用的性能提升。文獻提出并驗證了一種基于類數(shù)據(jù)流驅(qū)動模型的可重構(gòu)眾核處理器結(jié)構(gòu)，實現(xiàn)了邏輯核處理器的運行時可重構(gòu)機制。文獻提出了一種支持核資源動態(tài)分組的自適應調(diào)度算法，通過對任務簇的拆分與合并，動態(tài)構(gòu)建可彈性分區(qū)的核邏輯組，實現(xiàn)核資源的隔離優(yōu)化訪問。

GPGPU(General - Purpose Computing on GraphicsProcessing Units)作為一種典型的眾核處理器，有關研究多面向單任務并發(fā)執(zhí)行方面的優(yōu)化以及應用算法的加速。本文以GPGPU為平臺，通過研究和設計，構(gòu)建了單任務并行、多任務并行和多任務流式處理的多計算模式處理系統(tǒng)。

1 眾核處理機

1.1 眾核處理機結(jié)構(gòu)

眾核處理機是基于眾核控制單元(MPU)與眾核處理器(GPGPU)相結(jié)合的主、協(xié)處理方式構(gòu)建而成，其邏輯結(jié)構(gòu)如圖1所示。眾核處理機由眾核控制單元和眾核計算單元兩部分組成，其中眾核控制單元采用X86結(jié)構(gòu)的MPU，與眾核計算單元之間通過PCI-E總線進行互連。

1.2 CUDA流與Hyper-Q

在統(tǒng)一計算設備架構(gòu)(Compute Unified Device Ar-chitecture，CUDA)編程模型中，CUDA流(CUDA Stream)表示GPU的一個操作隊列，通過CUDA流來管理任務和并行。CUDA 流的使用分為兩種：一種是CUDA 在創(chuàng)建上下文時會隱式地創(chuàng)建一個CUDA流，從而命令可以在設備中排隊等待執(zhí)行;另一種是在編程時，在執(zhí)行配置中顯式地指定CUDA 流。不管以何種方式使用CUDA流，所有的操作在CUDA流中都是按照先后順序排隊執(zhí)行，然后每個操作按其進入隊列的順序離開隊列。換言之，隊列充當了一個FIFO(先入先出)緩沖區(qū)，操作按照它們在設備中的出現(xiàn)順序離開隊列。

在GPU 中，有一個CUDA 工作調(diào)度器(CUDA WorkDistributor，CWD)的硬件單元，專門負責將計算工作分發(fā)到不同的流處理器中。在Fermi架構(gòu)中，雖然支持16 個內(nèi)核的同時啟動，但由于只有一個硬件工作隊列用來連接主機端CPU 和設備端GPU，造成并發(fā)的多個CUDA 流中的任務在執(zhí)行時必須復用同一硬件工作隊列，產(chǎn)生了虛假的流內(nèi)依賴關系，必須等待同一CUDA流中相互依賴的kernel執(zhí)行結(jié)束，另一CUDA流中的ker-nel才能開始執(zhí)行。而在Kepler GK110架構(gòu)中，新具有的Hyper-Q特性消除了只有單一硬件工作隊列的限制，增加了硬件工作隊列的數(shù)量，因此，在CUDA 流的數(shù)目不超過硬件工作隊列數(shù)目的前提下，允許每個CUDA流獨占一個硬件工作隊列，CUDA流內(nèi)的操作不再阻塞其他CUDA流的操作，多個CUDA流能夠并行執(zhí)行。

如圖2 所示，當利用Hyper-Q 和CUDA 流一起工作時，虛線上方顯示為Fermi模式，流1、流2、流3 復用一個硬件工作隊列，而虛線下方為Kepler Hyper-Q 模式，允許每個流使用單獨的硬件工作隊列同時執(zhí)行。

2 眾核多計算模式處理框架

為了充分發(fā)揮眾核處理器的計算能力，眾核處理系統(tǒng)面對不同的計算任務的特點，可構(gòu)建三種計算模式，即單任務并行計算、多任務并行計算、多任務流式計算。

2.1 眾核多計算模式處理系統(tǒng)結(jié)構(gòu)

眾核多計算模式處理系統(tǒng)結(jié)構(gòu)如圖3 所示。眾核處理系統(tǒng)包括數(shù)據(jù)通信、任務管理、形態(tài)管理、資源管理和控制監(jiān)聽模塊。

數(shù)據(jù)通信模塊：提供接口給主控機，負責接收從主控機發(fā)送來的任務命令和任務計算所需的任務數(shù)據(jù)，并且最終將眾核處理機運算完成的計算結(jié)果通過該模塊返回給主控機。

控制監(jiān)聽模塊：在眾核處理系統(tǒng)運行時，實時獲取主控機發(fā)送給眾核處理機的任務命令，將其傳送給任務管理模塊，并接收任務管理模塊返回的任務命令執(zhí)行結(jié)果。

任務管理模塊：負責計算任務的加載過程，將控制監(jiān)聽模塊發(fā)送來的任務命令存于任務隊列，當眾核計算單元需要加載任務進行計算時，從任務隊列中獲取任務命令，根據(jù)任務命令從任務配置文件中獲取任務計算所需的任務信息，該任務信息包含了計算任務運行時所需的存儲空間大小、適合于該任務的計算模式、執(zhí)行函數(shù)(即CUDA中的kernel函數(shù))等內(nèi)容，在計算任務在被加載前，需要通知形態(tài)管理模塊把眾核計算單元切換到指定的計算模式下，并通知資源管理模塊分配存儲空間，通過數(shù)據(jù)通信模塊獲取任務數(shù)據(jù)，然后讀取任務計算庫，加載執(zhí)行函數(shù)進行計算。

形態(tài)管理模塊：接收任務管理模塊發(fā)送來的目標計算模式，切換到該種計算模式。

資源管理模塊：根據(jù)任務管理模塊發(fā)送的參數(shù)分配存儲空間，包括眾核控制單元的存儲空間和眾核計算單元的存儲空間，眾核控制單元的存儲空間用于對任務數(shù)據(jù)進行緩存，然后通過數(shù)據(jù)傳輸?shù)腁PI接口把緩存在眾核控制單元的數(shù)據(jù)傳送到眾核計算單元的存儲空間，在計算時由從眾核計算單元存儲空間加載數(shù)據(jù)進行計算。

新聞中心

詳細解析眾核多計算模式系統(tǒng)的構(gòu)建

評論

相關推薦

技術專區(qū)