處理器設(shè)計(jì)下一步——單芯片同步多處理技術(shù)
在指定的組織管理技術(shù)下,要將個(gè)別處理器性能發(fā)揮到極限非但不容易,也沒有效率。更快的時(shí)脈、更深的管線和更大的緩沖存儲器會占用更大的芯片面積同時(shí)增加功耗成本,削弱了原本可提升10%性能的效益。有時(shí)候在沒有選擇的情況下,不得不將時(shí)脈速度提高并將電源和冷卻子系統(tǒng)升級;倘若使用將負(fù)載劃分到多個(gè)處理器的方式,不但可以增加最大整體性能限制,也可簡化處理器設(shè)計(jì)使其更有效率。
目前有許多系統(tǒng)級芯片(SoC)設(shè)計(jì)利用多處理器的優(yōu)勢,但它們均針對特定應(yīng)用或采用松散耦合方式。直到最近,針對軟件多處理方案的SoC設(shè)計(jì)選項(xiàng)依然受到限制。但MIPS32 1004K同步處理系統(tǒng)(CPS) SoC組件的推出,意味著可在單一操作系統(tǒng)環(huán)境下實(shí)現(xiàn)芯片上對稱式多重處理(SMP)。
雖然平行編程很容易讓軟件工程師理解,但并非所有現(xiàn)今的程序代碼都是針對平行處理平臺所編寫,業(yè)界已有許多針對平行軟件的范例,其中有一些對軟件設(shè)計(jì)人員來說也相當(dāng)熟悉。
數(shù)據(jù)平行算法
數(shù)據(jù)平行算法(Data-parallel algorithm)將數(shù)據(jù)組劃分到多處理器,甚至到若干個(gè)CPU中。在教科書中,可將大型資料組看作一個(gè)大量輸入文件或數(shù)據(jù)數(shù)組;但在嵌入式系統(tǒng)中,它可能意味著高I/O和事件服務(wù)頻寬。在某些SoC架構(gòu)中,多個(gè)輸入數(shù)據(jù)來源(如網(wǎng)絡(luò)接口端口)可以被靜態(tài)地分配到針對自然平行數(shù)據(jù)、執(zhí)行相同驅(qū)動程序/路由程序代碼的多個(gè)處理器中。
當(dāng)在單一資料數(shù)組或輸入流中利用多處理器性能時(shí),用于分割并管理資料的平行算法就很常見。這種算法對于單處理器來說通常不是最理想的,但由于具備了更靈活的頻寬運(yùn)算特性,因此可提供效率補(bǔ)償。這些針對平行運(yùn)算算法均具備靈活性,但要是將一個(gè)工作程序轉(zhuǎn)換成一個(gè)平行資料算法也許不具任何意義,甚至是相當(dāng)困難或是不可能實(shí)現(xiàn)的,而這完全取決于程序相依性這類因素。如果絕大部分的應(yīng)用程序運(yùn)算都僅采用很少的常規(guī)運(yùn)算循環(huán)來實(shí)現(xiàn),那么,為提高性能,系統(tǒng)設(shè)計(jì)師也許要明確地建置資料平行算法。
隨著用于PC、工作站和服務(wù)器的多核心X86芯片問世,新的數(shù)據(jù)庫和工具套件應(yīng)運(yùn)而生,使得平行算法得以輕易地在少量的處理器上實(shí)現(xiàn)。許多用于嵌入式架構(gòu)的數(shù)據(jù)庫和工具套件都是開放且可攜的,如MIPS為GCC所做的C/C++以及Fortran擴(kuò)展,也正逐漸成為標(biāo)準(zhǔn)GNU編譯器的一部分。
平行控制編程
平行控制編程(Control-parallel programming)并非根據(jù)輸入,而是根據(jù)任務(wù)分割工作。若將一個(gè)以100人制造一臺汽車為單位的汽車制造工廠比喻為一個(gè)100信道平行數(shù)據(jù)算法,并將平行控制程序比喻為一個(gè)具有100人的組裝線工作站,各工作站負(fù)責(zé)百分之一的工作量,通常組裝線的效率會比較高,但組裝一臺車的工作量就只有這么多,這樣的限制在科學(xué)程序代碼擴(kuò)充到幾千個(gè)處理器時(shí)非常顯著,然而對于平行SoC架構(gòu)而言這并不是個(gè)問題。
軟件工程師通常將程序劃分成若干個(gè)階段以易于編碼、除錯(cuò)和維護(hù),并減少指令內(nèi)存和快取的工作量。通常,平行控制分解早已設(shè)在可見的操作系統(tǒng)(OS)任務(wù)層。在類似于Unix的系統(tǒng)中,單一命令‘cc’會依序呼叫C語言前置處理器、編譯器、組譯器和連結(jié)程序。它們之中的幾個(gè)可以同時(shí)執(zhí)行,每個(gè)連續(xù)程序利用前一個(gè)階段的輸出作為輸入,在類似于Unix這樣的OS內(nèi)使用檔案或軟件管線。
當(dāng)獨(dú)立分解的執(zhí)行任務(wù)尚未完成時(shí),需進(jìn)行一些軟件工程,使應(yīng)用程序在OS和底層硬件上是可見的,并能在任務(wù)間明確地傳遞資料。但是不應(yīng)該需要對階段算法進(jìn)行重寫。粗粒度的任務(wù)分解可透過檔案、網(wǎng)絡(luò)應(yīng)用程序(socket)或管線的進(jìn)程通訊來實(shí)現(xiàn)。而針對細(xì)粒度的控制,如Posix執(zhí)行緒API——pthreads,可由許多OS支持,包括Linux、Windows以及許多實(shí)時(shí)操作系統(tǒng)。
復(fù)雜的、模塊化的多任務(wù)嵌入式軟件系統(tǒng)時(shí)常會展現(xiàn)出意外的同步。整體系統(tǒng)任務(wù)很可能涉及到對應(yīng)不同輸入的不同責(zé)任等多項(xiàng)任務(wù)。若沒有一個(gè)時(shí)間共享的OS,各任務(wù)就必須在個(gè)別處理器上執(zhí)行。在一個(gè)時(shí)間共享的單處理器上,它們在輪流時(shí)間中執(zhí)行;在一個(gè)具有SMP操作系統(tǒng)的多核心處理器上,它們能在可利用的處理器上同步執(zhí)行。
圖1a:復(fù)雜的模塊化多任務(wù)嵌入式軟件系統(tǒng)時(shí)常會展現(xiàn)出意外的同步。有了一個(gè)時(shí)間共享的OS,各任務(wù)就必須在個(gè)別處理器上執(zhí)行。在一個(gè)時(shí)間共享的單處理器上,它們在輪流時(shí)間中執(zhí)行;在具有SMP操作系統(tǒng)的多處理器上,它們在可利用的處理器上同步執(zhí)行。圖1b:在SMP操作系統(tǒng)中,所有的處理器都面對相同的內(nèi)存、I/O組件和全域OS狀態(tài)。在單CPU上利用時(shí)間分段執(zhí)行的多任務(wù)程序,將能同時(shí)在一個(gè)SMP系統(tǒng)中的CPU上執(zhí)行。
分布式處理
分布式典型運(yùn)算在網(wǎng)絡(luò)客戶服務(wù)器模式中很常見,它在某些時(shí)候不被認(rèn)為是‘平行’的??蛻舳朔?wù)器程序設(shè)計(jì)基本上是一種控制流程分解的形式。程序任務(wù)并不是獨(dú)自執(zhí)行所有的運(yùn)算,而是將工作請求發(fā)送到針對特定工作設(shè)計(jì)的特殊系統(tǒng)任務(wù)??蛻舳朔?wù)器程序設(shè)計(jì)大多都在LAN和WAN上完成,但SMP SoC也遵循相同的范例。未作修改的客戶端服務(wù)器二進(jìn)制數(shù)據(jù)可透過芯片上的TCP/IP或空回繞網(wǎng)絡(luò)(loopback network)接口進(jìn)行通訊,或者使用更有效率的方法,利用區(qū)域通訊協(xié)議在內(nèi)存中傳遞緩沖資料。
這些方法可能會被單獨(dú)或組合使用,以藉助SMP的性能優(yōu)勢。有人甚至可能會建構(gòu)一個(gè)分布式SMP服務(wù)器的平行數(shù)據(jù)數(shù)組,且各數(shù)組均建置一個(gè)控制流程管線。
在SoC系統(tǒng)中,可以對處理器的靜態(tài)實(shí)體分解任務(wù)進(jìn)行平行處理,處理器的平行任務(wù)可于硬件中完成,這可以減少軟件開銷和實(shí)體尺寸,但卻不能提供靈活性。
如果可以將一個(gè)嵌入式應(yīng)用靜態(tài)地分解成客戶端和服務(wù)器,并通過芯片互連進(jìn)行通訊,那么只需要使用信息傳遞程序代碼建置一個(gè)共享協(xié)議,以便將系統(tǒng)互相連系。信息傳遞協(xié)議可提供一個(gè)抽象層,使或多或少的處理器配置都能執(zhí)行一般的應(yīng)用程序代碼,但無論任何配置,處理器的負(fù)載平衡就如同硬件分割一樣是靜態(tài)的。要達(dá)到更靈活的平行系統(tǒng)程序設(shè)計(jì),可利用具有共享資源多核心處理器系統(tǒng)上的軟件任務(wù)分配來實(shí)現(xiàn)。
在SMP操作系統(tǒng)中,所有的處理器都面對相同的內(nèi)存、I/O組件和全域OS狀態(tài),這使得處理器間的程序移轉(zhuǎn)更簡單、更有效率,也更容易平衡負(fù)載。不需要額外的編程或系統(tǒng)管理,在單CPU上利用時(shí)間分段執(zhí)行的多任務(wù)程序,將能同時(shí)在一個(gè)SMP系統(tǒng)中的CPU上執(zhí)行。如同Linux,一個(gè)SMP的排程器可切換處理器的程序。
執(zhí)行多個(gè)處理程序的Linux應(yīng)用程序不需要修改,就可以利用SMP平行特性,而且通常不需要進(jìn)行重新編譯。SMP Linux環(huán)境為可用處理器之間的調(diào)整提供了許多工具,如提高/降低任務(wù)的優(yōu)先級,或是對于在處理器子集上執(zhí)行任意任務(wù)加以限制。要使用不同的實(shí)時(shí)排程體制,必須要有適當(dāng)?shù)暮诵闹С帧?
類似Unix的OS能為應(yīng)用程序提供一些針對相關(guān)任務(wù)優(yōu)先級排程的控制,甚至在單核心處理器時(shí)間共享系統(tǒng)中也是如此。傳統(tǒng)的外部命令和系統(tǒng)呼叫指令在Linux系統(tǒng)中被強(qiáng)化,藉由更精致的機(jī)制排定任務(wù)優(yōu)先級、任務(wù)組或特定系統(tǒng)使用者。另外,在多核心處理器配置中,任一Linux任務(wù)都具有一個(gè)參數(shù),用來指定那一組處理器可排定任務(wù)。預(yù)設(shè)參數(shù)即為整個(gè)系統(tǒng)處理器組,但這種具有類似于CPU的系統(tǒng)處理器組卻是可控制的。
SMP范例要求所有處理器找尋所有相同地址下的內(nèi)存;對于低性能的處理器,必須透過將所有處理器的指令預(yù)取和加載/儲存流通量,置放在一個(gè)共享的內(nèi)存和I/O總線上來達(dá)成。然而這種模式隨著處理器的增加而失去效用,因?yàn)榭偩€會成為瓶頸。即使在單核心處理器系統(tǒng)中,高性能嵌入式核心的指令和數(shù)據(jù)頻寬需求也支配了主存儲器和處理器間的緩沖存儲器。
在一個(gè)每顆處理器均具備獨(dú)立快取的系統(tǒng)中,其本質(zhì)上已不屬于SMP,當(dāng)一個(gè)處理器的快取保存了內(nèi)存中唯一一個(gè)最近位置值的復(fù)制數(shù)據(jù)時(shí),這時(shí)不對稱就產(chǎn)生了,必須加入快取一致性協(xié)議來恢復(fù)對稱。
在一個(gè)所有處理器都連接到一個(gè)公共總線的簡單系統(tǒng)中,快取控制器可監(jiān)控總線,以得知哪一個(gè)高速緩存保存了指定內(nèi)存位置的最新版本。在更先進(jìn)的系統(tǒng)中,是利用交換結(jié)構(gòu)的點(diǎn)對點(diǎn)的連接將處理器連接到內(nèi)存,因此快取一致性需要更高度的支持。一致性管理單元應(yīng)該對內(nèi)存執(zhí)行施加全域指令,產(chǎn)生干涉訊號來維護(hù)處理器核心間的高速緩存一致性。
像Linux這樣的SMP OS可自由地轉(zhuǎn)移任務(wù),動態(tài)地均衡處理器負(fù)載。在嵌入式SoC中,絕大部份的整體運(yùn)算可以在中斷服務(wù)中執(zhí)行。好的負(fù)載均衡和性能調(diào)整必須對發(fā)生中斷服務(wù)的地方進(jìn)行控制。Linux OS具有一個(gè)類似于IRQ的控制接口,可讓使用者和程序確認(rèn)哪一個(gè)處理器負(fù)責(zé)指定的中斷服務(wù)。
快取憶體一致性基礎(chǔ)架構(gòu)很實(shí)用,不僅在SMP的處理器間,在處理器和I/O DMA信道之間也相當(dāng)有用。若是使用軟件的方式,便需要在每個(gè)I/O DMA作業(yè)之前或之后利用CPU來處理DMA緩沖器,對于I/O密集的應(yīng)用而言,性能將大受影響;而使用I/O一致性硬件將I/O DMA連接到內(nèi)存的方式,可以對DMA串流進(jìn)行排序,并與一致的加載/儲存流程整合在一起,免除了軟件的開銷。
快取一致性管理單元應(yīng)該對處理器、I/O和內(nèi)存間的內(nèi)存串流施加命令,這可增加處理器內(nèi)存存取時(shí)間的周期,透過管線停滯產(chǎn)生處理器周期損失的結(jié)果。然而,一些如在單一核心上使用硬件多執(zhí)行緒的方法,可允許單核心執(zhí)行并行的指令串流,以增加管線的效率。
各核心的執(zhí)行緒看起來就如同OS軟件中完善的CPU,包括具有獨(dú)立的中斷輸入。執(zhí)行緒共享相同的緩沖存儲器和功能單元并插入到它們的管線執(zhí)行中。若一個(gè)執(zhí)行緒停滯了,另一個(gè)可以繼續(xù)執(zhí)行,讓一致性內(nèi)存子系統(tǒng)延遲周期循環(huán)下去,否則將會遺失。管理多核心的相同SMP OS可以管理它們的硬件執(zhí)行緒,針對SMP編寫的軟件可運(yùn)用多執(zhí)行緒處理,反之也然。
若兩個(gè)執(zhí)行緒同時(shí)爭取一個(gè)管線,其性能相較于在許多獨(dú)立核心上兩個(gè)執(zhí)行緒來得更低,應(yīng)該對SMP Linux核心進(jìn)行負(fù)載均衡最佳化。對于功耗最佳化,排程器可以將工作一次一個(gè)加載到一個(gè)核心的虛擬處理器上,使其它的處理器處于低功耗狀態(tài)。在性能最佳化方面,可以將工作分配到許多核心上,然后將多執(zhí)行緒加載到每個(gè)核心中,直到所有的核心都有一個(gè)進(jìn)展中的任務(wù)為止。
利用芯片上多處理功能可實(shí)現(xiàn)高SoC性能。SMP平臺和軟件提供了一個(gè)具有靈活性的高性能運(yùn)算平臺,能大幅提升單一處理器的速度,而這通常只需要稍微、或者根本不需要修改應(yīng)用程序代碼。
評論