處理器設(shè)計下一步——單芯片同步多處理技術(shù)
在指定的組織管理技術(shù)下,要將個別處理器性能發(fā)揮到極限非但不容易,也沒有效率。更快的時脈、更深的管線和更大的緩沖存儲器會占用更大的芯片面積同時增加功耗成本,削弱了原本可提升10%性能的效益。有時候在沒有選擇的情況下,不得不將時脈速度提高并將電源和冷卻子系統(tǒng)升級;倘若使用將負載劃分到多個處理器的方式,不但可以增加最大整體性能限制,也可簡化處理器設(shè)計使其更有效率。
目前有許多系統(tǒng)級芯片(SoC)設(shè)計利用多處理器的優(yōu)勢,但它們均針對特定應(yīng)用或采用松散耦合方式。直到最近,針對軟件多處理方案的SoC設(shè)計選項依然受到限制。但MIPS32 1004K同步處理系統(tǒng)(CPS) SoC組件的推出,意味著可在單一操作系統(tǒng)環(huán)境下實現(xiàn)芯片上對稱式多重處理(SMP)。
雖然平行編程很容易讓軟件工程師理解,但并非所有現(xiàn)今的程序代碼都是針對平行處理平臺所編寫,業(yè)界已有許多針對平行軟件的范例,其中有一些對軟件設(shè)計人員來說也相當(dāng)熟悉。
數(shù)據(jù)平行算法
數(shù)據(jù)平行算法(Data-parallel algorithm)將數(shù)據(jù)組劃分到多處理器,甚至到若干個CPU中。在教科書中,可將大型資料組看作一個大量輸入文件或數(shù)據(jù)數(shù)組;但在嵌入式系統(tǒng)中,它可能意味著高I/O和事件服務(wù)頻寬。在某些SoC架構(gòu)中,多個輸入數(shù)據(jù)來源(如網(wǎng)絡(luò)接口端口)可以被靜態(tài)地分配到針對自然平行數(shù)據(jù)、執(zhí)行相同驅(qū)動程序/路由程序代碼的多個處理器中。
當(dāng)在單一資料數(shù)組或輸入流中利用多處理器性能時,用于分割并管理資料的平行算法就很常見。這種算法對于單處理器來說通常不是最理想的,但由于具備了更靈活的頻寬運算特性,因此可提供效率補償。這些針對平行運算算法均具備靈活性,但要是將一個工作程序轉(zhuǎn)換成一個平行資料算法也許不具任何意義,甚至是相當(dāng)困難或是不可能實現(xiàn)的,而這完全取決于程序相依性這類因素。如果絕大部分的應(yīng)用程序運算都僅采用很少的常規(guī)運算循環(huán)來實現(xiàn),那么,為提高性能,系統(tǒng)設(shè)計師也許要明確地建置資料平行算法。
隨著用于PC、工作站和服務(wù)器的多核心X86芯片問世,新的數(shù)據(jù)庫和工具套件應(yīng)運而生,使得平行算法得以輕易地在少量的處理器上實現(xiàn)。許多用于嵌入式架構(gòu)的數(shù)據(jù)庫和工具套件都是開放且可攜的,如MIPS為GCC所做的C/C++以及Fortran擴展,也正逐漸成為標(biāo)準(zhǔn)GNU編譯器的一部分。
平行控制編程
平行控制編程(Control-parallel programming)并非根據(jù)輸入,而是根據(jù)任務(wù)分割工作。若將一個以100人制造一臺汽車為單位的汽車制造工廠比喻為一個100信道平行數(shù)據(jù)算法,并將平行控制程序比喻為一個具有100人的組裝線工作站,各工作站負責(zé)百分之一的工作量,通常組裝線的效率會比較高,但組裝一臺車的工作量就只有這么多,這樣的限制在科學(xué)程序代碼擴充到幾千個處理器時非常顯著,然而對于平行SoC架構(gòu)而言這并不是個問題。
軟件工程師通常將程序劃分成若干個階段以易于編碼、除錯和維護,并減少指令內(nèi)存和快取的工作量。通常,平行控制分解早已設(shè)在可見的操作系統(tǒng)(OS)任務(wù)層。在類似于Unix的系統(tǒng)中,單一命令‘cc’會依序呼叫C語言前置處理器、編譯器、組譯器和連結(jié)程序。它們之中的幾個可以同時執(zhí)行,每個連續(xù)程序利用前一個階段的輸出作為輸入,在類似于Unix這樣的OS內(nèi)使用檔案或軟件管線。
當(dāng)獨立分解的執(zhí)行任務(wù)尚未完成時,需進行一些軟件工程,使應(yīng)用程序在OS和底層硬件上是可見的,并能在任務(wù)間明確地傳遞資料。但是不應(yīng)該需要對階段算法進行重寫。粗粒度的任務(wù)分解可透過檔案、網(wǎng)絡(luò)應(yīng)用程序(socket)或管線的進程通訊來實現(xiàn)。而針對細粒度的控制,如Posix執(zhí)行緒API——pthreads,可由許多OS支持,包括Linux、Windows以及許多實時操作系統(tǒng)。
復(fù)雜的、模塊化的多任務(wù)嵌入式軟件系統(tǒng)時常會展現(xiàn)出意外的同步。整體系統(tǒng)任務(wù)很可能涉及到對應(yīng)不同輸入的不同責(zé)任等多項任務(wù)。若沒有一個時間共享的OS,各任務(wù)就必須在個別處理器上執(zhí)行。在一個時間共享的單處理器上,它們在輪流時間中執(zhí)行;在一個具有SMP操作系統(tǒng)的多核心處理器上,它們能在可利用的處理器上同步執(zhí)行。
圖1a:復(fù)雜的模塊化多任務(wù)嵌入式軟件系統(tǒng)時常會展現(xiàn)出意外的同步。有了一個時間共享的OS,各任務(wù)就必須在個別處理器上執(zhí)行。在一個時間共享的單處理器上,它們在輪流時間中執(zhí)行;在具有SMP操作系統(tǒng)的多處理器上,它們在可利用的處理器上同步執(zhí)行。圖1b:在SMP操作系統(tǒng)中,所有的處理器都面對相同的內(nèi)存、I/O組件和全域OS狀態(tài)。在單CPU上利用時間分段執(zhí)行的多任務(wù)程序,將能同時在一個SMP系統(tǒng)中的CPU上執(zhí)行。
分布式處理
分布式典型運算在網(wǎng)絡(luò)客戶服務(wù)器模式中很常見,它在某些時候不被認為是‘平行’的??蛻舳朔?wù)器程序設(shè)計基本上是一種控制流程分解的形式。程序任務(wù)并不是獨自執(zhí)行所有的運算,而是將工作請求發(fā)送到針對特定工作設(shè)計的特殊系統(tǒng)任務(wù)。客戶端服務(wù)器程序設(shè)計大多都在LAN和WAN上完成,但SMP SoC也遵循相同的范例。未作修改的客戶端服務(wù)器二進制數(shù)據(jù)可透過芯片上的TCP/IP或空回繞網(wǎng)絡(luò)(loopback network)接口進行通訊,或者使用更有效率的方法,利用區(qū)域通訊協(xié)議在內(nèi)存中傳遞緩沖資料。
這些方法可能會被單獨或組合使用,以藉助SMP的性能優(yōu)勢。有人甚至可能會建構(gòu)一個分布式SMP服務(wù)器的平行數(shù)據(jù)數(shù)組,且各數(shù)組均建置一個控制流程管線。
在SoC系統(tǒng)中,可以對處理器的靜態(tài)實體分解任務(wù)進行平行處理,處理器的平行任務(wù)可于硬件中完成,這可以減少軟件開銷和實體尺寸,但卻不能提供靈活性。
如果可以將一個嵌入式應(yīng)用靜態(tài)地分解成客戶端和服務(wù)器,并通過芯片互連進行通訊,那么只需要使用信息傳遞程序代碼建置一個共享協(xié)議,以便將系統(tǒng)互相連系。信息傳遞協(xié)議可提供一個抽象層,使或多或少的處理器配置都能執(zhí)行一般的應(yīng)用程序代碼,但無論任何配置,處理器的負載平衡就如同硬件分割一樣是靜態(tài)的。要達到更靈活的平行系統(tǒng)程序設(shè)計,可利用具有共享資源多核心處理器系統(tǒng)上的軟件任務(wù)分配來實現(xiàn)。
在SMP操作系統(tǒng)中,所有的處理器都面對相同的內(nèi)存、I/O組件和全域OS狀態(tài),這使得處理器間的程序移轉(zhuǎn)更簡單、更有效率,也更容易平衡負載。不需要額外的編程或系統(tǒng)管理,在單CPU上利用時間分段執(zhí)行的多任務(wù)程序,將能同時在一個SMP系統(tǒng)中的CPU上執(zhí)行。如同Linux,一個SMP的排程器可切換處理器的程序。
執(zhí)行多個處理程序的Linux應(yīng)用程序不需要修改,就可以利用SMP平行特性,而且通常不需要進行重新編譯。SMP Linux環(huán)境為可用處理器之間的調(diào)整提供了許多工具,如提高/降低任務(wù)的優(yōu)先級,或是對于在處理器子集上執(zhí)行任意任務(wù)加以限制。要使用不同的實時排程體制,必須要有適當(dāng)?shù)暮诵闹С帧?
類似Unix的OS能為應(yīng)用程序提供一些針對相關(guān)任務(wù)優(yōu)先級排程的控制,甚至在單核心處理器時間共享系統(tǒng)中也是如此。傳統(tǒng)的外部命令和系統(tǒng)呼叫指令在Linux系統(tǒng)中被強化,藉由更精致的機制排定任務(wù)優(yōu)先級、任務(wù)組或特定系統(tǒng)使用者。另外,在多核心處理器配置中,任一Linux任務(wù)都具有一個參數(shù),用來指定那一組處理器可排定任務(wù)。預(yù)設(shè)參數(shù)即為整個系統(tǒng)處理器組,但這種具有類似于CPU的系統(tǒng)處理器組卻是可控制的。
SMP范例要求所有處理器找尋所有相同地址下的內(nèi)存;對于低性能的處理器,必須透過將所有處理器的指令預(yù)取和加載/儲存流通量,置放在一個共享的內(nèi)存和I/O總線上來達成。然而這種模式隨著處理器的增加而失去效用,因為總線會成為瓶頸。即使在單核心處理器系統(tǒng)中,高性能嵌入式核心的指令和數(shù)據(jù)頻寬需求也支配了主存儲器和處理器間的緩沖存儲器。
在一個每顆處理器均具備獨立快取的系統(tǒng)中,其本質(zhì)上已不屬于SMP,當(dāng)一個處理器的快取保存了內(nèi)存中唯一一個最近位置值的復(fù)制數(shù)據(jù)時,這時不對稱就產(chǎn)生了,必須加入快取一致性協(xié)議來恢復(fù)對稱。
在一個所有處理器都連接到一個公共總線的簡單系統(tǒng)中,快取控制器可監(jiān)控總線,以得知哪一個高速緩存保存了指定內(nèi)存位置的最新版本。在更先進的系統(tǒng)中,是利用交換結(jié)構(gòu)的點對點的連接將處理器連接到內(nèi)存,因此快取一致性需要更高度的支持。一致性管理單元應(yīng)該對內(nèi)存執(zhí)行施加全域指令,產(chǎn)生干涉訊號來維護處理器核心間的高速緩存一致性。
像Linux這樣的SMP OS可自由地轉(zhuǎn)移任務(wù),動態(tài)地均衡處理器負載。在嵌入式SoC中,絕大部份的整體運算可以在中斷服務(wù)中執(zhí)行。好的負載均衡和性能調(diào)整必須對發(fā)生中斷服務(wù)的地方進行控制。Linux OS具有一個類似于IRQ的控制接口,可讓使用者和程序確認哪一個處理器負責(zé)指定的中斷服務(wù)。
快取憶體一致性基礎(chǔ)架構(gòu)很實用,不僅在SMP的處理器間,在處理器和I/O DMA信道之間也相當(dāng)有用。若是使用軟件的方式,便需要在每個I/O DMA作業(yè)之前或之后利用CPU來處理DMA緩沖器,對于I/O密集的應(yīng)用而言,性能將大受影響;而使用I/O一致性硬件將I/O DMA連接到內(nèi)存的方式,可以對DMA串流進行排序,并與一致的加載/儲存流程整合在一起,免除了軟件的開銷。
快取一致性管理單元應(yīng)該對處理器、I/O和內(nèi)存間的內(nèi)存串流施加命令,這可增加處理器內(nèi)存存取時間的周期,透過管線停滯產(chǎn)生處理器周期損失的結(jié)果。然而,一些如在單一核心上使用硬件多執(zhí)行緒的方法,可允許單核心執(zhí)行并行的指令串流,以增加管線的效率。
各核心的執(zhí)行緒看起來就如同OS軟件中完善的CPU,包括具有獨立的中斷輸入。執(zhí)行緒共享相同的緩沖存儲器和功能單元并插入到它們的管線執(zhí)行中。若一個執(zhí)行緒停滯了,另一個可以繼續(xù)執(zhí)行,讓一致性內(nèi)存子系統(tǒng)延遲周期循環(huán)下去,否則將會遺失。管理多核心的相同SMP OS可以管理它們的硬件執(zhí)行緒,針對SMP編寫的軟件可運用多執(zhí)行緒處理,反之也然。
若兩個執(zhí)行緒同時爭取一個管線,其性能相較于在許多獨立核心上兩個執(zhí)行緒來得更低,應(yīng)該對SMP Linux核心進行負載均衡最佳化。對于功耗最佳化,排程器可以將工作一次一個加載到一個核心的虛擬處理器上,使其它的處理器處于低功耗狀態(tài)。在性能最佳化方面,可以將工作分配到許多核心上,然后將多執(zhí)行緒加載到每個核心中,直到所有的核心都有一個進展中的任務(wù)為止。
利用芯片上多處理功能可實現(xiàn)高SoC性能。SMP平臺和軟件提供了一個具有靈活性的高性能運算平臺,能大幅提升單一處理器的速度,而這通常只需要稍微、或者根本不需要修改應(yīng)用程序代碼。
評論