新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > 嵌入式系統(tǒng)中軟件優(yōu)化的低功耗研究

嵌入式系統(tǒng)中軟件優(yōu)化的低功耗研究

作者: 時間:2006-06-22 來源:網(wǎng)絡 收藏

引言

  從20世紀70年代世界上第一個為嵌入式應用而設計的微處理器Intel 4004誕生以來,已經(jīng)發(fā)展了30多年。近幾年,(embedded system)已經(jīng)成為電子信息產(chǎn)業(yè)中最具增長力的一個分支。隨著手機、PDA、GPS、機頂盒等新興產(chǎn)品的大量應用,的市場正在以每年30%的速度遞增,嵌入式系統(tǒng)的設計也成為軟硬件工程師越來越關心的話題。

  嵌入式系統(tǒng)是以應用為中心、以計算機技術為基礎,并且軟硬件可裁減,適用于應用系統(tǒng)對功能、可靠性、成本、體積、功耗等有嚴格要求的專用計算機系統(tǒng)[1]。在嵌入式系統(tǒng)的設計中,設計(Low-Power Design)是必須面對的問題。其原因在于嵌入式系統(tǒng)被廣泛應用于便攜式和移動性較強的產(chǎn)品中,而這些產(chǎn)品不是一直都有充足的電源供應,往往靠電池來供電,所以應從每一個細節(jié)來考慮降低功率消耗,盡可能地延長電池的使用時間。事實上,從全局來考慮設計已經(jīng)成為了一個越來越迫切的問題。

  是便攜式電子設備必須具備的一個關鍵特性。過去幾年的研究主要針對硬件部分,而現(xiàn)在人們則更注重通過優(yōu)化軟件部分來降低系統(tǒng)功耗。要想對軟件進行優(yōu)化,必須了解每條指令所產(chǎn)生的功耗,并選擇正確的編譯方法,以降低程序執(zhí)行的功耗。由于各種微處理器架構不同,指令集和功耗也不一樣。因此,適用于某一處理器的優(yōu)化方式并不一定適用于其他處理器。這樣,選擇與可降低功耗的軟件相匹配的微處理器便十分重要。

1 編譯優(yōu)化

  編譯器的作用是將由高級語言編寫的程序,如C/C++等,翻譯成能夠在目標機上執(zhí)行的程序。換句話說,編譯器為高級語言程序員提供了一個抽象層,使得程序員能夠通過編寫與實際問題相近的高級語言代碼(而不用匯編或者機器語言),方便地解決實際問題;同時,也使得程序的可讀性和可維護性得到保證,提高軟件開發(fā)的效率。另外,將程序移植到新的目標機,也只要用相應的編譯器對程序進行重新編譯,而不必重新編寫程序。

  但是某些情況下,這樣的做法是以犧牲程序的執(zhí)行性能為代價的。編譯器的有效性以及它所生成的代碼效率,可以與專家級的匯編/機器語言程序員所編寫的代碼相比較得出,因此可以通過對編譯器的優(yōu)化,生成效率更高的代碼。

  通過優(yōu)化編譯器可以有效地降低嵌入式設備的功耗。在一個程序中,每一條指令都將激活微處理器中的某些硬件部件,因此,正確選擇指令可降低處理器的功耗。通過建立特定處理器架構下指令集的功耗信息,利用“減少跳轉的指令重排序”等方法,可以進行有效的軟件低功率優(yōu)化。

  這里作兩點假設:① 每一條指令都有一個固定量的功率;② 每條指令的散熱與它的操作數(shù)及其他指令無關。從圖1可以看到,通過對指令的重新排序,可以把一段程序的初始功率狀況,如圖1(a)所示,轉換成圖1(b)所示的那樣。可以得出這樣的結論:盡管兩種情況中局部區(qū)域的散熱狀況不一樣,但是它們所消耗的總電能是一致的。換句話說,可以在不影響總耗電的情況下,對程序的局部散熱情況作出某些調整,以符合實際的需要。下面通過將指令進行重新排序來實現(xiàn)系統(tǒng)功耗的降低[2]。


圖1程序內局部區(qū)域功率的兩種可能性

2 指令排序

  我們知道,運行某一特定程序的處理器的功率P=I×Vdd(I為平均電流,Vdd為給定的電壓),則程序的功耗E=P×t(t為程序的執(zhí)行時間);同時,t=N×T(T為指令周期),即為主頻的倒數(shù),N為程序執(zhí)行的周期數(shù))。在嵌入式系統(tǒng),尤其是在移動設備中,一般都通過電池供電,故系統(tǒng)的功耗是一個非常重要的指標。現(xiàn)在,Vdd和T都是已知量,因此程序消耗的電能E與電流I和程序周期數(shù)N的乘積成正比。這里通過引用參考文獻[3]中所建立的模型來進行闡述。該模型中通過示波器等設備,測量并估計執(zhí)行每條指令所需要的電流I[4]。綜上所述,可以利用嵌入式處理器中的多數(shù)據(jù)存儲區(qū)域的特性,實現(xiàn)數(shù)據(jù)的并行處理,通過對指令的排序,減少指令的執(zhí)行周期,從而達到降低功耗的目的。

2.1 舉例

  假設有一段C語言程序,如圖2(a)所示。圖2(b)是其相應的匯編代碼,圖2(c)表示每個結點帶有兩個權值的數(shù)據(jù)依賴圖(Data Dependence Graph,DDG)。第一個權值表示結點在DDG中的深度,如V10的第一個權值為1,V0的第一個權值為6。假設這個權值越大,表示其優(yōu)先級越高,如圖2(c)中V0和V1具有最高的優(yōu)先級。


圖2C語言代碼、匯編代碼與數(shù)據(jù)依賴圖

  圖3為未使用文中的算法前指令的執(zhí)行順序。注意,圖中的黑體字,即V2、V6以及V9,與其他指令不同。它們是ADD或者MPY指令,需要用到系統(tǒng)的ALU部件。在同一指令周期中,可以同時執(zhí)行ALU運算以及MOVE操作,但是不可以同時執(zhí)行兩個ALU操作。


圖3指令排序前結點的執(zhí)行順序

  節(jié)點的第二個權值,表示相關寄存器的生命周期。如圖4所示,V0所依賴的寄存器是r0,它的生命周期為1到3,即為2。從圖中可以得出以下結論:此段程序總共需要11個指令周期和最少同時使用2個寄存器。


圖4指令排序前的狀況

  圖5為基于本文的算法,將指令重新排序后的情況。程序總的執(zhí)行周期變?yōu)?,但是所占用的寄存器個數(shù)增加到3。由此也可以看到,程序的執(zhí)行周期與寄存器的個數(shù)之間也是一個折衷權衡的結果。


圖5基于排序算法后的情況

  文中借用了參考文獻[3]中所建立的模型,用以計算程序的耗電量。在圖5中,程序執(zhí)行時所需要的總電流I=780 mA,總的執(zhí)行周期數(shù)為N=6,因此消耗電路E=N×I=6×780 mA=4 680 mA。不使用任何算法的情況,即圖2所示,E=N×I=1 080×11=11 880 mA。通過使用文中的算法,將程序執(zhí)行周期減少了,同時程序的功耗也降低了。也就是說,通過使用文中的算法,程序的執(zhí)行性能得到提高,系統(tǒng)的功耗也最大程度地得到了優(yōu)化。由此可見,在這一層面上,采用何種算法是非常重要的。

2.2 算法描述

  文中的算法是基于文獻[5]中提出的以串列為基礎的排序機制,主要是以減少程序的執(zhí)行周期為目的,同時考慮到使用盡量少的寄存器。程序的描述如下:
  ① 構造數(shù)據(jù)依賴圖DDG。
 ?、?構造帶權的元組,其中第一個權值為結點在DDG中的深度,設為P;第二個權值為生命周期,設為L。
 ?、?查找就緒表R(如圖3所示)。
 ?、?while就緒表R不為空 do

  P值為最高結點所具有的最高優(yōu)先級
if當前指令周期中的結點的深度  if存在幾個結點
    if結點具有相同的優(yōu)先級
      if結點具有相同的生命周期
        則在DDG中處于相同子樹的結點具有高優(yōu)先級,加入到新的排序序列中(使在進行ALU操作時執(zhí)行1至2條MOVE指令成為可能)
      else
        生命周期越小的結點越具有高優(yōu)先級,加入到新的排序序列中(用于減少寄存器數(shù))
    else
        具有最大深度的結點具有高優(yōu)先級,加入到新的排序序列中(用于減少指令周期)  else直接加入到新的排序序列中
else
  break

  在以上的算法中,結點的深度是最為重要的。它用于控制整個程序所需的指令周期數(shù),從而使程序的功耗得到有效的控制。另外,結點的生命周期也是相當重要的,它可以控制程序中所用到的寄存器的個數(shù)。這在DSP處理器中顯得尤為重要。同時,該算法也充分利用了處理器的數(shù)據(jù)并行處理能力,為在同一指令周期內執(zhí)行不同的操作提供了可能。

3 結論

  近年來,功耗成為嵌入式應用領域的一個越來越令人關注的問題。尤其是在移動設備中,由于通過電池供電,功耗顯得尤為重要。當前的編譯器很少能夠充分利用處理器的各種特性,因此編譯生成的代碼不能與那些專家級匯編程序員寫出的代碼相提并論。本文從軟件角度出發(fā),提出了一個優(yōu)化編譯器,對指令進行重新排序的算法,通過優(yōu)化編譯器來實現(xiàn)降低系統(tǒng)的功耗。下一步工作則要選擇和研究某種特定的微處理器,然后創(chuàng)建相關工具,產(chǎn)生這種微處理器的指令集功耗信息,再進一步運用該算法實現(xiàn)編譯優(yōu)化,最終實現(xiàn)功耗的優(yōu)化。

參考文獻

1 Wayne Wolf. 嵌入式計算系統(tǒng)設計原理. 孫玉芳等譯. 北京:機械工業(yè)出版社,2002
2 Sathishkumar Udayanarayanan. Energyefficient code generation for DSP56000 family, MS. Thesis in Arizona State University (Aug. 2000)
3 Gibbons P A, Muchnick S S. Efficient Instruction Scheduling for a Pipelined Processor, in Proc. of the SIGPLAN Symposium on Compiler Construction (July1986), pp. 11-16
4 Ulrich Kremer. Low Power/Energy Compiler Optimizations
5 WenTsong Shiue. Retargetable Compilation for Low Power王力生,碩士生導師。夏志江,碩士:主要研究方向為嵌入式系統(tǒng)及其應用。



評論


相關推薦

技術專區(qū)

關閉