新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > Linux下ColdFire片內(nèi)SRAM的應(yīng)用程序優(yōu)化設(shè)計(jì)

Linux下ColdFire片內(nèi)SRAM的應(yīng)用程序優(yōu)化設(shè)計(jì)

作者: 時(shí)間:2012-02-21 來源:網(wǎng)絡(luò) 收藏

本文以MP3解碼器為例,介紹了一種在嵌入式系統(tǒng)下配置使用處理器的應(yīng)用方案,有效提高了代碼的解碼效率,降低了執(zhí)行功耗。該方案不論在性能還是成本上都得到了很大改善。

本文引用地址:http://m.butianyuan.cn/article/149597.htm

1 硬件平臺(tái)和軟件架構(gòu)

硬件平臺(tái)采用Freescale公司的MCF5329EVB開發(fā)板。終端硬件包括5329處理器、32 KB的、1 800×600矩陣LCD顯示屏、9×3陣列矩陣鍵盤、I2S音頻解碼芯片、64 MB的SDRAM、10/100M以太網(wǎng)接口,以及3個(gè)UART接口。軟件構(gòu)架如圖1所示,主要包括MP3解碼器、音頻驅(qū)動(dòng)、鍵盤驅(qū)動(dòng)和用戶圖形界面(GUI)等模塊。采用μClinux作為操作系統(tǒng)。μClinux針對(duì)嵌入式應(yīng)用的特點(diǎn)作了較大的簡(jiǎn)化和修改,支持多種文件系統(tǒng)和多任務(wù)處理,而且具有相對(duì)完整的網(wǎng)絡(luò)體系協(xié)議,因而特別適合嵌入式應(yīng)用。

2 MP3解碼算法分析

本文選用MP3解碼程序作為方案驗(yàn)證代碼。MPEG-1/2 Audio Layer 3是專門針對(duì)音樂和語音數(shù)據(jù)的有損壓縮算法。該算法的解碼過程比較復(fù)雜,主要包括反向修正離散余弦變換(IMDCT)、逆量化、Huffman解碼、子帶綜合等功能模塊。讀入一段MP3數(shù)據(jù)后,首先要檢測(cè)數(shù)據(jù)流中的同步字,以確定一幀數(shù)據(jù)的開始;然后提取幀頭信息,特別是解碼所需要的一些參數(shù),同時(shí)分離出幀邊信息和主數(shù)據(jù);之后對(duì)邊信息數(shù)據(jù)解碼得到Huffman解碼信息和逆量化信息,再經(jīng)過重新排序、立體聲處理、反混疊處理、IMDCT變換和子帶綜合濾波器組后,就可以得到PCM輸出。

MP3解碼流程如圖2所示。大致分為兩個(gè)階段,即數(shù)據(jù)流控制階段和數(shù)值計(jì)算階段。數(shù)據(jù)流控制階段包括幀同步、邊帶信息解碼和Huffman解壓縮等過程。其中,Huffman解壓縮是對(duì)編碼數(shù)據(jù)進(jìn)行操作,其他過程則是對(duì)幀控制部分進(jìn)行操作。

3 基于方案

3.1 方案分析

SRAM指令執(zhí)行速度要比DRAM快得多。Cold-Fire5329處理器內(nèi)部集成了32 KB的SRAM,本方案將充分利用處理器片內(nèi)SRAM來對(duì)解碼程序進(jìn)行。首先對(duì)源代碼中的主要解碼函數(shù)進(jìn)行分析,如表1所列??梢钥吹津?qū)動(dòng)寫函數(shù)(write)、子帶綜合(MPEGSUB_synthesis)、反向修正離散余弦變換(imdct_I)和快速離散余弦變換(faST_dct)對(duì)處理器資源消耗較大,幾乎占用80%的解碼時(shí)間。根據(jù)分析結(jié)果,分別把音頻驅(qū)動(dòng)程序和上述解碼函數(shù)放進(jìn)SRAM中執(zhí)行,以提高流媒體解碼器的執(zhí)行速度,降低其對(duì)處理器資源的消耗。

3.2 配置音頻驅(qū)動(dòng)程序到片內(nèi)SRAM中執(zhí)行

操作系統(tǒng)把內(nèi)核和運(yùn)行在其上的分成兩個(gè)管理層次,也就是常說的“內(nèi)核態(tài)”和“用戶態(tài)”。內(nèi)核態(tài)具有較高的應(yīng)用權(quán)限,可以控制處理器內(nèi)存的映射和分配方式。音頻驅(qū)動(dòng)程序是系統(tǒng)內(nèi)核的重要組成部分,工作在內(nèi)核態(tài),實(shí)現(xiàn)不斷從用戶空間解碼文件中讀取音頻信息,以及驅(qū)動(dòng)音頻芯片播放聲音等相關(guān)功能。通過修改μClinux-2.6內(nèi)核代碼,可以將音頻驅(qū)動(dòng)程序配置到片內(nèi)SRAM中執(zhí)行,主要通過修改系統(tǒng)鏈接文件來實(shí)現(xiàn)。系統(tǒng)鏈接文件用于將輸入文件根據(jù)一定的規(guī)則合并成一個(gè)輸出文件,并對(duì)符號(hào)與地址進(jìn)行綁定。

為了在修改內(nèi)核代碼的同時(shí)不影響系統(tǒng)其他文件的正常運(yùn)行,要在內(nèi)核鏈接腳本中添加新的段區(qū)定義(.sramcode),指定該段區(qū)鏈接加載地址為處理器片內(nèi)SRAM,并在.sramcode段區(qū)內(nèi)定義代碼段(.sramtext)和數(shù)據(jù)段(.sramdata),分別用于存儲(chǔ)驅(qū)動(dòng)中的代碼和數(shù)據(jù)。對(duì)齊方式采用ALIGN(4),因?yàn)閷?duì)32位微處理器來說,該對(duì)齊方式將有效減少處理器執(zhí)行周期,提高執(zhí)行效率。然后,使用2個(gè)指針_lsramcode和_lsramcodeend分別指向,sramcode段區(qū)的段首和段尾,具體實(shí)現(xiàn)如下:

完成對(duì)操作系統(tǒng)鏈接文件的修改之后,使用宏定義在音頻驅(qū)動(dòng)程序中把相關(guān)函數(shù)和數(shù)據(jù)分別指定鏈接到,sramcode代碼段和數(shù)據(jù)段,并由copy函數(shù)把相關(guān)函數(shù)復(fù)制到SRAM中執(zhí)行。編譯、鏈接完成后,可以在系統(tǒng)內(nèi)核存儲(chǔ)映射文件Sys-tem.map中查看驅(qū)動(dòng)函數(shù)和數(shù)據(jù)在內(nèi)存中的地址。圖3顯示了音頻驅(qū)動(dòng)函數(shù)在處理器片內(nèi)SRAM中的映射地址。

3.3 配置實(shí)時(shí)數(shù)據(jù)和函數(shù)到片內(nèi)SRAM中執(zhí)行

把用戶空間的實(shí)時(shí)數(shù)據(jù)和函數(shù)放置到片內(nèi)SRAM中執(zhí)行,由于處理器可以直接從片內(nèi)SRAM中存取數(shù)據(jù)和指令,減少了處理器存取數(shù)據(jù)和指令的周期,提高了程序的執(zhí)行效率。首先,放置實(shí)時(shí)數(shù)據(jù)到處理器片內(nèi)SRAM中。通過S_malloc和S_free函數(shù)來實(shí)現(xiàn):S_malloc用來申請(qǐng)?zhí)幚砥鲀?nèi)存空間,S_free用來對(duì)這一申請(qǐng)的空間進(jìn)行釋放。為了靈活使用定義的S_malloc和S_free函數(shù),需要定義一個(gè)結(jié)構(gòu)體和地址指針:

然后,通過動(dòng)態(tài)內(nèi)存分配方式可以把MP3解碼程序中的實(shí)時(shí)數(shù)據(jù)放入處理器內(nèi)存中執(zhí)行。加載函數(shù)到SRAM中與加載實(shí)時(shí)數(shù)據(jù)不同,需要通過指針和枚舉變量來實(shí)現(xiàn)。首先通過一個(gè)宏定義設(shè)置每個(gè)函數(shù)大小為4 KB,并使用枚舉變量為函數(shù)分配處理器片內(nèi)SRAM執(zhí)行的起始地址。

SRAMFUNC2=SRAM_BIG_FUNC1+BIG_FUNC_SIZE,…};

在定義完函數(shù)運(yùn)行時(shí)加載的存儲(chǔ)地址之后,把MP3解碼程序中的MPEGSUB_synthesis和imdct_1等函數(shù)通過字符串拷貝的方式復(fù)制到處理器片內(nèi)SRAM中執(zhí)行,經(jīng)過編譯、鏈接這些函數(shù)在執(zhí)行時(shí)將會(huì)加載到相應(yīng)的SRAM單元塊中。這樣就減少了處理器執(zhí)行解碼函數(shù)所需的時(shí)間,提高了程序的執(zhí)行效率。

4 性能測(cè)試與分析

為了驗(yàn)證基于處理器片內(nèi)SRAM的設(shè)計(jì)方案,我們?cè)贛CF5329EVB開發(fā)板上對(duì)經(jīng)該方案優(yōu)化過的MP3解碼器進(jìn)行了驗(yàn)證和測(cè)試。

首先,進(jìn)行功能測(cè)試,應(yīng)用MPEG組織推薦的測(cè)試碼流(128 kb/s,44.1 kHz)。選用一段音頻test.mp3,分別用標(biāo)準(zhǔn)浮點(diǎn)解碼器和本文設(shè)計(jì)的音頻解碼器進(jìn)行本地解碼測(cè)試,并對(duì)其解碼波形進(jìn)行比較分析。從圖4的波形比較可以看到,經(jīng)過本方案優(yōu)化設(shè)計(jì)的解碼器解碼波形與標(biāo)準(zhǔn)浮點(diǎn)解碼器基本無差別。經(jīng)人耳測(cè)試,無法辨別出兩者解碼輸出的差別。所以,從功能上講本文設(shè)計(jì)的基于片內(nèi)SRAM的優(yōu)化方案是可行的。

其次,進(jìn)行性能測(cè)試。在測(cè)試平臺(tái)上分別對(duì)優(yōu)化前后解碼器的MIPS消耗數(shù)和空間消耗量進(jìn)行比較分析,如表2所列。

優(yōu)化前,解碼器MIPS消耗數(shù)為68 MIPS@240MHz;優(yōu)化后,解碼器MIPS消耗數(shù)為39.2 MIPS@240 MHz。在硬件條件允許的情況下,消耗的內(nèi)存雖然有一定的增加,但是經(jīng)過本文方案優(yōu)化后,解碼效率得到了很大的提高。

結(jié) 語

本文提出了在嵌入式操作系統(tǒng)下基于處理器片內(nèi)SRAM的優(yōu)化設(shè)計(jì)方案。以MP3解碼器為例,通過從配置音頻驅(qū)動(dòng)程序、實(shí)時(shí)數(shù)據(jù)和函數(shù)到處理器片內(nèi)SRAM中執(zhí)行來對(duì)解碼器進(jìn)行優(yōu)化設(shè)計(jì),并在5329開發(fā)平臺(tái)上成功實(shí)現(xiàn)該方案。優(yōu)化后的MP3播放器不僅解碼效率高,而且音質(zhì)好,完全可以在中低端處理器上實(shí)現(xiàn)實(shí)時(shí)播放,使低性能CPU處理復(fù)雜應(yīng)用程序成為可能。該方案有效地提高了應(yīng)用程序的執(zhí)行效率,降低了功耗,對(duì)嵌入式Linux應(yīng)用產(chǎn)品開發(fā)有著重要參考價(jià)值。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉