基于ARM的高效C語(yǔ)言編程
add r3,[r2,r1,lsl #1];增加語(yǔ)句①
ldrh r3,[r3,#0]
add r1,r1,#1
and r1,r1,0xff;增加語(yǔ)句②
cmp r1,#0x0a
add r0,r3,r0
bcc add2_loop
mov r0,r0,lsl #16;增加語(yǔ)句③
mov r0,r0,asr #16;增加語(yǔ)句④
mov pc,r14
比較add1和add2兩個(gè)函數(shù)的匯編代碼,可以發(fā)現(xiàn)add2_loop循環(huán)比add1_loop循環(huán)增加了4條語(yǔ)句。
語(yǔ)句①:函數(shù)add2中變量sum為16位short類型,ARM指令中l(wèi)drh指令不支持移位地址偏移,因此增加add指令計(jì)算數(shù)組下標(biāo)地址。
語(yǔ)句②:由于函數(shù)add2中循環(huán)變量i為8位的char類型,而ARM處理器的寄存器為32位,此語(yǔ)句用于處理循環(huán)變量累加過(guò)程中引起的溢出問(wèn)題。即:當(dāng)i累加到255時(shí),再加1應(yīng)該為0,而不是256。
語(yǔ)句③、④:函數(shù)add2中返回結(jié)果sum為short類型,在返回前需將32位寄存器的前16位用符號(hào)位填充,即轉(zhuǎn)換為16位short類型。
2 函數(shù)局部變量的個(gè)數(shù)
為了加快程序的執(zhí)行速度,函數(shù)編譯時(shí)應(yīng)盡可能將局部變量都分配在寄存器中。*部變量多于可用的寄存器時(shí),編譯器會(huì)將多余的變量壓入堆棧(即存入存儲(chǔ)器中),因此必須控制局部變量的個(gè)數(shù)。
ARM處理器采用RISC結(jié)構(gòu),帶有豐富的內(nèi)部寄存器。在編譯器使用apcs開(kāi)關(guān)選項(xiàng),即支持ATPCS(ARMThumb Procedure Call STandard)標(biāo)準(zhǔn)時(shí),理論上有14個(gè)寄存器(R0~R12,R14)可以用來(lái)存放局部變量。但是實(shí)際上有些寄存器有自身特殊的用途,例如R9在與讀寫(xiě)位置無(wú)關(guān)(RWPI)的編譯情況下作為靜態(tài)基址寄存器使用,R12作為子程序內(nèi)部調(diào)用的臨時(shí)過(guò)渡寄存器使用。ATPCS規(guī)則中的寄存器名稱及說(shuō)明如表1所列。
表1 ATPCS規(guī)則中寄存器說(shuō)明
因此,應(yīng)盡量限制局部變量的數(shù)目:①對(duì)于函數(shù)的參數(shù)個(gè)數(shù)應(yīng)控制在4個(gè)以內(nèi),只有R0~R3可用來(lái)保存參數(shù),當(dāng)參數(shù)多于4個(gè)時(shí)將被壓入堆棧。如果由于實(shí)際應(yīng)用的需要,參數(shù)多于4個(gè),也可以采用結(jié)構(gòu)體來(lái)組織參數(shù),傳遞結(jié)構(gòu)體指針來(lái)實(shí)現(xiàn)。②函數(shù)內(nèi)部局部變量的個(gè)數(shù)應(yīng)控制在12個(gè)以內(nèi)(R0~R11),R12~R15都有特定用途。
3 函數(shù)內(nèi)代碼的編寫(xiě)
3.1 循環(huán)代碼的編寫(xiě)
循環(huán)的控制條件設(shè)為遞減到零的形式,可以減少指令條數(shù)。以求10個(gè)數(shù)的累加和為例進(jìn)行分析。
代碼1:
int sum=0;
for(int i=0;i10;i++)
sum=sum+i;
代碼2:
int sum=0;
for(int i=10;i!=0;i--)
sum=sum+i;
評(píng)論