FAE講堂:如何加快處理器的正弦計算
有很多種算法可對單精度浮點數字的正弦值進行計算,但添加硬件加速器是功能最為強大的方法之一。之所以得出這一結論,是因為客戶的應用要求使用此類正弦計算,而我們又針對能夠提供良好、快速且高效的解決方案進行了多種方案的探索。
本文引用地址:http://m.butianyuan.cn/article/119301.htm為了確定哪種實現方式最適合您的應用,首先需要對代碼進行分析,以查找哪種功能需要改進;其次,由于修改軟件比修改硬件更簡便、迅速,因而請檢查是否能通過修改軟件來實現您所需的高速度(有時可以)。但是如果您還需要更高的性能,那么請考慮在硬件中實現部分算法。在硬件加速的支持下,您可以輕松勝過市場上任意微控制器或DSP。
為了解該流程,讓我們以現實案例為例,探討如何開發(fā)一個需要針對單精度浮點數字進行正弦計算的軍事應用。出于對高性價比的原因考慮,客戶已選擇了一款采用嵌入式 MicroBlaze®的Spartan®-6 FPGA 作為主系統(tǒng)控制器??商幚碚矣嬎愕能浖惴☉\行于MicroBlaze 之上。
客戶的算法主要使用浮點運算。由于算法復雜,轉而采用定點運算并不妥當。此外,客戶還希望避免使用定點運算時可能出現的運行過度或運行不足的情況。
客戶清楚 MicroBlaze IP 可提供兩種類型的浮點單元 (FPU),并已選用擴展版本(相對于基本版而言)來加速算法。但是,這樣做就無法利用作為GNU工具鏈組成部分且隨 EDK 一起交付的數學仿真庫。數學庫中的軟件仿真例程程序運行速度非常慢,在任何情況下都應盡量避免將其用于算法中對性能起到關鍵作用的部分。
另外,客戶還清楚 MicroBlaze FPU的兩個版本都只能處理單精度數據,不能處理雙精度數據??蛻舻乃惴梢悦鞔_地僅使用浮點精度數據 (float precision data)。但在開始使用數學函數時,有時也會進行隱式轉換。這些轉換會強制算法
在不知不覺中使用雙精度數據。
步驟一:分析問題
我們的客戶已經在運行他的算法,但發(fā)現該算法在MicroBlaze處理器上的運行速度偏慢。在對代碼庫進行特性描述后,客戶發(fā)現引起速度慢的原因是正弦計算。下一步是找出其中原因并分析怎樣做才能加快處理速度。
第一種方案是使用數學庫提供的標準正弦函數,在客戶將算法寫入后,在不進行任何修改的情況下完整地運行它。主要的問題在于數學庫函數僅針對雙精度數據而創(chuàng)建,這就意味著正弦函數的原型應為如下所示:
double sin(double angle);
但客戶希望以下列方式使用:
float sin_val;
float angle;
...
sin_val = sin(angle);
當然,這也是可能的,而且C編譯器會自動從參數角添加所需的轉換,進行“雙精度化”,并將函數調用的結果轉回浮點值。這樣通常還是由數學庫函數來執(zhí)行兩個額外的轉換函數,甚至是正弦計算。
切記,MicroBlaze的FPU為單精度版本,只能完成如下執(zhí)行指令:
sin_val = (float)sin((double)angle);
由于數學庫的正弦函數是雙精度的,因而FPU無法完成正弦計算,故需要純軟件的解決方案。但缺點在于速度太慢,無法滿足客戶的需求。
我們驗證了使用雙精度數據進行正弦值的計算是執(zhí)行緩慢的原因。首先我們使用下列代碼,從我們的執(zhí)行文件中直接創(chuàng)建匯編代碼:
mb-objdump.exe -D executable.elf
>dump.txt
檢查匯編代碼時,我們發(fā)現了如下代碼行:
brlid r15,-15832 // 4400d300
其作用是調用數學庫以進行雙精度正弦計算。然后,我們測量了利用數學庫函數完成單次正弦計算所需的時間,約為 38,700個CPU周期。
對于特定的任務,可以使用專用單精度函數,如計算平方根:
float sqrt_f( float h);
使用專用函數可以避免單、雙精度函數之間的轉換,而且還可充分利用MicroBlaze FPU。
但遺憾的是,在FPU上沒有用于處理正弦計算的專用函數。此時,我們開始開發(fā)多個版本的算法來加速正弦值的計算,以實現更高的性能。
步驟二:創(chuàng)建更好的軟件算法
創(chuàng)建硬件加速器通常需要一段時間而且也需要進行調試,因而我們試圖避免在第一次運行中就采取這種方案。我們就性能問題與客戶進行了溝通,獲得了正弦計算的關鍵參數。
客戶的算法要求正弦計算的參數角應具有1%的精度,而且計算出的正弦值精度應比數學庫函數調用的結果高0.1%。
這些屬于關鍵參數,而且客戶告知我們,他有時必須按順序計算多個正弦值(比如在處理之前先填入小表格)。
由于對表格的尺寸要求, 使用填充了所有數值的查找表顯然不太可能。條目的最小數量為360,000個浮點數值(每個值 4 個字節(jié))??蛻粝胝业礁咚俳鉀Q方案,但在大小上也應該合適。我們建議的解決方案可使用下列等式:
sin(xi) with xi = x + d
得到:
sin(x+d) = sin(x)*cos(d) +cos(x)*sin(d)
在這里,d是一個始終小于 x最小可能值(大于0)的值。這種解決方案有什么優(yōu)勢呢?我們需要縮小表格的大小,但會帶來計算量的增加。表格從開始就劃分為四個表格:
cos(x)
sin(x)
cos(d)
sin(d)
圖1和圖2顯示了所有4個表格所需的分辨率以及這些值通常情況下的表現。這些表格僅顯示了16個值的條目,用于說明需要填入我們的查找表中的值。我們在我們最終的解決方案中所使用的值要多得多。
圖 1 — x 值的正弦與余弦表,范圍介于0到360度之間
評論