ARM平臺(tái)處理器簡(jiǎn)介
1.總體情況
先從ARM的wiki上抄個(gè)表過(guò)來(lái):
Architecture | Family |
ARMv1 | ARM1 |
ARMv2 | ARM2,ARM3 |
ARMv3 | ARM6,ARM7 |
ARMv4 | StrongARM,ARM7TDMI,ARM9TDMI |
ARMv5 | ARM7EJ,ARM9E,ARM10E,XScale |
ARMv6 | ARM11, Cortex-M |
ARMv7 | Cortex-A,Cortex-M,Cortex-R |
ARMv8 | - |
左側(cè)的一列可以視作是ARM處理器的各個(gè)“代”,而右側(cè)則是同一代的各個(gè)“家族”(或者說(shuō)“系列”)?,F(xiàn)在基本已是ARMv7的時(shí)代,ARMv6及更早的Architecture只在一些低端的設(shè)備上能見(jiàn)到了。而ARMv8則是ARM平臺(tái)的未來(lái)時(shí),被設(shè)計(jì)為64位的架構(gòu),顯然不是主要面向移動(dòng)設(shè)備的。不過(guò)到現(xiàn)在為止ARMv8也只是有一些資料,離真正面世還有一段時(shí)間。
現(xiàn)在把重點(diǎn)放在ARMv7,更確切的,是ARMv7中的Cortex-A系列核心上來(lái)。Cortex-M系列處理面向嵌入式應(yīng)用,而Cortex-R系列則面向?qū)崟r(shí)應(yīng)用,Cortex-A,則面向廣大的手機(jī)用戶。
2.Cortex-A系列的眾多核心們
核心 | Cortex-A5 | Cortex-A7 | Cortex-A8 | Cortex-A9 | Cortex-A15 |
發(fā)布年份 | 2009年 | 2011年 | 2006年 | 2007年 | 2011年 |
核心 | 1-4核 | 1-4核 | 單核 | 1-4核 | 最多4核每cluster,每物理核最多2個(gè)cluster |
流水線 | 8級(jí)(in-order) | 8-10級(jí) | 13級(jí)(整點(diǎn) in-order) | 8級(jí)(out-of-order) | 12級(jí)in-order加3-12級(jí)out-of-order |
硬件虛擬化 | 否 | 是 | 否 | 否 | 是 |
L1 Cache | 4-64K/4-64K | 8-64K/8-64K | 16-32K/16-32K | 16-64K/16-64K | 32K/32K |
大物理地址擴(kuò)展 | 否 | 是 | 否 | 否 | 是 |
浮點(diǎn)部件 | VFPv4 | VFPv4 | VFPv3 | VFPv3 | VFPv4 |
*發(fā)布年份是ARM公布核心的時(shí)間(可能不太準(zhǔn)確)。
*A15的流水線前12級(jí)是in-order的,后面則是out-of-order的多種流水線,級(jí)數(shù)從3到12不等。A7類似,NEON部件的流水線是10級(jí),整點(diǎn)則是8級(jí)。
現(xiàn)在來(lái)分析一下各個(gè)核心的參數(shù)。首先是Cortex-A后面的編號(hào),大體上,這個(gè)編號(hào)代表該核心的性能,或者說(shuō)在ARM產(chǎn)品線中的位置。比如A5面向低端應(yīng)用,編號(hào)最??;A15是目前ARMv7性能中性能最高的核心;A7雖然發(fā)布晚于A8,而且規(guī)格接近,但由于限制了雙發(fā)帶寬,其性能預(yù)期是低于A8的??偟膩?lái)看,A5的定位最低端,取代ARMv7之前的產(chǎn)品;A15最高端,A7性能低于A8,但更加節(jié)能,成本也更低;A8/A9則可能被取代,不過(guò)目前仍然是主流;A15則是目前為止ARM處理器中規(guī)格最高的了。
再看一下較新的核心中幾個(gè)重要的特性。A7和A15支持硬件虛擬化,以A7的定位來(lái)說(shuō)硬件虛擬化的支持似乎沒(méi)有太多用武之地,不過(guò)對(duì)于A15來(lái)說(shuō)則表明A15可能用于傳說(shuō)中的ARM服務(wù)器(不過(guò)算算時(shí)間似乎也沒(méi)有太多A15發(fā)揮的余地,畢竟64位的ARMv8更適合用于服務(wù)器)。大物理地址擴(kuò)展(LPAE)和x86上的PAE相似,允許32位的ARM處理器最大尋址2^40bit的內(nèi)存(1TB)。這又是一個(gè)表明A15可用于服務(wù)器的跡象,畢竟4G的尋址空間對(duì)現(xiàn)在的服務(wù)器來(lái)說(shuō)完全不夠用啊。
3.浮點(diǎn)和高級(jí)SIMD部件
ARMv7開(kāi)始使用VFPv3版本的浮點(diǎn)部件,而ARMv7中更新的核心則使用了VFPv4( 見(jiàn)前面表格)。VFPv2則用于ARMv7之前的核心,現(xiàn)在還有一部分低端手機(jī)使用這種處理器;而使用VFPv1浮點(diǎn)部件的核心已經(jīng)基本淘汰掉了。ARM的高級(jí)SIMD部件稱為NEON,從ARMv7開(kāi)始出現(xiàn)
ARM浮點(diǎn)部件的一個(gè)問(wèn)題是對(duì)很多核心來(lái)說(shuō)是可選的,一些處理器并沒(méi)有浮點(diǎn)部件。不僅如此,盡管ARMv7的處理器基本都實(shí)現(xiàn)了浮點(diǎn)部件,但浮點(diǎn)部件也有多個(gè)可選實(shí)現(xiàn),再加上NEON部件也是可選的,最后導(dǎo)致市面上的ARM處理器對(duì)浮點(diǎn)/SIMD的支持并不一致。下表列出了主要的VFPv3實(shí)現(xiàn)的版本(VPFv4的資料需要補(bǔ)充):
版本 | 寄存器 | 其他特性 |
VFPv3(-D32) | 32個(gè)64位寄存器,32個(gè)32位寄存器 | |
VFPv3-FP16 | 同上 | 半精度擴(kuò)展(FP16的含義) |
VFPv4(-D32) | 同上 | VFPv4總是實(shí)現(xiàn)半精度擴(kuò)展和Fused Multiply-Add 擴(kuò)展 |
VFPv3-D16 | 16個(gè)64位寄存器,32個(gè)32位寄存器 | |
VFPv3-D16-FP16 | 同上 | 半精度擴(kuò)展 |
VFPv4-D16 | 同上 | 同VFPv4 |
上表中所說(shuō)的32位寄存器和64位寄存器并不是獨(dú)立的,前16個(gè)64位寄存器每個(gè)可以視為2個(gè)32位寄存器,同時(shí),兩個(gè)64位寄存器可以視為一個(gè)128位寄存器。下圖來(lái)自ARM官方文檔,展示了32位寄存器和64位寄存器的關(guān)系:
對(duì)于VFPv3-D16、VFPv3-D16-FP16和VFPv4-D16來(lái)說(shuō),上圖中的D16~D31是不存在的。除了上表中的版本,VFPv3還有單精度版本,只實(shí)現(xiàn)了單精度浮點(diǎn)數(shù)的運(yùn)算指令,gcc中稱這種版本的VFPv為“vfpv3xd”,相應(yīng)的,還有vfpv3xd-fp16。不過(guò)這種實(shí)現(xiàn)的ARM處理比較少見(jiàn)。
NEON部件和浮點(diǎn)部件關(guān)系密切,在兩者同時(shí)存在時(shí),使用的是同一套寄存器。不過(guò),NEON的寄存器數(shù)目是固定的,和VFPv3/VFPv-FP16/VFPv4相同。這意味著,NEON不能和VFPv3-D16/VFPv3-D16-FP16這種寄存器閹割版共存。當(dāng)沒(méi)有浮點(diǎn)部件時(shí),NEON部件只能進(jìn)行整點(diǎn)運(yùn)算。下表是NEON和VFP部件可能的組合:
NEON部件 | VFP部件 | 說(shuō)明 |
僅整型 | 未實(shí)現(xiàn) | |
整型和單精度浮點(diǎn) | 單精度浮點(diǎn) | |
整型和單精度浮點(diǎn) | 單精度和雙精度浮點(diǎn) | |
未實(shí)現(xiàn) | 單精度浮點(diǎn) | |
未實(shí)現(xiàn) | 單精度和雙精度浮點(diǎn) |
從上面這個(gè)表可以看出,即使VFP部件實(shí)現(xiàn)了雙精度運(yùn)算的功能,NEON部件也只能進(jìn)行單精度運(yùn)算。不止如此,gcc的手冊(cè)之處,NEON的浮點(diǎn)運(yùn)算不完全符合IEEE 754標(biāo)準(zhǔn),在某些情況下會(huì)損失精度,因此即使使用了自動(dòng)向量化的選項(xiàng),浮點(diǎn)運(yùn)算的向量化默認(rèn)也是關(guān)閉的。
依據(jù)半精度和Fused Multiply-Ad擴(kuò)展的實(shí)現(xiàn)情況,NEON部件可以分為3種版本:
高級(jí)SIMDv1:兩者均未實(shí)現(xiàn)
高級(jí)SIMDv1帶半精度擴(kuò)展:實(shí)現(xiàn)了半精度擴(kuò)展
高級(jí)SIMDv2:同時(shí)實(shí)現(xiàn)了半精度和Fused Multiply-Ad擴(kuò)展
而NEON半精度和Fused Multiply-Ad擴(kuò)展的實(shí)現(xiàn)情況與VFP部件是相關(guān)的。
總結(jié)一下VFP和NEON的特點(diǎn):
1.VFPv3/VFPv4分為根據(jù)寄存器情況分為D16和D32兩個(gè)版本,D16的雙精度(64位)寄存器只有16個(gè)。
2.D16版本的VFP不能和NEON部件共存。
3.NEON部件單獨(dú)存在時(shí)只能進(jìn)行整點(diǎn)運(yùn)算
4.實(shí)現(xiàn)了半精度擴(kuò)展的VFPv3稱為FP16版本,如果連Fused Multiply-Ad擴(kuò)展也實(shí)現(xiàn)了,就是VFPv4了。
除了上面所說(shuō)的,ARMv7處理器還有很多特性。由于我了解的不多,就不多說(shuō)了
評(píng)論