Cortex-A15架構(gòu)解析：探索強(qiáng)勁性能的秘密(一)

作者：時(shí)間：2013-12-21 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

今年的新手機(jī)趨勢(shì)無異是全面向四核靠攏，不過同樣是四核，在實(shí)際的性能上其實(shí)是千差萬(wàn)別。例如針對(duì)入門級(jí)主流市場(chǎng)的四核手機(jī)普遍采用的都是Cortex-A7以及 Cortex-A9 級(jí)別的CPU內(nèi)核，這類內(nèi)核性能、成本以及發(fā)熱都會(huì)較低，因此在入門市場(chǎng)上大行其道。

　　而在高端智能手機(jī)中則出現(xiàn)了一些新的變化，除了去年就已經(jīng)嶄露頭角的高通Krait系列架構(gòu)四核外，ARM正統(tǒng)的Cortex-A15也開始走上了四核手機(jī)的舞臺(tái)，例如三星的Exynos 5 Octa、NVIDIA 的Tegra 4。

　　Cortex-A15是ARM Cortex-A家族中目前最強(qiáng)勁的CPU內(nèi)核架構(gòu)，發(fā)布時(shí)間為2010年，德州儀器是最早（2011年）投產(chǎn)基于該架構(gòu)處理器（型號(hào)為OMAP 5）的授權(quán)廠商。

Cortex-A15架構(gòu)解析：探索強(qiáng)勁性能的秘密(一)

　　和ARM的Cortex-A7、Cortex-A9等微架構(gòu)相比，Cortex-A15有很大的不同。

　　A15和A9同樣具備亂序執(zhí)行，但是Cortex-A15具備（兩倍）的指令發(fā)射端口和執(zhí)行資源，指令解碼能力也要高出50%，動(dòng)態(tài)分支預(yù)測(cè)能力更強(qiáng)（采用了多層級(jí)分支表緩存），指令拾取帶寬更強(qiáng)（128 bit vs 64 bit），這些都能讓A15的流水線執(zhí)行具備更高的效率。除此以外，A15采用了VFPv4浮點(diǎn)單元設(shè)計(jì)，能執(zhí)行FMA指令以及硬件除法指令，相較而言A9的峰值向量浮點(diǎn)性能基本上只有A15的一半。

　　不過在現(xiàn)實(shí)中，A15 的對(duì)手應(yīng)該是高通自行設(shè)計(jì)的 ARMv7A 兼容處理器架構(gòu) Krait。高通對(duì) Krait 的架構(gòu)細(xì)節(jié)透露并不是很多，大致上就是 3 個(gè)指令解碼端口（和 A15 一樣）、7個(gè)指令發(fā)射端口（A15 是8個(gè)）、4個(gè)發(fā)射端口（A15 是8個(gè)），具備4KB+4KB的單周期時(shí)延L0 Cache設(shè)計(jì)。

　　如果采用老掉牙的Dhrystone DMIPS/MHz作為性能衡量指標(biāo)，Krait 是3.3，A9 是2.5，而A15則是3.5，從紙面上看Krait的確非常適合作為A15的對(duì)手。

　　不過Dhrystone的缺點(diǎn)是顯而易見，它是完全可以塞進(jìn)CPU的L1 cache里執(zhí)行，這就意味著無法以此對(duì)L2 cache（A15是一體化設(shè)計(jì)，Krait是分離式設(shè)計(jì)，一體化設(shè)計(jì)可以減少內(nèi)存交換導(dǎo)致的大量時(shí)延）、亂序執(zhí)行的硬件效率/復(fù)雜性、內(nèi)存子系統(tǒng)單元（A15的內(nèi)存單元可以實(shí)現(xiàn)在一定條件下預(yù)執(zhí)行一條加載指令，而Krait能否具備這樣的能力尚不清楚）等諸多體系架構(gòu)區(qū)別對(duì)實(shí)際性能的影響作出有價(jià)值評(píng)估。

　　當(dāng)然，ARM采用的DMIPS指標(biāo)實(shí)際上并非28年前的那個(gè)Dhrystone，而是來自EEBMC Coremark（其實(shí) Coremark 就是前者的改善版本，主要是為了減少預(yù)優(yōu)化、對(duì)測(cè)試有比較嚴(yán)格的規(guī)則），但是CoreMark同樣可以塞進(jìn)現(xiàn)今大多數(shù)處理器的L1 cache里，Dhrystone不能反映現(xiàn)今移動(dòng)設(shè)備真實(shí)應(yīng)用的問題在這里依然存在。

　　由于應(yīng)用環(huán)境日趨復(fù)雜，要正確評(píng)估一個(gè)移動(dòng)設(shè)備處理器的性能變得越來越復(fù)雜，因?yàn)楝F(xiàn)在的移動(dòng)設(shè)備跑的網(wǎng)頁(yè)瀏覽、三維游戲、音視頻、人工智能等都不可能可以完全塞進(jìn)L1 Cache里，因?yàn)檫@些應(yīng)用牽涉到大量的數(shù)據(jù)處理。

　　這時(shí)候，人們?cè)谂_(tái)式機(jī)性能評(píng)估上學(xué)到的經(jīng)驗(yàn)和測(cè)試辦法就可以在移動(dòng)設(shè)備上采用了。對(duì)CPU測(cè)試來說，最合理的測(cè)試方式是采用多種計(jì)算規(guī)模的真實(shí)應(yīng)用源代碼以本機(jī)代碼進(jìn)行編譯再進(jìn)行測(cè)試，在這樣的情況下移動(dòng)設(shè)備的計(jì)算單元、內(nèi)存單元都得以充分考驗(yàn)，測(cè)試結(jié)果最具參考價(jià)值。

　　能夠獲得業(yè)界（計(jì)算機(jī)工業(yè)、學(xué)術(shù)科研）官方認(rèn)可的CPU測(cè)試當(dāng)屬SPEC.org的SPEC CPU，它就是采用源代碼方式，讓測(cè)試人員可以編譯為本機(jī)代碼來測(cè)試，許多處理器在研發(fā)伊始就采用SPEC CPU作為最重要的性能評(píng)估指標(biāo)。

　　SPEC CPU的最新版本為CPU2006，但是CPU2006針對(duì)的是當(dāng)前的臺(tái)式機(jī)、工作站、服務(wù)器處理器應(yīng)用環(huán)境，內(nèi)存容量（CPU2006 支持多線程測(cè)試，因此要求的內(nèi)存容量相當(dāng)高，8線程處理器用16 GB內(nèi)存也是有點(diǎn)勉強(qiáng)）和自身存儲(chǔ)空間（未編譯時(shí)就要數(shù)GB空間，編譯后就要占用1xGB了）要求都較高，因此采用CPU2006對(duì)目前的移動(dòng)設(shè)備來說是不太現(xiàn)實(shí)的。

　　SPEC CPU是每隔幾年就更新一次，在CPU2006之前

新聞中心

Cortex-A15架構(gòu)解析：探索強(qiáng)勁性能的秘密(一)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)