AMD公布推土機(jī)、山貓新架構(gòu)大量細(xì)節(jié)
美國(guó)加州帕洛阿爾托市舉行的第22屆Hot Chips高性能芯片大會(huì)上,AMD如約公布了“推土機(jī)”(Bulldozer)、“山貓”(Bobcat)兩款全新處理器架構(gòu)的更多技術(shù)細(xì)節(jié)。AMD院士兼推土機(jī)總設(shè)計(jì)師Mike Butler、AMD院士兼山貓總設(shè)計(jì)師Brad Burgess均出席會(huì)議并分別發(fā)表了相關(guān)演講。
本文引用地址:http://m.butianyuan.cn/article/112051.htm推土機(jī)架構(gòu)主攻性能和擴(kuò)展性,面向主流客戶(hù)端和服務(wù)器領(lǐng)域,山貓架構(gòu)的重點(diǎn)則是靈活性、低功耗和小尺寸,將用于低功耗設(shè)備、小型設(shè)備、云客戶(hù)端。
推土機(jī)將采用新的模塊化設(shè)計(jì),每個(gè)模塊擁有兩個(gè)四管線(xiàn)核心,彼此共享一個(gè)浮點(diǎn)調(diào)度器和兩個(gè)128位乘法累加單元(FMAC)。兩個(gè)核心都擁有自己的整數(shù)調(diào)度器、一級(jí)數(shù)據(jù)緩存,并預(yù)取、解碼單元和二級(jí)緩存。 新架構(gòu)還將有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。
因?yàn)槌烁咝阅苡?jì)算領(lǐng)域之外浮點(diǎn)運(yùn)算量并不多,這種浮點(diǎn)調(diào)度器共享設(shè)計(jì)能大大節(jié)省晶體管、核心面積、功耗,降低成本;兩個(gè)FMAC單元既可以被每個(gè)核心單獨(dú)使用,也可以合并組成一個(gè)256位FMAC單元,當(dāng)然這需要程序代碼做相應(yīng)改變。為了獲得最大程度的性能功耗比,推土機(jī)架構(gòu)還會(huì)在共享、專(zhuān)用單元之間動(dòng)態(tài)切換。
AMD宣稱(chēng),這種共享模塊化設(shè)計(jì)的多線(xiàn)程執(zhí)行效率要大大優(yōu)于同步多線(xiàn)程(SMT)和芯片多處理(CMP)。SMT最典型的實(shí)例就是Intel的超線(xiàn)程技術(shù),它強(qiáng)制兩個(gè)線(xiàn)程進(jìn)入一個(gè)核心,線(xiàn)程之間會(huì)爭(zhēng)奪資源,影響效率;CMP則是一個(gè)線(xiàn)程對(duì)應(yīng)多個(gè)專(zhuān)用核心,浪費(fèi)資源。
推土機(jī)的模塊可以通過(guò)HyperTransport高速點(diǎn)對(duì)點(diǎn)總線(xiàn)多個(gè)累加在一起,組成更多核心產(chǎn)品,比如代號(hào) 英特拉格斯的Opteron 6200系列服務(wù)器處理器就有6-8個(gè)模塊、12-16個(gè)核心,代號(hào)巴倫西亞的Opteron 4200系列則有3-4個(gè)模塊、6-8個(gè)核心,它們會(huì)分別取代現(xiàn)有的8-12核心Opteron 6100系列、4-6核心的Opteron 4100系列,均采用GlobalFoundries 32nm SOI工藝制造。
AMD表示,模塊化設(shè)計(jì)能夠加速芯片開(kāi)發(fā)、提高產(chǎn)品靈活性,同時(shí)對(duì)硬件、操作系統(tǒng)、應(yīng)用軟件來(lái)說(shuō)都是透明的。
此外推土機(jī)還是一個(gè)非常強(qiáng)調(diào)效能的架構(gòu),支持更先進(jìn)的電源管理技術(shù)。因?yàn)楦↑c(diǎn)單元上的共享,每個(gè)模塊內(nèi)第二個(gè)浮點(diǎn)核心所需要的電路只占總核心面積的12%,從芯片級(jí)別上講這只會(huì)給整個(gè)內(nèi)核增加5%的電路。更多的核心、更少的空間,這顯然有利于提高單位功耗、單位成本的性能。
簡(jiǎn)單地說(shuō),推土機(jī)是AMD徹底重新設(shè)計(jì)的核心,將成為AMD下一代高性能處理器技術(shù),用于客戶(hù)端和服務(wù)器領(lǐng)域,相比于Opteron 6100系列會(huì)增加33%的核心、大約50%的性能。
再來(lái)看山貓,這是一種小尺寸、高效能、低功耗的x86核心,同時(shí)具有出色的性能,可在不同設(shè)計(jì)、制造工藝上輕松移植。
山貓核心使用的是亂序執(zhí)行引擎(Atom是順序執(zhí)行),集成兩個(gè)x86解碼器、高級(jí)分支預(yù)測(cè)期、完整亂序指令執(zhí)行、完整亂序載入與存儲(chǔ)引擎、高性能浮點(diǎn)單元、32KB一級(jí)緩存、512KB二級(jí)緩存,完整支持ISA、SSE1/2/3、SSSE3指令集和虛擬化技術(shù),單個(gè)核心功耗可降至1W以下,估計(jì)能以不到一半的核心面積達(dá)到當(dāng)今主流性能的90%。
評(píng)論