AMD公布推土機、山貓新架構(gòu)大量細節(jié)

作者：時間：2010-08-25 來源：cnbeta

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　美國加州帕洛阿爾托市舉行的第22屆Hot Chips高性能芯片大會上，AMD如約公布了“推土機”(Bulldozer)、“山貓”(Bobcat)兩款全新處理器架構(gòu)的更多技術(shù)細節(jié)。AMD院士兼推土機總設(shè)計師Mike Butler、AMD院士兼山貓總設(shè)計師Brad Burgess均出席會議并分別發(fā)表了相關(guān)演講。

本文引用地址：http://m.butianyuan.cn/article/112051.htm

　　推土機架構(gòu)主攻性能和擴展性，面向主流客戶端和服務(wù)器領(lǐng)域，山貓架構(gòu)的重點則是靈活性、低功耗和小尺寸，將用于低功耗設(shè)備、小型設(shè)備、云客戶端。

　　推土機將采用新的模塊化設(shè)計，每個模塊擁有兩個四管線核心，彼此共享一個浮點調(diào)度器和兩個128位乘法累加單元(FMAC)。兩個核心都擁有自己的整數(shù)調(diào)度器、一級數(shù)據(jù)緩存，并預(yù)取、解碼單元和二級緩存。新架構(gòu)還將有全新的x86指令集支持，包括SSE4.1、SSE4.2、AVX、XOP。

　　因為除了高性能計算領(lǐng)域之外浮點運算量并不多，這種浮點調(diào)度器共享設(shè)計能大大節(jié)省晶體管、核心面積、功耗，降低成本;兩個FMAC單元既可以被每個核心單獨使用，也可以合并組成一個256位FMAC單元，當然這需要程序代碼做相應(yīng)改變。為了獲得最大程度的性能功耗比，推土機架構(gòu)還會在共享、專用單元之間動態(tài)切換。

　　AMD宣稱，這種共享模塊化設(shè)計的多線程執(zhí)行效率要大大優(yōu)于同步多線程(SMT)和芯片多處理(CMP)。SMT最典型的實例就是Intel的超線程技術(shù)，它強制兩個線程進入一個核心，線程之間會爭奪資源，影響效率;CMP則是一個線程對應(yīng)多個專用核心，浪費資源。

　　推土機的模塊可以通過HyperTransport高速點對點總線多個累加在一起，組成更多核心產(chǎn)品，比如代號英特拉格斯的Opteron 6200系列服務(wù)器處理器就有6-8個模塊、12-16個核心，代號巴倫西亞的Opteron 4200系列則有3-4個模塊、6-8個核心，它們會分別取代現(xiàn)有的8-12核心Opteron 6100系列、4-6核心的Opteron 4100系列，均采用GlobalFoundries 32nm SOI工藝制造。

　　AMD表示，模塊化設(shè)計能夠加速芯片開發(fā)、提高產(chǎn)品靈活性，同時對硬件、操作系統(tǒng)、應(yīng)用軟件來說都是透明的。

　　此外推土機還是一個非常強調(diào)效能的架構(gòu)，支持更先進的電源管理技術(shù)。因為浮點單元上的共享，每個模塊內(nèi)第二個浮點核心所需要的電路只占總核心面積的12%，從芯片級別上講這只會給整個內(nèi)核增加5%的電路。更多的核心、更少的空間，這顯然有利于提高單位功耗、單位成本的性能。

　　簡單地說，推土機是AMD徹底重新設(shè)計的核心，將成為AMD下一代高性能處理器技術(shù)，用于客戶端和服務(wù)器領(lǐng)域，相比于Opteron 6100系列會增加33%的核心、大約50%的性能。

　　再來看山貓，這是一種小尺寸、高效能、低功耗的x86核心，同時具有出色的性能，可在不同設(shè)計、制造工藝上輕松移植。

　　山貓核心使用的是亂序執(zhí)行引擎(Atom是順序執(zhí)行)，集成兩個x86解碼器、高級分支預(yù)測期、完整亂序指令執(zhí)行、完整亂序載入與存儲引擎、高性能浮點單元、32KB一級緩存、512KB二級緩存，完整支持ISA、SSE1/2/3、SSSE3指令集和虛擬化技術(shù)，單個核心功耗可降至1W以下，估計能以不到一半的核心面積達到當今主流性能的90%。