AMD 7nm Zen2架構(gòu)詳解:從優(yōu)秀到卓越
不知不覺中AMD的銳龍?zhí)幚砥魃鲜?年半了,2017年橫空出世的Zen架構(gòu)也發(fā)展了兩代了,如今上市的是第三代銳龍——銳龍Ryzen 3000系列了,回頭再看的時候發(fā)現(xiàn)當前的主力銳龍Ryzen 7 2700X開始陸續(xù)下架了,正如很多人不記得銳龍7 1800X處理器下架一樣。
本文引用地址:http://m.butianyuan.cn/article/201907/402377.htm管理學中有個著名的說法——從優(yōu)秀到卓越,這句話用來形容現(xiàn)在的AMD再合適不過了。
基于7nm工藝打造的第三代銳龍,相信很多人都很感興趣它頻率、核心、性能都大幅提升的背后,是有哪些架構(gòu)的革新與調(diào)整,今天就拿著AMD官方的PPT,給大家深入淺出地講一講吧——
本文內(nèi)容較長、而且涉及的專業(yè)名詞、術語比較多,閱讀也有一定的門檻,但我已經(jīng)盡可能從簡地解釋了,對于喜歡DIY、感興趣半導體技術的粉絲們,不妨找個安靜的地方,好好地看一看,應該多少都能有點收獲的。
在過去的幾年中,AMD一直在研發(fā)更高性能更高能效的Zen架構(gòu),所以才有2017年銳龍?zhí)幚砥鲉柺罆rAMD震驚世人的52% IPC性能提升,這種架構(gòu)級別的提升比起大家調(diào)侃的Intel式擠牙膏升級實在太猛了,從性能到能效都是質(zhì)的變化。
從這點上來說,兩年前的第一代銳龍1000系列可以說一鳴驚人,讓落后多年的AMD拿到了高性能CPU市場的新門票,從此這個市場不再是Intel的獨角戲,DIY玩家期待的雙雄爭霸局面回來了,CPU市場格局變了,Intel在這兩年中接連從4核升級到6核再到8核,不再擠牙膏升級了,這點上確實是AMD的功勞。
不過現(xiàn)在的兩代銳龍?zhí)幚砥鬟€是有一點嚴重不足的——單核性能不足,導致AMD一些游戲及專業(yè)應用的性能不如Intel。
從一代銳龍到二代銳龍,AMD將CPU架構(gòu)從14nm Zen改進到了12nm Zen+,但這依然是小修小補,縮短了與Intel的單核差距,但沒有質(zhì)變,在那樣的工藝及架構(gòu)下已經(jīng)挖掘不出更高頻率的潛力了。
管理學中有個著名的說法——從優(yōu)秀到卓越,這句話用來形容現(xiàn)在的AMD再合適不過了,14/12nm公司的銳龍?zhí)幚砥魇莾?yōu)秀的處理器,但還有一些槽點沒能解決,而現(xiàn)在的7nmm Zen 2架構(gòu)目標是卓越,AMD從追趕者變成領導者的任務就要靠它了。
此前AMD在CPU路線圖中對Zen 2架構(gòu)的概述就是多維度增強Zen架構(gòu),從官方定性來看我們可以把Zen 2當作深度改進版的Zen——基本的CPU結(jié)構(gòu)變化不大,但工藝、封裝、單核及多核上全面改進。
AMD官方對Zen 2架構(gòu)的優(yōu)勢主要集中在三方面——性能、工藝及并行,我們的介紹也主要圍繞這三部分進行。
第三代銳龍用上7nm工藝:AMD CPU史上首次全面領先Intel
對CPU這種極其先進的邏輯芯片來說,任何重要的進步都離不開制程工藝的升級,14/12nm銳龍上的一些缺點,比如CPU單核頻率還不夠高等,AMD也不是不清楚,但他們也沒辦法了,GF的14/12nm工藝決定了上限了,不是想提頻就提頻的。
好在現(xiàn)在AMD上了7nm,而且代工廠從GF換到了臺積電,說起來這件事也有很多波折,去年8月初GF黯然宣布無限期停止7nm及以下工藝的研發(fā)、生產(chǎn),原本是準備GF、臺積電兩條腿走路的AMD無奈之下決定將CPU及GPU的7nm訂單全部交給臺積電。
對AMD來說,從原來的兩家代工廠變成一家代工廠,實際上風險更大了,而且臺積電之前沒有過制造高性能X86處理器的經(jīng)驗,不過最終來看臺積電財大氣粗,在工藝成熟度上比GF要好得多,AMD的7nm CPU及GPU最終還是順利量產(chǎn)了。
此外,AMD的銳龍3000系列處理器使用的7nm工藝跟臺積電為華為、蘋果代工移動處理器的工藝也不同,是7nm HPC工藝,專為高性能IP核心優(yōu)化的,只不過AMD及TSMC對7nm HPC工藝的公開介紹并不多。
從AMD公開的數(shù)據(jù)來看,7nm工藝帶來了明顯的計算效率,包括2倍的晶體管密度、功耗降低50%(同性能下),性能提升了25%(同功耗下)。
考慮到AMD這是跟14nm工藝對比的,密度、功耗的變化還不錯,但25%的性能提升并不讓人滿意,這也可以看出摩爾定律到了10nm節(jié)點之后芯片性能的提升不那么容易了
只要提起處理器工藝,Intel也是無論如何繞不過去的。公平地說,Intel的10nm工藝技術上并不落伍,晶體管密度等方面相比臺積電的7nm工藝甚至還有些優(yōu)勢。在這個問題上,即便是AMD自己都是很清醒的,他們也只是表態(tài)7nm工藝追上了與友商的差距。
當然,綜合來看,AMD在7nm節(jié)點上還是領先的,即便技術上與Intel的10nm不相上下,但是時間進度上AMD贏了,Intel的10nm處理器首發(fā)于移動版十代酷睿處理器Ice Lake上,高性能的桌面版、服務器版要等到明年,而AMD現(xiàn)在就開始出貨7nm工藝的高性能桌面版處理器了,64核的EYPC羅馬處理器也會下半年出貨。
正是因為這一點,此前有華爾街分析師稱贊AMD在7nm 銳龍3000處理器上打了一個翻身仗,這是十多年來AMD首次在工藝及性能上首次全面超越Intel,絕對是歷史性時刻。
第三代銳龍的Chiplets設計:CPU/IO核心分離 解決延遲成關鍵
盡管AMD成功地在銳龍3000處理器上使用了7nm工藝,但是說它是7nm芯片也有點不準確,實際上銳龍3000是7nm混合12nm工藝,這跟它的模塊化設計有關。
在7nm節(jié)點,設計一款芯片的費用高達3億美元,對AMD來說成本也是非常高的,這就需要廠商采用更好的方式來確保芯片的良率,芯片越大良率就越低,芯片越小良率就有可能越高。
在Zen 2架構(gòu)處理器上,AMD就使用了Chiplets小芯片的設計思路,通過模塊化來組合不同核心的處理器。Chiplets設計不同于以往的膠水封裝,本質(zhì)上是把不同工藝、不同架構(gòu)的芯片電路按需搭配,比單純的膠水封裝要高明,也要復雜。
在去年推出的第一款Zen 2架構(gòu)的處理器——EPYC羅馬上,AMD就率先應用了這種設計方式,8組CPU核心、1組IO核心堆出了64核處理器。在銳龍3000上,桌面版不需要這么多核心,使用的2組CPU核心層、1組IO核心,最多16核32線程。
具體來說,就是圖中上面2組CPU核心是7nm工藝制造,因為CPU核心對性能要求高,對功耗也敏感,提升工藝對CPU核心來說大有裨益,好鋼要用在刀刃上。
下面的IO核心整合了內(nèi)存控制器、PCIe控制器等IO單元,這部分電路對性能、功耗要求沒那么高,而且IO單元并不容易隨著工藝微縮,所以使用的是相對低端的工藝——之前說是14nm,不過銳龍3000上的IO核心是改良版的12nm工藝。
AMD在Zen2上采用這樣的設計無疑是很聰明的做法,配置也非常靈活,提升CPU核心數(shù)量就堆CPU模塊即可,所以銳龍?zhí)幚砥骺梢詮闹暗?核16線程輕松變成16核32線程。此外,AMD這樣做也需要生產(chǎn)小核心,提高了良率,降低了成本,而且IO核心使用的還是更成熟的12nm工藝,進一步削減了成本。
當然,有得必有失,Chiplets設計的好處多多,但缺點也明顯,那就是如何處理好核間的連接,特別是內(nèi)存主控分離出來之后,內(nèi)存的延遲理論上要增加,肯定是不如原生多核的,AMD怎么解決這個問題的呢?
首先是改進Infinity Fabric總線(簡稱IF),IF總線是Zen架構(gòu)上的基礎技術之一,它連接了Zen架構(gòu)中的CCX模塊,現(xiàn)在也用于鏈接不同的CPU、IO核心模塊。
在銳龍3000處理器上,IF總線進化到了第二代,在并行、延遲及能效上全面改進,總線位寬從256b升級到了512b以便支持PCIe 4.0,同時將Fclk與Uclk頻率去耦合解鎖以提高內(nèi)存超頻性能,并采取多種方式降低內(nèi)存延遲、提高緩存速度以減少延遲帶來的影響。
除了IF總線的改進之外,AMD還發(fā)了一個大招——L3緩存翻倍,每個CCX單元的L3緩存容量從之前的8MB提升到了16MB(7nm工藝的密度優(yōu)勢就是任性),這樣一來對延遲敏感的應用就可以更多地以來L3緩存而內(nèi)存,AMD稱此舉使得等效內(nèi)存延遲減少了33ns,游戲性能提升了21%。
此外,AMD憑借IO核心分離還提高了內(nèi)存的頻率,之前的銳龍支持的內(nèi)存頻率不過2933MHz,現(xiàn)在可以輕松達到4000+,號稱一鍵超頻到4200MHz,高者可達DDR4-5133Mhz。
對于內(nèi)存頻率,如果追求極限低延遲,頻率高了也不一定好,這也跟IF總線的工作模式有關,雖然它跟內(nèi)存頻率分離了,但1:1情況下延遲還是最低的,分界點就是DDR4-3733,這時候內(nèi)存延遲是最低的,而AMD官方推薦的是DDR4-3600 CL16模式,對當前的內(nèi)存來說這個頻率、時序也很輕松能達到。
第三代銳龍的Zen2架構(gòu)詳解:一切為了更高的吞吐量
如果大家還記得銳龍7 1800X首發(fā)時的情景,那么對Zen架構(gòu)的SMT多線程、CCX單元、IF總線等創(chuàng)新應該還有印象,而銳龍3000的Zen2架構(gòu)也繼承了這些優(yōu)點,只不過Zen2中IO相關的分離了,CPU核心變得更純粹,總體方向就是提升核心數(shù)以加倍多線程性能,同時最大可能提升單核性能。
在銳龍3000中,CPU與IO核心分離之后可以有多種搭配,比如1組CPU搭配1組IO核心,這樣最多是8核16線程,還有就是2組CPU核心搭配1組IO核心,這樣最多16核32線程,這也是目前銳龍9 12核及16核處理器實現(xiàn)的根基。
在14nm Zen架構(gòu)中,1個CCX單元的總面積是60mm2,其中CPU核心44mm2,8MB L3緩存是16mm2,算上其他IO、內(nèi)存主控、IF等單元,8核處理器的核心面積是213mm2。
在Zen 2架構(gòu)中,一個chiplets芯片的總面積才74mm2,其中CCX+16MB L3緩存的核心面積才31.3mm2,同比減少了47%,一方面是因為7nm工藝的密度優(yōu)勢,一方面也跟Zen2的CCX只有CPU核心有關,減少了IO單元。
這里也可以解釋為了降低延遲AMD為什么敢于大幅加倍L3緩存的原因了,每個CCX翻倍到16MB L3緩存后CCX核心面積依然減少一半左右,何樂而不為呢。
整個Zen2架構(gòu)來說,它繼承了SMT多線程技術,同時在分支預測、緩存系統(tǒng)、整數(shù)、浮點等單元上做了改進,并加入了新的指令,目的就是進一步降低延遲帶來的影響。
在緩存系統(tǒng)上,Zen 2的L3緩存翻倍,L2緩存維持512KB 8-Way不變,L1緩存有所調(diào)整,指令緩存容量64KB減少到了32KB,但關聯(lián)性從4-Way變成了8-Way,而且Micro-Op緩存翻倍,AMD這樣做顯然是想取得一種性能與節(jié)能、面積之間的平衡。
預取單元中,AMD提高了分支預測的精度,加大了BTB(分支目標緩沖器)容量,優(yōu)化了32KB L1緩存,最主要的則是加入了TAGE分支預測器,最終使得分支預測的誤命中率減少了30%,提升了命中精度以減少能耗、提高性能。
解碼單元中,主要是改進了micro-op微操作緩存,容量從2K翻倍到4K,可以支持更多的解碼操作。
浮點單元是Zen 2架構(gòu)中變化比較大的部分,在去年的EPYC羅馬處理器中AMD就表示浮點性能吞吐量翻倍,原因就在于完全支持了AVX2指令,位寬從128bit提升到了256bit,這樣不用再將以往的256bit指令拆分為兩個指令用兩個周期執(zhí)行了,實現(xiàn)了浮點性能翻倍。
整數(shù)執(zhí)行單元中,調(diào)度器從84個增加到了92個,物理寄存器從168個增加到了180個,從每周期6發(fā)射提升到了7發(fā)射,總體來說這方面的改進更多地是量變,進一步優(yōu)化執(zhí)行單元的效率及執(zhí)行速度。
載入/存儲單元中,同樣是提升隊列的深度,提升TLB緩存容量,提升帶寬,降低延遲,最主要的是帶寬從每周期的16B翻倍到了32B字節(jié)。
緩存一致性上,前面已經(jīng)介紹過了L1、L2、L3緩存的變化了,其中L2緩存不變,L3緩存翻倍,L1指令緩存減半,但關聯(lián)性翻倍。
Zen2架構(gòu)中還增加了一些新的指令,比如CLWB、WBNOINVD、QOS等,不詳細解釋了,這些指令主要跟內(nèi)存、緩存有關,主要目標還是提高緩存性能、降低延遲,它們主要是給EPYC處理器準備的,銳龍3000消費級處理器支持這些指令主要還是沾光。
最后值得一提的是處理器的安全性,由于后發(fā)優(yōu)勢,Zen2架構(gòu)在安全性、漏洞防護等問題上更具優(yōu)勢,Zen架構(gòu)上就已經(jīng)免疫了多個Spectre幽靈、Meltown熔斷等變種漏洞,Zen2架構(gòu)上進一步硬件免疫了幽靈漏洞變種,這點對消費級處理器來說影響不大,但對企業(yè)級用戶來說很重要。
第三代銳龍的終極目標:要多核還要單核 更要能效、低溫
不論是7nm工藝還是Chiplets設計,亦或者是Zen 2微內(nèi)核架構(gòu),AMD在霄龍、銳龍?zhí)幚砥魃献非蟮哪繕瞬煌夂跣阅?、能效,結(jié)合之前處理器表現(xiàn)出來的優(yōu)勢及槽點,具體來說就是繼續(xù)保持多核性能優(yōu)勢、提升單核性能、提高能效、降低功耗及發(fā)熱,還有就是更低的成本,不過售價這方面還跟市場有關,要看具體產(chǎn)品,這里先不談了。
在性能這點上,AMD在7nm Zen2上追求的是性能提升,首先是IPC性能,在從推土機架構(gòu)到Zen架構(gòu)上,AMD實現(xiàn)了52%的IPC性能提升,不過那個有特殊加成,但從Zen到Zen2上,AMD表示他們也實現(xiàn)了15%的IPC性能提升,這點就難能可貴了,畢竟現(xiàn)在的高性能CPU架構(gòu)提升越來越難,以往Intel產(chǎn)品提升5%的IPC性能就算不錯了。
其次,AMD還要實現(xiàn)更高的頻率,銳龍一代、二代處理器在這方面就吃過虧,加速頻率也就4.3GHz而已,相比Intel已經(jīng)實現(xiàn)的5GHz加速頻率差了很遠,導致AMD在單核性能上吃虧不少,游戲性能也因此落敗。
在7nm Zen2上,AMD總算有了突破,銳龍9 3900X 12核處理器的加速頻率也達到了4.6GHz,16核的銳龍9 3950X更是達到了4.7GHz頻率,而且AMD表示他們的加速頻率不單單是追求單核最高頻率,可能的情況下更愿意讓多個核心達到加速頻率,這樣一來性能會更強。
綜合IPC性能及頻率的提升,AMD在銳龍3000上終于實現(xiàn)了單核性能的大進步,官方數(shù)據(jù)顯示單線程性能提升了21%,考慮到銳龍一代、二代上單核性能與Intel酷睿處理器最大的差距也不過20%左右,這次的提升足以讓AMD在單核性能上追平甚至超越Intel酷睿。
與此同時,AMD一直有優(yōu)勢的多核性能上還會繼續(xù)保持,銳龍3000上最大核心數(shù)翻倍到了16核32線程,隨著核心增加多核性能也基本保持了線性增長,6核12線程的處理器CINBEBCN R20多核跑分是3678,12核24線程的銳龍3000就是7248分,基本上就是同步增長的。
更重要的是,在性能增長的同時AMD反而降低了處理器的功耗,每瓦性能比要比目前的銳龍7 2700X以及Intel的酷睿i7-9700K處理器有了50%到70%的增長,銳龍7 3700X的絕對功耗反而從前兩者的195W、157W降至135W,能效表現(xiàn)讓人刮目相看。
考慮到銳龍7 2700X以及Intel的酷睿i7-9700K處理器都是14nm工藝水平的,7nm的銳龍3000處理器在能效上有兩代工藝的差距,官方稱同性能下功耗降低了50%,能效上可以說是降維打擊。
伴隨著能效的提升,AMD的銳龍3000處理器在發(fā)熱上也很有優(yōu)勢,Intel的6核、8核酷睿處理器發(fā)熱之高讓很多玩家不爽,但銳龍7 3700X要冷靜的多,這個優(yōu)勢在銳龍一代、二代上就已經(jīng)如此了。
除了硬件上的改進,AMD在優(yōu)化方面也跟上來,銳龍3000處理器就得到了微軟的支持,在最新的Windows 10 5月更新(1903版)上,它也支持了AMD處理器的快速CPU狀態(tài)切換功能,涉及到一些突發(fā)工作負載時,銳龍3000處理器的頻率提升時間從30毫秒減少到了1-2毫秒,簡單來說就是在需要的時候可以更快速度提升頻率,這樣就可以提升應用程序的響應速度,AMD表示PCmark 10的啟動時間就縮短了6%,Rocket League游戲的啟動時間更是減少了15%。
第三代銳龍的完美搭配:X570芯片組+PCIe 4.0帶寬
在處理器之外,不得不說的還有全新一代X570芯片組,相比以往的芯片組由祥碩操刀設計,這次的X570是AMD親自上陣,為的就是實現(xiàn)PCIe 4.0技術支持,而且不惜成本地上了14nm制程工藝。
與PCIe 3.0相比,PCIe 4.0的速率從8GT/s提升到了16GT/s,帶寬翻倍提升。主要優(yōu)點如下:
①速度更快,x16雙向帶寬達到了32GB/s,是PCIe 3.0的兩倍。
②向下兼容,PCIe 4.0也能兼容PCIe 3.0設備。
③更多連接,PCIe 4.0帶寬高,1條頂2條,可以連接更多設備而不需要擔心性能下降。
PCIe 4.0在消費級平臺上目前還是AMD X570/銳龍3000的獨家功能,所以群聯(lián)、慧榮等公司推出的PCIe 4.0主控以及廠商的PCIe 4.0硬盤要想發(fā)揮威力,AMD平臺是首選,可以將SSD的讀寫性能提升到5GB/s級別,未來還可以進一步提升到6.5GB/s。
此外,X570平臺除了PCIe 4.0之外,其他SATA、USB 3.1 Gen2、NVMe等標準也要比Intel的Z390平臺更好,擴展接口數(shù)量更多,搭配更靈活,所以在X570平臺上,AMD及主板廠商有了打造頂級平臺的底氣,這一點也是跟以往300、400系芯片組最大的不同,有先進技術就能任性。
當然,考慮到PCIe 4.0目前比較少支持,不追求極限性能的話大家完全可以選擇X470、B450等平臺,AMD之前也確認過了,除了PCIe 4.0支持之外,其他平臺上銳龍3000處理器的性能也是一樣的,不會受影響的。
總結(jié):從優(yōu)秀到卓越,第三代銳龍各種優(yōu)點“我全都要”
從AMD的7nm Zen2架構(gòu)設計來看,AMD在這一代處理器上可以說志向遠大,不論單核還是多核性能,或者是能效、溫度、成本,AMD的目標簡直就是下面這張圖所展示的那樣:
沒錯,銳龍3000處理器上AMD表現(xiàn)出來的就是各種優(yōu)勢都要占盡,不給友商留活路的感覺,通過先進的7nm工藝、獨特的Chiplets小芯片、全面改進的Zen2架構(gòu)實現(xiàn)了性能、能效的同步增長,而且以往最弱的單核性能這次也追上來了。
對于銳龍3000處理器的性能,AMD的官方測試展示了很多了,不過我們這里不打算詳細列舉了,上面這張圖就是綜合代表了,單核、多核性能都要比Intel的酷睿i9處理器要強。
AMD官方的PPT并不能代表實際的性能如此,最終的表現(xiàn)如何還要看測試, AMD“全都要”的目標到底能實現(xiàn)多少。完全評測也會在7月7日的晚上9點解禁,來太平洋電腦網(wǎng)打開看詳細的對比數(shù)據(jù)吧。
評論