超能課堂(278):Intel核顯是怎樣逐步進化成Xe的
每次看顯卡市場占有率的圖表,最大的那家不是NVIDIA也不是AMD,而是Intel,它占據(jù)了整個顯卡市場的大半壁江山,原因當然是因為他們家的主流處理器基本上里面都會帶一個核顯,而他們家的處理器也占市場大頭,占有率當然高。
其實早在1998年,Intel就進入了顯卡市場,推出了Intel i740獨立顯卡,隨后它被整合進了810/815芯片組,從此就誕生了Intel的集成顯卡家族,在那個時代核顯還是整合在北橋內(nèi)的,直到2010年的Clarkdale處理器開始這個集顯才進入CPU內(nèi)部?,F(xiàn)在最新的Xe架構(gòu)核顯已經(jīng)是Intel的第12代顯示架構(gòu)。
曾幾何時Intel的核顯每年都會隨酷睿系列處理器一同升級一次,直到第八代的Cannon Lake卡殼,讓Gen 9.5核顯伴隨了我們很久,移動平臺直到2019年推出的Ice Lake處理器才開始恢復核顯的升級,桌面平臺是到今年的Rocket Lake直接跳到最新的Xe架構(gòu)。
早期Intel核顯的時間軸
不過呢,與CPU的性能方面被罵擠牙膏不同,核顯的性能每代提升都挺大的,下面我們就來回顧一下Intel的核顯進化歷程。
Gen5:Clarkdale
2010年推出的Clarkdale處理器確實首款整合GPU的CPU,這款處理器由32nm制程CPU Die和45nm的GPU Die共同封裝在一塊PCB上組成,兩顆芯片使用QPI總線相連,其實當年看Clarkdale感覺是坑爹的Intel又在玩膠水,但現(xiàn)在看慣了AMD的Zen 2/3處理器之后再看它,感覺Intel當年的做法其實也沒啥。
Clarkdale內(nèi)核結(jié)構(gòu)圖,GPU Die上包含了PCI-E控制器和內(nèi)存控制器,其實就是一個北橋芯片
Clarkdale系列處理器只有雙核的型號,有Core i5-600和Core i3-500兩個型號,在LGA 1156時代四核處理器是沒有整合GPU的。
當時的Intel把Clarkdale上的GPU統(tǒng)稱為“Intel HD Graphics”,這名字一直用到現(xiàn)在。而這個GPU其實就是G45上的X4500 HD的升級版,EU增加了兩個達到了12個,核心頻率最高可以到900MHz,支持Hierarchical Z(層次Z緩存算法)與Fast Z Clear(快速Z清除)技術(shù),支持DX10、SM4.0,支持OpenGL 2.1,移動版處理器的GPU可以通過Turbo Boost動態(tài)調(diào)整頻率,而桌面版不行。
Gen6:Sandy Bridge
Sandy Bridge核心圖
正在把CPU和GPU做到同一塊芯片上的是在2011年上推出的Sandy Bridge架構(gòu)處理器,CPU、GPU、內(nèi)存控制器、PCI-E控制器全部整合到一個核心里面,它的最大改進在于三級緩存改用了環(huán)形總線設計,并且其核心、GFX以及顯示/媒體控制器可共享L3高速緩存。
Sandy Bridge的GPU主要包含了指令流處理器、媒體處理器、多格式媒體****、執(zhí)行單元、統(tǒng)一執(zhí)行單元陣列、媒體取樣器、紋理采樣器以及指令緩沖等等,架構(gòu)與上一代相比有了較大修改。
Sandy Bridge按照型號劃分了標準版以及“K”系倍頻解鎖版本,標準版本GFX命名為HD Graphics 2000,而唯獨K系列所擁有的GFX為等級更高的HD Graphics 3000,兩者的區(qū)別是前者擁有6個EU,而后者則達到了12個,全面支持Turbo Boost動態(tài)調(diào)整頻率,最高頻率可達1350MHz,支持DX10.1、SM4.1,支持OpenGL 3.0,性能上HD Graphics 3000比上一代有了翻倍的增長。
此外這一代核顯還增加了Quick Sync轉(zhuǎn)碼加速技術(shù),利用內(nèi)置的編碼器可以支持MPEG2、VC1和H.264視頻各種的硬件編碼,Sandy Bridge所整合的圖形核心已實現(xiàn)了視頻解碼和編碼兩部分的硬件加速功能,可為用戶在視頻轉(zhuǎn)碼時節(jié)省更多的時間。
Gen7:Ivy Bridge
Ivy Bridge架構(gòu)圖
在Ivy Bridge上Intel針對核顯的改進還是兩個方向,首先是進一步提高GPU的性能,并且讓其支持DX11,第二點則是繼續(xù)提高核顯的功能,多屏輸出、高分辨率支持等。
Ivy Bridge的GPU增強了幾何前端、光柵化、像素后端處理、采樣器、尋址單元的并行運算能力,每周期可以執(zhí)行2個MAC操作,GPU可以直接讀取L3緩存中的數(shù)據(jù),圖形單元新增兩個可編程操作以及一個固定功能單元以支持曲面細分計算,并在解碼與顯示功能上做了升級。
同樣的核顯也分為兩種,分別是有16個EU單元的HD 4000和6個EU單元的的HD 2500,“K”系列處理器用的是HD 4000而其他處理器用的是HD 2500,最高頻率與SNB時代一樣是1350MHz,支持DX11、SM5.0,支持OpenGL 3.2,性能上HD 4000比上一代的HD 3000提升是67%。
Ivy Bridge支持Quick Sync 2.0編碼加速技術(shù),與第一代相比,2.0版不僅速度更快,而且畫質(zhì)也會更高。視頻輸出方面也從原來的雙屏上升到三屏輸出,最大分辨率從原來的2560*1600上升到4k*4k級別。
Gen7.5:Haswell
Haswell架構(gòu)圖
Haswell采用的是Gen7.5核顯,這一代開始Intel的核顯開始了模塊化、可擴展的設計,Haswell的顯示核心采用兩級EU團簇結(jié)構(gòu)設計,上級的叫Slice,下級的叫Subslice,每個Subslice擁有10個EU,2組Subslice單元組成了1組Slice單元,這一代在GT1和GT2兩個級別之上又誕生了GT3核心,從此Intel就走上了暴力堆砌核顯規(guī)格的道路。
Haswell的GT1、GT2、GT3核顯分別擁有10個、20個和40個EU單元,此外還有一個帶嵌入式eDRAM的GT3e,核顯集成了128MB eDRAM,位寬512bit,帶寬可達64GB/s,這個嵌入式eDRAM是作為L4緩存存在的,可以同時提升CPU和GPU性能。
Intel的核顯一直以來都用HD Graphics來命名,不過與NVIDIA的GeForce還有AMD的Radeon相比這個名字還是不夠霸氣,因此從Haswell處理器的核芯顯卡開始,英特爾將引入新的名字“Iris”和“Iris Pro”,中文名為“銳炬”和“銳炬Pro”,分別對應GT3以及GT3e核顯,具體型號則是Iris Graphics 5100和Iris Pro Graphics 5200。
這一代的桌面版酷睿處理器基本上都是使用GT2核顯,型號是HD Graphics 4600/4400,后者只用在Core i3-41xx系列處理器上,只有16個EU,對非K系列處理器來核顯性能是較上一代有大幅提升的,而真正需要高性能核顯的也是Core i3那種級別的,高端處理器基本都是配個獨顯。
奔騰和賽揚處理器配的是GT1核顯,而這一代最強的GT3e核顯只出現(xiàn)在兩款桌面級處理器上,就是Core i7-4770R和Core i5-4670R,然而這兩個都不零售,是針對OEM市場的產(chǎn)品。
Gen8:Broadwell
Broadwell-H內(nèi)部結(jié)構(gòu)
Broadwell主要都是面向移動市場,在桌面零售市場上其實就只有兩個CPU,Core i7-5775C和Core i5-5675C,配備Intel目前最強的Iris Pro 6200核顯,擁有128MB的eDRAM緩存,另外倍頻無鎖,可進行超頻。
Broadwell上的Gen8 GPU架構(gòu)示意圖
Broadwell上使用的是Gen8圖形核心,Intel重新設計了Subslice單元,每組的EU單元從之前的10個下降到了8個,在同樣的采樣器及調(diào)度器下這意味著每個EU單元的效率提升了,而彌補EU數(shù)量可以通過提升Subslice單元 總數(shù)來完成,所以Broadwell的1組Slice單元有3組Subslice單元,EU單元總數(shù)是24個,Broadwell的GT1、GT2、GT3核顯分別擁有12個、24個和48個EU單元。
桌面零售版那兩個配備的Iris Pro 6200屬于帶eDRAM的GT3e核心,得益于核心規(guī)模的大幅提升,Core i7-5775C的核顯性能較上一代Core i7-4790K提升了將近80%,性能甚至吊打之后桌面的各種Skylake衍生物,不知道它和Rocket Lake的Xe核顯比起來有多大差距。
Gen9:Skylake
Skylake處理器核心
Skylake使用的Gen9代GPU其實與Gen8有很多地方都是相似的,每組Subslice單元依舊是24個EU,但是最多可以擴展到3組Slice單元,也就是說最多會配備72個EU單元,因此Skylake也多出GT4這個級別的核顯。
GT4核顯可以支持3組Slice單元,72個EU單元
Skylake的Gen9架構(gòu)支持DX12、OpenCL 2.x、OpenGL 5.x、Vulkan等圖形規(guī)范,支持新的編譯器堆棧,功耗范圍從4W-65W+不等。此外,Gen9還支持HEVC/H.265、AVC、SVC、VP8、MJPG硬件加速,支持攝像頭RAW架構(gòu)。
多媒體方面,Gen9架構(gòu)支持單一固定功能單元以降低功耗,Quick Sync轉(zhuǎn)碼單元也設計了固定功能的編碼器以降低功耗、延遲。此外,Gen9的視頻解碼、轉(zhuǎn)碼加速還支持了HEVC(H.265)、VP8、MJPEG等標準。
Skylake處理器上啟用全新的核顯命名
然而GT3/GT3e/GT4e這樣的高性能核顯只使用在移動版處理器上,桌面版的Skylake處理器基本上都是使用只有24EU的GT2,雖然較桌面版Haswell來說性能還是有所提升,但是幅度只有20%。另外還有兩個“P”后續(xù)的處理器用的是GT1核顯。
Gen9.5:Kaby Lake/Coffee Lake/Comet Lake
提到Gen9.5核顯就不得不說陪伴大家多年的HD/UHD Graphics 630了,它用了Kaby Lake、Coffee Lake、Comet Lake三代架構(gòu),從桌面的第7代酷睿一直用到第10代酷睿,至今依然是Intel的現(xiàn)役產(chǎn)品。
Gen9.5增強了視頻硬解碼能力,使用了更強大的MFX多格式媒體編****硬件模塊,支持10bit HEVC、8/10bit VP9視頻格式的硬件解碼,10bit HEVC、8bit VP9視頻格式的硬件編碼;增加了Intel無線高清顯示技術(shù)支持,提高了AVC編碼效率。
對VQE視頻質(zhì)量引擎增加支持HDR和SDR,支持Rec.2020更寬廣的色域,使得輸出視頻畫面色彩具可塑性。從第八代酷睿處理器開始核顯名字從HD Graphics變成UHD Graphics,其實就是視頻輸出接口增加支持HDMI 2.0/HDCP 2.2標準,并沒有什么大變化。
而在Gen9.5核顯之后,因為Intel自己的10nm工藝難產(chǎn),導致Gen10核顯伴隨Cannon Lake處理器一同胎死腹中,使得Gen9.5核顯從2017年開始一直服役至今。
Gen11:Ice Lake
沉寂多年那之后 Intel的10nm工藝終于熟了,Ice Lake架構(gòu)攜同Gen11核顯一同出現(xiàn),得益于10nm工藝的高晶體管密度,Gen11的EU數(shù)量大幅提升,最大可以達到64組EU, 核顯首次達到了1TFlops的計算性能。
不過Ice Lake處理器只有用在第10代酷睿低功耗處理器上,桌面與移動標壓處理器都是Comet Lake,所以用Gen11核顯的處理器并不多,Intel一共提供了G1、G4和G7三種配置的核顯,分別有32/48/64組EU,低端的G1命名仍為“UHD”,而G4和G7都以“銳炬Plus”的品牌出現(xiàn)。
在架構(gòu)上,Gen11核顯通過增加單個Slice中含有的子Slice來擴大規(guī)模,使得每周期的計算次數(shù)增加。其次是在緩存系統(tǒng)上做文章,擴大了三級緩存的容量,Intel方面公布的是EU的三級緩存有3MB,并且還有0.5MB的本地共享內(nèi)存。另外還有通過處理器的內(nèi)存控制器升級,能夠用上更高的內(nèi)存帶寬。
相比8代酷睿處理器上搭載的Gen9核顯,官方宣稱可以提供平均約1.8倍的幀率。
此外Gen11核顯支持VRS可變速率著色,它可以在不重要的畫面上面節(jié)約一定的GPU資源,使這部分GPU資源參與更加重要的部分畫面的渲染中,從而提高了整體的幀數(shù),并且根據(jù)Intel的數(shù)據(jù), 在支持VRS的游戲中可以讓幀數(shù)最大提高了30%。
在視頻接口方面,Gen11核顯新增支持HDMI 2.0b和DisplayPort 1.4 HBR3,輸出的最高分辨率和幀數(shù)有所提升,并且支持HDR。
在視頻硬件編碼部分,也就是Intel QuickSync特性使用的獨立硬件電路上,Gen11核顯也有比較大的改進,現(xiàn)在支持兩條HEVC 10-bit同時進行編碼,在YUV444的情況下最高支持兩條4K60幀視頻流,或者一條YUV422的8K30幀視頻流。
Gen12:Xe
Intel的第12代顯示架構(gòu)名為Xe,它可以說是Intel這些年來最有野心的產(chǎn)品,Intel將Xe GPU的架構(gòu)描述為可擴展的向量-矩陣架構(gòu),它的高度可擴展性讓它能夠針對不同市場推出不同分支的架構(gòu)和產(chǎn)品,從面向高性能計算市場Xe-HPC,面向數(shù)據(jù)中心、AI計算的Xe-HP,再到面向游戲玩家的Xe-HPG和面向移動端的Xe-LP,多種多樣。
Tiger Lake與Rocket Lake處理器上所用的Xe-LP架構(gòu)是Xe架構(gòu)中面向于 低功耗產(chǎn)品的變種,架構(gòu)的主要關注點是能效比,也就是要在盡量低的能耗下提供盡量強的性能。
Tiger Lake-U集成的Xe-LP GPU擁有6組Slice共96組EU,在規(guī)模方面較Gen11核顯大了50%。而Tiger Lake-H與Rocket Lake上的核顯則只有2組Slice共32組EU,但與Comet Lake處理器相比圖形性能依然提升了50%。
在Xe-LP上,Intel大刀闊斧的對EU內(nèi)部進行了調(diào)整,首先Gen 11的一對一的線程控制單元現(xiàn)在變成一對二了,也就是一個線程控制單元實際要負責兩個EU的任務。再往下,到具體的ALU上面,現(xiàn)在每個EU中含有8個用于處理浮點或整數(shù)指令的ALU,另外還有兩個只針對擴展數(shù)學指令的ALU,從原本的4+4結(jié)構(gòu)變成了8+2,而且兩種類型的指令可以并行處理了。
在Xe-LP上,Intel大刀闊斧的對EU內(nèi)部進行了調(diào)整,首先Gen 11的一對一的線程控制單元現(xiàn)在變成一對二了,也就是一個線程控制單元實際要負責兩個EU的任務。再往下,到具體的ALU上面,現(xiàn)在每個EU中含有8個用于處理浮點或整數(shù)指令的ALU,另外還有兩個只針對擴展數(shù)學指令的ALU,從原本的4+4結(jié)構(gòu)變成了8+2,而且兩種類型的指令可以并行處理了。
顯示引擎方面,有四條4K分辨率級別的處理管線,支持兩條eDP,外部輸出接口則是支持DisplayPort 1.4和HDMI 2.0,當然,具體的輸出接口可以是DP和HDMI,也可以是USB-C。其他像是8K輸出、HDR10、Dolby Vision、12-bit BT2020色域和自適應同步都有支持,對顯示器的刷新率,最高可以支持到360Hz。這里很可惜的是,我們沒能見到原生的HDMI 2.1支持,廠商可能會通過轉(zhuǎn)接芯片去做支持。
媒體引擎方面,整個處理管線的編解碼性能提升了一倍,色深的支持升級到了12-bit,并且能夠支持HDR/Dolby Vision的回放。這里還有一個亮點是對AV1做了硬件解碼支持,這是一個面向于未來的特性。
目前大家見到的Xe核顯以及那個DG1獨顯只是Intel的Xe計劃的第一部,如無意外的話今明兩年內(nèi)我們會見到面向游戲玩家的Xe-HPG進入市場,屆時我們將會在獨顯市場見到三足鼎立的情景。
其實Intel在早期CPU與核顯的搭配是有些問題的,越強的CPU配越強的核顯,但實際需求明顯是反過來的,還好這個問題早就改過來了,現(xiàn)在的11代酷睿處理器就很明顯,只有四核的Tiger Lake-U配的是擁有96組EU的GT2核顯,而Rocket Lake-S與Tiger Lake-H這些八核處理器則只配32組EU的GT1核顯,因為Tiger Lake-U是用在輕薄本的,多數(shù)沒有獨顯,得靠自己的核顯,而Rocket Lake-S與Tiger Lake-H則多數(shù)會配獨顯,核顯的性能就顯得不那么重要了,稍微精簡一點也沒所謂。
下一代的Alder Lake會繼續(xù)使用Xe架構(gòu),同樣的核心數(shù)量更少的Alder Lake-P會配更強勁的GT2級別核顯,核心數(shù)量更多的Alder Lake-S則配GT1級別核顯,再下一代的Raptor Lake估計會用改良的版本。至于Xe架構(gòu)以后會如何進化,由于Intel從AMD的圖形部門挖了不少人,所以大家其實可以參考AMD的GCN,預計會一步步慢慢優(yōu)化挖掘Xe架構(gòu)的潛能,當然以Intel的家底,一邊優(yōu)化Xe的同時并行開發(fā)另一種架構(gòu)的GPU不是不可能的。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。