企業(yè) | 英特爾GPU架構(gòu)深度解讀

發(fā)布人：旺材芯片時(shí)間：2020-08-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

在英特爾2020年度架構(gòu)日中，英特爾將大量時(shí)間用于討論公司的GPU架構(gòu)計(jì)劃。雖然這對英特爾來說并非罕見，但目前該公司仍然以CPU內(nèi)核而聞名。因此，他們在圖形方面的市場關(guān)注度一直較弱。但是正如英特爾在其他領(lǐng)域的舉措，隨著時(shí)代的變化，英特爾不僅將越來越多的裸芯片投入到GPU中，而且在接下來的兩年中，他們正在轉(zhuǎn)變?yōu)镻C GPU領(lǐng)域真正意義上的第三人，并且推出了他們的首個(gè)產(chǎn)品：獨(dú)立GPU。

從英特爾曾宣布的Xe GPU架構(gòu)可以看出，該公司打算成為一家自上而下的GPU供應(yīng)商。這意味著Intel要為數(shù)據(jù)中心和HPC集群到高端游戲機(jī)和筆記本電腦的所有產(chǎn)品提供分離式和集成的GPU。由于這些涉及到大量的工程設(shè)計(jì)，因此對于一家在過去十年中僅提供集成GPU的公司來說，這是一次巨大的飛躍。但終于在經(jīng)過數(shù)年的討論和展望之后，英特爾客戶想象中的Xe即將成為現(xiàn)實(shí)。

我們將在其他文章中重點(diǎn)介紹與Xe相關(guān)的內(nèi)容，本文的重點(diǎn)內(nèi)容是Xe-LP。我們先快速回顧一下英特爾Xe計(jì)劃的現(xiàn)狀，目前的最新動(dòng)態(tài)以及Xe-LP更大的適用范圍。

早在2018年首次宣布時(shí)，英特爾就制定了針對單個(gè)GPU架構(gòu)Xe的計(jì)劃，該架構(gòu)由三個(gè)不同的微架構(gòu)組成：Xe-LP，Xe-HP和Xe-HPC。Xe-LP分別從底部到頂部跨越市場，并進(jìn)入集成和入門級(jí)離散圖形，然后Xe-HP進(jìn)入發(fā)燒級(jí)和數(shù)據(jù)中心部分，最終Xe-HPC將用于高性能計(jì)算集群。例如，即將到來的Aurora正是美國能源部期待已久的超級(jí)計(jì)算機(jī)。

從那時(shí)起，英特爾對該計(jì)劃進(jìn)行了一些修訂，曾經(jīng)的三個(gè)微體系結(jié)構(gòu)變成了四個(gè)。在今天的英特爾年度架構(gòu)日中，英特爾宣布推出Xe-HPG，這是針對游戲芯片的另一種微架構(gòu)。本文將重點(diǎn)討論Xe-HPG，而這正是英特爾產(chǎn)品堆棧中缺失的高層次難題，因?yàn)榕cXe-HP相比，它提供了高性能的游戲和圖形芯片。該芯片聚焦于數(shù)據(jù)中心功能，例如FP64和多區(qū)塊可伸縮性。Xe-HPG計(jì)劃將于2021年啟動(dòng)，與Xe系列的其他產(chǎn)品不同的是，Xe-HPG將完全由第三方工廠制造。

由于Xe-LP再次引發(fā)熱議，今年英特爾首款Xe微體系結(jié)構(gòu)的推出變得更加重要。為了應(yīng)用于更廣泛的設(shè)計(jì)，英特爾針對Xe的計(jì)劃包括建立連續(xù)的Xe部件（對Xe-HPC而言，這一點(diǎn)尤為重要）。該設(shè)計(jì)包含越來越多的基本構(gòu)建基塊以擴(kuò)展GPU的數(shù)量（即便如此還是不夠）。因此，Xe-LP是Xe系列的基礎(chǔ)，這一點(diǎn)不僅適用于圖形，也適用于架構(gòu)。英特爾為Xe-LP設(shè)計(jì)的產(chǎn)品將對整個(gè)Xe產(chǎn)品堆棧產(chǎn)生重大影響。

Xe-LP：與Tiger Lake集成，但屬于分離式

英特爾針對Xe的產(chǎn)品計(jì)劃雖然看似將它們推廣到了更廣泛的領(lǐng)域，但這正是由于英特爾GPU始終具有一個(gè)相同的起點(diǎn)：集成顯卡。作為英特爾新推出的Tiger Lake SoC的一部分，Xe和Xe-LP將在市場上首次亮相，該公司將于9月2日推出該芯片。盡管英特爾并沒有談?wù)揟iger Lake產(chǎn)品方面的其他內(nèi)容（英特爾寧愿保留今天的架構(gòu)，也不愿在9月發(fā)布產(chǎn)品），但Tiger Lake顯然是Xe-LP設(shè)計(jì)的重點(diǎn)。因此，正如我們在討論Xe-LP的功能時(shí)所得出的結(jié)論：是 Tiger Lake促成了這一切。

今日，據(jù)英特爾官方透露， Tiger Lake的零件只用一個(gè)Xe-LP切片就明顯達(dá)到極限?，F(xiàn)在，這一代產(chǎn)品已經(jīng)成為Intel基本的GPU執(zhí)行單元（EU）中的96個(gè)。總體而言，該公司的目標(biāo)是使Ice Lake（Gen11）圖形的性能提升至2倍。

但是Xe-LP不僅僅應(yīng)用于Tiger Lake。正如英特爾先前所披露，該公司正在開發(fā)分布式GPU版本，他們將其稱為DG1。DG1的設(shè)計(jì)用于與筆記本電腦和其他移動(dòng)設(shè)備中的Tiger Lake配對。DG1是20多年來英特爾首款分布式GPU，也是英特爾GT3和GT4e集成GPU配置的精神繼任者。相較于使用大型GPU來構(gòu)建小批量CPU設(shè)計(jì)，英特爾更傾向于OEM廠商出售的分布式GPU，該GPU基于集成GPU的體系結(jié)構(gòu)和10nm SuperFin工藝。

DG1將于今年發(fā)貨，所以敬請期待它在性能更高的Tiger Lake筆記本電腦中出現(xiàn)。但是，英特爾在其他方面的披露很少，因?yàn)樗麄兘裉鞗]有談?wù)撚嘘P(guān)產(chǎn)品配置的其他信息。因此，盡管我們知道它基于Xe-LP并且專注于移動(dòng)設(shè)備（英特爾已排除了應(yīng)用于臺(tái)式機(jī)的所有可能性），但我們沒有任何諸如配置或內(nèi)存等內(nèi)容的官方詳細(xì)信息。
作為最終支柱，服務(wù)器空間會(huì)留在Xe-LP上。英特爾將為他們稱為SG1的服務(wù)器提供一個(gè)四核GPU產(chǎn)品。這個(gè)基于四個(gè)DG1 GPU的產(chǎn)品將替代英特爾的Xeon可視化計(jì)算加速器系列。Xeon VCA卡旨在利用英特爾早期的集成GPU，其以英特爾的QuickSync媒體模塊來加速該過程，從而瞄準(zhǔn)視頻編碼市場?，F(xiàn)在，英特爾擁有分布式GPU，因此他們不再需要為視頻編碼市場組合CPU，而可以僅使用GPU出售加速器。對于更大的GPU生態(tài)系統(tǒng)來說，這是一個(gè)利基市場。但是對于英特爾來說，這是一個(gè)至關(guān)重要的市場。因此他們希望SG1能使服務(wù)器運(yùn)營商崛起并且獲得關(guān)注，或者至少擺脫其令人厭惡的寄生蟲形象。

Xe-LP功能集：具有可變速率陰影的DirectX FL 12_1

在介紹完了架構(gòu)深層驅(qū)動(dòng)器之后，本文首先將簡要概述Xe-LP的圖形功能集。因?yàn)榇颂帥]有太多新話題要討論，我將其稱為快速摘要。

從API級(jí)別的角度來看，Xe-LP的功能集實(shí)際上與Intel的Gen11圖形集完全相同。與AMD的RDNA1架構(gòu)不同，英特爾已決定將精力集中在更新GPU架構(gòu)的底層方面，從而對底層部分進(jìn)行諸多更改。最終，相對于圖形功能而言，上層的變化相對較小。

最終結(jié)果是Xe-LP是DirectX功能級(jí)別12_1加速器，并且他還具有幾個(gè)附加功能。尤其是第1層的可變速率陰影（最初在Intel的Gen11硬件中引入）在Xe-LP中又回來了。盡管不如更新的2層功能實(shí)現(xiàn)強(qiáng)大，但它提供基本的VRS支持，并且游戲可以按每次渲染請求設(shè)置。值得注意的是，英特爾仍然是唯一支持第1層的供應(yīng)商。AMD和NVIDIA已經(jīng)（或正在）直接進(jìn)入第2層。

至少對英特爾來說這是一個(gè)好消息，在AMD將其逐步納入其所有產(chǎn)品之前，他們已經(jīng)在Gen11方面領(lǐng)先于這場比賽，甚至為其最慢的集成GPU都提供了12_1支持。因此，在這一點(diǎn)上，英特爾仍然可以與其他集成顯卡解決方案相提并論。

不利之處在于，這也意味著英特爾是唯一一家在2020年推出不支持下一代功能的新GPU /體系結(jié)構(gòu)的硬件供應(yīng)商，Microsoft＆co將其命名為DirectX 12 Ultimate。功能級(jí)別12_2面向消費(fèi)者的商品名DirectX Ultimate結(jié)合了對可變速率著色第2層的支持，以及光線跟蹤，網(wǎng)格著色器和采樣器反饋。對英特爾而言，能否在2020年的集成部分進(jìn)行光線追蹤的始終是一個(gè)很大的疑問。但是能有所進(jìn)展已經(jīng)令人欣慰。另外，由于它是不帶12_2功能的獨(dú)立GPU，因此DG1顯得有些奇怪。

Xe-LP切成薄片：96個(gè)EU擴(kuò)大50％

英特爾沒有把重點(diǎn)放在高級(jí)圖形功能上，而是將注意力轉(zhuǎn)移到了GPU的低級(jí)架構(gòu)細(xì)節(jié)上。Xe-LP是未來Xe GPU的奠基石，因此，在這個(gè)領(lǐng)域，英特爾需要正確地處理設(shè)計(jì)和功率效率方面的問題，以便為構(gòu)建未來的產(chǎn)品奠定穩(wěn)固的基礎(chǔ)。
可以肯定的是，英特爾早期GPU設(shè)計(jì)中的基礎(chǔ)類比范圍也是如此。盡管Xe是一個(gè)新的品牌，并且是英特爾更大的起點(diǎn)，但它并不是僅僅是英特爾GPU的設(shè)計(jì)。相反，它是Gen11的重點(diǎn)發(fā)展，其更新和替換了出于可伸縮性或效率方面的原因而需要更改的那些位。因此，Gen11可以保留很多東西，而Intel GPU的基本組織結(jié)構(gòu)保持不變。

與往常一樣，這意味著我們將從Xe-LP Slice和英特爾的總體GPU設(shè)計(jì)目標(biāo)開始。英特爾公司最大的通用構(gòu)建塊，即公司的GPU分為一個(gè)或多個(gè)切片，一個(gè)切片包含計(jì)算和渲染所需的核心功能塊的完整副本。這包括幾何圖形和柵格前端，線程分配硬件，EU本身，紋理單元以及ROP像素后端。

英特爾借助Xe-LP將片中的幾乎所有內(nèi)容擴(kuò)展了50％。這意味著與Intel的Gen11 iGPU碰巧只占一小塊的情況相比，在GPU的大多數(shù)方面都可以多執(zhí)行50％的執(zhí)行硬件。這包括增加50％的EU（使總數(shù)增加到96個(gè)EU），紋理單元和ROP，總速率分別為48像素/時(shí)鐘和24像素/時(shí)鐘。

切片中沒有被這樣一個(gè)因素明確放大的唯一部分是前端。仍然有一個(gè)單獨(dú)的幾何/柵格化器/像素調(diào)度前端為切片的其余部分提供數(shù)據(jù)，并且由于Intel尚未披露幾何吞吐量的任何變化，我在這里假設(shè)Intel仍僅按時(shí)鐘每時(shí)鐘調(diào)度1個(gè)基元片。因此，任何改進(jìn)都必須取決于時(shí)鐘速度。
而且時(shí)鐘速度肯定在提高。與英特爾的Willow Cove CPU內(nèi)核一樣，該公司正在努力提高其新的10納米SuperFin工藝的能效和時(shí)鐘速度的改進(jìn)，以使其能夠提高GPU時(shí)鐘速度以滿足其性能目標(biāo)。正如我們之前討論的那樣，英特爾希望在這里將Gen11的GPU性能提高一倍，而執(zhí)行硬件的50％最多只能滿足一半的需求，其余的大部分增長將來自更高的時(shí)鐘速度。作為參考，英特爾的Ice Lake部件最高達(dá)到1.1 GHz，因此，鑒于英特爾的性能預(yù)測，看到Tiger Lake和DG1達(dá)到1.6 GHz或更高的頻率也就不足為奇了。

因此，完善英特爾提高GPU性能的計(jì)劃來自Xe-LP設(shè)計(jì)的第三大支柱：提高效率。EUs的增加促使了FLOP的增加，而提高能效使Intel可以將芯片的時(shí)鐘提高到更高，以增加更多FLOP。但是僅增加FLOP是不夠的，體系結(jié)構(gòu)的有效吞吐量還必須提高，這樣才能將更多的理論上的FLOP轉(zhuǎn)化到（convert？）實(shí)際工作中。

這就是英特爾秘訣的來源，而英特爾技術(shù)市場部門的貢獻(xiàn)并不多。我們會(huì)在短時(shí)間內(nèi)對EU進(jìn)行一些顯著的低層更改，但這些更改更多是關(guān)于推動(dòng)上述電源效率更改。相反，吞吐量效率的變化更加模糊。在這里，英特爾只是告訴我們，他們已經(jīng)使用工作負(fù)載分析來識(shí)別并消除整個(gè)GPU中的多個(gè)小瓶頸，從而提高圖形和計(jì)算吞吐量的效率。
英特爾的L1緩存更改也可能在其中起作用，盡管該公司目前并沒有過多地考慮這些更改。不過，我們將在查看整個(gè)內(nèi)存系統(tǒng)時(shí)再稍作討論。

分片重組

另一方面，擴(kuò)大總體范圍導(dǎo)致英特爾已經(jīng)重組了更大范圍內(nèi)的子范圍。子切片在某些方面類似于NVIDIA SM和GPU中的一個(gè)較小的構(gòu)建塊，其專注于各種形式的計(jì)算和著色以及紋理化。對于英特爾的Gen11 GPU，該公司將GPU分為8個(gè)子切片，每個(gè)子切片包含8個(gè)EU。但是，使用Xe-LP可以擴(kuò)大每個(gè)子分片的數(shù)量，并減少總分片的數(shù)量。

Xe-LP上的完整片現(xiàn)在是6個(gè)子片。每個(gè)Xe-LP子片段依次看到其許多屬性都翻了一番。子切片中的EU數(shù)量增加了一倍，達(dá)到16個(gè)，而子紋理采樣器的吞吐量已從4像素/時(shí)鐘提高到8像素/時(shí)鐘。每個(gè)子切片還獲得一個(gè)L1數(shù)據(jù)/紋理緩存，該緩存為64KB，可以在L1數(shù)據(jù)和紋理存儲(chǔ)之間動(dòng)態(tài)分配。該緩存似乎將取代Gen11記錄不充分的L2緩存，后者在層次結(jié)構(gòu)中扮演著類似的角色。
這些子更改又與英特爾對EU所做的一些更改并存，我們將在下一頁介紹這些更改。由于EUs失去了一點(diǎn)點(diǎn)獨(dú)立性并變得結(jié)對，每個(gè)子線程的線程控制單元數(shù)保持恒定為8。因?yàn)榭傮w而言它們需要處理和管理的子線程更少了，所以這可能有助于英特爾針對未來解決方案的可擴(kuò)展性。
這一變化的結(jié)果意味著，英特爾的iGPU可擴(kuò)展性步驟也將有所不同。Ice Lake出廠時(shí)啟用了64個(gè)EU（8個(gè)子分區(qū)），48個(gè)EU（6個(gè)子分區(qū)）或32個(gè)EU（4個(gè)子分區(qū)），具體取決于SKU，而Tiger Lake的粒度現(xiàn)在僅為切片的六分之一。因此，這意味著一半的GPU現(xiàn)在為48個(gè)EU（3個(gè)子分區(qū)），一個(gè)完整的GPU為96個(gè)EU（6個(gè)子分區(qū)），并且英特爾必須決定是否以及如何在啟用80或64個(gè)EU的情況下在中間運(yùn)輸SKU。由于英特爾今天不提供生產(chǎn)信息，我們只能進(jìn)行相關(guān)推測。但是如果在完全啟用的Xe-LP iGPU之后的下一層是64 EU配置，則其性能將大大下降，造成了33％潛在增長的損失。

Xe-LP執(zhí)行單元：成雙成對

更深入地講，我們擁有Xe-LP GPU架構(gòu)中最小的線程級(jí)構(gòu)建塊，即古老的執(zhí)行單元。多年來，英特爾已對其進(jìn)行了幾次調(diào)整，而對于Xe-LP，它們又在進(jìn)行調(diào)整。
作為快速更新單元，截止到英特爾的Gen11 GPU架構(gòu)為止，EU由一個(gè)線程控制單元和兩組4寬SIMD組成。一個(gè)塊處理浮點(diǎn)數(shù)和整數(shù)運(yùn)算，而另一塊可以處理浮點(diǎn)數(shù)和特殊函數(shù)，英特爾將其稱為“擴(kuò)展運(yùn)算”。盡管如此，Gen11的最小波面寬度為8個(gè)線程寬（SIMD8），因此執(zhí)行一個(gè)波面可能需要多個(gè)時(shí)鐘周期，而英特爾會(huì)將多個(gè)波面交織為一種延遲隱藏形式。

同時(shí)，Xe-LP給EU的設(shè)計(jì)帶來了一些重要的變化。首先，一個(gè)EU不再是一個(gè)獨(dú)立的大區(qū)?，F(xiàn)在，兩個(gè)EU共享一個(gè)線程控制單元。結(jié)果，線程控制單元現(xiàn)在獲得了兩個(gè)EU（不再是一個(gè)）的組合資源來分散工作。盡管SIMD陣列本身也發(fā)生了變化，這使問題進(jìn)一步復(fù)雜化，但其影響在于，GPU中的線程控制單元現(xiàn)在越來越少，這將減少在任何給定時(shí)刻In-flight波面數(shù)量。
實(shí)際上，有人爭論這兩個(gè)EU是否為描述它們的最準(zhǔn)確方法。最佳選擇將它們捆綁在一起作為一個(gè)單一的“大EU”，因?yàn)檫@兩個(gè)部分都不是真正獨(dú)立的。但是由于缺少更多底層細(xì)節(jié)，而且我確定英特爾希望在對EU進(jìn)行計(jì)數(shù)時(shí)保持半一致性，所以他們選擇了96個(gè)“小EU”。
同時(shí)，無論您如何捆綁EU，都存在EU本身的問題。對于Xe-LP，英特爾已經(jīng)重組了SIMD模塊。一對具有功能差異的SIMD4已不再支持SIMD8和SIMD2。較大的SIMD8本質(zhì)上將先前在Gen11的兩個(gè)SIMD4模塊之間分配的所有浮點(diǎn)和整數(shù)ALU組合在一起，并從中分離出一個(gè)SIMD8。最終結(jié)果是FPU ALU的數(shù)量沒有改變（每個(gè)EU仍然是8個(gè)ALU），但是可以處理整數(shù)的管道數(shù)量已經(jīng)改變（從4到8），可以擴(kuò)展的ALU數(shù)量也已經(jīng)改變運(yùn)算法則（從4到2）。

說到這一點(diǎn)，擴(kuò)展運(yùn)算現(xiàn)在已移至其自己的SIMD2，并且每個(gè)EU都有一個(gè)。這意味著執(zhí)行擴(kuò)展的數(shù)學(xué)函數(shù)不再像Gen11那樣直接阻止浮點(diǎn)算術(shù)的執(zhí)行（EU不必為此放棄FP管道）。需要著重強(qiáng)調(diào)的一點(diǎn)是，EU可以同時(shí)向FP / INT SIMD8和EM SIMD2同時(shí)發(fā)布指令，這意味著在至少某些情況下，進(jìn)行擴(kuò)展運(yùn)算也不會(huì)間接阻止FP / INT運(yùn)算。

與共同發(fā)布時(shí)出現(xiàn)的問題一樣，細(xì)節(jié)仍然很棘手。在這一點(diǎn)上，我們尚不清楚共同發(fā)布的局限性是什么。但它仍然很可能更適合英特爾實(shí)際看到的那種工作負(fù)載。AMD和NVIDIA還使用專用的EM / SFU單元，并且比例也很小，對于這兩家公司來說，所有這些似乎都很好。因此，在這方面，英特爾的ALU設(shè)置看起來更像是它的現(xiàn)代競爭對手。我懷疑，這也是英特爾為了從Xe-LP上相同數(shù)量的FLOP中獲取更多效果而做出的瓶頸優(yōu)化形式之一。
這些ALU更改還會(huì)影響波面在GPU中的移動(dòng)方式。SIMD8是常規(guī)算術(shù)中最小的ALU陣列，英特爾的最小波面尺寸現(xiàn)在與底層硬件相同。這意味著Xe-LP至少在最小波面尺寸的情況下，不再需要多個(gè)周期來在單個(gè)周期內(nèi)從波面執(zhí)行一條指令。在Gen11中，英特爾還允許存在SIMD16和SIMD32波陣面，而我正在等待Xe-LP白皮書以確認(rèn)是否保留了這些（在這種情況下，它們?nèi)匀恍枰鄠€(gè)周期），或者英特爾是否正在將所有內(nèi)容強(qiáng)制設(shè)為SIMD8。
值得注意的是，這一變化與AMD去年的RDNA（1）架構(gòu)非常相似，它通過增加SIMD大小并返回其波面大小來消除波面的多周期執(zhí)行。在這種情況下，這樣做是為了幫助保持其SIMD插槽的占用率更高，并減少指令等待時(shí)間，如果英特爾也遇到類似的情況，我不會(huì)感到驚訝。

這種重組的另一個(gè)好處是，英特爾能夠從整體上簡化其線程調(diào)度硬件。直到第11代，英特爾仍在使用硬件記分板來確定何時(shí)運(yùn)行線程以及何時(shí)準(zhǔn)備就緒線程的數(shù)據(jù)。但是，借助Xe-Lp，計(jì)分板已經(jīng)轉(zhuǎn)移到軟件中，由英特爾編譯器來負(fù)責(zé)。
遷移到軟件計(jì)分系統(tǒng)意味著必須由軟件預(yù)先確定計(jì)劃（這樣會(huì)使其變得靜態(tài)，并有可能導(dǎo)致計(jì)劃不盡人意），好處就是硬件計(jì)分板會(huì)由于權(quán)力立場和模面積變得相當(dāng)昂貴。因此，轉(zhuǎn)向軟件計(jì)分制可以實(shí)現(xiàn)更小，更省電的EU，這反過來又體現(xiàn)了英特爾建立大量EU并提高整體能源效率的能力?？傮w而言，這與NVIDIA在十年前通過開普勒對其體系結(jié)構(gòu)所做的更改相對應(yīng)。他們在開普勒上同樣采用了軟件記分板，以提高能效（并同時(shí)保持高性能）。

數(shù)字決定EU吞吐量

現(xiàn)在我們已經(jīng)有幸看到在EU層面所做的所有更改，下面我們來談?wù)勥@對于EU的實(shí)際吞吐率意味著什么。

從浮點(diǎn)開始都很簡單。盡管對ALU進(jìn)行了重組，但每個(gè)EU的FP ALU數(shù)量仍為8。因此，與Gen11一樣，每個(gè)EU的FP吞吐量仍保持在16 FP32 ops / clock和32 FP16 ops / clock。
另一方面，對于整數(shù)吞吐量，具有整數(shù)功能的ALU的數(shù)量相對于Gen11體系結(jié)構(gòu)已從4倍增加到8倍。結(jié)果，整數(shù)吞吐量也增加了一倍：Xe-LP每個(gè)時(shí)鐘周期可以保存8個(gè)INT32運(yùn)算或32個(gè)INT16運(yùn)算，而Gen11分別為4和16。但是，這的確意味著Xe-LP保留了Gen11的不尋常的INT32故障。INT32速率僅是FP32速率的一半，而INT16速率等于FP16速率。
最后，毫無疑問的是Xe-LP沒有等效于張量核心或其他脈動(dòng)ALU的數(shù)組來進(jìn)行密集的數(shù)學(xué)運(yùn)算，這已經(jīng)成為神經(jīng)網(wǎng)絡(luò)訓(xùn)練推理的全部方法。該硬件將以Xe Matrix eXtensions（XMX）的形式出現(xiàn)在Xe系列的后面，但現(xiàn)在Xe-LP必須與常規(guī)的EU接軌。

但是出于這個(gè)原因，英特爾在其EUSIMD中又增加了一項(xiàng)功能，即對INT8點(diǎn)產(chǎn)品的支持。在過去的幾年中，INT8在神經(jīng)網(wǎng)絡(luò)推理中變得越來越流行，而點(diǎn)積反過來又是該過程中非常普遍的一種操作。因此，增加對INT8點(diǎn)產(chǎn)品的支持使Xe-LP在這種形式的AI執(zhí)行中得到了極大的推動(dòng)。INT8在使用DP4A指令之后，其吞吐率可以高達(dá)64 ops / clock，是INT16吞吐率的兩倍。

Xe-LP媒體和顯示控制器

接下來我們討論最后一點(diǎn)：Xe-LP架構(gòu)的GPU的非渲染方面--媒體和顯示控制器。此處的更改并不像對核心體系結(jié)構(gòu)的更改那樣引人注目，但是在這些功能塊中進(jìn)行的改進(jìn)通過支持新的媒體格式和新的顯示連接協(xié)議，有助于使整個(gè)GPU保持最新狀態(tài)。
首先，讓我們談?wù)劽襟w引擎。雖說英特爾沒有對Xe-LP進(jìn)行大量修改，英特爾對引擎做了一些明智的添加。此處的選框功能很容易支持AV1解碼加速，使Intel成為三巨頭中第一個(gè)為新編****添加硬件解碼支持的供應(yīng)商。

人們普遍期望，即將出現(xiàn)的免版稅編****將成為H.264 / AVC的真正繼任者，因?yàn)镠EVC進(jìn)入市場已經(jīng)有很多年了（并且已經(jīng)受到最近所有的GPU支持）。編****附近的madcap專利使用費(fèi)情況不利于其采用。相比之下，AV1在分發(fā)中的使用應(yīng)提供與HEVC相似或略好于HEVC的質(zhì)量，而無需支付版稅，這使其對內(nèi)容供應(yīng)商的吸引力更大。迄今為止，AV1的一個(gè)缺點(diǎn)是CPU占用大量內(nèi)存。一方面是出于對電池壽命的考慮，而另一方面是確保流暢和無故障的播放，這些都使得硬件解碼支持變得更加重要。
同時(shí)，類似于英特爾的渲染性能目標(biāo)，該公司一直致力于提高媒體引擎的編碼和解碼吞吐量。據(jù)英特爾稱，更新后的模塊現(xiàn)在能夠?qū)崿F(xiàn)高達(dá)2倍的編碼和解碼吞吐量。對于消費(fèi)類計(jì)算機(jī)而言這似乎無關(guān)緊要，但是對于SG1服務(wù)器產(chǎn)品而言，它尤為重要，因?yàn)樗鼘Ｗ⒂谂烤幋a。
最后，在對媒體引擎進(jìn)行的較小更改中，英特爾增加了對HDR和Dolby Vision播放的官方支持。即使速度很慢，對HDR的支持將繼續(xù)向PC推廣，因此這是確保較新的PC能夠處理以這些格式編碼的HDR內(nèi)容的重要一步。同樣值得注意的是對英特爾HEVC編碼模塊的改進(jìn)。為了在提高具有靜態(tài)或接近靜態(tài)圖像內(nèi)容的HEVC壓縮率，該模塊現(xiàn)在支持HEVC屏幕內(nèi)容編碼（SCC）擴(kuò)展，

Xe-LP顯示控制器：DisplayPort 1.4，HDMI 2.0和8K顯示器

最后需要特別提到的一點(diǎn)就是，我們擁有Xe-LP的顯示引擎。如同在媒體塊方面，這里沒有根本性的變化，但是整個(gè)過程中都有一些可喜的改進(jìn)。
也許最大的變化會(huì)發(fā)生在數(shù)年之后，英特爾最終會(huì)增加第四條顯示管道，這意味著到時(shí)候GPU可以驅(qū)動(dòng)四個(gè)獨(dú)立的顯示器。在此之前，Gen11和其之前的設(shè)計(jì)只能處理三個(gè)顯示器，盡管即使這個(gè)數(shù)目超出大多數(shù)人的使用范圍，但四個(gè)顯示器足以讓其他GPU設(shè)計(jì)難以望其項(xiàng)背。最近對雙屏筆記本電腦和其他具有多個(gè)顯示器的移動(dòng)設(shè)備的推動(dòng)將會(huì)使事情更加復(fù)雜化，因?yàn)檫@將吞噬這三個(gè)輸出中的兩個(gè)。

值得注意的是，英特爾還添加了第二個(gè)嵌入式DisplayPort輸出，這對于那些雙屏設(shè)備非常有用。
否則，其基本顯示輸出選項(xiàng)會(huì)與Gen11相同。Xe-LP支持DisplayPort 1.4和HDMI 2.0。由于HDMI 2.1電視現(xiàn)在已經(jīng)上市，因此后者有點(diǎn)令人失望，但是對于Intel來說，去花更多的時(shí)間來采用更新的HDMI標(biāo)準(zhǔn)并非罕見。這些顯示輸出還可以饋入U(xiǎn)SB4 / Thunderbolt 4端口，其中DisplayPort數(shù)據(jù)是一流的公民，可以復(fù)用到信號(hào)中，也可以通過alt模式重新配置端口。
雖說在英特爾的框圖上并不明顯，該公司還是進(jìn)行了一些重大更改以更好地為顯示控制器供電。具體來說，該公司增加了顯示引擎可用的帶寬，以便處理DisplayPort 1.4設(shè)計(jì)用于饋送的超高分辨率顯示器。因此，該控制器現(xiàn)在具有足夠的帶寬和內(nèi)部處理能力，可以驅(qū)動(dòng)8K UHD顯示器以及最新一代的360Hz顯示器。

性能期望與初衷

英特爾結(jié)束了對GPU架構(gòu)的深入研究，盡管其沒有利用今年的架構(gòu)日來討論特定的產(chǎn)品和SKU，但公司確實(shí)花了一些時(shí)間討論對Xe-LP的性能期望，并在其中提供了一些有關(guān)Xe-LP快速圖像化的實(shí)際行動(dòng)。遺憾的是，我們不允許錄制演示過程（但還是有人泄露了這些演示），但我們將在英特爾向公眾發(fā)布副本后立即將其發(fā)布在此處。

如前所述，無論如何，英特爾的目標(biāo)是使Ice Lake（Gen11）的圖形性能提高一倍，Xe-LP將通過更寬的GPU（更多的硬件），更節(jié)能的GPU（允許更高的時(shí)鐘頻率）以及效率更高的GPU（更高的IPC）的組合來實(shí)現(xiàn)?？紤]到他們沒有從全新的工藝節(jié)點(diǎn)中受益，這是一個(gè)崇高的目標(biāo)，但是英特爾似乎對其新的10nm SuperFin工藝節(jié)點(diǎn)的性能潛力，以及通過向其嘗試過的產(chǎn)品中其投入更多硬件獲得的回報(bào)頗有信心。

通過對Ice Lake和Ryzen 3000“ Renoir”筆記本電腦的評論進(jìn)行查看，我們可以看到自己的性能數(shù)據(jù)，如果Intel能夠達(dá)到其性能目標(biāo)，那么Tiger Lake應(yīng)該能夠領(lǐng)先于AMD的同類U系列Ryzen APU。一如往常，這將取決于游戲本身，但是在GPU受限的情況下，高端Ice Lake筆記本電腦永遠(yuǎn)不會(huì)落后30％左右。但是，由于我們在談?wù)撘苿?dòng)場景，因此電源和散熱始終是可能使筆記本電腦無法使用的潛在威脅。對于超便攜式游戲筆記本電腦更是如此，英特爾無疑將希望其合作伙伴制造具有匹配散熱功能的筆記本電腦，從而為Tiger Lake提供一切可能的成功機(jī)會(huì)。
除了幀率，英特爾還希望Xe-LP的性能能夠大大提高圖像質(zhì)量的標(biāo)準(zhǔn)。為了提供必要的幀率，集成顯卡通常會(huì)提高圖像質(zhì)量，因此將iGPU性能提高一倍將使許多游戲可以在更高圖像質(zhì)量設(shè)置下運(yùn)行。這又會(huì)因游戲而異，但是至少出于促銷目的，英特爾盯上了Tiger Lake / Xe-LP，因?yàn)樗鼈兡軌蛟贗ce Lake只能處理低畫質(zhì)的游戲是以高圖像質(zhì)量運(yùn)行。

但是Xe-LP不僅是集成的圖形解決方案，它還適用于離散圖形。盡管我們熱切期望獲得更多有關(guān)DG1的信息，但是鑒于英特爾今天將重點(diǎn)放在產(chǎn)品的架構(gòu)上，我們所面臨的問題多于答案。英特爾針對Xe-LP制定了一個(gè)非常有趣且對OEM友好的計(jì)劃，并且通過為iGPU和可選的離散GPU利用相同的架構(gòu)。OEM會(huì)希望看到，他們將不必驗(yàn)證和加載用于集成和離散GPU的單獨(dú)GPU驅(qū)動(dòng)程序。
但是，最重要的是，英特爾還拒絕回答與1000萬像素的相關(guān)問題：Tiger Lake的iGPU是否能夠與DG1協(xié)同工作？英特爾當(dāng)然還沒有開始抹除這個(gè)想法，但是他們也沒有證實(shí)這一想法。即使這樣，如果他們使用多GPU渲染，他們會(huì)成功嗎？臺(tái)式機(jī)上的多GPU渲染幾乎已經(jīng)消失。這是有原因的：在現(xiàn)代渲染技術(shù)下，它往往無法很好地發(fā)揮作用，并且可能會(huì)增加相當(dāng)多的輸入滯后。有關(guān)以上問題的答案，以及英特爾是否能夠克服多GPU渲染的傳統(tǒng)缺陷，絕對會(huì)對DG1 GPU的商業(yè)可行性產(chǎn)生巨大影響。因此，我們將熱切期望這些問題能夠得到回答。

否則，Xe-LP標(biāo)志著英特爾GPU架構(gòu)發(fā)展的重要一步，不必在意成為自上而下的GPU供應(yīng)商的計(jì)劃中的巨大墊腳石。盡管Xe-LP僅面向筆記本電腦，但它是英特爾更大的基礎(chǔ)：Xe-LP將成為未來整代GPU的基礎(chǔ)。因此，英特爾在功能，架構(gòu)以及最重要的方面所做的工作，對于從游戲硬件到超級(jí)計(jì)算機(jī)的所有功能，功率效率都會(huì)產(chǎn)生巨大的影響。從許多方面來說，這都是英特爾進(jìn)入新時(shí)代的曙光，他們希望這是一個(gè)比他們留下的更好的時(shí)代。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

企業(yè) | 英特爾GPU架構(gòu)深度解讀

相關(guān)推薦

技術(shù)專區(qū)