CPU+GPU 異構(gòu)計算成芯片巨頭新寵
近年來,隨著 AI 應(yīng)用的快速發(fā)展,引發(fā)一場算力革命,異構(gòu)計算也站在風(fēng)口浪尖。
本文引用地址:http://m.butianyuan.cn/article/202303/444766.htm異構(gòu)計算主要是指使用不同類型指令集和體系架構(gòu)的計算單元組成系統(tǒng)的計算方式。常見的計算單元類別包括 CPU、GPU、DSP、ASIC、FPGA 等。目前「CPU+GPU」以及「CPU+FPGA」都是受業(yè)界關(guān)注的異構(gòu)計算平臺。
近日,英特爾宣布將在未來一年半內(nèi)取消多款服務(wù)器 GPU 產(chǎn)品的發(fā)布計劃,其中包括 HPC 級的 Rialto Bridge GPU,以全力開發(fā)基于 Falcon Shores 的混合芯片。英特爾新一代 Falcon Shores 專為超級計算應(yīng)用而設(shè)計,將 CPU 和 GPU 技術(shù)結(jié)合到一個芯片封裝中,屆時將作為純 GPU 架構(gòu)面世。
值得注意的是,AMD 的 Instinct MI300 和英偉達(dá)的 Grace Hopper 超級芯片也是采用「CPU+GPU」的異構(gòu)形式。
CPU 與 GPU 的區(qū)別
CPU 即中央處理器(Central Processing Unit),作為計算機(jī)系統(tǒng)的運(yùn)算和控制核心,主要負(fù)責(zé)多任務(wù)管理、調(diào)度,具有很強(qiáng)的通用性,是計算機(jī)的核心領(lǐng)導(dǎo)部件,好比人的大腦。不過其計算能力并不強(qiáng),更擅長邏輯控制。
GPU 即圖形處理器(Graphics Processing Unit),采用數(shù)量眾多的計算單元和超長的流水線,擅長進(jìn)行圖像處理、并行計算。對于復(fù)雜的單個計算任務(wù)來說,CPU 的執(zhí)行效率更高,通用性更強(qiáng);對于圖形圖像這種矩陣式多像素點(diǎn)的簡單計算,更適合用 GPU 來處理。AI 領(lǐng)域中用于圖像識別的深度學(xué)習(xí)、用于決策和推理的機(jī)器學(xué)習(xí)以及超級計算都需要大規(guī)模的并行計算,因此更適合采用 GPU 架構(gòu)。
多核 CPU 與 GPU 的計算網(wǎng)格(圖中綠色方格為計算單元)
CPU 和 GPU 還有一個很大的區(qū)別就是:CPU 可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,但當(dāng)需要處理大量類型統(tǒng)一的數(shù)據(jù)時,則可調(diào)用 GPU 進(jìn)行并行計算。但 GPU 無法單獨(dú)工作,必須由 CPU 進(jìn)行控制調(diào)用才能工作。
CPU+GPU 架構(gòu)的優(yōu)勢及應(yīng)用
當(dāng) CPU 和 GPU 協(xié)同工作時,因?yàn)?CPU 包含幾個專為串行處理而優(yōu)化的核心,而 GPU 則由數(shù)以千計更小、更節(jié)能的核心組成,這些核心專為提供強(qiáng)勁的并行運(yùn)算性能而設(shè)計。程序的串行部分在 CPU 上運(yùn)行,而并行部分則在 GPU 上運(yùn)行。GPU 已經(jīng)發(fā)展到成熟階段,可輕松執(zhí)行現(xiàn)實(shí)生活中的各種應(yīng)用程序,而且程序運(yùn)行速度已遠(yuǎn)遠(yuǎn)超過使用多核系統(tǒng)時的情形。因此,CPU 和 GPU 的結(jié)合剛好可以解決深度學(xué)習(xí)模型訓(xùn)練在 CPU 上耗時長的問題,提升深度學(xué)習(xí)模型的訓(xùn)練效率。
隨著 CPU 與 GPU 的結(jié)合,其相較于單獨(dú) CPU 與 GPU 的應(yīng)用場景也不斷拓寬。
第一,CPU+GPU 架構(gòu)適用于處理高性能計算。伴隨著高性能計算類應(yīng)用的發(fā)展,驅(qū)動算力需求不斷攀升,但目前單一計算類型和架構(gòu)的處理器已經(jīng)無法處理更復(fù)雜、更多樣的數(shù)據(jù)。數(shù)據(jù)中心如何在增強(qiáng)算力和性能的同時,具備應(yīng)對多類型任務(wù)的處理能力,成為全球性的技術(shù)難題。CPU+GPU 的異構(gòu)并行計算架構(gòu)作為高性能計算的一種主流解決方案,受到廣泛關(guān)注。
第二,CPU+GPU 架構(gòu)適用于處理數(shù)據(jù)中心產(chǎn)生的海量數(shù)據(jù)。數(shù)據(jù)爆炸時代來臨,使用單一架構(gòu)來處理數(shù)據(jù)的時代已經(jīng)過去。比如:個人互聯(lián)網(wǎng)用戶每天產(chǎn)生約 1GB 數(shù)據(jù),智能汽車每天約 50GB,智能醫(yī)院每天約 3TB 數(shù)據(jù),智慧城市每天約 50PB 數(shù)據(jù)。數(shù)據(jù)的數(shù)量和多樣性以及數(shù)據(jù)處理的地點(diǎn)、時間和方式也在迅速變化。無論工作任務(wù)是在邊緣還是在云中,不管是人工智能工作任務(wù)還是存儲工作任務(wù),都需要有正確的架構(gòu)和軟件來充分利用這些特點(diǎn)。
第三,CPU+GPU 架構(gòu)可以共享內(nèi)存空間,消除冗余內(nèi)存副本來改善問題。在此前的技術(shù)中,雖然 GPU 和 CPU 已整合到同一個芯片上,但是芯片在運(yùn)算時要定位內(nèi)存的位置仍然得經(jīng)過繁雜的步驟,這是因?yàn)?CPU 和 GPU 的內(nèi)存池仍然是獨(dú)立運(yùn)作。為了解決兩者內(nèi)存池獨(dú)立的運(yùn)算問題,當(dāng) CPU 程式需要在 GPU 上進(jìn)行部分運(yùn)算時,CPU 都必須從 CPU 的內(nèi)存上復(fù)制所有的資料到 GPU 的內(nèi)存上,而當(dāng) GPU 上的運(yùn)算完成時,這些資料還得再復(fù)制回到 CPU 內(nèi)存上。然而,將 CPU 與 GPU 放入同一架構(gòu),就能夠消除冗余內(nèi)存副本來改善問題,處理器不再需要將數(shù)據(jù)復(fù)制到自己的專用內(nèi)存池來訪問/更改該數(shù)據(jù)。統(tǒng)一內(nèi)存池還意味著不需要第二個內(nèi)存芯片池,即連接到 CPU 的 DRAM。
因此,通過 CPU+GPU 異構(gòu)并行計算架構(gòu)組成的服務(wù)器,正成為服務(wù)器市場中的一匹黑馬?,F(xiàn)在已有多家芯片廠商開始跟進(jìn)。
芯片巨頭的香餑餑?
英特爾的 Falcon Shores
英特爾的 Falcon Shores XPU 專為超級計算應(yīng)用而設(shè)計,其將 CPU 和 GPU 合并到一個混合匹配芯片包中。Falcon Shores 代表了英特爾異構(gòu)架構(gòu)設(shè)計的延續(xù),其最終目標(biāo)是每瓦性能提高 5 倍,x86 插槽計算密度提高 5 倍以及現(xiàn)有服務(wù)器芯片的內(nèi)存容量和帶寬提高 5 倍。英特爾的高性能計算 CPU 和 GPU 路線圖與 Falcon Shores 匯合,表明這些芯片將在未來同時發(fā)揮這兩個作用。
英特爾超級計算集團(tuán)副總裁兼總經(jīng)理杰夫·麥克維(Jeff McVeigh)說,延遲推出的 Falcon Shores 將在 2025 年首次推出 GPU 內(nèi)核,但尚未表明何時將 CPU 內(nèi)核集成到設(shè)計中。因此,英特爾以 HPC 為中心的設(shè)計將落后于競爭對手?jǐn)?shù)年。
英偉達(dá)的 Grace Hopper 超級芯片
2021 年,英偉達(dá)推出解決 HPC 和大規(guī)模人工智能應(yīng)用程序的 Grace Hopper 超級芯片。這是一款完全專為大規(guī)模 AI 和高性能計算應(yīng)用打造的突破性加速 CPU。它通過英偉達(dá) NVLink-C2C 技術(shù)將 Grace 和 Hopper 架構(gòu)相結(jié)合,為加速 AI 和 HPC 應(yīng)用提供 CPU+GPU 相結(jié)合的一致內(nèi)存模型。
英偉達(dá)官方表示,使用 NVLink-C2C 互連,Grace CPU 將數(shù)據(jù)傳輸?shù)?Hopper GPU 的速度比傳統(tǒng) CPU 快 15 倍。另外,采用 CPU+GPU 的 Grace Hopper 核心數(shù)減半,LPDDR5X 內(nèi)存也只有 512GB,但多了顯卡的 80GB HBM3 內(nèi)存,總帶寬可達(dá) 3.5TB/s,代價是功耗 1000W,每個機(jī)架容納 42 個節(jié)點(diǎn)。
英偉達(dá) Grace Hopper 超級芯片計劃于 2023 年上半年推出。
AMD 的 Instinct MI300
在近日的 CES 2023 展會上,AMD 披露了面向下一代數(shù)據(jù)中心的 APU 加速卡產(chǎn)品 Instinct MI300。這顆芯片采用多芯片、多 IP 整合封裝設(shè)計,5nm 先進(jìn)制造工藝,晶體管數(shù)量多達(dá) 1460 億個。它同時集成 CDNA3 架構(gòu)的 GPU 單元 (具體核心數(shù)量未公開)、Zen4 架構(gòu)的 24 個 CPU 核心、大容量的 Infinity Cache 無限緩存,還有 8192-bit 位寬、128GB 容量的 HBM3 高帶寬內(nèi)存。
在技術(shù)方面,MI300 支持第四代 Infinity Fabric 總線、CXL 3.0 總線、統(tǒng)一內(nèi)存架構(gòu)、新的數(shù)學(xué)計算格式,號稱 AI 性能比上代提升多達(dá) 8 倍,可滿足百億億次計算需求。
AMD CEO 蘇姿豐近日確認(rèn),Instinct MI300 將在今年下半年正式推出。
英特爾的 Falcon Shores XPU 是與英偉達(dá)的 Grace Hopper 超級芯片和 AMD Instinct MI300 數(shù)據(jù)中心 APU 競爭的關(guān)鍵。英偉達(dá)的 Grace 和 AMD 的 MI300 都將于今年推出。值得注意的是,三家均選擇了 Chiplet 技術(shù)。
未來押注超異構(gòu)計算
關(guān)于異構(gòu)計算,英特爾中國研究院院長宋繼強(qiáng)曾表示:「在 2023 年,大家已經(jīng)完全接受了要通過異構(gòu)計算解決未來系統(tǒng)的設(shè)計和優(yōu)化問題。在 2020 年的時候,市場還在討論異構(gòu)集成是怎么一回事。而在 2023 年,大家都會基于功能的有效性、設(shè)計的難易程度、成本等方面的考量,自覺采用異構(gòu)計算的方式。」
關(guān)于對當(dāng)下的算力演進(jìn)方向的新判斷,宋繼強(qiáng)還提到:「傳統(tǒng)異構(gòu)計算并不能滿足現(xiàn)在計算的要求。而「超異構(gòu)計算」,已逐漸成為業(yè)界思考的一個趨勢」。
從實(shí)際來看,英特爾也確實(shí)正在押注「超異構(gòu)計算」這條道路。
英特爾提出的「超異構(gòu)計算」概念,在一定程度上可以理解為通過封裝技術(shù)所實(shí)現(xiàn)的模塊級系統(tǒng)集成,即通過先進(jìn)封裝技術(shù)將多個 Chiplet 裝配到一個封裝模塊當(dāng)中,既簡化了 SOC 的復(fù)雜技術(shù),更加靈活,又避免了 PCB 板級集成的性能和功耗瓶頸。
英特爾的「超異構(gòu)計算」路線以「Foveros」3D 封裝技術(shù)為基礎(chǔ)。相比 SiP 只能實(shí)現(xiàn)邏輯芯片與內(nèi)存的集成,「Foveros」可以在邏輯芯片與邏輯芯片之間實(shí)現(xiàn)真正的三維集成,使得芯片面積更小,同時保證芯片間的帶寬更大、速度更快、功耗更低。
不過,英特爾的「超異構(gòu)計算」的創(chuàng)新之處并不僅局限于 3D 封裝這一個層面。事實(shí)上,在制程、架構(gòu)、內(nèi)存、互連、安全、軟件等多個層面均具有領(lǐng)先優(yōu)勢?!赋悩?gòu)計算」的實(shí)現(xiàn)是建立在整合其多層面技術(shù)優(yōu)勢基礎(chǔ)上的。
除了英特爾之外,英偉達(dá)也已經(jīng)在執(zhí)行層面全面行動。英偉達(dá)在云、網(wǎng)、邊、端等復(fù)雜計算場景,基本上都有重量級的產(chǎn)品和非常清晰的迭代路線圖。
評論