博客專欄

EEPW首頁 > 博客 > 處理器的第三極

處理器的第三極

發(fā)布人:傳感器技術(shù) 時間:2022-08-09 來源:工程師 發(fā)布文章

很長一段時間,CPU 主導(dǎo)了整個數(shù)據(jù)中心,虛擬化算力成為云計算的重點。


直到人工智能應(yīng)用的爆發(fā)性增長,GPU 的芯片架構(gòu)被發(fā)現(xiàn)更適合支持大規(guī)模的AI模型訓(xùn)練和推理,GPU 成為數(shù)據(jù)中心第二大算力芯片。


當數(shù)據(jù)中心基礎(chǔ)設(shè)施遇到的瓶頸越來越難以克服時,新一代 DPU 出現(xiàn)了。


01
什么是DPU

從2021年下半年開始,陸陸續(xù)續(xù)出現(xiàn)了很多DPU領(lǐng)域的初創(chuàng)公司。DPU可以說是當前芯片行業(yè)最火熱的方向,可能沒有之一,風頭和聲勢甚至超過了AI芯片這個“前浪”。


DPU的出現(xiàn)是異構(gòu)計算又一個階段性標志。摩爾定律放緩使得通用CPU 性能增長的邊際成本迅速上升,數(shù)據(jù)表明現(xiàn)在CPU的性能年化增長(面積歸一 化之后)僅有3%左右1,但計算需求卻是爆發(fā)性增長,這幾乎是所有專用計算芯片得以發(fā)展的重要背景因素。
以AI芯片為例,千億級參數(shù)的超大型模型將算力需求推向了一個新的高度,DPU也不例外。
隨著2019 年我國以信息網(wǎng)絡(luò)等新型基礎(chǔ)設(shè)施為代表的“新基建”戰(zhàn)略帷幕的拉開,5G、 千兆光纖網(wǎng)絡(luò)建設(shè)發(fā)展迅速,云計算、數(shù)據(jù)中心、智算中心等基礎(chǔ)設(shè)施快速擴容。網(wǎng)絡(luò)帶寬從主流10G朝著25G、40G、100G、200G甚至400G發(fā)展。網(wǎng)絡(luò)帶寬和連接數(shù)的劇增使得數(shù)據(jù)的通路更寬、更密,直接將處于端、邊、云各處的計算節(jié)點暴露在了劇增的數(shù)據(jù)量下,而CPU的性能增長率與數(shù)據(jù)量增長率出現(xiàn)了顯著的“剪刀差”現(xiàn)象。所以,尋求效率更高的計算芯片就成為了業(yè)界的共識。

人們發(fā)現(xiàn),單純使用CPU并不能滿足AI工程師和調(diào)參者對算力的野心,而GPU特別適合這類計算。GPU上有成千上萬個小型計算單元,他們可以同時計算一個難題里的不同部分,然后再把結(jié)果結(jié)合起來,也就是“并行計算”。這種人海戰(zhàn)術(shù)比CPU的“串行計算”不知道要高到哪里去了。從此,CPU不再是數(shù)據(jù)中心里唯一的王。英偉達也成了世界上市值最高的芯片公司。

GPU的登場,只是這場大秀的序曲。把CPU的一大部分算力卸載給GPU之后,人們發(fā)現(xiàn)可以把很多其他功能也外包出去,于是又有了智能網(wǎng)卡或者SmartNIC


這個名字聽起來既不智能,也不上口,這也注定了它并不能被大多數(shù)人所認知。工程師通常不屑于營銷,但不可否認的是,沒有營銷,再好的產(chǎn)品也賣不出來。


當一個人既懂技術(shù)、又懂人心,創(chuàng)造一個新的概念就是順理成章的事情。


2020年10月,黃仁勛在英偉達GTC大會上將基于Mellanox的SmartNIC方案命名為數(shù)據(jù)處理單元(Data Processing Units, DPU)。


這一年,應(yīng)該可以算是DPU的元年。


DPU 是以數(shù)據(jù)為中心的 IO 密集型芯片,采用軟件定義技術(shù)路線支撐基礎(chǔ)設(shè)施資源層虛擬化,可以大幅提升計算系統(tǒng)效率、降低整體系統(tǒng)的總擁有成本。DPU可以通過軟件定義,延伸至存儲、安全等功能,從而滿足不同應(yīng)用場景的具體需求。因此,DPU 也被稱為繼 CPU、GPU之后的“第三塊主力芯片”。


DPU概念一炮而紅,吸引業(yè)內(nèi)眾多競爭者紛至沓來。作為主力芯片新物種,DPU 市場空間正快速擴張,預(yù)計至 2025 年,全球、國內(nèi)市場有望分別達到 245.3 億美元、565.9 億元,復(fù)合增速分別為 51.73%、170.60%。當前,DPU 正快速進入數(shù)據(jù)中心、云計算、智能駕駛、數(shù)據(jù)通信、網(wǎng)絡(luò)安全、信創(chuàng)、國防軍工等領(lǐng)域。


特別是在數(shù)據(jù)中心、云計算應(yīng)用場景,需求較為迫切。在智能駕駛領(lǐng)域,未來,每個車機節(jié)點都可視為小型數(shù)據(jù)中心,隨機將產(chǎn)生大量數(shù)據(jù)的處理、轉(zhuǎn)發(fā)、交換和存儲需求,為降低車載終端無線側(cè)傳輸時延,智能駕駛平臺有望配備相應(yīng) DPU 智能加速平。以 NVIDIA 為例,其智能駕駛平臺 Atlan 即集成了 DPU 芯片,并預(yù)計在 2025年用于車機之上。


面向DPU巨大潛在市場,海外科技巨頭加大布局力度,NVIDIA收購 Mellanox 并發(fā)布 BlueField DPU 系列產(chǎn)品,Intel 收購 Altera 發(fā)布 IPU 產(chǎn)品,Marvell 和 AMD 等公司 也積極跟進。到國內(nèi)的DPU創(chuàng)企中科馭數(shù)、星云智聯(lián)、大禹智芯、芯啟源、云豹智能,每一家企業(yè)都在摩拳擦掌,躍躍欲試。


經(jīng)過一波收購,在“DPU”全球市場,四天王已完成布局。

圖片


02
DPU與CPU、GPU的關(guān)系從SmartNIC變?yōu)镈PU并非簡單的改改名字。為了在數(shù)據(jù)中心充分實現(xiàn)應(yīng)用程序的效率,傳輸卸載、可編程的數(shù)據(jù)平面以及用于虛擬交換的硬件卸載等功能是SmartNIC的重要部分,但只是DPU的最基本要求之一。
要將SmartNIC提升到DPU的高度,還需要支持更多的功能,比如能夠運行控制平面,以及在Linux環(huán)境下提供C語言編程等。
DPU是面向數(shù)據(jù)中心的專用處理器,新增了AI、安全、存儲和網(wǎng)絡(luò)等各種加速功能,將成為新一代的重要算力芯片。它能夠完成性能敏感且通用的工作任務(wù)加速,更好地支撐CPU、GPU的上層業(yè)務(wù),成為整個網(wǎng)絡(luò)的中心節(jié)點。

老黃總結(jié)了3個DPU的特點:卸載、加速、隔離。對應(yīng)DPU的三個主要應(yīng)用場景:網(wǎng)絡(luò)、存儲、安全:

  • 卸載:數(shù)據(jù)中心網(wǎng)絡(luò)服務(wù),比如虛擬交換、虛擬路由;數(shù)據(jù)中心存儲服務(wù),比如RDMA、NVMe(可以把它們理解成一些遠程存儲技術(shù));數(shù)據(jù)中心的安全服務(wù),比如防火墻、加解密等等

  • 加速:上面說的那些服務(wù)和應(yīng)用通常使用軟件實現(xiàn),并在CPU里運行。而DPU可以使用硬件實現(xiàn)并運行這些應(yīng)用,這樣比軟件運行要快好幾個數(shù)量級,這也就是我們常常會聽到的“硬件加速”

  • 隔離:由于上面說的應(yīng)用在DPU里運行,而用戶應(yīng)用在CPU里運行,這樣就把二者隔離開了。這樣會帶來很多安全和性能上的好處


一些基本的定位分析:

  • 獨立的DPU定位在基礎(chǔ)設(shè)施處理器,主要是硬件加速

  • 獨立的GPU主要做應(yīng)用層的彈性計算加速

  • 而CPU主要負責低計算密度高價值密度的應(yīng)用層的工作


如下圖所示:CPU有60個面積單位,共計60個CPU核;GPU有60個面積單位,共計60個GPU Core(差不多對應(yīng)流式多核處理器SM);而DPU則由10個CPU核、10個GPU核以及40個其他加速引擎核組成。

圖片


CPU是整個IT生態(tài)的定義者,無論是服務(wù)器端的x86還是移動端的ARM,都各自是構(gòu)建了穩(wěn)固的生態(tài)系統(tǒng),不僅形成技術(shù)生態(tài)圈,還形成了閉合價值鏈。
GPU是執(zhí)行規(guī)則計算的主力芯片,如圖形渲染。經(jīng)過NVIDIA對通用GPU (GPGPU)和CUDA編程框架的推廣,GPU在數(shù)據(jù)并行的任務(wù)如圖形圖像、深度學(xué)習(xí)、矩陣運算等方面成為了主力算力引擎,并且成為了高性能計算最重要的輔助計算單元。2021年6月公布的Top500高性能計算機(超級計算機)的前10 名中,有六臺(第2、3、5、6、8、9名)都部署有NVIDIA的GPU。

DPU的出現(xiàn)是異構(gòu)計算的一個階段性標志。與GPU的發(fā)展類似,DPU是應(yīng)用驅(qū)動的體系 結(jié)構(gòu)設(shè)計的又一典型案例;但與GPU不同的是,DPU面向的應(yīng)用更加底層。隨著DPU將數(shù)據(jù)中心的基礎(chǔ)設(shè)施操作從CPU上卸載過來,數(shù)據(jù)中心將形成DPU、GPU、CPU三位一體的狀態(tài)。


DPU首先作為計算卸載的引擎,直接效果是給CPU“減負”。DPU的部分功能可以在早期的TOE(TCP/IP Offloading Engine)中看到。正如其名,TOE就是將CPU的處理TCP協(xié)議的任務(wù)“卸載”到網(wǎng)卡上。


傳統(tǒng)的TCP軟件處理方式雖然層次清晰,但也逐漸成為網(wǎng)絡(luò)帶寬和延遲的瓶頸。軟件處理方式對CPU的占用,也影響了CPU處理其他應(yīng)用的性能。TCP卸載引擎(TOE)技術(shù),通過將TCP協(xié)議和IP協(xié)議的處理進程交由網(wǎng)絡(luò)接口控制器進行處理,在利用硬件加 速為網(wǎng)絡(luò)時延和帶寬帶來提升的同時,顯著降低了 CPU 處理協(xié)議的壓力。


網(wǎng)絡(luò)數(shù)據(jù)處理結(jié)構(gòu)分析:

圖片


03
DPU的實現(xiàn)形式

主流的DPU三種技術(shù)路線對比:

  • 一是以通用眾核處理器為基礎(chǔ)DPU(FPGA路線),例如Broadcom的Stingray架構(gòu),以多核ARM為核心,以眾取勝,可編程靈活性較好,但是應(yīng)用針對性不夠,對于特殊算法和應(yīng)用的支持,與通用CPU相比并無太顯著優(yōu)勢

  • 二是以專用核為基礎(chǔ)的異構(gòu)核陣列(ASIC路線),這種架構(gòu)的特點是針對性較強、性能較好,但是犧牲了部分靈活性,如IPU

  • 三是將通用處理器的可編程靈活性與專用的加速引擎相結(jié)合(MP路線),正在成為最新的產(chǎn)品趨勢,以NVIDIA的BlueField-3系列DPU來看,就包括16個ARM核及多個專用加速引擎,F(xiàn)ungible的DPU則包含6大類的專用核,和52個MIPS小型通用核

圖片


主流的DPU廠家產(chǎn)品對比:

圖片


04
DPU構(gòu)建新一代數(shù)據(jù)中心

DPU要解決的核心問題是基礎(chǔ)設(shè)施的“降本增效”,即將“CPU處理效率低 下、GPU處理不了”的負載卸載到專用DPU,提升整個計算系統(tǒng)的效率、降低 整體系統(tǒng)的總體擁有成本(TCO)。DPU的出現(xiàn)也許是體系結(jié)構(gòu)朝著專用化路線發(fā)展的又一個里程碑。


DPU最直接的作用是作為CPU的卸載引擎,接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力到上層應(yīng)用。


從處理網(wǎng)絡(luò)負載和卸載 CPU 任務(wù)的智能網(wǎng)卡,演變成新一代數(shù)據(jù)中心算力和服務(wù)的核心,讓云服務(wù)商“將基礎(chǔ)設(shè)施和客戶應(yīng)用分而治之”,這個思想也指導(dǎo)著數(shù)據(jù)基礎(chǔ)設(shè)施領(lǐng)域近年來的諸多創(chuàng)新。


隨著單一服務(wù)器的網(wǎng)絡(luò)端口的速度達到 200G 或以上,原來的網(wǎng)絡(luò)、存儲、虛擬化、安全等基礎(chǔ)設(shè)施多方面任務(wù),已經(jīng)無法有效率地由 CPU 承載,而將這一類基礎(chǔ)設(shè)施任務(wù)轉(zhuǎn)移到新的計算單元 DPU 上,這也就意味著,DPU 的設(shè)計邏輯需要遵從軟件定義思路,它一定是靈活且兼具可編程性的,可以支持不同客戶的不同業(yè)務(wù)和私有協(xié)議。


有幾個重要的研究報告強有力地證明了,這些基礎(chǔ)設(shè)施任務(wù)的運行可以消耗大量的 CPU 性能。


一項由哈佛大學(xué)和谷歌的團隊在 2015 年發(fā)表的研究報告 Profiling a warehouse-scale computer 稱,該研究對谷歌數(shù)據(jù)中心業(yè)務(wù)和數(shù)以萬計的服務(wù)器進行了經(jīng)過三年深度分析,結(jié)果顯示,跨越不同服務(wù)器的應(yīng)用所產(chǎn)生的屬于基礎(chǔ)設(shè)施類的任務(wù)構(gòu)成了“數(shù)據(jù)中心稅”,消耗了服務(wù)器中約 30% 的算力資源。該報告也指出,因為谷歌數(shù)據(jù)中心服務(wù)器數(shù)量龐大,若每臺服務(wù)器資源利用率能提升一點,都會帶來巨大的成本效益。


另一項研究是 Meta 數(shù)據(jù)中心團隊 2020 年的分析 Accelerometer: Understanding Acceleration Opportunities for Data Center Overheads at Hyperscale。該團隊對運行在 Facebook 計算優(yōu)化數(shù)據(jù)中心平臺上的微服務(wù)進行全面描述,發(fā)現(xiàn)執(zhí)行核心應(yīng)用程序邏輯只占用 CPU 18% 的時間;剩余時間完全用于非應(yīng)用程序邏輯核心的一般操作。也就是說,在 Facebook 執(zhí)行核心應(yīng)用時,其數(shù)據(jù)中心里的 CPU 82% 的時間都消耗在基礎(chǔ)設(shè)施類任務(wù),這個數(shù)字是相當驚人的。也正因如此,F(xiàn)acebook 團隊態(tài)度更加鮮明地表示,“加速此類基礎(chǔ)設(shè)施的通用模塊,可以極大地提高數(shù)據(jù)中心的性能”。


全球云計算老大亞馬遜云 AWS 最早看到數(shù)據(jù)中心算力的瓶頸和提升空間,因此 AWS 也是最早嘗試自研 DPU 芯片的云服務(wù)商。AWS 的數(shù)據(jù)中心體量最為龐大,因此對于算力痛點的體會是最深刻的。其CTO Werner Vogels 就公開表示過,傳統(tǒng)架構(gòu)的數(shù)據(jù)中心已經(jīng)優(yōu)化到了極限


在傳統(tǒng)架構(gòu)下,大量的資源浪費在算力、網(wǎng)絡(luò)、存儲的運營和調(diào)度管理上,這些資源沒有為客戶提供直接價值。

圖片

(圖|AWS Nitro;來源:AWS)


對此,AWS 的提出的解決方案,就是把大部分虛擬機管理程序遷移到其自研的 DPU —— Nitro 中。


以網(wǎng)絡(luò)協(xié)議處理為例:

要線速處理10G的網(wǎng)絡(luò)需要的大約4個Xeon CPU的核,也就是說,單是做網(wǎng)絡(luò)數(shù)據(jù) 包處理,就可以占去一個8核高端CPU一半的算力。如果考慮40G、100G的高速 網(wǎng)絡(luò),性能的 開銷就 更 加 難 以 承 受 了。A m a z o n 把這些開銷都稱 之 為 “Datacenter Tax”,即還未運行業(yè)務(wù)程序,先接入網(wǎng)絡(luò)數(shù)據(jù)就要占去的計算資源。AWS Nitro產(chǎn)品家族旨在將數(shù)據(jù)中心開銷(為虛擬機提供遠程資源,加密解密,故障跟蹤,安全策略等服務(wù)程序)全部從CPU卸載到Nitro加速卡上,將給 上層應(yīng)用釋放30%的原本用于支付“Tax” 的算力!


效果是立竿見影的,Nitro 的應(yīng)用成功證實了 DPU 的市場價值,管理云服務(wù)的程序從原來的 CPU 轉(zhuǎn)移到 DPU 上之后:

  • CPU 的資源幾乎可以完全用來運行客戶業(yè)務(wù)負載,其 DPU 使用上不但靈活還兼具高性能

  • 在成本上,DPU 令寶貴的 CPU 資源被充分利用,AWS 大幅提高了能售賣給云客戶的算力資源

  • 對于云客戶來說,他們同樣買到了更高性價比的算力


通過 DPU 達到其數(shù)據(jù)中心的算力資源利用率最大化,AWS 迎來了前所未有的最高云服務(wù)利潤:2022 年第一季度,AWS 業(yè)務(wù)實現(xiàn)收入 184 億美元,同比去年增長 36.6%;利潤 65.1 億美金,同比去年增長 57%,利潤率 35.3% 達到了歷史新高。這些數(shù)字的背后,離不開其自研的 DPU 芯片 Nitro。


05
DPU助力算力提升

隨著“東數(shù)西算”在2022年2月正式啟動,進一步加速了全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點的建設(shè)步伐。在《2021-2022全球計算力指數(shù)評估報告》顯示,算力指數(shù)每提高一個點,數(shù)字經(jīng)濟和GDP將分別增長千分之3.3和千分之1.8。算力已經(jīng)成為了數(shù)字經(jīng)濟時代核心生產(chǎn)力。


直觀的理解算力網(wǎng)絡(luò)包含兩個關(guān)鍵部分:一是“算力”,二是“網(wǎng)絡(luò)”。然而,“算力網(wǎng)絡(luò)”的效力不應(yīng)該是二者的簡單的加和,而應(yīng)該是“倍乘”,通過網(wǎng)絡(luò)來對算力進行價值放大,承載更多的應(yīng)用。缺乏算力的網(wǎng)絡(luò)只能作為數(shù)據(jù)的傳輸網(wǎng),而缺乏網(wǎng)絡(luò)的算力的使用價值也將大大降低。


根據(jù)著名的梅特卡夫定律,一個網(wǎng)絡(luò)的價值等于該網(wǎng)絡(luò)內(nèi)的節(jié)點數(shù)的平方。對于算力網(wǎng)絡(luò),宏觀來看“節(jié)點”包括一下兩部分:

  • 各種算力中心(如數(shù)據(jù)中心、超算中心、智算中心、邊緣計算節(jié)點等等)

  • 服務(wù)的終端應(yīng)用(如PC、智能手機等具有強交互性的設(shè)備,也包括攝像頭、智能電表等弱交互性設(shè)備)


圖片


為了便于分析算力相關(guān)的核心基礎(chǔ)技術(shù),我們把算力劃分為兩大類:

  • 應(yīng)用層算力(Application-Domain Computing Power)

    • 用于執(zhí)行業(yè)務(wù)層應(yīng)用的算力,例如視頻解析,數(shù)據(jù)查詢,路徑規(guī)劃,圖像渲染等,大體對應(yīng)到全系統(tǒng)分層架構(gòu)SaaS和PaaS層

  • 基礎(chǔ)層算力(Infrastructure-Domain Computing Power)

    • 用來做資源池化,數(shù)據(jù)轉(zhuǎn)發(fā),壓縮存儲,加密解密,文件系統(tǒng),網(wǎng)絡(luò)功能虛擬化等基礎(chǔ)層負載的算力


預(yù)計應(yīng)用算力的提升主要來自于專用服務(wù)器的采用,雖然局部來看,應(yīng)用層算力一方面得益于更高性能CPU、GPU的采用,另一方面得益于計算從通用走向?qū)S玫倪^程中各種FPGA和ASIC的XPU的引入。雖然引入了大量專用計算單元,但宏觀來看,得益于CPU的核心地位,仍然可以維持算力的通用性。


基礎(chǔ)算力層的核心功能之一是構(gòu)建算力流通的“管道”,在傳統(tǒng)系統(tǒng)架構(gòu)中,網(wǎng)絡(luò)與計算是分離,計算的主體是服務(wù)器,網(wǎng)絡(luò)的主體是網(wǎng)卡、路由器和交換機。


隨著DPU技術(shù)的逐漸成熟,我們看到大量原本在服務(wù)器上運行的基礎(chǔ)層負載可以被卸載到與服務(wù)器CPU直連的DPU上,保持網(wǎng)絡(luò)特性的功能不再由服務(wù)器端的CPU來維護。DPU的存在,將本地物理資源虛擬化,也將遠層訪問本地化。


DPU開始承載基礎(chǔ)算力的角色,并且是在不改變現(xiàn)有路由器和交換機的前提下。DPU的出現(xiàn)也使得網(wǎng)內(nèi)計算(In-Network Computing)的成熟度得到進一步提升。

注:本節(jié)內(nèi)容選自中科馭數(shù) CEO 鄢貴海先生《關(guān)于“算力網(wǎng)絡(luò)”底層技術(shù)的思考 一文,特此說明。

06
DPU,云廠商兵家必爭之地

DPU的戰(zhàn)鼓早已敲響,未來五年,中國DPU市場規(guī)?;虺|。作為數(shù)據(jù)中心的“叱咤紅人”,DPU勢必會是各個巨頭和初創(chuàng)公司的必爭之地。自研、并購、融資各家公司拿出看家本領(lǐng)來搶占市場先機。


云廠商、芯片大廠、初創(chuàng)公司……誰執(zhí)牛耳?

圖片


如果不解決數(shù)據(jù)中心資源利用率低下造成的算力供需矛盾,未來還會有更多的算力需求無法匹配上供給。羅蘭·貝格 Roland Berger 公司就預(yù)測,從 2018 年到 2030 年,無人駕駛算力需求增加 390 倍,數(shù)字貨幣算力需求增加約 2000 倍,VR 游戲算力需求增加約 300 倍。有能力解決這個問題的 DPU 創(chuàng)企,一旦抓住時代機遇便可快速發(fā)展。


特別是國內(nèi)數(shù)據(jù)中心產(chǎn)業(yè)正處于高速發(fā)展期,本身就為 DPU 的應(yīng)用提供了很好的土壤。再加上國內(nèi)從政府到社會層面意識到芯片產(chǎn)業(yè)具有經(jīng)濟性和戰(zhàn)略性雙重屬性,對國產(chǎn)芯片提供前所未有的扶持,以及像東數(shù)西算這樣的大工程提供了國產(chǎn) DPU 充分的商用場景,必定可以培育出有世界競爭力的 DPU 芯片公司,做出一款世界級芯片。


越是高端的芯片產(chǎn)品,準入門檻就越高,“贏家獨贏”的特點也越明顯,即資本、人才、客戶等行業(yè)資源會不斷地集中到頭部企業(yè)。


一家頭部芯片企業(yè)的市占率,可能比幾家非頭部企業(yè)的市占率總和還要高很多倍。非頭部芯片企業(yè)的生存空間會非常小,其投資者的風險也特別大。


雖然 DPU 市場目前仍是一片藍海,但也會不可避免地走向贏家通吃的局面。

(正文完)來源:技術(shù)大院


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 處理器

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉