行業(yè)首部DPU白皮書出爐!比肩CPU/GPU的數(shù)據(jù)時代核芯,巨頭紛紛入場
DPU,繼CPU和GPU之后的“第三顆主力芯片”。
編輯 | 智東西內(nèi)參
近日,中科院計算所行業(yè)首次發(fā)布了報告《專用數(shù)據(jù)處理器 (DPU)白皮書》。DPU(Data Processing Unit)是以數(shù)據(jù)為中心構(gòu)造的專用處理器,采用軟件定義技術(shù)路線支撐基礎(chǔ)設(shè)施層資源虛擬化,支持存儲、安全、服務(wù)質(zhì)量管理等基礎(chǔ)設(shè)施層服務(wù)。
DPU正在開啟一個巨大的產(chǎn)業(yè)化趨勢,可以為下一代數(shù)據(jù)中心、5G邊緣計算、云計算提供核心組件。2020年NVIDIA公司發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”,掀起了一波行業(yè)熱潮。DPU的出現(xiàn)是異構(gòu)計算的一個階段性標志。
我們推薦中科院計算所的報告《專?數(shù)據(jù)處理器 (DPU)白皮書》, 重點分析DPU產(chǎn)生的背景、技術(shù)特征和發(fā)展趨勢
來源 中科院計算所
原標題:
《專?數(shù)據(jù)處理器 (DPU)白皮書》
作者: 鄢貴海 等
什么是DPU
與GPU的發(fā)展類似,DPU是應(yīng)用驅(qū)動的體系結(jié)構(gòu)設(shè)計的又一典型案例;但與GPU不同的是,DPU面向的應(yīng)用更加底層。DPU要解決的核心問題是基礎(chǔ)設(shè)施的“降本增效”,即將“CPU處理效率低下、GPU處理不了”的負載卸載到專用DPU,提升整個計算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本(TCO)。DPU的出現(xiàn)也許是體系結(jié)構(gòu)朝著專用化路 線發(fā)展的又一個里程碑。
DPU中的“D”有三種解釋:(1)Data Processing Unit,即數(shù)據(jù)處理器。這種解釋把“數(shù)據(jù)”放在核心位置,區(qū)別于信號處理器、基帶處理器等通信相關(guān)的處理器對應(yīng)的“信號”,也區(qū)別于GPU對應(yīng)的圖形圖像類數(shù)據(jù),這里的“數(shù)據(jù)”主要指數(shù)字化以后的各種信息,特別是各種時序化、結(jié)構(gòu)化的數(shù)據(jù),比如大型的結(jié)構(gòu)化表格,網(wǎng)絡(luò)流中的數(shù)據(jù)包,海量的文本等等。DPU就是處理這類數(shù)據(jù)的專用引擎。
(2)Datacenter Processing Unit,即數(shù)據(jù)中心處理器。這種解釋把數(shù)據(jù)中心作為DPU的應(yīng)用場景,特別是隨著WSC(Warehouse-scale Computer)的興起,不同規(guī)模的數(shù)據(jù)中心成為了IT核心基礎(chǔ)設(shè)施。目前來看,DPU確實在數(shù)據(jù)中心中使用前景非常廣闊。但是計算中心的三大部分:計算、網(wǎng)絡(luò)、存儲,計算部分是CPU占主導,GPU輔助;網(wǎng)絡(luò)部分是路由器和交換機,存儲部分是高密度磁盤構(gòu)成的的RAID系統(tǒng)和SSD為代表非易失性存儲系統(tǒng)。在計算和網(wǎng)絡(luò)中扮演數(shù)據(jù)處理的芯片都可以稱之為Datacenter Processing Unit,所以這種說法相對比較片面。
(3)Data-centric Processing Unit,即以數(shù)據(jù)為中心的處理器。Data-centric,即數(shù)據(jù)為中心,是處理器設(shè)計的一種理念,相對于“Control-centric”即控制為中心。經(jīng)典的馮諾依曼體系結(jié)構(gòu)就是典型的控制為中心的結(jié)構(gòu),在馮諾依曼經(jīng)典計算模型中有控制器、計算器、存儲器、輸入和輸出,在指令系統(tǒng)中的表現(xiàn)是具有一系列非常復雜的條件跳轉(zhuǎn)和尋址指令。
而數(shù)據(jù)為中心的理念與數(shù)據(jù)流(Data Flow)計算一脈相承,是一種實現(xiàn)高效計算的方法。同時,現(xiàn)在試圖打破訪存墻(Memory Wall)的各種近存(Near-memory)計算、存內(nèi)(In-memory)計算、存算一體等技術(shù)路線,也符合數(shù)據(jù)為中心的設(shè)計理念。
總體來說,DPU有四大應(yīng)用方向,應(yīng)用于網(wǎng)絡(luò)、存儲和安全場景:
(1)、DPU最直接的作用是作為CPU的卸載引擎,接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力到上層應(yīng)用;
(2)、DPU可以成為新的數(shù)據(jù)網(wǎng)關(guān),將安全隱私提升到一個新的高度。在網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)接口是理想的隱私的邊界,但是加密、解密算法開銷都很大,例如國密標準的非對稱加密算法SM2、哈希算法SM3和對稱分組密碼算法SM4。
如果用CPU來處理,就只能做少部分數(shù)據(jù)量的加密。在未來,隨著區(qū)塊鏈承載的業(yè)務(wù)的逐漸成熟,運行共識算法POW,驗簽等也會消耗掉大量的CPU算力。而這些都可以通過將其固化在DPU中來實現(xiàn),甚至DPU將成為一個可信根。
(3)、DPU也可以成為存儲的入口,將分布式的存儲和遠程訪問本地化。隨著SSD性價比逐漸可接受,部分存儲遷移到SSD器件上已經(jīng)成為可能,傳統(tǒng)的面向機械硬盤的SATA協(xié)議并不適用于SSD存儲,所以,將SSD通過本地PCIe或高速網(wǎng)絡(luò)接入系統(tǒng)就成為必選的技術(shù)路線。
(4)、DPU還可以成為算法加速的沙盒,成為最靈活的加速器載體。DPU不完全是一顆固化的ASIC,在CXL、CCIX等標準組織所倡導CPU、GPU與DPU等數(shù)據(jù)一致性訪問協(xié)議的鋪墊下,將更進一步掃清DPU編程障礙,結(jié)合FPGA等可編程器件,可定制硬件將有更大的發(fā)揮空間,“軟件硬件化”將成為常態(tài),異構(gòu)計算的潛能將因各種DPU的普及而徹底發(fā)揮出來。
2、DPU與CPU、GPU的關(guān)系CPU是整個IT生態(tài)的定義者,無論是服務(wù)器端的x86還是移動端的ARM,都各自是構(gòu)建了穩(wěn)固的生態(tài)系統(tǒng),不僅形成技術(shù)生態(tài)圈,還形成了閉合價值鏈。
GPU是執(zhí)行規(guī)則計算的主力芯片,如圖形渲染。經(jīng)過NVIDIA對通用GPU(GPGPU)和CUDA編程框架的推廣,GPU在數(shù)據(jù)并行的任務(wù)如圖形圖像、深度學習、矩陣運算等方面成為了主力算力引擎,并且成為了高性能計算最重要的輔助計算單元。2021年6月公布的Top500高性能計算機(超級計算機)的前10名中,有六臺(第2、3、5、6、8、9名)都部署有NVIDIA的GPU。
數(shù)據(jù)中心與超極計算機不同,后者主要面向科學計算,如大飛機研制,石油勘探、新****物研發(fā)、氣象預(yù)報、電磁環(huán)境計算等應(yīng)用,性能是主要指標,對接入帶寬要求不高;但數(shù)據(jù)中心面向云計算商業(yè)化應(yīng)用,對接入帶寬,可靠性、災(zāi)備、彈性擴展等要求更高,與之相適應(yīng)發(fā)展起來的虛擬機、容器云、并行編程框、內(nèi)容分發(fā)網(wǎng)等等技術(shù),都是為了更好的支撐上層商業(yè)應(yīng)用如電商、支付、視頻流、網(wǎng)盤、辦公OA等。
但是這些IaaS和PaaS層的服務(wù)開銷極大,Amazon曾公布AWS的系統(tǒng)開銷在30%以上。如果需要實現(xiàn)更好的QoS,在網(wǎng)絡(luò)、存儲、安全等基礎(chǔ)設(shè)施服務(wù)上的開銷還會更高。
這些基礎(chǔ)層應(yīng)用類型與CPU架構(gòu)匹配程度不高導致計算效率低下?,F(xiàn)有的CPU的架構(gòu)有兩個大類:多核架構(gòu)(數(shù)個或數(shù)十幾個核)和眾核架構(gòu)(數(shù)百個核以上),每種架構(gòu)支持唯一的規(guī)范通用指令集之一,如x86、ARM等。以指令集為界,軟件和硬件被劃分開來分別獨立發(fā)展,迅速的催生了軟件產(chǎn)業(yè)和微處理器產(chǎn)業(yè)的協(xié)同發(fā)展。
但是,隨著軟 件復雜度的上升,軟件的生產(chǎn) 率(Productivity)得到更多的重視,軟件工程學科也更加關(guān)注如何高效地構(gòu)建大型軟件系統(tǒng),而非如何用更少的硬件資源獲得盡可能高的執(zhí)行性能。
業(yè)界有個被戲稱的“安迪比爾定律”,其內(nèi)容是“What Andy gives, Bill takes away”,安迪(Andy)指英特爾前CEO安迪·格魯夫,比爾(Bill)指微軟前任CEO比爾·蓋茨,意為硬件提高的性能,很快被軟件消耗掉了。
正如CPU在處理圖像處理時不夠高效一樣,現(xiàn)在有大量的基礎(chǔ)層應(yīng)用CPU處理起來也比較低效,例如網(wǎng)絡(luò)協(xié)議處理,交換路由計算,加密解密,數(shù)據(jù)壓縮等這類計算密集的任務(wù),還有支持分布式處理的數(shù)據(jù)一致性協(xié)議如RAFT等。
這些數(shù)據(jù)或者通過從網(wǎng)絡(luò)IO接入系統(tǒng),或者通過板級高速PCIe總線接入系統(tǒng),再通過共享主存經(jīng)由DMA機制將數(shù)據(jù)提供給CPU或GPU來處理。既要處理大量的上層應(yīng)用,又要維持底層軟件的基礎(chǔ)設(shè)施,還要處理各種特殊的IO類協(xié)議,復雜的計算任務(wù)讓CPU不堪重負。
這些基礎(chǔ)層負載給“異構(gòu)計算”提供了一個廣闊的發(fā)展空間。將這些基礎(chǔ)層負載從CPU上卸載下來,短期內(nèi)可以“提質(zhì)增效”,長遠來看還為新的業(yè)務(wù)增長提供技術(shù)保障。DPU將有望成為承接這些負載的代表性芯片,與CPU和GPU優(yōu)勢互補,建立起一個更加高效的算力平臺。
可以預(yù)測,用于數(shù)據(jù)中心的DPU的量將達到和數(shù)據(jù)中心服務(wù)器等量的級別,每年千萬級新增,算上存量的替代,估算五年總體的需求量將突破兩億顆,超過獨立GPU卡的需求量。每臺服務(wù)器可能沒有GPU,但必須有DPU,好比每臺服務(wù)器都必須配網(wǎng)卡一樣。
3、異構(gòu)計算的階段性標志DPU的出現(xiàn)是異構(gòu)計算的又一個階段性標志。摩爾定律放緩使得通用CPU性能增長的邊際成本迅速上升,數(shù)據(jù)表明現(xiàn)在CPU的性能年化增長(面積歸一化之后)僅有3%左右,但計算需求卻是爆發(fā)性增長,這幾乎是所有專用計算芯片得以發(fā)展的重要背景因素。
摩爾定律的放緩與全球數(shù)據(jù)量的爆發(fā)這個正在迅速激化的矛盾通常被作為處理器專用化的大背景,正所謂硅的摩爾定律雖然已經(jīng)明顯放緩,但“數(shù)據(jù)摩爾定律”已然到來。IDC的數(shù)據(jù)顯示,全球數(shù)據(jù)量在過去10年年均復合增長率接近50%,并進一步預(yù)測每四個月對于算力的需求就會翻一倍。
因此必須要找到新的可以比通用處理器帶來更快算力增長的計算芯片,DPU于是應(yīng)運而生。這個大背景雖然有一定的合理性,但是還是過于模糊,并沒有回答DPU之所以新的原因是什么,是什么“量變”導致了“質(zhì)變”?
從現(xiàn)在已經(jīng)公布的各個廠商的DPU架構(gòu)來看,雖然結(jié)構(gòu)有所差異,但都不約而同強調(diào)網(wǎng)絡(luò)處理能力。從這個角度看,DPU是一個強IO型的芯片,這也是DPU與CPU最大的區(qū)別。CPU的IO性能主要體現(xiàn)在高速前端總線(在Intel的體系里稱之為FSB,F(xiàn)ront Side Bus),CPU通過FSB連接北橋芯片組,然后連接到主存系統(tǒng)和其他高速外設(shè)(主要是PCIe設(shè)備)。目前更新的CPU雖然通過集成存儲控制器等手段弱化了北橋芯片的作用,但本質(zhì)是不變的。
DPU的IO帶寬幾乎可以與網(wǎng)絡(luò)帶寬等同,例如,網(wǎng)絡(luò)支持25G,那么DPU就要支持25G。從這個意義上看,DPU繼承了網(wǎng)卡芯片的一些特征,但是不同于網(wǎng)卡芯片,DPU不僅僅是為了解析鏈路層的數(shù)據(jù)幀,而是要做直接的數(shù)據(jù)內(nèi)容的處理,進行復雜的計算。所以,DPU是在支持強IO基礎(chǔ)上的具備強算力的芯片。簡言之,DPU是一個IO密集型的芯片;相較而言,DPU還是一個計算密集型芯片。
進一步地,通過比較網(wǎng)絡(luò)帶寬的增長趨勢和通用CPU性能增長趨勢,能發(fā)現(xiàn)一個有趣的現(xiàn)象:帶寬性能增速比(RBP,Ratio of Bandwidth andPerformance growth rate)失調(diào)。RBP定義為網(wǎng)絡(luò)帶寬的增速比上CPU性能增速,即RBP=BW GR/Perf. GR如下圖所示,以Mellanox的ConnectX系列網(wǎng)卡帶寬作為網(wǎng)絡(luò)IO的案例,以Intel的系列產(chǎn)品性能作為CPU的案例,定義一個新指標“帶寬性能增速比”來反應(yīng)趨勢的變化。
2010年前,網(wǎng)絡(luò)的帶寬年化增長大約是30%,到2015年微增到35%,然后在近年達到45%。相對應(yīng)的,CPU的性能增長從10年前的23%,下降到12%,并在近年直接降低到3%。在這三個時間段內(nèi),RBP指標從1附近,上升到3,并在近年超過了10!如果在網(wǎng)絡(luò)帶寬增速與CPU性能增速近乎持平,RGR~1,IO壓力尚未顯現(xiàn)出來,那么當目前RBP達到10倍的情形下,CPU幾乎已經(jīng)無法直接應(yīng)對網(wǎng)絡(luò)帶寬的增速。RBP指標在近幾年劇增也許是DPU終于等到機會“橫空出世”的重要原因之一。
4、DPU發(fā)展歷程隨著云平臺虛擬化技術(shù)的發(fā)展,智能網(wǎng)卡的發(fā)展基本可以分為三個階段:
隨著越來越多的功能加入到智能網(wǎng)卡中,其功率將很難限制在75W之內(nèi),這樣就需要獨立的供電系統(tǒng)。所以,未來的智能網(wǎng)卡形態(tài)可能有三種形態(tài):
(1)獨立供電的智能網(wǎng)卡,需要考慮網(wǎng)卡狀態(tài)與計算服務(wù)之間低層信號識別,在計算系統(tǒng)啟動的過程中或者啟動之后,智能網(wǎng)卡是否已經(jīng)是進入服務(wù)狀態(tài),這些都需要探索和解決。
(2)沒有PCIe接口的DPU智能網(wǎng)卡,可以組成DPU資源池,專門負責網(wǎng)絡(luò)功能,例如負載均衡,訪問控制,防火墻設(shè)備等。管理軟件可以直接通過智能網(wǎng)卡管理接口定義對應(yīng)的網(wǎng)絡(luò)功能,并作為虛擬化網(wǎng)絡(luò)功能集群提供對應(yīng)網(wǎng)絡(luò)能力,無需PCIe接口。
(3)多PCIe接口,多網(wǎng)口的DPU芯片。例如Fungible F1芯片,支持16個雙模PCIe控制器,可以配置為Root Complex模式或Endpoint模式,以及8x100G網(wǎng)絡(luò)接口。通過PCIe Gen3 x8接口可以支撐8個Dual-Socket計算服務(wù)器,網(wǎng)絡(luò)側(cè)提供8x100G帶寬的網(wǎng)口。
DPU作為一種新型的專用處理器,隨著需求側(cè)的變化,必將在未來計算系統(tǒng)中成為一個重要組成部分,對于支撐下一代數(shù)據(jù)中心起到至關(guān)重要的作用。
5、產(chǎn)業(yè)化機遇數(shù)據(jù)中心作為IT基礎(chǔ)設(shè)施最重要的組成部分在過去10年成為了各大高端芯片廠商關(guān)注的焦點。各大廠商都將原有的產(chǎn)品和技術(shù),用全新的DPU的理念重新封裝后,推向了市場
NVIDIA收購Mellanox后,憑借原有的ConnectX系列高速網(wǎng)卡技術(shù),推出其BlueField系列DPU,成為DPU賽道的標桿。作為算法加速芯片頭部廠商的Xilinx在2018年還將“數(shù)據(jù)中心優(yōu)先(Datacenter First)”作為其全新發(fā)展戰(zhàn)略。發(fā)布了Alveo系列加速卡產(chǎn)品,旨在大幅提升云端和本地數(shù)據(jù)中心服務(wù)器性能。
2019年4月,Xilinx宣布收購Solarflare通信公司,將領(lǐng)先的FPGA、MPSoC和ACAP解決方案與 Solarflare 的超低時延網(wǎng)絡(luò)接口卡( NIC )技術(shù)以及應(yīng)用加速軟件相結(jié)合,從而實現(xiàn)全新的融合SmartNIC解決方案。Intel 2015年底收購了Xilinx的競爭對手——Altera,在通用處理器的基礎(chǔ)上,進一步完善硬件加速能力。
Intel 2021年6月新發(fā)布的IPU產(chǎn)品(可以被視為Intel版本的DPU),將FPGA與Xeon D系列處理器集成,成為了DPU賽道有力的競爭者。IPU是具有強化的加速器和以太網(wǎng)連接的高級網(wǎng)絡(luò)設(shè)備,它使用緊密耦合、專用的可編程內(nèi)核加速和管理基礎(chǔ)架構(gòu)功能。
IPU提供全面的基礎(chǔ)架構(gòu)分載,并可作為運行基礎(chǔ)架構(gòu)應(yīng)用的主機的控制點,從而提供一層額外防護。幾乎同一時間,Marvall發(fā)布了OCTEON 10DPU產(chǎn)品,不僅具備強大的轉(zhuǎn)發(fā)能力,還具有突出的AI處理能力。
在同一時期, 一些傳統(tǒng)并不涉足芯片設(shè)計的互聯(lián)網(wǎng)廠商,如海外的Google、Amazon,國內(nèi)的阿里巴巴等巨頭紛紛啟動了自研芯片的計劃,而且研發(fā)重點都是面向數(shù)據(jù)處理器的高性能專用處理器芯片,希望以此改善云端的服務(wù)器的成本結(jié)構(gòu),提高單位能耗的性能水平。數(shù)據(jù)研究預(yù)測DPU在云計算市場的應(yīng)用需求最大,且市場規(guī)模隨著云計算數(shù)據(jù)中心的迭代而增長,到2025年單中國的市場容量都將達到40億美元的規(guī)模。
業(yè)界產(chǎn)品概要
NVIDIA推出的BlueField系列DPU,在支持網(wǎng)絡(luò)處理、安全和存儲功能的同時,實現(xiàn)網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù)。BlueField DPU既是一個承擔高帶寬(100Gbs/200Gbs/400Gbs)的網(wǎng)絡(luò)處理器,同時也是一個獨立的嵌入式處理器,它管理著眾多加速器引擎,比如加密解密、正則表達式匹配以及存儲加速等等。BlueField DPU也可以通過ARM核運行嵌入式Linux系統(tǒng),處理一定控制面的任務(wù),具有一定的通用能力。
NVIDIA 2020年推出BlueField-2系列 DPU,并計劃在2022年推出性能更強的BlueField-3 DPU。
▲BlueField 系列DPU
BlueField-2 DPU具有ConnectX-6的網(wǎng)絡(luò)處理功能,可支持高速以太網(wǎng)(200Gb/s)或 InfiniBand兩種接口, 八個ARM核,高帶寬DRAM和PCIe交換機,通過高速Mesh網(wǎng)絡(luò)連接在一起。包含支持網(wǎng)絡(luò)、存儲、加密、流媒體等計算的專用加速器,同時具有面向安全、虛擬化、硬件隔離和遠程管理的功能。
BlueField-2X DPU相比于BlueField-2 DPU,增加了對AI功能的支持,融合NVIDIA Ampere 架構(gòu)的GPU并行處理能力與BlueField-2 DPU的數(shù)據(jù)處理能力。BlueField-3 DPU是第三代NVIDIA DPU。與BlueField-2 DPU相比,設(shè)計支持400Gb/s以太網(wǎng)或NDR InfiniBand網(wǎng)絡(luò)連接,也可以卸載、加速和隔離軟件定義的網(wǎng)絡(luò)、存儲、安全和管理功能,從而提高數(shù)據(jù)中心的性能、效率和安全性。
2、Intel IPU(Mount Evans)IPU(Infrastructure Processing Unit)是一種具有強化加速和以太網(wǎng)連接的網(wǎng)絡(luò)設(shè)備,可使用緊密耦合的專用可編程內(nèi)核來加速和管理基礎(chǔ)設(shè)施。IPU提供完整的基礎(chǔ)設(shè)施卸載,并通過充當運行基礎(chǔ)設(shè)施應(yīng)用程序的主機的控制點來提供額外的安全層。
通過使用IPU,可以從服務(wù)器卸載與運行基礎(chǔ)設(shè)施任務(wù)相關(guān)的開銷。云服務(wù)供應(yīng)商(cloud service provider,CSP)軟件在IPU本身上運行,而租戶的應(yīng)用程序在服務(wù)器CPU上運行。這不僅釋放了服務(wù)器上的資源,同時優(yōu)化了整體性能,而且為CSP提供了一個單獨且安全的控制點。
IPU將基于硬件的數(shù)據(jù)路徑(包括 FPGA)與處理器內(nèi)核相結(jié)合,使得基礎(chǔ)設(shè)施以硬件的速度處理,能夠跟上不斷提高的網(wǎng)絡(luò)速度和軟件實現(xiàn)控制平面功能的靈活性。IPU具有以下三個優(yōu)勢:基礎(chǔ)設(shè)施功能和租戶工作負載物理分離允許用戶完控制CPU;供應(yīng)商可以將基礎(chǔ)設(shè)施任務(wù)完全卸載給IPU,有助于提高CPU資源利用率,最大化收益;實現(xiàn)完全無磁盤服務(wù)器架構(gòu)的云數(shù)據(jù)中心。
隨著基礎(chǔ)設(shè)施和租戶業(yè)務(wù)的物理分離,通過加速器可以有效地卸載基礎(chǔ)設(shè)施功能,并將其轉(zhuǎn)移到真正的無磁盤架構(gòu)。Intel認為IPU將成為未來數(shù)據(jù)中心架構(gòu)的核心組件,在2021年的Intel Architecture Day上,Intel推出了基于FPGA和ASIC的兩種實現(xiàn)方式的產(chǎn)品。其中,Oak Springs Canyon和Arrow Creek是針對云和通信的基于FPGA的IPU產(chǎn)品,Mount Evans是基于ASIC的IPU產(chǎn)品。目前,相關(guān)產(chǎn)品的技術(shù)細節(jié)還未對外公布。
3、Marvell OCTEON2021年6月28日Marvell發(fā)布了基于5nm工藝的OCTEON 10系列DPU,搭載了算力強勁的ARM Neoverse N2核,并且配備了多種硬件加速模塊,包括加解密、包處理及人工智能推理加速器。同時為了提供用戶友好的可編程接口,提高應(yīng)用開發(fā)效率,Marvell配套硬件設(shè)計了包括DPDK、Marvell ML toolchain等在內(nèi)的軟件開發(fā)平臺。
▲Marvell OCTEON 10系列DPU
OCTEON 10子產(chǎn)品包括CN103,CN106,CN106S 和DPU 400,不同子產(chǎn)品間的主要區(qū)別在于集成的ARM Neoverse N2核數(shù),核數(shù)越多,性能越強的同時功耗也相對越大(不高于60W)。目前OCTEON 10 系列DPU產(chǎn)品形式主要為芯片及其配套開發(fā)平臺(如圖5-8),開發(fā)平臺預(yù)計于2021年第四季度面世。四款子產(chǎn)品僅公布了其核心技術(shù)特征,具體產(chǎn)品細節(jié)及形式尚未披露。
4、Fungible DPU針對以數(shù)據(jù)為中心(data-centric)應(yīng)用的處理,F(xiàn)ungible研發(fā)了F1 DPU處理器和TrueFabric互聯(lián)技術(shù)。TrueFabric是由Fungible首先提出的新型大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián)標準,這種Fabric互聯(lián)協(xié)議基于標準的UDP/IP/Ethernet協(xié)議棧構(gòu)建。
RoCEv2是一種當前數(shù)據(jù)中心網(wǎng)絡(luò)中主流的互聯(lián)網(wǎng)絡(luò)協(xié)議,該協(xié)議同樣基于UDP/IP/Ethernet搭建,對終端提供高性能的RDMA Read/Write服務(wù),而TrueFabric對接入點提供高性能的Send/Receive服務(wù)。Fungible F1 DPU原生支持TrueFabric,因此F1 DPU可以用于大規(guī)模TrueFabric數(shù)據(jù)中心網(wǎng)絡(luò),不同類型的服務(wù)器都可以將Fungible DPU作為網(wǎng)絡(luò)接入點。
5、中科馭數(shù) K2 DPU核處理器(Kernel Processing Unit,KPU)是中科馭數(shù)原創(chuàng)的軟件定義計算架構(gòu),專為加速特定領(lǐng)域核心功能計算而設(shè)計的一種協(xié)處理器架構(gòu)。KPU以功能核作為基本單元,直接對應(yīng)用中計算密集型應(yīng)用進行抽象核和高層綜合,實現(xiàn)以數(shù)據(jù)為中心的架構(gòu)“定制”。KPU具有超強異構(gòu)核集成和調(diào)度能力,一顆KPU根據(jù)需求可以集成數(shù)十至數(shù)百個功能核。在運行機制上,KPU采用“數(shù)據(jù)驅(qū)動并行計算”的方式,運行過程中通過數(shù)據(jù)流來激活不同的功能核進行相應(yīng)計算。
通過軟件定義的方式用戶可以靈活的建立“功能核”與應(yīng)用層運算之間的關(guān)系,從而實現(xiàn)“功能核”到運算需求的“一對一”服務(wù),保證計算效率。且不同于FPGA在電路層的改造的性能犧牲,KPU的核心技術(shù)在功能核層,功能核來自于對于計算模式的抽象,并將其IP化。通過高層次綜合,既實現(xiàn)了領(lǐng)域內(nèi)硬件的統(tǒng)一,降低了規(guī)模限制的硬件成本和設(shè)計周期,又能通過軟件編程實現(xiàn)不同功能的計算;特定需求只需要增刪功能核的種類和數(shù)量即可。在整體計算效率提升百倍的前提下,仍然具有非常高的可擴展性和靈活性。
目前中科馭數(shù)已經(jīng)完成了四類KPU芯片架構(gòu)設(shè)計,1)KPU-Swift針對網(wǎng)絡(luò)協(xié)議處理設(shè)計;2)KPU-Conflux針對時間序列/大數(shù)據(jù)分析設(shè)計;3)KPU-Trusy針對安全領(lǐng)域處理設(shè)計,4)KPU-FlexFlow針對智能計算設(shè)計。并在5個應(yīng)用領(lǐng)域積累了80余類功能核。
中科馭數(shù)在2019年完成第一代KPU芯片K1流片,針對序列數(shù)據(jù)處理及數(shù)據(jù)庫/大數(shù)據(jù)分析而設(shè)計。集成了序列卷積tscov、序列濾波tsfir、序列距離tsdist、序列相似tsdtw等20多類功能核。相比于傳統(tǒng)軟件解決方案,基于馭數(shù)K1的加速方案在數(shù)據(jù)庫/大數(shù)據(jù)分析,以及時間序列處理等業(yè)務(wù)場景中可獲得超2個數(shù)量級的性能提升。
DPU未來展望
工業(yè)和信息化部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》中明確提出要加快提升算力算效水平,“推動CPU、GPU等異構(gòu)算力提升,逐步提高自主研發(fā)算力的部署比例”,“加強專用服務(wù)器等核心技術(shù)研發(fā)”,“樹立基于5G和工業(yè)互聯(lián)網(wǎng)等重點應(yīng)用場景的邊緣數(shù)據(jù)中心應(yīng)用標桿”等等。
該行動計劃也部分反映了DPU等新型算力芯片難得的歷史發(fā)展機遇。雖然國內(nèi)廠商在芯片產(chǎn)品化的環(huán)節(jié)還相比國外一線廠商還有差距,但是在DPU架構(gòu)的理解上還是有獨到的見解的,而且我國目前在數(shù)據(jù)中心這個領(lǐng)域,無論是市場規(guī)模還是增速,特別是用戶數(shù)量,相較于國外都有巨大的優(yōu)勢。國內(nèi)廠商有望充分利用這一“應(yīng)用勢能”,加快發(fā)展步伐,在DPU這個賽道與國外廠商逐鹿中原。
DPU的潛在市場非常巨大,預(yù)測到2025年僅中國市場就能達到每年40億美元的規(guī)模,估計全球?qū)⒊^120億美元,但挑戰(zhàn)與機遇并存。IaaS在國內(nèi)云服務(wù)市場占比約60%,支撐了目前最重要的PaaS的容器云技術(shù)。未來幾年,我國仍將維持IaaS為主的云計算結(jié)構(gòu),預(yù)計市場占比將逐上升到70%。
目前要解決DPU標準化應(yīng)用,還存在一定挑戰(zhàn)。由于數(shù)據(jù)中心本身的復雜性,各大廠商一方面采用COTS組件來構(gòu)建系統(tǒng),追求低成本,一方面又設(shè)法分層服務(wù)化(IaaS,PaaS,SaaS),打造面向不用類型客戶的標準化產(chǎn)品,但除此之外的所有技術(shù)實現(xiàn)幾乎都是各家“八仙過海,各顯神通”,如AWS有Nitro,阿里云有MOC。有的廠商強化IO能力、有的關(guān)注路由轉(zhuǎn)發(fā)、有的重視存儲卸載、有的關(guān)注安全加密——不一而足。例如各大公有云廠商、電信運營商等都有比較完整、也比較封閉的底層架構(gòu)和應(yīng)用生態(tài)。上層負載不同,必然對底層架構(gòu)有各異的需求,這也許是目前DPU標準化面臨的最大的挑戰(zhàn)。
DPU作為一類專用處理器,與通用CPU的發(fā)展路徑可能會有所不同。專用計算體系結(jié)構(gòu)和通用計算體系結(jié)構(gòu)的陣地是不同的,專用計算競爭的焦點是數(shù)據(jù)平面,而通用計算競爭的焦點是控制平面。專用計算好比是造賽車,目標就是“快”,重點是根據(jù)賽道的類型來決定賽車的結(jié)構(gòu);通用計算好比是造民用車,目標更加的多元化,不僅要兼顧不同路況下的可用性,還要考慮性價比、代際兼容性等等。
所以,以通用CPU的標準來看待DPU可能并不合適,甚至會制約了專用DPU的發(fā)展。一個有商業(yè)價值的技術(shù)必須建立在“技術(shù)閉環(huán)”的基礎(chǔ)上:錨定需求、研發(fā)、使用、反饋、再研發(fā)改進、再擴大使用范圍……,即所謂“先垂直深耕,再水平擴展”的發(fā)展戰(zhàn)略可能更適合DPU的發(fā)展。技術(shù)只有投入使用才能體現(xiàn)價值,有使用價值才有可能商業(yè)化,才能完成技術(shù)閉環(huán)到商業(yè)閉環(huán)的進化。
技術(shù)閉環(huán)的形成需要集中火力打穿到應(yīng)用才能鋪就。碎片化并不是“專用”障礙,反而應(yīng)該是專用技術(shù)路線充分利用的優(yōu)勢。當然,傳統(tǒng)的“one-size-fit-all”的ASIC商業(yè)模式,通過上量來攤薄芯片研發(fā)的巨額NRE成本本身還是有效的,所以專用DPU最終也要謀求“水平擴展”來覆蓋更多的場景,還是要盡可能把各異的需求整合起來,并且適應(yīng)不同廠商的數(shù)據(jù)中心架構(gòu),但這必將是一個長期而艱巨的任務(wù)。
DPU肯定不算是一個“低垂的果實”,各個DPU廠商可能不能寄期望于當前“需求各異、體系封閉”的局面自發(fā)地在短期內(nèi)變得“整齊劃一,全面開放”,只能是在競爭合作的博弈過程中,逐漸滿足越來越多的行業(yè)需求。放棄幻想,步步為營,“結(jié)硬寨,打呆仗”,這需要長期行業(yè)“Knowhow”的整合和持續(xù)的產(chǎn)品迭代。
更需要上下游企業(yè)共同來構(gòu)建良性、開放的生態(tài)環(huán)境,按照基礎(chǔ)性技術(shù)研發(fā)的規(guī)律來研發(fā)DPU,面向網(wǎng)絡(luò)、安全、存儲、虛擬化等基礎(chǔ)技術(shù),劃分好邏輯層次,利用好“軟件定義”的思想,構(gòu)造一個完整的DPU軟硬件體系。而不是把DPU當成普通的算法加速器,只謀求解決一些碎片化的需求。
從目前行業(yè)的關(guān)注度來看,DPU帶來的機遇已經(jīng)基本形成共識,期待在這一趨勢的驅(qū)使下,行業(yè)內(nèi)的各個廠商協(xié)同起來,將DPU這一創(chuàng)新的產(chǎn)品早日賦能各行各業(yè),成為新的生產(chǎn)力。
在英偉達的帶領(lǐng)下,今年DPU的概念非?;鸨?,這也說明了在摩爾定律即將走向終結(jié)的大背景下,通過工藝提升來提高芯片性能、成本等的方式已經(jīng)不復存在。新時代的信息革命需要劍走偏鋒,用新的計算架構(gòu)來滿足龐大的運算和數(shù)據(jù)的需求。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。