智算中心芯片,誰在布局?
「算力」相關(guān)產(chǎn)業(yè)近期持續(xù)火爆,智算中心的建設(shè),也正在遍地開花。
本文引用地址:http://m.butianyuan.cn/article/202408/461905.htm進(jìn)入 2024 年,就有武昌智算中心、中國移動智算中心(青島)、華南數(shù)谷智算中心、鄭州人工智能計算中心、博大數(shù)據(jù)深圳前海智算中心等相繼開工或投產(chǎn)使用。
據(jù)不完全統(tǒng)計,目前全國正在建設(shè)或提出建設(shè)智算中心的城市已經(jīng)超過 30 個,投資規(guī)模超百億元。
到底什么是智算中心?智算中心主要用來做什么?智算中心都有哪些特點(diǎn)?
何為智算中心?
根據(jù)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》定義,智算中心是指通過使用大規(guī)模異構(gòu)算力資源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC 等),主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開發(fā)、模型訓(xùn)練和模型推理等場景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。
也可以說,智算中心是以人工智能計算任務(wù)為主的數(shù)據(jù)中心。
數(shù)據(jù)中心通常包括三種類別,除了智算中心以外,另外兩種分別是以通用計算任務(wù)為主的通算中心,以及以超級計算任務(wù)為主的超算中心。
2023 年是人工智能發(fā)展的重要轉(zhuǎn)折年,AIGC 技術(shù)取得了突破性進(jìn)展,大模型訓(xùn)練、大模型應(yīng)用等新業(yè)務(wù)正在快速崛起,作為智能算力的載體,數(shù)據(jù)中心也已經(jīng)從數(shù)據(jù)機(jī)房、通算中心,發(fā)展到現(xiàn)階段的超算中心和智算中心。
智算中心與通用數(shù)據(jù)中心有何不同?
智算中心,通常與云計算緊密相關(guān),強(qiáng)調(diào)資源控制和基礎(chǔ)設(shè)施管理的靈活性。在云環(huán)境中,數(shù)據(jù)中心提供商負(fù)責(zé)硬件和某些軟件工具的維護(hù),而客戶則擁有數(shù)據(jù)。相比之下,傳統(tǒng)的本地數(shù)據(jù)中心需要由企業(yè)自行管理和維護(hù)所有的數(shù)據(jù)資源。
本質(zhì)的不同導(dǎo)致兩種模式在資本投入、資源部署以及安全性方面都有著極大的區(qū)別。
在資本投入上,智算中心客戶無需大量的硬件和軟件成本即可選擇適合自己的服務(wù)模式,如公有云、私有云或混合云;而傳統(tǒng)數(shù)據(jù)中心的客戶則需要投入大量資金來購買和維護(hù)自己所需的服務(wù)器、網(wǎng)絡(luò)和存儲設(shè)備。
在資源部署和安全性上,智算中心的客戶可隨時隨地通過互聯(lián)網(wǎng)遠(yuǎn)程訪問和管理自己的數(shù)據(jù)和應(yīng)用,與此同時還可以享受數(shù)據(jù)中心提供商提供的專業(yè)的安全保障,如防火墻、加密、備份和恢復(fù)等;而傳統(tǒng)數(shù)據(jù)中心的客戶受到辦公/指定地點(diǎn)的限制,且需自己進(jìn)行保護(hù)和管理數(shù)據(jù)。
智算中心,簡單來說就是專門服務(wù)于人工智能的數(shù)據(jù)計算中心,能夠為人工智能計算提供所需的專用算力。相比傳統(tǒng)數(shù)據(jù)中心,智算中心能滿足更具針對性的需求,以及更大的計算體量和更快的計算速度,為大模型訓(xùn)練推理、自動駕駛、AIGC 等各垂直行業(yè)場景提供 AI 算力。
AI 智算,需要什么樣的芯片?
在硬件的選擇上,智算中心與傳統(tǒng)數(shù)據(jù)中心的硬件架構(gòu)也有所不同。
AI 智算,需要什么樣的算力芯片?
傳統(tǒng)數(shù)據(jù)中心的硬件架構(gòu)比較單一,主要包含服務(wù)器、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備。智算中心相比于此硬件架構(gòu)就會更加的靈活,不同的應(yīng)用場景也會選擇不同的計算節(jié)點(diǎn)。
智算服務(wù)器是智算中心的主要算力硬件,通常采用「CPU+GPU」、「CPU+NPU」或「CPU+TPU」的異構(gòu)計算架構(gòu),以充分發(fā)揮不同算力芯片在性能、成本和能耗上的優(yōu)勢。
GPU、NPU、TPU 的內(nèi)核數(shù)量多,擅長并行計算。AI 算法涉及到大量的簡單矩陣運(yùn)算任務(wù),需要強(qiáng)大的并行計算能力。
而傳統(tǒng)通用服務(wù)器則是以 CPU 作為主要芯片,用于支持如云計算和邊緣計算等基礎(chǔ)通用計算。
AI 智算,需要什么樣的存儲芯片?
不止是算力芯片的不同,AI 智算對存儲芯片也有著更高的要求。
首先是用量。智算服務(wù)器的 DRAM 容量通常是普通服務(wù)器的 8 倍,NAND 容量是普通服務(wù)器的 3 倍。甚至它的 PCB 電路板層數(shù)也明顯多于傳統(tǒng)服務(wù)器。
這也意味著智算服務(wù)器需要布局更多的存儲芯片,以達(dá)到所需性能。
隨著需求的水漲船高,一系列瓶頸問題也浮出水面。
一方面,傳統(tǒng)馮諾依曼架構(gòu)要求數(shù)據(jù)必須加載到內(nèi)存中,導(dǎo)致數(shù)據(jù)處理效率低、延遲大、功耗高;另一方面,存儲器墻問題使得處理器性能的增長速度遠(yuǎn)快于內(nèi)存速度,造成大量數(shù)據(jù)需要在 SSD 和內(nèi)存間傳遞;此外,CPU 掛載的 SSD 容量和帶寬限制也成為性能瓶頸。
面對「存儲墻」、「功耗墻」等問題,傳統(tǒng)計算體系結(jié)構(gòu)中計算存儲架構(gòu)亟需升級,將存儲與計算有機(jī)融合,以其巨大的能效比提升潛力,才能匹配智算時代巨量數(shù)據(jù)存儲需求。
針對這一系列問題,存算一體芯片或許是一個不錯的答案。
除了芯片不同之外,為了充分發(fā)揮性能以及保障穩(wěn)定運(yùn)行,AI 服務(wù)器在架構(gòu)、散熱、拓?fù)涞确矫嬉策M(jìn)行了強(qiáng)化設(shè)計。
這些芯片,誰在布局?
算力芯片的布局情況
在 GPU 方面,GPU 擅長大規(guī)模并行計算。華為、天數(shù)智芯、摩爾線程、中科曙光、燧原科技、英偉達(dá)、英特爾、AMD 等都推出有相關(guān)的芯片。比如,華為推出了昇騰系列 AI 芯片昇騰 910 和昇騰 310 等,這些芯片專為 AI 訓(xùn)練和推理設(shè)計,具有高性能和低功耗的特點(diǎn)。昇騰系列已廣泛應(yīng)用于數(shù)據(jù)中心、云服務(wù)和邊緣計算等領(lǐng)域,為智算中心提供強(qiáng)大的算力支持。
英偉達(dá)推出了多款針對 AI 訓(xùn)練和推理的 GPU 產(chǎn)品,如 A100、H100 等。英特爾也推出了多款 AI 芯片產(chǎn)品,如 Habana Labs 的 Gaudi 系列芯片,旨在與英偉達(dá)競爭。AMD 在 AI 芯片領(lǐng)域也有所布局,推出了 MI 系列 GPU 和 APU 產(chǎn)品。
在 FPGA 方面,CPU+FPGA 則結(jié)合了靈活性與高效能,適應(yīng)算法快速變化。賽靈思、英特爾是市場主要參與者,相關(guān)產(chǎn)品有:賽靈思的 VIRTEX、KINTEX、ARTIX、SPARTAN 產(chǎn)品系列以及英特爾的 Agilex 產(chǎn)品系列;國內(nèi)主要廠商包括復(fù)旦微電、紫光國微和安路科技等。
在 ASIC 方面,CPU+ASIC 提供高性能定制計算,適合特定需求。國外谷歌、英特爾、英偉達(dá)等巨頭相繼發(fā)布了 ASIC 芯片。國內(nèi)寒武紀(jì)、華為海思、地平線等廠商也都推出了深度神經(jīng)網(wǎng)絡(luò)加速的 ASIC 芯片。
在 NPU 方面,NPU 是專門為人工智能和機(jī)器學(xué)習(xí)場景而設(shè)計的處理器。與 CPU 和 GPU 不同,NPU 在硬件結(jié)構(gòu)上進(jìn)行了針對性的優(yōu)化,專注于執(zhí)行神經(jīng)網(wǎng)絡(luò)推理等 AI 相關(guān)的計算任務(wù)。CPU 的通用性和 NPU 的專用性相結(jié)合,使得整個系統(tǒng)能夠靈活應(yīng)對各種 AI 應(yīng)用場景,快速適應(yīng)算法和模型的變化。
目前市場上已有眾多量產(chǎn)的 NPU 或搭載 NPU 模塊的芯片,其中知名的包括高通 Hexagon NPU、華為的昇騰系列,值得注意的是,各大廠商在芯片計算核心的設(shè)計上都有著獨(dú)特的策略。
在 TPU 方面,TPU 是谷歌專門為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片,更加專注于處理大規(guī)模的深度學(xué)習(xí)任務(wù),具備更高的計算能力和更低的延遲。TPU 也屬于一種 ASIC 芯片。
在 DPU 方面,DPU 專門設(shè)計用于數(shù)據(jù)處理任務(wù),具有高度優(yōu)化的硬件結(jié)構(gòu),適用于特定領(lǐng)域的計算需求。不同于 CPU 用于通用計算,GPU 用于加速計算,DPU 是數(shù)據(jù)中心第三顆主力芯片。國際三大巨頭英偉達(dá)、博通、英特爾的 DPU 產(chǎn)品占據(jù)國內(nèi)大多數(shù)市場,賽靈思、Marvell、Pensando、Fungible、Amazon、Microsoft 等多家廠商在近 2-5 年內(nèi)也均有 DPU 或相似架構(gòu)產(chǎn)品生產(chǎn)。國內(nèi)廠商包括中科馭數(shù)、芯啟源、云豹智能、大禹智芯、阿里云等。
國產(chǎn)算力芯片走到哪一步了?
在 2024 北京移動算力網(wǎng)絡(luò)大會上,中國移動算力中心北京節(jié)點(diǎn)正式投入使用,標(biāo)志著我國智算中心建設(shè)進(jìn)入新階段。作為北京首個大規(guī)模訓(xùn)推一體智算中心,該項目占地約 57000 平方米,部署近 4000 張 AI 加速卡,AI 芯片國產(chǎn)化率達(dá) 33%,智能算力規(guī)模超 1000P。
北京超級云計算中心運(yùn)營實體北京北龍超級云計算有限責(zé)任公司 CTO 甄亞楠近日表示,目前幫國產(chǎn)大模型「嫁接」國產(chǎn)芯片,只需 15 天左右就可以跑通。他認(rèn)為算力共享會是行業(yè)大趨勢,高端 GPU 算力資源需要各方努力。
近年來,中國人工智能算力芯片的市場格局主要由英偉達(dá)主導(dǎo),其占據(jù)了 80% 以上的市場份額。
甄亞楠表示,「我們也非常關(guān)注國產(chǎn)芯片的發(fā)展,據(jù)了解,國內(nèi)自研的大模型,甚至一些開源的大模型都在不斷往國產(chǎn)芯片上去做移植?,F(xiàn)在從芯片使用角度來講,有些模型已經(jīng)可以跑通運(yùn)行了,需要追趕的方面主要在類似 GPU 這種高性能?!?/span>
「整個的國產(chǎn)化是分層級的,芯片屬于硬件這一層,除此之外還有軟件的生態(tài)。對于國產(chǎn)的芯片來講,不管是框架還是生態(tài),都需要有一定的培育周期。」甄亞楠呼吁,最終的應(yīng)用方要給到國產(chǎn)芯片足夠的信心。
存儲芯片的布局情況
智算中心在存儲方面需要具備高容量、高可靠性、高可用性等特點(diǎn)。存儲設(shè)備通常采用高性能的硬盤或固態(tài)硬盤,并配備冗余的存儲架構(gòu),以確保數(shù)據(jù)的安全性和可訪問性。三星、美光、SK 海力士等都有相關(guān)芯片都廣泛應(yīng)用于數(shù)據(jù)中心、云計算等領(lǐng)域,為智算中心提供高性能的存儲解決方案。
國內(nèi)廠商近年來在 DRAM 與 NAND 技術(shù)追趕上也實現(xiàn)了快速發(fā)展。
除了傳統(tǒng)的存儲芯片外,智算中心還需要上文提到的新型存儲—存算一體芯片發(fā)揮更大的作用。
從存算一體發(fā)展歷程來看,自 2017 年起,英偉達(dá)、微軟、三星等大廠提出了存算一體原型,同年國內(nèi)存算一體芯片企業(yè)開始涌現(xiàn)。
大廠們對存算一體架構(gòu)的需求是實用且落地快,而作為最接近工程落地的技術(shù),近存計算成為大廠們的首選。諸如特斯拉、三星等擁有豐富生態(tài)的大廠以及英特爾、IBM 等傳統(tǒng)芯片大廠都在布局近存計算。
國內(nèi)初創(chuàng)企業(yè)則聚焦于無需考慮先進(jìn)制程技術(shù)的存內(nèi)計算。其中,知存科技、億鑄科技、九天睿芯等初創(chuàng)公司都在押注 PIM、CIM 等「存」與「算」更親密的存算一體技術(shù)路線。億鑄科技、千芯科技等專注于大模型計算、自動駕駛等 AI 大算力場景;閃易、新憶科技、蘋芯科技、知存科技等則專注于物聯(lián)網(wǎng)、可穿戴設(shè)備、智能家居等邊緣小算力場景。
億鑄科技致力于用存算一體架構(gòu)設(shè)計 AI 大算力芯片,首次將憶阻器 ReRAM 和存算一體架構(gòu)相結(jié)合,通過全數(shù)字化的芯片設(shè)計思路,在當(dāng)前產(chǎn)業(yè)格局的基礎(chǔ)上,提供一條更具性價比、更高能效比、更大算力發(fā)展空間的 AI 大算力芯片換道發(fā)展新路徑。
千芯科技專注于面向人工智能和科學(xué)計算領(lǐng)域的大算力存算一體算力芯片與計算解決方案研發(fā),在 2019 年率先提出可重構(gòu)存算一體技術(shù)產(chǎn)品架構(gòu),在計算吞吐量方面相比傳統(tǒng) AI 芯片能夠提升 10-40 倍。目前千芯科技可重構(gòu)存算一體芯片(原型)已在云計算、自動駕駛感知、圖像分類、車牌識別等領(lǐng)域試用或落地;其大算力存算一體芯片產(chǎn)品原型也已在國內(nèi)率先通過互聯(lián)網(wǎng)大廠內(nèi)測。
知存科技的方案是重新設(shè)計存儲器,利用 Flash 閃存存儲單元的物理特性,對存儲陣列改造和重新設(shè)計外圍電路使其能夠容納更多的數(shù)據(jù),同時將算子也存儲到存儲器當(dāng)中,使得每個單元都能進(jìn)行模擬運(yùn)算并且能直接輸出運(yùn)算結(jié)果,以達(dá)到存算一體的目的。
智算規(guī)模占比超 30%,算力建設(shè)如火如荼
7 月初,天府智算西南算力中心正式在四川成都投運(yùn)。據(jù)介紹,該中心將以算力支撐成都打造千億級人工智能核心產(chǎn)業(yè),賦能工業(yè)制造、自然科學(xué)、生物醫(yī)學(xué)、科研模擬實驗等領(lǐng)域的人工智能創(chuàng)新。
這不是個例。近一個月來,銀川綠色智算中心項目集中開工;北京移動在京建成首個大規(guī)模訓(xùn)推一體智算中心,支撐高復(fù)雜度、高計算需求的百億、千億級大模型訓(xùn)練推理;鄭州人工智能計算中心開工建設(shè),總投資超 16 億元……以智算中心為代表的數(shù)字新基建正加快建設(shè)落地。
國家統(tǒng)計局 7 月 15 日發(fā)布的數(shù)據(jù)顯示,截至 5 月底,全國新建 5G 基站 46 萬個;規(guī)劃具有高性能計算機(jī)集群的智算中心達(dá) 10 余個,智能算力占算力總規(guī)模比重超過 30%。
據(jù)中國 IDC 圈不完全統(tǒng)計,截止 2024 年 5 月 23 日,中國大陸共有智算中心 283 座,已覆蓋中國大陸所有省、自治區(qū)和直轄市。其中有投資額統(tǒng)計的智算中心項目 140 座,總投資額達(dá)到 4364.34 億元。有規(guī)劃算力規(guī)模統(tǒng)計的智算中心項目 177 座,總算力規(guī)模達(dá)到 36.93 萬 PFlops。
這些「智算中心」標(biāo)準(zhǔn)不一、規(guī)模不同,算力規(guī)模一般在 50P、100P、500P、1000P,有的甚至達(dá)到 12000P 以上,雖然 AI 浪潮給智算中心帶來了廣闊的發(fā)展前景,但供需錯配、價格昂貴、重復(fù)建設(shè)等仍然是我國算力建設(shè)面臨的難題。
與此同時,多地也紛紛出臺專項規(guī)劃,明確未來幾年建設(shè)目標(biāo),并在技術(shù)、應(yīng)用、資金等方面完善支持舉措。例如,江蘇發(fā)布省級算力基礎(chǔ)設(shè)施發(fā)展專項規(guī)劃,提出到 2030 年全省在用總算力超過 50EFLOPS(EFLOPS 是指每秒百億億次浮點(diǎn)運(yùn)算次數(shù)),智能算力占比超過 45%;甘肅提出對算力網(wǎng)絡(luò)新型基礎(chǔ)設(shè)施在用地、市政配套設(shè)施建設(shè)、人才引進(jìn)、資金等方面給予政策支持。
「人工智能大模型等應(yīng)用爆發(fā)式發(fā)展帶動了智能算力需求激增?!箛倚畔⒅行男畔⒒彤a(chǎn)業(yè)發(fā)展部主任單志廣表示,智能計算發(fā)展迅速,已經(jīng)成為我國算力結(jié)構(gòu)中增速最快的類型,其中大模型是智能算力的最大需求方,需求占比近六成。預(yù)計到 2027 年,中國智能算力規(guī)模年度復(fù)合增長率達(dá) 33.9%。
評論