DeepSeek適配國(guó)產(chǎn)芯片:差異化表現(xiàn)，商用前景各異

作者：時(shí)間：2025-02-25 來(lái)源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

在 DeepSeek 熱浪的席卷之下，各大國(guó)產(chǎn) GPU 公司紛紛投身適配浪潮。

本文引用地址：http://m.butianyuan.cn/article/202502/467279.htm

看似相同的動(dòng)作，背后卻各有千秋。

如今，業(yè)內(nèi)報(bào)道多聚焦于適配 DeepSeek 的公司數(shù)量，卻很少有人去深究這些公司間的差異。究竟是技術(shù)路線存在分歧，還是性能表現(xiàn)高低有別？是生態(tài)建設(shè)各具特色，亦或是應(yīng)用場(chǎng)景有所不同？

適配模型，選原版還是蒸餾版？

從適配 Deepseek 模型的角度來(lái)看，芯片廠商的動(dòng)作可大致歸為兩類。一類是對(duì)原生 R1 和 V3 模型進(jìn)行適配，另一類則是適配由 R1 蒸餾而來(lái)的小模型。

至于這三者的區(qū)別：

Deepseek R1 定位為推理優(yōu)先的模型，專為需要深度邏輯分析和問(wèn)題解決的場(chǎng)景而設(shè)計(jì)。其在數(shù)學(xué)、編程和推理等多個(gè)任務(wù)上可達(dá)到高性能。

Deepseek V3 定位為通用型的大語(yǔ)言模型，其在多種自然語(yǔ)言處理任務(wù)中實(shí)現(xiàn)高效、靈活的應(yīng)用，滿足多領(lǐng)域的需求。Deepseek R1/V3 原版模型通常具有較大的參數(shù)量，結(jié)構(gòu)相對(duì)復(fù)雜。

DeepSeek-R1 系列蒸餾模型是基于 DeepSeek R1 進(jìn)行蒸餾得到的輕量級(jí)版本，參數(shù)量較少，結(jié)構(gòu)更精簡(jiǎn)旨在保持一定性能的同時(shí)降低資源消耗。適合輕量級(jí)部署和資源受限場(chǎng)景，如邊緣設(shè)備推理、中小企業(yè)快速驗(yàn)證 AI 應(yīng)用。

雖說(shuō)各家均在搶占適配 Deepseek 的高地，但實(shí)際上各家所適配的模型類型也并不相同。

上圖可見，雖主流 GPU 廠商均在加速適配 DeepSeek 模型的節(jié)奏，但明確宣布適配 DeepSeek R1 及 V3 原版模型的只有一半左右。這類模型對(duì)芯片的計(jì)算能力、內(nèi)存帶寬以及多卡互聯(lián)等技術(shù)要求極高。其中包括華為昇騰、海光信息。

另一部分廠商則主要支持 DeepSeek-R1 系列蒸餾模型（參數(shù)規(guī)格在 1.5B - 8B 之間）。這些蒸餾模型的原始模型是通義千問(wèn)和 LLAMA，因此原本能夠支持通義千問(wèn)和 LLAMA 模型的平臺(tái)，基本上就能適配這些 DeepSeek 的蒸餾模型，工作量也相對(duì)較小。包括摩爾線程、壁仞科技等。

不同大小的模型所適應(yīng)的場(chǎng)景不一樣，云端推理需要模型參數(shù)比較大，模型性能最好，主要適配原生 R1 或者 V3 模型；端側(cè)芯片主要適配 1.5B~8B 間的模型，這類模型推理結(jié)構(gòu)非常成熟，無(wú)需花費(fèi)額外的工作。

不同公司，優(yōu)勢(shì)何在？

除了所適配的模型種類有別外，各家所選取的技術(shù)路線也有所不同，適配時(shí)遇到的難度也各不相同。

首先，從當(dāng)前的技術(shù)生態(tài)和實(shí)際應(yīng)用場(chǎng)景來(lái)看，DeepSeek 模型的運(yùn)行和適配主要依賴于英偉達(dá)的硬件和編程語(yǔ)言，而各家廠商的適配能力則取決于其對(duì)原始開發(fā)生態(tài)的兼容性。

這也意味著，DeepSeek 目前主要適配英偉達(dá)芯片，這對(duì)其他硬件平臺(tái)的應(yīng)用和性能有一定影響。因此是否容易適配基于英偉達(dá) GPU 開發(fā)的 DeepSeek 等大模型，與芯片是否兼容 CUDA 有關(guān)。能兼容 CUDA 的廠商，彼此間兼容程度也有不同。

其次，從性能表現(xiàn)來(lái)看，不同 GPU 的計(jì)算能力（如 FLOPS、內(nèi)存帶寬）不同，也直接影響 DeepSeek 在處理大規(guī)模深度學(xué)習(xí)任務(wù)時(shí)的速度。某些 GPU 可能在能效比上表現(xiàn)更優(yōu)，適合在低功耗環(huán)境下運(yùn)行 DeepSeek。

接下來(lái)，讀者不妨看看主流芯片公司在適配 DeepSeek 時(shí)，各自具備的優(yōu)勢(shì)與面臨的挑戰(zhàn)。

華為昇騰（Ascend）

昇騰擁有芯片+框架+工具鏈等全棧 AI 能力，與 DeepSeek 的技術(shù)棧適配潛力大。

從硬件方面來(lái)看，昇騰 910 芯片針對(duì) AI 訓(xùn)練和推理優(yōu)化，算力密度高，尤其適合大規(guī)模模型訓(xùn)練。

從軟件生態(tài)方面來(lái)看，CANN 異構(gòu)計(jì)算架構(gòu)和 MindSpore 框架深度綁定，若 DeepSeek 基于 MindSpore 優(yōu)化，昇騰適配性極強(qiáng)；同時(shí)支持 PyTorch/TensorFlow 的遷移工具。

關(guān)于昇騰適配 DeepSeek 面臨的挑戰(zhàn)，若 DeepSeek 依賴 CUDA 生態(tài)，需通過(guò)華為的兼容層（如昇騰異構(gòu)計(jì)算加速庫(kù)）轉(zhuǎn)換，可能損失部分性能。

海光信息（DCU）

海光的優(yōu)勢(shì)是海光 DCU 兼容通用的「類 CUDA」環(huán)境，以及擅長(zhǎng)高性能計(jì)算。

從硬件方面來(lái)看，基于 AMD CDNA 架構(gòu)的 DCU 系列，兼容 ROCm 生態(tài)，對(duì) CUDA 代碼遷移友好，適合需兼容現(xiàn)有生態(tài)的 DeepSeek 場(chǎng)景。

從場(chǎng)景適配方面來(lái)看，在智算中心應(yīng)用成熟，若 DeepSeek 側(cè)重 HPC+AI 融合場(chǎng)景（如科學(xué)計(jì)算），海光更具優(yōu)勢(shì)。

關(guān)于海光適配 DeepSeek 面臨的挑戰(zhàn)，或許在軟件工具鏈成熟度上。

燧原科技（邃思）

燧原的優(yōu)勢(shì)在于云端 AI 訓(xùn)練與推理。

在架構(gòu)設(shè)計(jì)方面，邃思芯片針對(duì) Transformer 等大模型優(yōu)化，計(jì)算密度高，適合 DeepSeek 的大規(guī)模參數(shù)場(chǎng)景。

在軟件適配方面，燧原支持 TF/PyTorch 主流框架，提供自動(dòng)化編譯工具，降低 DeepSeek 遷移成本。

關(guān)于燧原適配 DeepSeek 面臨的挑戰(zhàn)，其生態(tài)影響力較弱，需依賴客戶定制化合作。

沐曦（MXN）

沐曦的優(yōu)勢(shì)在于 GPU 通用性與 CUDA 兼容性。

在兼容性方面，MXN 系列兼容 CUDA，若 DeepSeek 重度依賴 CUDA 生態(tài)，沐曦的遷移成本相對(duì)較低。

在產(chǎn)品性能方面，沐曦 GPU 理論算力對(duì)標(biāo)國(guó)際旗艦產(chǎn)品，適合高算力需求場(chǎng)景。

關(guān)于沐曦適配 DeepSeek 面臨的挑戰(zhàn)，產(chǎn)品量產(chǎn)進(jìn)度和實(shí)際落地案例較少，需驗(yàn)證穩(wěn)定性。

天數(shù)智芯（天垓）

天數(shù)智芯的優(yōu)勢(shì)在于兼容 CUDA 生態(tài)。

從生態(tài)適配方面，天垓 BI 芯片兼容 CUDA，對(duì)已有代碼庫(kù)的 DeepSeek 項(xiàng)目友好。

關(guān)于天數(shù)智芯適配 DeepSeek 面臨的挑戰(zhàn)，高端算力不足，支撐千億級(jí)大模型訓(xùn)練存在壓力。

壁仞科技（BR 系列）

壁仞科技的單芯片算力峰值高。

從硬件指標(biāo)來(lái)看，高算力峰值使其適合需要極致算力的 DeepSeek 任務(wù)。

關(guān)于壁仞適配 DeepSeek 面臨的挑戰(zhàn)，軟件棧成熟度待提升。

昆侖芯

與百度 PaddlePaddle 深度綁定，若 DeepSeek 與百度生態(tài)協(xié)同，適配性較強(qiáng)。

摩爾線程（MTT S 系列）

聚焦圖形渲染與 AI 融合場(chǎng)景，適合 DeepSeek 的多模態(tài)應(yīng)用（如 3D 視覺），但通用計(jì)算能力有限。

云天勵(lì)飛/太初元碁

側(cè)重邊緣端推理，若 DeepSeek 部署在終端設(shè)備，這兩家更具優(yōu)勢(shì)。

龍芯

龍芯目前以 CPU 為主，GPU 產(chǎn)品處于早期階段，適配 DeepSeek 暫不成熟。

在近期行業(yè)緊鑼密鼓地適配 DeepSeek 系列模型后，如何商用成為這一問(wèn)題的焦點(diǎn)。

DeepSeek 商用，有哪些形式？

云上部署

比如：DeepSeek 模型通過(guò)華為云平臺(tái)提供服務(wù)，企業(yè)客戶可以通過(guò) API 調(diào)用或云服務(wù)直接使用 DeepSeek 的功能，如圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等。企業(yè)根據(jù)實(shí)際使用量（如計(jì)算資源、API 調(diào)用次數(shù)）付費(fèi)，降低前期投入成本。云服務(wù)模式無(wú)需企業(yè)本地部署硬件，能夠快速上線和應(yīng)用。

本地化部署

一體機(jī)形式：目前 DeepSeek 大模型一體機(jī)分為推理一體機(jī)和訓(xùn)推一體機(jī)。DeepSeek 推理一體機(jī)內(nèi)置 DeepSeek-R1 32B、70B、滿血版 671B 等不同尺寸模型，價(jià)格在幾十萬(wàn)到數(shù)百萬(wàn)不等，主要面向?qū)?shù)據(jù)安全、數(shù)據(jù)隱私較為敏感的企業(yè)用戶。而訓(xùn)推一體機(jī)的售價(jià)更高，用于 DeepSeek-R1 32B 模型的預(yù)訓(xùn)練和微調(diào)的一體機(jī)價(jià)格就達(dá)到數(shù)百萬(wàn)。

企業(yè)自行部署：對(duì)于對(duì)性能要求極高的企業(yè)（如自動(dòng)駕駛、金融風(fēng)控）或者對(duì)安全性需求極高的企業(yè)（如政府和金融機(jī)構(gòu)），DeepSeek 模型可以本地部署在 GPU 芯片等硬件上，實(shí)現(xiàn)「滿血」性能。

從當(dāng)前的商用模式來(lái)看，由于本地部署 GPU 芯片和 DeepSeek 模型的成本較高，企業(yè)用戶會(huì)先在公有云上進(jìn)行測(cè)試，與需求是否適配，再考慮私有云部署、一體機(jī)等形式。因此，中小企業(yè)可能更傾向于通過(guò)云服務(wù)使用相關(guān)技術(shù)。

自然，部分對(duì)數(shù)據(jù)安全高度重視或急需高性能算力的企業(yè)，不惜投入十萬(wàn)乃至百萬(wàn)資金，部署一體機(jī)以滿足自身需求。隨著 DeepSeek 開源模型的發(fā)展，其私有化部署需求日益凸顯，一體機(jī)化等相關(guān)市場(chǎng)正蓬勃發(fā)展，吸引眾多企業(yè)投身其中。

DeepSeek 商業(yè)化，芯片公司誰(shuí)做的更好？

在 DeepSeek 概念里，昇騰和海光的商業(yè)化都取得了不錯(cuò)的進(jìn)展。

一體機(jī)熱銷，昇騰得到利好

昇騰：70% 的企業(yè)將基于昇騰向 DeepSeek 靠攏。

近日，DeepSeek 一體機(jī)的發(fā)布廠商包括華鯤振宇、寶德、神州鯤泰、長(zhǎng)江計(jì)算等，均基于昇騰產(chǎn)品構(gòu)建。

可以看到，隨著 DeepSeek 一體機(jī)的密集發(fā)布，昇騰的產(chǎn)業(yè)聯(lián)盟正在不斷擴(kuò)大。

據(jù)悉，目前已有超過(guò) 80 家企業(yè)基于昇騰快速適配或上線了 DeepSeek 系列模型，并對(duì)外提供服務(wù)。預(yù)計(jì)未來(lái)兩周內(nèi)，還將有 20 多家企業(yè)完成上線。這意味著，國(guó)內(nèi) 70% 的企業(yè)將基于昇騰向 DeepSeek 靠攏。

相較于進(jìn)口 GPU 方案，昇騰芯片的本地化服務(wù)和團(tuán)隊(duì)對(duì)部署 DeepSeek 的效果影響顯著。以萬(wàn)卡規(guī)模的數(shù)據(jù)中心為例，MindSpore 工具鏈的自動(dòng)并行功能使得分布式訓(xùn)練代碼量減少了 70%。

海光：智算中心、金融等多場(chǎng)景滲透

海光與 DeepSeek 的合作覆蓋智算中心、金融、智能制造等核心場(chǎng)景。

在智算中心方面，海光信息聯(lián)合青云科技推出「海光 DCU + 基石智算 + DeepSeek 模型」方案，支持按 Token 計(jì)費(fèi)的靈活調(diào)用模式，降低企業(yè) AI 應(yīng)用門檻。

在金融科技方面，中科金財(cái)與海光信息技術(shù)股份有限公司聯(lián)合推出了軟硬一體解決方案。該方案融合了自研的多場(chǎng)景多基座大模型引擎與海光 DCU 系列加速卡，并完成了與 DeepSeek 模型的深度適配。

在智能制造方面，海光 DCU 通過(guò)適配 DeepSeek-Janus-Pro 多模態(tài)模型，賦能工業(yè)視覺檢測(cè)與自動(dòng)化決策，助力三一重工等企業(yè)實(shí)現(xiàn)產(chǎn)線智能化升級(jí)。

在數(shù)據(jù)管理方面，空天數(shù)智打造的「睿思矩陣數(shù)據(jù)存管用平臺(tái)」全面適配海光 DCU，將 DeepSeek 嵌入平臺(tái)，作為「超級(jí)引擎」深入海量數(shù)據(jù)，為自然資源、能源電力、航空航天等領(lǐng)域提供數(shù)據(jù)處理支持。

此外，新致軟件聯(lián)合中科海光，正式發(fā)布新致信創(chuàng)一體機(jī)——以海光 K100 GPU 服務(wù)器為算力基石，深度融合新致新知人工智能平臺(tái)與 DeepSeek 系列大模型，為企業(yè)提供從芯片到模型的全棧國(guó)產(chǎn)化 AI 解決方案，開啟安全、高效、敏捷的智能化轉(zhuǎn)型新時(shí)代。

京東云也發(fā)布 DeepSeek 大模型一體機(jī)，支持華為昇騰、海光等國(guó)產(chǎn) AI 加速芯片。

國(guó)產(chǎn) GPU，機(jī)會(huì)來(lái)了

隨著 DeepSeek 一體機(jī)等應(yīng)用的推出和廣泛應(yīng)用，市場(chǎng)對(duì)國(guó)產(chǎn)芯片的需求正在顯著增加。

沐曦科技 CTO 楊建表示，大模型后訓(xùn)練部分預(yù)計(jì)今年會(huì)有更多非英偉達(dá)卡加入，DeepSeek 推動(dòng)的大模型私有化部署，對(duì)國(guó)產(chǎn)芯片而言也是機(jī)會(huì)。

「2025 年國(guó)產(chǎn) GPU 的一個(gè)機(jī)會(huì)在于私有化部署，基本上這個(gè)市場(chǎng)會(huì)以大模型后訓(xùn)練和推理為主。」楊建表示，基于英偉達(dá)應(yīng)用于 AI 領(lǐng)域的 GPU 進(jìn)入國(guó)內(nèi)市場(chǎng)的方式，英偉達(dá)卡在零售市場(chǎng)上基本消失了，而私有化部署較依賴零售市場(chǎng)。若私有化部署市場(chǎng)爆發(fā)，國(guó)產(chǎn)卡將會(huì)有很大機(jī)會(huì)。

隨著海外芯片算力限制帶來(lái)的難題逼近，全球算力可能會(huì)形成兩條并行路線，逐漸脫鉤。到 2026 年、2027 年，美國(guó)預(yù)訓(xùn)練和后訓(xùn)練的算力基座預(yù)計(jì)仍是英偉達(dá)，在國(guó)內(nèi)則是有一部分由英偉達(dá)承擔(dān)、一部分由國(guó)產(chǎn)芯片承擔(dān)。其中，后訓(xùn)練部分今年逐漸會(huì)有更多非英偉達(dá)卡加入，這是因?yàn)楹笥?xùn)練對(duì)集群要求相對(duì)較低，不太需要千卡以上集群。

天數(shù)智芯相關(guān)人士也表示，隨著國(guó)產(chǎn)模型取得突破，對(duì)國(guó)產(chǎn)芯片適配需求增加，今年國(guó)產(chǎn)芯片有較大發(fā)展機(jī)會(huì)。

DeepSeek 模型的火熱也暗含著 AI 應(yīng)用爆發(fā)的機(jī)會(huì)，芯片廠商將目光轉(zhuǎn)向 AI 應(yīng)用所需的推理算力。去年國(guó)內(nèi)評(píng)測(cè)芯片時(shí)主要著眼訓(xùn)練，將國(guó)產(chǎn)芯片作為英偉達(dá)訓(xùn)練的替代品，2025 年開始將有一個(gè)變化，即大家會(huì)逐漸看國(guó)產(chǎn)芯片在推理市場(chǎng)的機(jī)會(huì)。

上海人工智能研究院數(shù)字經(jīng)濟(jì)研究中心資深咨詢顧問(wèn)于清揚(yáng)提到 DeepSeek 對(duì)國(guó)產(chǎn)芯片的促進(jìn)?！窪eepSeek 通過(guò)強(qiáng)化學(xué)習(xí)機(jī)制將模型的無(wú)效訓(xùn)練降低 60%，對(duì)并行計(jì)算的需求較傳統(tǒng)架構(gòu)降低 40%，使國(guó)產(chǎn)芯片在特定計(jì)算任務(wù)中的能效比可達(dá)英偉達(dá) GPU 的 75%?！?/p>

與此同時(shí)，不僅限于 GPU 芯片，在 AI 推理側(cè)有細(xì)分優(yōu)勢(shì)的 ASIC、FPGA 等芯片也將有豐富的發(fā)展機(jī)會(huì)。值得注意的是，雖然前文所述 DeepSeek 的火熱給國(guó)產(chǎn)芯片公司帶來(lái)諸多機(jī)遇，但是由于 DeepSeek 對(duì)英偉達(dá) CUDA 生態(tài)仍有明顯的路徑依賴，國(guó)產(chǎn)芯片公司還需在互聯(lián)和生態(tài)等諸多方面進(jìn)一步完善。

新聞中心

DeepSeek適配國(guó)產(chǎn)芯片:差異化表現(xiàn)，商用前景各異

不同公司，優(yōu)勢(shì)何在？

DeepSeek 商用，有哪些形式？

DeepSeek 商業(yè)化，芯片公司誰(shuí)做的更好？

國(guó)產(chǎn) GPU，機(jī)會(huì)來(lái)了

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

DeepSeek適配國(guó)產(chǎn)芯片:差異化表現(xiàn)，商用前景各異

不同公司，優(yōu)勢(shì)何在？

DeepSeek 商用，有哪些形式？

DeepSeek 商業(yè)化，芯片公司誰(shuí)做的更好？

國(guó)產(chǎn) GPU，機(jī)會(huì)來(lái)了

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

DeepSeek適配國(guó)產(chǎn)芯片:差異化表現(xiàn)，商用前景各異

不同公司，優(yōu)勢(shì)何在？

DeepSeek 商用，有哪些形式？

DeepSeek 商業(yè)化，芯片公司誰(shuí)做的更好？

國(guó)產(chǎn) GPU，機(jī)會(huì)來(lái)了