英偉達(dá)的中國(guó)版 A800 GPU 性能揭曉

作者：tomshardware 時(shí)間：2023-05-09 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

去年 10 月，美國(guó)商務(wù)部對(duì)向中國(guó)供應(yīng)芯片實(shí)施了全面限制，此后拜登 (Joe Biden) 政府已暗示可能實(shí)施進(jìn)一步制裁。

本文引用地址：http://m.butianyuan.cn/article/202305/446345.htm

制裁導(dǎo)致中國(guó)企業(yè)與 AI 開發(fā)行業(yè)內(nèi)最受歡迎的芯片英偉達(dá) A100 無緣，今年 3 月份發(fā)布的下一代版本 H100 也是如此，后者提供更強(qiáng)大算力。

Nvidia A800 計(jì)算 GPU 是為中國(guó)市場(chǎng)制造的。根據(jù) MyDrivers 的說法，A800 的運(yùn)行速度是 A100 GPU 的 70%，同時(shí)符合嚴(yán)格的美國(guó)出口標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)限制了 Nvidia 可以銷售的處理能力。

Nvidia 的 A100 推出已經(jīng)三年了，它為 HPC 提供 9.7 FP64/19.5 FP64 Tensor TFLOPS，為 AI 工作負(fù)載提供高達(dá) 624 BF16/FP16 TFLOPS（具有稀疏性）。即使減少了 30% 左右，這些數(shù)字看起來仍然令人生畏：6.8 FP64/13.7 FP64 Tensor TFLOPS 以及 437 BF16/FP16（具有稀疏性）。

盡管像 MyDrivers 所說的那樣「閹割」（性能上限），但 Nvidia 的 A800 在計(jì)算能力方面與成熟的中國(guó)壁仞科技的 BR104 和 BR100 計(jì)算 GPU 完全不相上下。同時(shí)，Nvidia 的計(jì)算 GPU 及其 CUDA 架構(gòu)得到其客戶運(yùn)行的應(yīng)用程序的廣泛支持，而壁仞科技的處理器尚未被采用。由于最新規(guī)定，甚至壁仞科技也無法將其成熟的計(jì)算 GPU 運(yùn)送到中國(guó)。

美國(guó)于 2021 年 10 月實(shí)施的出口規(guī)則禁止向中國(guó)出口允許在 41,600 立方英尺（1,178 立方米）或更小空間內(nèi)性能超過 100 FP64 PetaFLOPS 或 200 FP32 PetaFLOPS 的超級(jí)計(jì)算機(jī)的美國(guó)技術(shù)。雖然出口限制并未具體限制出售給中國(guó)實(shí)體的每個(gè)計(jì)算 GPU 的性能，但它們限制了它們的吞吐量和可擴(kuò)展性。

新規(guī)定生效后，英偉達(dá)無法在沒有出口許可證的情況下向中國(guó)客戶銷售其超高端 A100 和 H100 計(jì)算 GPU，而出口許可證很難獲得。為了滿足中國(guó)超大規(guī)模用戶對(duì)性能的需求，該公司推出了其 A100 GPU 的精簡(jiǎn)版 A800。到目前為止，還不清楚這款 GPU 的性能如何。

隨著人工智能在消費(fèi)者和企業(yè)中的使用越來越多，能夠處理適當(dāng)工作負(fù)載的高性能硬件正在蓬勃發(fā)展。Nvidia 是 AI 大趨勢(shì)的主要受益者之一，這就是為什么其 GPU 的需求如此之高，以至于即使是精簡(jiǎn)版 A800 在中國(guó)也已售罄。

壁仞科技的 BR100 將采用 OAM 外形，功耗高達(dá) 550W。該芯片支持該公司專有的 8 路 Blink 技術(shù)，允許每個(gè)系統(tǒng)安裝多達(dá)八個(gè) BR100 GPU。相比之下，300W BR104 將采用 FHFL 雙寬 PCIe 卡外形并支持多達(dá) 3 路多 GPU 配置。據(jù) EETrend 報(bào)道，這兩款芯片都使用 PCIe 5.0 x16 接口，頂部帶有用于加速器的 CXL 協(xié)議。

壁仞科技表示，其兩款芯片均采用臺(tái)積電的 7nm 級(jí)制造工藝制造（未詳細(xì)說明是使用 N7、N7+ 還是 N7P）。更大的 BR100 包含 770 億個(gè)晶體管，超過了同樣使用臺(tái)積電 N7 節(jié)點(diǎn)之一制造的 Nvidia A100 的 542 億個(gè)。該公司還表示，為了克服臺(tái)積電光罩尺寸的限制，它必須使用小芯片設(shè)計(jì)和代工廠的 CoWoS 2.5D 技術(shù)，這是完全合乎邏輯的，因?yàn)?Nvidia 的 A100 接近光罩尺寸，而 BR100 應(yīng)該是均勻的更大，因?yàn)樗木w管數(shù)量更多。

鑒于規(guī)格，我們可以推測(cè) BR100 基本上使用兩個(gè) BR104，盡管開發(fā)人員尚未正式證實(shí)這一點(diǎn)。

為了將其 BR100 OAM 加速器商業(yè)化，壁仞科技與 Inspur 合作開發(fā)了一款 8 路 AI 服務(wù)器，該服務(wù)器將于 2022 年第四季度開始提供樣品。百度和中國(guó)移動(dòng)將成為首批使用壁仞科技計(jì)算 GPU 的客戶。

新加坡國(guó)立大學(xué) (National University of Singapore) 教授尤洋表示，許多中國(guó)公司現(xiàn)在正在研究組合三、四塊性能相對(duì)較差的芯片，包括 A800 和 H800，來替代英偉達(dá)最先進(jìn)的處理器。尤洋運(yùn)營(yíng)著 AI 基礎(chǔ)設(shè)施公司 HPC-AI Tech。

尤洋說，這正促使一些公司加速開發(fā)技術(shù)，使用不同類型的芯片來訓(xùn)練大規(guī)模 AI 模型。此前這一研究領(lǐng)域在硬件資源有限、渴望降低成本的中國(guó)公司中已經(jīng)很普遍。論文顯示，阿里巴巴、百度和華為已在尋求使用 A100、老一代英偉達(dá)芯片 V100 和 P100 以及華為昇騰芯片的各種組合。

AI 專家說，相比之下，同時(shí)使用多種類型芯片的情況在美國(guó)公司中很少見，因?yàn)橐尣煌愋托酒煽康貐f(xié)同工作存在技術(shù)挑戰(zhàn)。Meta 的 Zhang 說，這是萬不得已的最后手段。

與此同時(shí)，中國(guó)公司也正在研究使用各種軟件技術(shù)來降低訓(xùn)練大規(guī)模 AI 模型的計(jì)算強(qiáng)度，這種方法已在全球范圍內(nèi)加速推廣，包括在美國(guó)公司中。不過，論文顯示，與美國(guó)公司不同，中國(guó)公司在結(jié)合使用多種軟件技術(shù)方面更加積極主動(dòng)。

雖然其中許多方法在全球研究界仍處于不斷完善中、難以實(shí)施，但中國(guó)研究人員已取得了一些成功。

在今年 3 月的一篇論文中，華為研究人員展示了他們?nèi)绾卫眠@種技術(shù)，只使用該公司的昇騰芯片而不是英偉達(dá)的芯片，來訓(xùn)練其最新一代大語言模型。研究人員在論文中寫道，盡管存在一些缺點(diǎn)，但這個(gè)名為盤古的大語言模型在處理閱讀理解和語法挑戰(zhàn)等一些中文任務(wù)上都具有最先進(jìn)性能。

新聞中心

英偉達(dá)的中國(guó)版 A800 GPU 性能揭曉

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)