英偉達(dá)的中國(guó)版 A800 GPU 性能揭曉
去年 10 月,美國(guó)商務(wù)部對(duì)向中國(guó)供應(yīng)芯片實(shí)施了全面限制,此后拜登 (Joe Biden) 政府已暗示可能實(shí)施進(jìn)一步制裁。
本文引用地址:http://m.butianyuan.cn/article/202305/446345.htm制裁導(dǎo)致中國(guó)企業(yè)與 AI 開(kāi)發(fā)行業(yè)內(nèi)最受歡迎的芯片英偉達(dá) A100 無(wú)緣,今年 3 月份發(fā)布的下一代版本 H100 也是如此,后者提供更強(qiáng)大算力。
Nvidia A800 計(jì)算 GPU 是為中國(guó)市場(chǎng)制造的。根據(jù) MyDrivers 的說(shuō)法,A800 的運(yùn)行速度是 A100 GPU 的 70%,同時(shí)符合嚴(yán)格的美國(guó)出口標(biāo)準(zhǔn),該標(biāo)準(zhǔn)限制了 Nvidia 可以銷售的處理能力。
Nvidia 的 A100 推出已經(jīng)三年了,它為 HPC 提供 9.7 FP64/19.5 FP64 Tensor TFLOPS,為 AI 工作負(fù)載提供高達(dá) 624 BF16/FP16 TFLOPS(具有稀疏性)。即使減少了 30% 左右,這些數(shù)字看起來(lái)仍然令人生畏:6.8 FP64/13.7 FP64 Tensor TFLOPS 以及 437 BF16/FP16(具有稀疏性)。
盡管像 MyDrivers 所說(shuō)的那樣「閹割」(性能上限),但 Nvidia 的 A800 在計(jì)算能力方面與成熟的中國(guó)壁仞科技的 BR104 和 BR100 計(jì)算 GPU 完全不相上下。同時(shí),Nvidia 的計(jì)算 GPU 及其 CUDA 架構(gòu)得到其客戶運(yùn)行的應(yīng)用程序的廣泛支持,而壁仞科技的處理器尚未被采用。由于最新規(guī)定,甚至壁仞科技也無(wú)法將其成熟的計(jì)算 GPU 運(yùn)送到中國(guó)。
美國(guó)于 2021 年 10 月實(shí)施的出口規(guī)則禁止向中國(guó)出口允許在 41,600 立方英尺(1,178 立方米)或更小空間內(nèi)性能超過(guò) 100 FP64 PetaFLOPS 或 200 FP32 PetaFLOPS 的超級(jí)計(jì)算機(jī)的美國(guó)技術(shù)。雖然出口限制并未具體限制出售給中國(guó)實(shí)體的每個(gè)計(jì)算 GPU 的性能,但它們限制了它們的吞吐量和可擴(kuò)展性。
新規(guī)定生效后,英偉達(dá)無(wú)法在沒(méi)有出口許可證的情況下向中國(guó)客戶銷售其超高端 A100 和 H100 計(jì)算 GPU,而出口許可證很難獲得。為了滿足中國(guó)超大規(guī)模用戶對(duì)性能的需求,該公司推出了其 A100 GPU 的精簡(jiǎn)版 A800。到目前為止,還不清楚這款 GPU 的性能如何。
隨著人工智能在消費(fèi)者和企業(yè)中的使用越來(lái)越多,能夠處理適當(dāng)工作負(fù)載的高性能硬件正在蓬勃發(fā)展。Nvidia 是 AI 大趨勢(shì)的主要受益者之一,這就是為什么其 GPU 的需求如此之高,以至于即使是精簡(jiǎn)版 A800 在中國(guó)也已售罄。
壁仞科技的 BR100 將采用 OAM 外形,功耗高達(dá) 550W。該芯片支持該公司專有的 8 路 Blink 技術(shù),允許每個(gè)系統(tǒng)安裝多達(dá)八個(gè) BR100 GPU。相比之下,300W BR104 將采用 FHFL 雙寬 PCIe 卡外形并支持多達(dá) 3 路多 GPU 配置。據(jù) EETrend 報(bào)道,這兩款芯片都使用 PCIe 5.0 x16 接口,頂部帶有用于加速器的 CXL 協(xié)議。
壁仞科技表示,其兩款芯片均采用臺(tái)積電的 7nm 級(jí)制造工藝制造(未詳細(xì)說(shuō)明是使用 N7、N7+ 還是 N7P)。更大的 BR100 包含 770 億個(gè)晶體管,超過(guò)了同樣使用臺(tái)積電 N7 節(jié)點(diǎn)之一制造的 Nvidia A100 的 542 億個(gè)。該公司還表示,為了克服臺(tái)積電光罩尺寸的限制,它必須使用小芯片設(shè)計(jì)和代工廠的 CoWoS 2.5D 技術(shù),這是完全合乎邏輯的,因?yàn)?Nvidia 的 A100 接近光罩尺寸,而 BR100 應(yīng)該是均勻的更大,因?yàn)樗木w管數(shù)量更多。
鑒于規(guī)格,我們可以推測(cè) BR100 基本上使用兩個(gè) BR104,盡管開(kāi)發(fā)人員尚未正式證實(shí)這一點(diǎn)。
為了將其 BR100 OAM 加速器商業(yè)化,壁仞科技與 Inspur 合作開(kāi)發(fā)了一款 8 路 AI 服務(wù)器,該服務(wù)器將于 2022 年第四季度開(kāi)始提供樣品。百度和中國(guó)移動(dòng)將成為首批使用壁仞科技計(jì)算 GPU 的客戶。
新加坡國(guó)立大學(xué) (National University of Singapore) 教授尤洋表示,許多中國(guó)公司現(xiàn)在正在研究組合三、四塊性能相對(duì)較差的芯片,包括 A800 和 H800,來(lái)替代英偉達(dá)最先進(jìn)的處理器。尤洋運(yùn)營(yíng)著 AI 基礎(chǔ)設(shè)施公司 HPC-AI Tech。
尤洋說(shuō),這正促使一些公司加速開(kāi)發(fā)技術(shù),使用不同類型的芯片來(lái)訓(xùn)練大規(guī)模 AI 模型。此前這一研究領(lǐng)域在硬件資源有限、渴望降低成本的中國(guó)公司中已經(jīng)很普遍。論文顯示,阿里巴巴、百度和華為已在尋求使用 A100、老一代英偉達(dá)芯片 V100 和 P100 以及華為昇騰芯片的各種組合。
AI 專家說(shuō),相比之下,同時(shí)使用多種類型芯片的情況在美國(guó)公司中很少見(jiàn),因?yàn)橐尣煌愋托酒煽康貐f(xié)同工作存在技術(shù)挑戰(zhàn)。Meta 的 Zhang 說(shuō),這是萬(wàn)不得已的最后手段。
與此同時(shí),中國(guó)公司也正在研究使用各種軟件技術(shù)來(lái)降低訓(xùn)練大規(guī)模 AI 模型的計(jì)算強(qiáng)度,這種方法已在全球范圍內(nèi)加速推廣,包括在美國(guó)公司中。不過(guò),論文顯示,與美國(guó)公司不同,中國(guó)公司在結(jié)合使用多種軟件技術(shù)方面更加積極主動(dòng)。
雖然其中許多方法在全球研究界仍處于不斷完善中、難以實(shí)施,但中國(guó)研究人員已取得了一些成功。
在今年 3 月的一篇論文中,華為研究人員展示了他們?nèi)绾卫眠@種技術(shù),只使用該公司的昇騰芯片而不是英偉達(dá)的芯片,來(lái)訓(xùn)練其最新一代大語(yǔ)言模型。研究人員在論文中寫(xiě)道,盡管存在一些缺點(diǎn),但這個(gè)名為盤(pán)古的大語(yǔ)言模型在處理閱讀理解和語(yǔ)法挑戰(zhàn)等一些中文任務(wù)上都具有最先進(jìn)性能。
評(píng)論