英偉達(dá)發(fā)布Blackwell芯片，再次證明統(tǒng)治力

作者：陳玲麗時(shí)間：2024-03-21 來(lái)源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

隨著人工智能革命席卷而來(lái)，抓住生成式AI機(jī)會(huì)的英偉達(dá)全面出擊，為大小挑戰(zhàn)者設(shè)下新標(biāo)桿。3月19日，英偉達(dá)在2024年GTC大會(huì)上發(fā)布Hopper架構(gòu)芯片的繼任者 —— 全新Blackwell架構(gòu)芯片平臺(tái)，包括AWS、微軟和谷歌在內(nèi)的公司計(jì)劃將其用于生成人工智能和其他現(xiàn)代計(jì)算任務(wù)。

本文引用地址：http://m.butianyuan.cn/article/202403/456644.htm

GPU的形態(tài)已徹底改變

新GPU架構(gòu)“Blackwell”得名于美國(guó)數(shù)學(xué)家David Harold Blackwell，與英偉達(dá)Grace CPU、新一代網(wǎng)絡(luò)芯片等產(chǎn)品一起，面向生成式AI共同組成完整解決方案。黃仁勛稱Blackwell不只是芯片，而是一個(gè)全新的平臺(tái)。這意味著英偉達(dá)從芯片走向平臺(tái)的轉(zhuǎn)變。

基于該架構(gòu)的GPU芯片B200采用臺(tái)積電4NP制造工藝，密度方面應(yīng)該不會(huì)有明顯的提升，而之前的H100基本上已經(jīng)是一個(gè)完整的掩模版，芯片尺寸為814mm2，而理論最大值為858mm2。為此B200使用了兩個(gè)全尺寸掩模版制造的芯片，每個(gè)對(duì)應(yīng)四個(gè)HBM3E堆棧，每個(gè)堆棧的接口容量為24GB、帶寬為1TB/s。相比之下，每個(gè)H100芯片對(duì)應(yīng)六個(gè)HBM3接口，意味著B(niǎo)200每個(gè)芯片可以減少內(nèi)存控制器所需要的芯片面積，從而將更多的晶體管用于計(jì)算單元。

B200并不是傳統(tǒng)意義上的單一GPU，相反它由兩個(gè)緊密耦合的芯片組成，通過(guò)10TB/s NV-HBI（高帶寬接口）進(jìn)行連接，以確保它們能夠作為單個(gè)完全一致的芯片正常運(yùn)行。B200總晶體管數(shù)量達(dá)到2080億個(gè)、內(nèi)存帶寬達(dá)到8TB/s、擁有20 petaflops的AI性能，英偉達(dá)稱其可實(shí)現(xiàn)在十萬(wàn)億級(jí)參數(shù)模型上的AI訓(xùn)練和實(shí)時(shí)LLM（大語(yǔ)言模型）推理。

GPU的形態(tài)已徹底改變。需要更大的GPU，如果不能更大，就把更多GPU組合在一起，變成更大的虛擬GPU。Blackwell新架構(gòu)硬件產(chǎn)品線都圍繞這一句話展開(kāi)，通過(guò)芯片與芯片間的連接技術(shù)，一步步構(gòu)建出大型AI超算集群。

兩個(gè)B200 GPU與Grace CPU結(jié)合就成為GB200超級(jí)芯片，通過(guò)900GB/s的超低功耗NVLink芯片間互連技術(shù)連接在一起，將能夠使大模型推理工作負(fù)載的性能提升30倍，同時(shí)提高效率。相比于H100，它可以將成本和能源消耗降至1/25，而在參數(shù)為1750億的GPT-3 LLM基準(zhǔn)測(cè)試中，GB200的性能達(dá)到了H100的7倍，而訓(xùn)練速度則達(dá)到了H100的4倍。GB200將于今年晚些時(shí)候在NVIDIA DGX Cloud上以及通過(guò)AWS、谷歌云和Oracle云基礎(chǔ)設(shè)施實(shí)例提供。

在多卡互聯(lián)方面，英偉達(dá)的NVLink和NVSwitch技術(shù)是其護(hù)城河。NVLINK是一種點(diǎn)對(duì)點(diǎn)的高速互連技術(shù)，可以將多個(gè)GPU直接連接起來(lái)，第五代NVLink在多達(dá)576個(gè)GPU之間可提供1.8TB/s的每GPU雙向通信吞吐量；同時(shí)NVLink引入了統(tǒng)一內(nèi)存的概念，支持連接的GPU之間的內(nèi)存池，這對(duì)于需要大型數(shù)據(jù)集的任務(wù)來(lái)說(shuō)是一個(gè)至關(guān)重要的功能。而NVSwitch是一種高速交換機(jī)技術(shù)，可以將多個(gè)GPU和CPU直接連接起來(lái)，形成一個(gè)高性能計(jì)算系統(tǒng)。

“新一代計(jì)算單元”GB200 NVL72由此誕生，GB200 NVL72是一個(gè)全機(jī)架解決方案，有18個(gè)1U服務(wù)器，每臺(tái)服務(wù)器里帶有兩個(gè)GB200，合計(jì)共有36個(gè)Grace CPU和72個(gè)B200，并且全部采用液冷MGX封裝。黃仁勛在介紹此臺(tái)機(jī)器時(shí)說(shuō)道：“此時(shí)此刻，地球上也許只有三臺(tái)百億億次浮點(diǎn)運(yùn)算（exaflop）機(jī)器。而這是一個(gè)單一機(jī)架中的1個(gè)百億億次浮點(diǎn)運(yùn)算AI系統(tǒng)?！?/p>

值得注意的是，為了獲得最高的AI性能，基于GB200的系統(tǒng)可以與同期發(fā)布的Quantum-X800 InfiniBand和Spectrum-X800以太網(wǎng)平臺(tái)連接，可提供速度高達(dá)800Gb/s的高級(jí)網(wǎng)絡(luò)，配合散熱系統(tǒng)組成新一代DGX SuperPod集群。DGX GB200 SuperPod采用新型高效液冷機(jī)架規(guī)模架構(gòu)，標(biāo)準(zhǔn)配置可在FP4精度下提供11.5 exaflops算力和240TB高速內(nèi)存，并可通過(guò)額外的機(jī)架進(jìn)行擴(kuò)展。

此外，Blackwell支持的GPU包含RAS專用引擎，實(shí)現(xiàn)可靠性、可用性和服務(wù)性；還增加了芯片級(jí)功能，利用基于AI的預(yù)防性維護(hù)進(jìn)行診斷和預(yù)測(cè)可靠性問(wèn)題。這可以最大限度地延長(zhǎng)系統(tǒng)正常運(yùn)行時(shí)間，并提高大部署規(guī)模AI的彈性，使其能連續(xù)運(yùn)行數(shù)周甚至數(shù)月，并降低運(yùn)營(yíng)成本。

“這樣我們可以大量地節(jié)省能源、網(wǎng)絡(luò)帶寬量和時(shí)間?！秉S仁勛表示，“未來(lái)將是可生成的，這就是為什么這是一個(gè)全新的行業(yè)。我們的計(jì)算方式有本質(zhì)差異，所以英偉達(dá)為生成式AI時(shí)代打造了一款全新處理器。”

進(jìn)軍機(jī)器人領(lǐng)域

在GTC上，黃仁勛展示了多個(gè)由GR00T驅(qū)動(dòng)的人形機(jī)器人如何完成各種任務(wù)，包括來(lái)自Agility Robotics、Apptronik、傅利葉智能（Fourier Intelligence）和宇樹(shù)科技（Unitree Robotics）的機(jī)器人產(chǎn)品。GR00T驅(qū)動(dòng)的機(jī)器人將能夠理解自然語(yǔ)言，并通過(guò)觀察人類行為來(lái)模仿動(dòng)作。

英偉達(dá)過(guò)去針對(duì)機(jī)器人市場(chǎng)的Isaac機(jī)器人平臺(tái)也得到重大更新，發(fā)布了一款基于Thor芯片的新型人形機(jī)器人計(jì)算機(jī)Jetson Thor。據(jù)介紹，Jetson Thor是一個(gè)全新的計(jì)算平臺(tái)，能夠執(zhí)行復(fù)雜的任務(wù)并安全、自然地與人和機(jī)器交互，具有針對(duì)性能、功耗和尺寸優(yōu)化的模塊化架構(gòu)。

該SoC包括一個(gè)帶有transformer engine的下一代GPU，其采用英偉達(dá)Blackwell架構(gòu)，可提供每秒800萬(wàn)億次8位浮點(diǎn)運(yùn)算AI性能，以運(yùn)行GR00T等多模態(tài)生成式AI模型。憑借集成的功能安全處理器、高性能CPU集群和100GB以太網(wǎng)帶寬，大大簡(jiǎn)化了設(shè)計(jì)和集成工作。

為了幫助機(jī)器人更好地感知所處環(huán)境，還發(fā)布了Isaac Perceptor軟件開(kāi)發(fā)工具包，該工具包具有最先進(jìn)的多攝像頭視覺(jué)里程計(jì)、3D重建和占用地圖，以及深度感知功能；以及為了使機(jī)械臂更具適應(yīng)性，宣布推出Isaac Manipulator，一個(gè)先進(jìn)的機(jī)械臂感知、路徑規(guī)劃和運(yùn)動(dòng)學(xué)控制庫(kù)。

自動(dòng)駕駛未來(lái)可期

根據(jù)Frost&Sullivan統(tǒng)計(jì)數(shù)據(jù)顯示，2022年英偉達(dá)出貨量占到全球高算力自動(dòng)駕駛芯片市場(chǎng)份額為82.5%。按照黃仁勛的規(guī)劃，未來(lái)汽車業(yè)務(wù)將與數(shù)據(jù)中心、游戲并列成為英偉達(dá)的三大支柱業(yè)務(wù)。

最新發(fā)布的集中式車載計(jì)算平臺(tái)DRIVE Thor也將搭載全新Blackwell架構(gòu)。多家頭部電動(dòng)汽車制造商在GTC上展示了其搭載DRIVE Thor的下一代AI車型，既包括比亞迪、廣汽埃安、小鵬、理想汽車和極氪等眾多中國(guó)車企，也包括了文遠(yuǎn)知行等自動(dòng)駕駛平臺(tái)公司。

推理微服務(wù)成為AI入口

隨著人工智能技術(shù)加速在各領(lǐng)域的滲透和變革，除了硬件產(chǎn)品，英偉達(dá)還與大量與企業(yè)合作，推進(jìn)AI落地。為此，英偉達(dá)推出了推理微服務(wù)，即NVIDIA NIM，能夠?qū)㈤_(kāi)發(fā)者與數(shù)億個(gè)GPU連接起來(lái)，以部署各種定制AI。這是一種全新的軟件打包和交付方式，該服務(wù)有望支撐英偉達(dá)未來(lái)在AI服務(wù)上的營(yíng)收增長(zhǎng)。

其具體模式為：英偉達(dá)提供預(yù)訓(xùn)練好的AI模型并開(kāi)放API（應(yīng)用程序接口），再由行業(yè)客戶開(kāi)發(fā)應(yīng)用，以簡(jiǎn)化企業(yè)自己開(kāi)發(fā)生成式AI應(yīng)用的成本。

這些微服務(wù)支持行業(yè)標(biāo)準(zhǔn)API、易于連接，可在英偉達(dá)龐大的CUDA安裝基礎(chǔ)上工作，針對(duì)新GPU進(jìn)行重新優(yōu)化，并不斷掃描安全漏洞和威脅。黃仁勛也在現(xiàn)場(chǎng)示范了英偉達(dá)內(nèi)部藉NIM所打造的“芯片設(shè)計(jì)聊天機(jī)器人”，經(jīng)過(guò)數(shù)據(jù)訓(xùn)練和模型微調(diào)后，聊天機(jī)器人即可給出符合芯片設(shè)計(jì)領(lǐng)域的答案，甚至能同步生成所需的程序代碼。

企業(yè)IT行業(yè)正坐在一座「金礦」上，擁有多年來(lái)創(chuàng)建的所有這些令人驚嘆的工具和數(shù)據(jù)，如果能把它們變成AI助手，就能提供更多可能。

· 在量子計(jì)算領(lǐng)域，英偉達(dá)宣布推出云量子計(jì)算機(jī)模擬微服務(wù)，幫助研究人員和開(kāi)發(fā)人員在化學(xué)、生物學(xué)、材料科學(xué)等科學(xué)領(lǐng)域的量子計(jì)算研究，該服務(wù)基于開(kāi)源CUDA-Q量子計(jì)算平臺(tái)，支持用戶在云端構(gòu)建并測(cè)試新的量子算法和應(yīng)用，包括支持量子-經(jīng)典混合算法編程的模擬器和工具等。與其他云服務(wù)不同，英偉達(dá)目前還沒(méi)有量子計(jì)算機(jī)，但未來(lái)它將提供第三方量子計(jì)算機(jī)的訪問(wèn)。

· 在醫(yī)藥領(lǐng)域，英偉達(dá)宣布旗下包括Parabricks、MONAI、NeMo?、Riva、Metropolis，現(xiàn)已通CUDA-X微服務(wù)提供訪問(wèn)，以加速藥物研發(fā)、醫(yī)學(xué)影像、基因組學(xué)分析等醫(yī)療工作流程。

游戲領(lǐng)域大顯身手

游戲起家的英偉達(dá)，自然也沒(méi)有忘記人工智能技術(shù)在游戲領(lǐng)域大顯身手，這次GTC上重點(diǎn)展示的是它的數(shù)字人技術(shù)。英偉達(dá)數(shù)字人平臺(tái)包括三項(xiàng)主要技術(shù)：NVIDIA ACE、NVIDIA NeMo和RTX光線追蹤技術(shù)，分別通過(guò)AI驅(qū)動(dòng)游戲角色語(yǔ)言、語(yǔ)音、動(dòng)畫(huà)和圖形。

其中，NVIDIA ACE可幫助開(kāi)發(fā)者通過(guò)Audio2Face驅(qū)動(dòng)的面部動(dòng)畫(huà)以及由Riva自動(dòng)語(yǔ)音識(shí)別（ASR）和文本轉(zhuǎn)語(yǔ)音（TTS）驅(qū)動(dòng)的語(yǔ)音交流，允許模型在云端和PC上運(yùn)行，以確保用戶獲得最佳體驗(yàn)。全球游戲發(fā)行商正評(píng)估NVIDIA ACE如何改善游戲體驗(yàn)。

NVIDIA NeMo則可幫助開(kāi)發(fā)者提供企業(yè)級(jí)生成式AI模型，包括精確數(shù)據(jù)管理、模型個(gè)性化定制、檢索增強(qiáng)生成和加速性能等。最后，包含RTX全局光照（RTXGI）和DLSS 3.5等渲染技術(shù)的集合，可在游戲和應(yīng)用中實(shí)現(xiàn)實(shí)時(shí)光線路徑追蹤。

總結(jié)

自從2022年底OpenAI宣布AI聊天機(jī)器人ChatGPT以來(lái)，全球掀起了一輪巨大的AI熱潮，推動(dòng)了GPU芯片大廠英偉達(dá)數(shù)個(gè)財(cái)務(wù)季度的收入爆發(fā)式增長(zhǎng)。更加確切地說(shuō)是，英偉達(dá)在最近幾個(gè)財(cái)季的收入暴增，其實(shí)主要依賴數(shù)據(jù)中心業(yè)務(wù)作為增長(zhǎng)引擎。與此同時(shí)，英偉達(dá)在資本市場(chǎng)上還受到投資者們狂熱地追捧，它的股價(jià)持續(xù)攀升。目前，英偉達(dá)已經(jīng)擁有2.26萬(wàn)億美元的市值，是全球市值排名第三的上市企業(yè)，僅次于微軟的3.16萬(wàn)億美元和蘋果的2.76萬(wàn)億美元。

預(yù)計(jì)每年全球?qū)?shù)據(jù)中心設(shè)備投入的費(fèi)用將共計(jì)2500億美元，英偉達(dá)產(chǎn)品在其中占據(jù)的份額將超過(guò)其他芯片生產(chǎn)商。英偉達(dá)正致力提供AI模型和其他軟件，然后根據(jù)客戶的算力和運(yùn)行的芯片數(shù)量向客戶收費(fèi)，軟件業(yè)務(wù)未來(lái)有望帶來(lái)數(shù)十億美元營(yíng)收，成為高利潤(rùn)率業(yè)務(wù)。

Blackwell產(chǎn)品線就由Nvidia AI Enterprise支持。英偉達(dá)的軟件和生態(tài)系統(tǒng)有助于加速AI的應(yīng)用，同時(shí)進(jìn)一步構(gòu)建“護(hù)城河”，構(gòu)建了難以跨越的競(jìng)爭(zhēng)壁壘。憑借領(lǐng)先GPU/DPU/CPU、硬件/軟件平臺(tái)和強(qiáng)大的生態(tài)系統(tǒng)，英偉達(dá)有望繼續(xù)從人工智能、高性能計(jì)算、游戲和自動(dòng)駕駛汽車的重大長(zhǎng)期趨勢(shì)中受益。

新聞中心

英偉達(dá)發(fā)布Blackwell芯片，再次證明統(tǒng)治力

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)