新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 編輯觀點(diǎn) > 英偉達(dá)發(fā)布Blackwell芯片,再次證明統(tǒng)治力

英偉達(dá)發(fā)布Blackwell芯片,再次證明統(tǒng)治力

作者:陳玲麗 時(shí)間:2024-03-21 來(lái)源:電子產(chǎn)品世界 收藏

隨著人工智能革命席卷而來(lái),抓住生成式機(jī)會(huì)的全面出擊,為大小挑戰(zhàn)者設(shè)下新標(biāo)桿。3月19日,在2024年GTC大會(huì)上發(fā)布Hopper架構(gòu)的繼任者 —— 全新架構(gòu)平臺(tái),包括AWS、微軟和谷歌在內(nèi)的公司計(jì)劃將其用于生成人工智能和其他現(xiàn)代計(jì)算任務(wù)。

本文引用地址:http://m.butianyuan.cn/article/202403/456644.htm

的形態(tài)已徹底改變

架構(gòu)“”得名于美國(guó)數(shù)學(xué)家David Harold ,與Grace CPU、新一代網(wǎng)絡(luò)等產(chǎn)品一起,面向生成式共同組成完整解決方案。黃仁勛稱Blackwell不只是芯片,而是一個(gè)全新的平臺(tái)。這意味著英偉達(dá)從芯片走向平臺(tái)的轉(zhuǎn)變。

基于該架構(gòu)的芯片B200采用臺(tái)積電4NP制造工藝,密度方面應(yīng)該不會(huì)有明顯的提升,而之前的H100基本上已經(jīng)是一個(gè)完整的掩模版,芯片尺寸為814mm2,而理論最大值為858mm2。為此B200使用了兩個(gè)全尺寸掩模版制造的芯片,每個(gè)對(duì)應(yīng)四個(gè)HBM3E堆棧,每個(gè)堆棧的接口容量為24GB、帶寬為1TB/s。相比之下,每個(gè)H100芯片對(duì)應(yīng)六個(gè)HBM3接口,意味著B(niǎo)200每個(gè)芯片可以減少內(nèi)存控制器所需要的芯片面積,從而將更多的晶體管用于計(jì)算單元。

640.gif

B200并不是傳統(tǒng)意義上的單一GPU,相反它由兩個(gè)緊密耦合的芯片組成,通過(guò)10TB/s NV-HBI(高帶寬接口)進(jìn)行連接,以確保它們能夠作為單個(gè)完全一致的芯片正常運(yùn)行。B200總晶體管數(shù)量達(dá)到2080億個(gè)、內(nèi)存帶寬達(dá)到8TB/s、擁有20 petaflops的性能,英偉達(dá)稱其可實(shí)現(xiàn)在十萬(wàn)億級(jí)參數(shù)模型上的AI訓(xùn)練和實(shí)時(shí)LLM(大語(yǔ)言模型)推理。

GPU的形態(tài)已徹底改變。需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU。Blackwell新架構(gòu)硬件產(chǎn)品線都圍繞這一句話展開(kāi),通過(guò)芯片與芯片間的連接技術(shù),一步步構(gòu)建出大型AI超算集群。

兩個(gè)B200 GPU與Grace CPU結(jié)合就成為GB200超級(jí)芯片,通過(guò)900GB/s的超低功耗NVLink芯片間互連技術(shù)連接在一起,將能夠使大模型推理工作負(fù)載的性能提升30倍,同時(shí)提高效率。相比于H100,它可以將成本和能源消耗降至1/25,而在參數(shù)為1750億的GPT-3 LLM基準(zhǔn)測(cè)試中,GB200的性能達(dá)到了H100的7倍,而訓(xùn)練速度則達(dá)到了H100的4倍。GB200將于今年晚些時(shí)候在NVIDIA DGX Cloud上以及通過(guò)AWS、谷歌云和Oracle云基礎(chǔ)設(shè)施實(shí)例提供。

640-2.gif

在多卡互聯(lián)方面,英偉達(dá)的NVLink和NVSwitch技術(shù)是其護(hù)城河。NVLINK是一種點(diǎn)對(duì)點(diǎn)的高速互連技術(shù),可以將多個(gè)GPU直接連接起來(lái),第五代NVLink在多達(dá)576個(gè)GPU之間可提供1.8TB/s的每GPU雙向通信吞吐量;同時(shí)NVLink引入了統(tǒng)一內(nèi)存的概念,支持連接的GPU之間的內(nèi)存池,這對(duì)于需要大型數(shù)據(jù)集的任務(wù)來(lái)說(shuō)是一個(gè)至關(guān)重要的功能。而NVSwitch是一種高速交換機(jī)技術(shù),可以將多個(gè)GPU和CPU直接連接起來(lái),形成一個(gè)高性能計(jì)算系統(tǒng)。

“新一代計(jì)算單元”GB200 NVL72由此誕生,GB200 NVL72是一個(gè)全機(jī)架解決方案,有18個(gè)1U服務(wù)器,每臺(tái)服務(wù)器里帶有兩個(gè)GB200,合計(jì)共有36個(gè)Grace CPU和72個(gè)B200,并且全部采用液冷MGX封裝。黃仁勛在介紹此臺(tái)機(jī)器時(shí)說(shuō)道:“此時(shí)此刻,地球上也許只有三臺(tái)百億億次浮點(diǎn)運(yùn)算(exaflop)機(jī)器。而這是一個(gè)單一機(jī)架中的1個(gè)百億億次浮點(diǎn)運(yùn)算AI系統(tǒng)?!?/p>

640.jpeg

值得注意的是,為了獲得最高的AI性能,基于GB200的系統(tǒng)可以與同期發(fā)布的Quantum-X800 InfiniBand和Spectrum-X800以太網(wǎng)平臺(tái)連接,可提供速度高達(dá)800Gb/s的高級(jí)網(wǎng)絡(luò),配合散熱系統(tǒng)組成新一代DGX SuperPod集群。DGX GB200 SuperPod采用新型高效液冷機(jī)架規(guī)模架構(gòu),標(biāo)準(zhǔn)配置可在FP4精度下提供11.5 exaflops算力和240TB高速內(nèi)存,并可通過(guò)額外的機(jī)架進(jìn)行擴(kuò)展。

此外,Blackwell支持的GPU包含RAS專用引擎,實(shí)現(xiàn)可靠性、可用性和服務(wù)性;還增加了芯片級(jí)功能,利用基于AI的預(yù)防性維護(hù)進(jìn)行診斷和預(yù)測(cè)可靠性問(wèn)題。這可以最大限度地延長(zhǎng)系統(tǒng)正常運(yùn)行時(shí)間,并提高大部署規(guī)模AI的彈性,使其能連續(xù)運(yùn)行數(shù)周甚至數(shù)月,并降低運(yùn)營(yíng)成本。

“這樣我們可以大量地節(jié)省能源、網(wǎng)絡(luò)帶寬量和時(shí)間。”黃仁勛表示,“未來(lái)將是可生成的,這就是為什么這是一個(gè)全新的行業(yè)。我們的計(jì)算方式有本質(zhì)差異,所以英偉達(dá)為生成式AI時(shí)代打造了一款全新處理器?!?/strong>

進(jìn)軍機(jī)器人領(lǐng)域

在GTC上,黃仁勛展示了多個(gè)由GR00T驅(qū)動(dòng)的人形機(jī)器人如何完成各種任務(wù),包括來(lái)自Agility Robotics、Apptronik、傅利葉智能(Fourier Intelligence)和宇樹(shù)科技(Unitree Robotics)的機(jī)器人產(chǎn)品。GR00T驅(qū)動(dòng)的機(jī)器人將能夠理解自然語(yǔ)言,并通過(guò)觀察人類行為來(lái)模仿動(dòng)作。

英偉達(dá)過(guò)去針對(duì)機(jī)器人市場(chǎng)的Isaac機(jī)器人平臺(tái)也得到重大更新,發(fā)布了一款基于Thor芯片的新型人形機(jī)器人計(jì)算機(jī)Jetson Thor。據(jù)介紹,Jetson Thor是一個(gè)全新的計(jì)算平臺(tái),能夠執(zhí)行復(fù)雜的任務(wù)并安全、自然地與人和機(jī)器交互,具有針對(duì)性能、功耗和尺寸優(yōu)化的模塊化架構(gòu)。

該SoC包括一個(gè)帶有transformer engine的下一代GPU,其采用英偉達(dá)Blackwell架構(gòu),可提供每秒800萬(wàn)億次8位浮點(diǎn)運(yùn)算AI性能,以運(yùn)行GR00T等多模態(tài)生成式AI模型。憑借集成的功能安全處理器、高性能CPU集群和100GB以太網(wǎng)帶寬,大大簡(jiǎn)化了設(shè)計(jì)和集成工作。

為了幫助機(jī)器人更好地感知所處環(huán)境,還發(fā)布了Isaac Perceptor軟件開(kāi)發(fā)工具包,該工具包具有最先進(jìn)的多攝像頭視覺(jué)里程計(jì)、3D重建和占用地圖,以及深度感知功能;以及為了使機(jī)械臂更具適應(yīng)性,宣布推出Isaac Manipulator,一個(gè)先進(jìn)的機(jī)械臂感知、路徑規(guī)劃和運(yùn)動(dòng)學(xué)控制庫(kù)。

自動(dòng)駕駛未來(lái)可期

根據(jù)Frost&Sullivan統(tǒng)計(jì)數(shù)據(jù)顯示,2022年英偉達(dá)出貨量占到全球高算力自動(dòng)駕駛芯片市場(chǎng)份額為82.5%。按照黃仁勛的規(guī)劃,未來(lái)汽車業(yè)務(wù)將與數(shù)據(jù)中心、游戲并列成為英偉達(dá)的三大支柱業(yè)務(wù)。

最新發(fā)布的集中式車載計(jì)算平臺(tái)DRIVE Thor也將搭載全新Blackwell架構(gòu)。多家頭部電動(dòng)汽車制造商在GTC上展示了其搭載DRIVE Thor的下一代AI車型,既包括比亞迪、廣汽埃安、小鵬、理想汽車和極氪等眾多中國(guó)車企,也包括了文遠(yuǎn)知行等自動(dòng)駕駛平臺(tái)公司。

推理微服務(wù)成為AI入口

隨著人工智能技術(shù)加速在各領(lǐng)域的滲透和變革,除了硬件產(chǎn)品,英偉達(dá)還與大量與企業(yè)合作,推進(jìn)AI落地。為此,英偉達(dá)推出了推理微服務(wù),即NVIDIA NIM,能夠?qū)㈤_(kāi)發(fā)者與數(shù)億個(gè)GPU連接起來(lái),以部署各種定制AI。這是一種全新的軟件打包和交付方式,該服務(wù)有望支撐英偉達(dá)未來(lái)在AI服務(wù)上的營(yíng)收增長(zhǎng)。

其具體模式為:英偉達(dá)提供預(yù)訓(xùn)練好的AI模型并開(kāi)放API(應(yīng)用程序接口),再由行業(yè)客戶開(kāi)發(fā)應(yīng)用,以簡(jiǎn)化企業(yè)自己開(kāi)發(fā)生成式AI應(yīng)用的成本。

640.png

這些微服務(wù)支持行業(yè)標(biāo)準(zhǔn)API、易于連接,可在英偉達(dá)龐大的CUDA安裝基礎(chǔ)上工作,針對(duì)新GPU進(jìn)行重新優(yōu)化,并不斷掃描安全漏洞和威脅。黃仁勛也在現(xiàn)場(chǎng)示范了英偉達(dá)內(nèi)部藉NIM所打造的“芯片設(shè)計(jì)聊天機(jī)器人”,經(jīng)過(guò)數(shù)據(jù)訓(xùn)練和模型微調(diào)后,聊天機(jī)器人即可給出符合芯片設(shè)計(jì)領(lǐng)域的答案,甚至能同步生成所需的程序代碼。

企業(yè)IT行業(yè)正坐在一座「金礦」上,擁有多年來(lái)創(chuàng)建的所有這些令人驚嘆的工具和數(shù)據(jù),如果能把它們變成AI助手,就能提供更多可能。

· 在量子計(jì)算領(lǐng)域,英偉達(dá)宣布推出云量子計(jì)算機(jī)模擬微服務(wù),幫助研究人員和開(kāi)發(fā)人員在化學(xué)、生物學(xué)、材料科學(xué)等科學(xué)領(lǐng)域的量子計(jì)算研究,該服務(wù)基于開(kāi)源CUDA-Q量子計(jì)算平臺(tái),支持用戶在云端構(gòu)建并測(cè)試新的量子算法和應(yīng)用,包括支持量子-經(jīng)典混合算法編程的模擬器和工具等。與其他云服務(wù)不同,英偉達(dá)目前還沒(méi)有量子計(jì)算機(jī),但未來(lái)它將提供第三方量子計(jì)算機(jī)的訪問(wèn)。

· 在醫(yī)藥領(lǐng)域,英偉達(dá)宣布旗下包括Parabricks、MONAI、NeMo?、Riva、Metropolis,現(xiàn)已通CUDA-X微服務(wù)提供訪問(wèn),以加速藥物研發(fā)、醫(yī)學(xué)影像、基因組學(xué)分析等醫(yī)療工作流程。

游戲領(lǐng)域大顯身手

游戲起家的英偉達(dá),自然也沒(méi)有忘記人工智能技術(shù)在游戲領(lǐng)域大顯身手,這次GTC上重點(diǎn)展示的是它的數(shù)字人技術(shù)。英偉達(dá)數(shù)字人平臺(tái)包括三項(xiàng)主要技術(shù):NVIDIA ACE、NVIDIA NeMo和RTX光線追蹤技術(shù),分別通過(guò)AI驅(qū)動(dòng)游戲角色語(yǔ)言、語(yǔ)音、動(dòng)畫(huà)和圖形。

其中,NVIDIA ACE可幫助開(kāi)發(fā)者通過(guò)Audio2Face驅(qū)動(dòng)的面部動(dòng)畫(huà)以及由Riva自動(dòng)語(yǔ)音識(shí)別(ASR)和文本轉(zhuǎn)語(yǔ)音(TTS)驅(qū)動(dòng)的語(yǔ)音交流,允許模型在云端和PC上運(yùn)行,以確保用戶獲得最佳體驗(yàn)。全球游戲發(fā)行商正評(píng)估NVIDIA ACE如何改善游戲體驗(yàn)。

NVIDIA NeMo則可幫助開(kāi)發(fā)者提供企業(yè)級(jí)生成式AI模型,包括精確數(shù)據(jù)管理、模型個(gè)性化定制、檢索增強(qiáng)生成和加速性能等。最后,包含RTX全局光照(RTXGI)和DLSS 3.5等渲染技術(shù)的集合,可在游戲和應(yīng)用中實(shí)現(xiàn)實(shí)時(shí)光線路徑追蹤。

總結(jié)

自從2022年底OpenAI宣布AI聊天機(jī)器人ChatGPT以來(lái),全球掀起了一輪巨大的AI熱潮,推動(dòng)了GPU芯片大廠英偉達(dá)數(shù)個(gè)財(cái)務(wù)季度的收入爆發(fā)式增長(zhǎng)。更加確切地說(shuō)是,英偉達(dá)在最近幾個(gè)財(cái)季的收入暴增,其實(shí)主要依賴數(shù)據(jù)中心業(yè)務(wù)作為增長(zhǎng)引擎。與此同時(shí),英偉達(dá)在資本市場(chǎng)上還受到投資者們狂熱地追捧,它的股價(jià)持續(xù)攀升。目前,英偉達(dá)已經(jīng)擁有2.26萬(wàn)億美元的市值,是全球市值排名第三的上市企業(yè),僅次于微軟的3.16萬(wàn)億美元和蘋(píng)果的2.76萬(wàn)億美元。

640-2.jpeg

預(yù)計(jì)每年全球?qū)?shù)據(jù)中心設(shè)備投入的費(fèi)用將共計(jì)2500億美元,英偉達(dá)產(chǎn)品在其中占據(jù)的份額將超過(guò)其他芯片生產(chǎn)商。英偉達(dá)正致力提供AI模型和其他軟件,然后根據(jù)客戶的算力和運(yùn)行的芯片數(shù)量向客戶收費(fèi),軟件業(yè)務(wù)未來(lái)有望帶來(lái)數(shù)十億美元營(yíng)收,成為高利潤(rùn)率業(yè)務(wù)。

Blackwell產(chǎn)品線就由Nvidia AI Enterprise支持。英偉達(dá)的軟件和生態(tài)系統(tǒng)有助于加速AI的應(yīng)用,同時(shí)進(jìn)一步構(gòu)建“護(hù)城河”,構(gòu)建了難以跨越的競(jìng)爭(zhēng)壁壘。憑借領(lǐng)先GPU/DPU/CPU、硬件/軟件平臺(tái)和強(qiáng)大的生態(tài)系統(tǒng),英偉達(dá)有望繼續(xù)從人工智能、高性能計(jì)算、游戲和自動(dòng)駕駛汽車的重大長(zhǎng)期趨勢(shì)中受益。



關(guān)鍵詞: 英偉達(dá) Blackwell 芯片 GPU AI

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉