英偉達(dá)CEO黃仁勛COMPUTEX 2024大會演講

作者：時間：2024-06-04 來源：有新Newin

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

英偉達(dá) CEO 黃仁勛在臺北 ComputeX 2024 大會上展示了英偉達(dá)在加速計算和生成式AI領(lǐng)域的最新成果，還描繪了未來計算和機(jī)器人(10.190, 0.00, 0.00%)技術(shù)的發(fā)展藍(lán)圖。

本文引用地址：http://m.butianyuan.cn/article/202406/459553.htm

　　這場演講涵蓋了從 AI 基礎(chǔ)技術(shù)到未來機(jī)器人和生成式 AI 在各個行業(yè)的應(yīng)用，全面展示了英偉達(dá)在推動計算技術(shù)變革方面的卓越成就。

　　黃仁勛表示，英偉達(dá)位于計算機(jī)圖形、模擬和 AI 的交匯處，這是英偉達(dá)的靈魂。今天展示給我們的一切都是模擬的，它是數(shù)學(xué)、科學(xué)、計算機(jī)科學(xué)、令人驚嘆的計算機(jī)架構(gòu)的結(jié)合。這些都不是動畫，而是自制的，英偉達(dá)把它全部融入了 Omniverse 虛擬世界。

　　▍加速計算與 AI

　　黃仁勛表示，我們所看到的一切的基礎(chǔ)是兩項基本技術(shù)，加速計算和在 Omniverse 內(nèi)部運(yùn)行的AI，這兩股計算的基本力量，將重新塑造計算機(jī)行業(yè)。計算機(jī)行業(yè)已有 60 年的歷史。在很多方面，今天所做的一切都是在 1964 年黃仁勛出生后一年發(fā)明的。

　　IBM System 360 引入了中央處理單元、通用計算、通過操作系統(tǒng)實現(xiàn)硬件和軟件的分離、多任務(wù)處理、IO子系統(tǒng)、DMA以及今天使用的各種技術(shù)。架構(gòu)兼容性、向后兼容性、系列兼容性，所有今天對計算機(jī)了解的東西，大部分在1964 年就已經(jīng)描述出來了。當(dāng)然，PC 革命使計算民主化，把它放在了每個人的手中和家中。

　　2007 年，iPhone 引入了移動計算，把計算機(jī)放進(jìn)了我們的口袋。從那時起，一切都在連接并隨時運(yùn)行通過移動云。這 60 年來，我們只見證了兩三次，確實不多，其實就兩三次，主要的技術(shù)變革，計算的兩三次構(gòu)造轉(zhuǎn)變，而我們即將再次見證這一切的發(fā)生。

　　有兩件基本的事情正在發(fā)生。首先是處理器，即計算機(jī)行業(yè)運(yùn)行的引擎，中央處理單元的性能提升顯著放緩。然而，我們需要進(jìn)行的計算量仍然在迅速增長，呈指數(shù)級增長。如果處理需求，數(shù)據(jù)需要處理的量繼續(xù)指數(shù)級增長但性能沒有，計算通貨膨脹將會發(fā)生。事實上，現(xiàn)在就看到了這一點(diǎn)。全球數(shù)據(jù)中心使用的電力量正在大幅增長。計算成本也在增長。我們正在經(jīng)歷計算通貨膨脹。

　　當(dāng)然，這種情況不能繼續(xù)下去。數(shù)據(jù)量將繼續(xù)以指數(shù)級增長，而 CPU 性能提升將永遠(yuǎn)不會恢復(fù)。我們有更好的方法。近二十年來，英偉達(dá)一直在研究加速計算。CUDA 增強(qiáng)了 CPU，卸載并加速了專用處理器可以更好完成的工作。事實上，性能非常出色，現(xiàn)在很明顯，隨著 CPU 性能提升放緩并最終顯著停止，應(yīng)該加速一切。

　　黃仁勛預(yù)測，所有需要大量處理的應(yīng)用程序都會被加速，當(dāng)然每個數(shù)據(jù)中心在不久的將來都會被加速?，F(xiàn)在加速計算是非常合理的。如果你看看一個應(yīng)用程序，這里100t 代表 100 單位時間，它可能是100秒，也可能是 100 小時。在很多情況下，如你所知，現(xiàn)在正在研究運(yùn)行 100 天的 AI 應(yīng)用程序。

　　1T 代碼是指需要順序處理的代碼，其中單線程CPU是非常關(guān)鍵的。操作系統(tǒng)控制邏輯非常重要，需要一條指令接著一條指令地執(zhí)行。然而，有很多算法，比如計算機(jī)圖形處理，可以完全并行操作。計算機(jī)圖形處理、圖像處理、物理模擬、組合優(yōu)化、圖處理、數(shù)據(jù)庫處理，當(dāng)然還有深度學(xué)習(xí)中非常著名的線性代數(shù)，這些算法都非常適合通過并行處理來加速。

　　因此，發(fā)明了一種架構(gòu)，通過在 CPU 上添加 GPU 來實現(xiàn)。專用處理器可以將耗時很長的任務(wù)加速到極快的速度。因為這兩個處理器可以并肩工作，它們都是自主的，獨(dú)立的，可以將原本需要 100 個時間單位的任務(wù)加速到 1 個時間單位，速度的提升是難以置信的，效果非常顯著，速度提升了 100 倍，但功耗只增加了大約三倍，成本只增加了約 50%。在 PC 行業(yè)一直這樣做，英偉達(dá)在1000 美元 PC 上加一個 500 美元 GeForce GPU，性能會大幅提升。英偉達(dá)在數(shù)據(jù)中心也這樣做，一個價值十億美元的數(shù)據(jù)中心，加上 5 億美元的GPU，突然間它就變成了一個 AI 工廠，這種情況正在全球各地發(fā)生。

　　節(jié)省的成本非常驚人。每花一美元就能獲得 60 倍的性能提升，速度提升了 100倍，而功耗只增加了三倍，成本只增加了 1.5倍。這種節(jié)省是難以置信的。節(jié)省的成本可以用美元來衡量。

　　很明顯，許多公司在云端處理數(shù)據(jù)上花費(fèi)了數(shù)億美元。如果這些過程被加速，不難想象可以節(jié)省數(shù)億美元。這是因為在通用計算上已經(jīng)經(jīng)歷了很長時間的通貨膨脹。

　　現(xiàn)在終于決定加速計算，有大量被捕獲的損失可以現(xiàn)在回收，許多被保留的浪費(fèi)可以從系統(tǒng)中釋放出來。這將轉(zhuǎn)化為金錢的節(jié)省和能源的節(jié)省，這也是為什么黃仁勛常說‘買得越多，省得越多’。

　　黃仁勛還表示，加速計算確實帶來了非凡的成果，但它并不容易。為什么它能省這么多錢，但這么長時間以來人們卻沒有這樣做呢？原因是因為這非常難。沒有一種軟件可以通過C編譯器運(yùn)行，突然間應(yīng)用程序就快了100倍。這甚至不合邏輯。如果可以做到這一點(diǎn)，他們早就改造 CPU了。

　　事實上，必須重寫軟件，這是最難的部分。軟件必須完全重寫，以便能夠重新表達(dá)在 CPU 上編寫的算法，使其能夠被加速、卸載并行運(yùn)行。這種計算機(jī)科學(xué)的練習(xí)極其困難。

　　黃仁勛表示，在過去 20 年里，英偉達(dá)讓全世界變得更容易。當(dāng)然，非常著名 cuDNN，即處理神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)庫。英偉達(dá)有一個 AI 物理庫，可以用于流體動力學(xué)和許多其他應(yīng)用中，神經(jīng)網(wǎng)絡(luò)必須遵守物理定律。英偉達(dá)有一個叫 Arial Ran 新的偉大庫，它是一個 CUDA 加速 5G 無線電，能夠像定義世界網(wǎng)絡(luò)互聯(lián)網(wǎng)一樣定義和加速電信網(wǎng)絡(luò)。加速的能力使我們能夠?qū)⑺械碾娦呸D(zhuǎn)變?yōu)榕c云計算平臺相同類型的平臺。

　　cuLITHO 是一個計算光刻平臺，能夠處理芯片制造中最計算密集的部分——制作掩膜。臺積電正在使用 cuLITHO 進(jìn)行生產(chǎn)，節(jié)省了大量的能源和金錢。臺積電的目標(biāo)是加速他們的堆棧，以便為進(jìn)一步的算法和更深入、更窄的晶體管的計算做好準(zhǔn)備。Parabricks 是英偉達(dá)基因測序庫，它是世界上吞吐量最高的基因測序庫。cuOpt是一個用于組合優(yōu)化、路線規(guī)劃優(yōu)化的令人難以置信的庫，用于解決旅行商問題，非常復(fù)雜。

　　科學(xué)家們普遍認(rèn)為需要量子計算機(jī)來解決這個問題。英偉達(dá)創(chuàng)造了一個在加速計算上運(yùn)行的算法，運(yùn)行速度極快，創(chuàng)下了23項世界紀(jì)錄。cuQuantum是一個量子計算機(jī)的模擬系統(tǒng)。如果你想設(shè)計一個量子計算機(jī)，你需要一個模擬器。如果你想設(shè)計量子算法，你需要一個量子模擬器。如果量子計算機(jī)不存在，你如何設(shè)計這些量子計算機(jī)，創(chuàng)建這些量子算法呢？你使用今天世界上最快的計算機(jī)，當(dāng)然就是NVIDIA CUDA。在上面，英偉達(dá)有一個模擬器，可以模擬量子計算機(jī)。它被全世界數(shù)十萬研究人員使用，并集成到所有領(lǐng)先的量子計算框架中，廣泛用于科學(xué)超級計算中心。

　　cuDF是一個令人難以置信的數(shù)據(jù)處理庫。數(shù)據(jù)處理消耗了今天云端支出的絕大部分，所有這些都應(yīng)該被加速。cuDF加速了世界上使用的主要庫，比如Spark，許多公司可能都在使用Spark，Pandas，一個新的叫做Polars的庫，當(dāng)然還有NetworkX，一個圖處理數(shù)據(jù)庫庫。這些只是一些例子，還有很多其他的。

　　黃仁勛表示，英偉達(dá)必須創(chuàng)建這些庫，以便讓生態(tài)系統(tǒng)能夠利用加速計算。如果英偉達(dá)沒有創(chuàng)建cuDNN，光有 CUDA 是不可能讓全世界的深度學(xué)習(xí)科學(xué)家使用的，因為 CUDA、TensorFlow 和 PyTorch中使用的算法之間的距離太遠(yuǎn)了。這幾乎像是在沒有OpenGL 情況下做計算機(jī)圖形處理，或者沒有 SQL 的情況下進(jìn)行數(shù)據(jù)處理。這些特定領(lǐng)域的庫是英偉達(dá)的珍寶，總共有350個庫。正是這些庫使英偉達(dá)能夠打開如此多的市場。

　　上周，Google 宣布在云端加速 Pandas，這是世界上最流行的數(shù)據(jù)科學(xué)庫。你們中的許多人可能已經(jīng)在使用Pandas，它被全球 1000 萬數(shù)據(jù)科學(xué)家使用，每月下載1.7 億次。它是數(shù)據(jù)科學(xué)家的電子表格?，F(xiàn)在，只需點(diǎn)擊一下，你就可以在 Google 云數(shù)據(jù)中心平臺 Colab 中使用由 cuDF 加速 Pandas，加速效果真的非常驚人。

　　當(dāng)你將數(shù)據(jù)處理加速到如此快的速度時，演示確實不會花很長時間?，F(xiàn)在 CUDA 已經(jīng)達(dá)到了人們所說的臨界點(diǎn)，但它甚至更好。CUDA 現(xiàn)在已經(jīng)實現(xiàn)了一個良性循環(huán)。

　　這種情況很少發(fā)生。如果你看看歷史上所有計算架構(gòu)的平臺。以微處理器 CPU 為例，它已經(jīng)存在了 60 年，并且在這個層面上沒有發(fā)生變化。這種計算方式，加速計算已經(jīng)存在，創(chuàng)建一個新平臺極其困難，因為這是一個先有雞還是先有蛋的問題。

　　如果沒有開發(fā)人員使用你的平臺，那么當(dāng)然也就不會有用戶。但是如果沒有用戶，就沒有安裝基礎(chǔ)。如果沒有安裝基礎(chǔ)，開發(fā)人員就不會對它感興趣。開發(fā)人員希望為大型安裝基礎(chǔ)編寫軟件，但大型安裝基礎(chǔ)需要大量應(yīng)用程序來吸引用戶創(chuàng)建安裝基礎(chǔ)。

　　這種先有雞還是先有蛋的問題很少被打破。而英偉達(dá)花了 20 年的時間，一個領(lǐng)域的庫接著一個領(lǐng)域的庫，一個加速庫接著一個加速庫，現(xiàn)在有 500 萬開發(fā)人員在全球范圍內(nèi)使用英偉達(dá)的平臺。

　　英偉達(dá)服務(wù)于每一個行業(yè)，從醫(yī)療保健、金融服務(wù)、計算機(jī)行業(yè)、汽車行業(yè)，幾乎所有主要行業(yè)，幾乎所有科學(xué)領(lǐng)域，因為英偉達(dá)的架構(gòu)有這么多客戶，OEM 廠商和云服務(wù)提供商對構(gòu)建英偉達(dá)的系統(tǒng)感興趣。像臺灣這里的系統(tǒng)制造商這樣的優(yōu)秀系統(tǒng)制造商對構(gòu)建英偉達(dá)的系統(tǒng)感興趣，這使得市場上有更多的系統(tǒng)可供選擇，這當(dāng)然為我們創(chuàng)造了更大的機(jī)會，使我們能夠擴(kuò)大規(guī)模，研發(fā)規(guī)模，從而進(jìn)一步加速應(yīng)用。

　　每次加速應(yīng)用，計算成本就會下降。100 倍加速轉(zhuǎn)化為 97%、96%、98% 節(jié)省。因此，當(dāng)我們從 100 倍加速到 200 倍加速，再到 1000 倍加速時，計算的邊際成本繼續(xù)下降。

　　英偉達(dá)相信，通過大幅降低計算成本，市場、開發(fā)人員、科學(xué)家、發(fā)明家將繼續(xù)發(fā)現(xiàn)越來越多的算法，這些算法消耗越來越多的計算資源，最終會發(fā)生質(zhì)的飛躍，計算的邊際成本如此之低，以至于一種新的計算使用方式出現(xiàn)了。

　　事實上，這正是現(xiàn)在看到的情況。多年來，英偉達(dá)在過去 10 年里將某種特定算法的邊際計算成本降低了百萬倍。因此，現(xiàn)在訓(xùn)練包含整個互聯(lián)網(wǎng)數(shù)據(jù)的 LLM 是非常合理和常識的，沒有人會懷疑。這個想法，即你可以創(chuàng)建一個能夠處理如此多數(shù)據(jù)的計算機(jī)來編寫自己的軟件。AI 的出現(xiàn)是因為完全相信，如果讓計算變得越來越便宜，總會有人找到一個偉大的用途。

　　如今，CUDA 已經(jīng)實現(xiàn)了良性循環(huán)。安裝基礎(chǔ)在增長，計算成本在下降，這導(dǎo)致更多的開發(fā)人員提出更多的想法，從而推動更多的需求。現(xiàn)在我們正處在一個非常重要的起點(diǎn)。

　　黃仁勛接著提到了地球2的想法，將創(chuàng)建地球的數(shù)字孿生體，通過模擬地球，可以更好地預(yù)測未來，從而更好地避免災(zāi)害，更好地理解氣候變化的影響，以便更好地適應(yīng)。

　　研究人員在 2012 年發(fā)現(xiàn)了 CUDA，那是英偉達(dá)與 AI 第一次接觸，這是一個非常重要的日子。有幸與科學(xué)家合作，使深度學(xué)習(xí)成為可能。

　　AlexNet 取得了巨大的計算機(jī)視覺突破。但更重要的是，退一步理解深度學(xué)習(xí)的背景、基礎(chǔ)以及其長期影響和潛力。英偉達(dá)意識到這項技術(shù)具有巨大的擴(kuò)展?jié)摿?。一種幾十年前發(fā)明和發(fā)現(xiàn)的算法，突然之間，因為更多的數(shù)據(jù)、更大的網(wǎng)絡(luò)以及非常重要的更多計算資源，深度學(xué)習(xí)實現(xiàn)了人類算法無法實現(xiàn)的成就。

　　現(xiàn)在想象一下，如果進(jìn)一步擴(kuò)展架構(gòu)，更大的網(wǎng)絡(luò)、更多的數(shù)據(jù)和更多的計算資源，可能會實現(xiàn)什么。2012年之后，英偉達(dá)改變了GPU的架構(gòu)，增加了 Tensor 核心。英偉達(dá)發(fā)明了NVLink，那是10年前的事了，CUDA，然后是TensorRT、NCCL，收購了Mellanox、TensorRT-ML、Triton推理服務(wù)器，所有這些都整合在一臺全新的計算機(jī)上。沒有人理解，沒有人要求，沒有人理解它的意義。

　　事實上，黃仁勛確信沒有人想買它，英偉達(dá)在 GTC 上宣布了它，OpenAI，一個位于舊金山的小公司，請求英偉達(dá)為他們提供一臺。

　　2016 年，黃仁勛向 OpenAI 交付了第一臺 DGX，世界上第一臺 AI 超級計算機(jī)。之后，繼續(xù)擴(kuò)展，從一臺 AI 超級計算機(jī)，一臺 AI 設(shè)備，擴(kuò)展到大型超級計算機(jī)，甚至更大。

　　到2017年，世界發(fā)現(xiàn)了Transformer，使能夠訓(xùn)練大量數(shù)據(jù)，識別和學(xué)習(xí)長期序列模式?，F(xiàn)在，英偉達(dá)可以訓(xùn)練這些 LLM，理解并在自然語言理解方面取得突破。繼續(xù)前進(jìn)，建造了更大的系統(tǒng)。

　　然后在 2022 年 11 月，使用成千上萬英偉達(dá) GPU和非常大的 AI 超級計算機(jī)進(jìn)行訓(xùn)練，OpenAI 發(fā)布了 ChatGPT，五天內(nèi)用戶達(dá)到一百萬，兩個月內(nèi)達(dá)到一億，成為歷史上增長最快的應(yīng)用。

　　在 ChatGPT 向世界展示之前，AI 一直是關(guān)于感知，自然語言理解、計算機(jī)視覺、語音識別。這一切都是關(guān)于感知和檢測的。這是第一次，世界解決了生成式 AI，逐個生成 token，而這些 token 是單詞。當(dāng)然，有些 token 現(xiàn)在可以是圖像、圖表、表格、歌曲、單詞、語音、視頻。這些 token 可以是任何你能理解其意義的東西，它們可以是化學(xué)品的 token ，蛋白質(zhì)的 token ，基因的 token 。你們之前在地球 2 項目中看到的，生成的是天氣的 token 。

　　我們可以理解，我們可以學(xué)習(xí)物理。如果你能學(xué)習(xí)物理，你可以教 AI 模型物理。AI 模型可以學(xué)習(xí)物理的意義，然后可以生成物理。我們將其縮小到 1 公里，不是通過過濾，而是生成。所以我們可以用這種方法生成幾乎任何有價值的 token 。我們可以為汽車生成方向盤控制，為機(jī)器人手臂生成動作。我們可以學(xué)習(xí)的一切，現(xiàn)在都可以生成。

　　▍AI 工廠

　　我們現(xiàn)在已經(jīng)進(jìn)入了生成式 AI 時代。但是，真正重要的是，這臺最初作為超級計算機(jī)的計算機(jī)現(xiàn)在已經(jīng)演變成了一個數(shù)據(jù)中心，它只生成一種東西，那就是 token ，它是一個 AI 工廠，這家 AI 工廠正在生成、創(chuàng)造和生產(chǎn)一種極具價值的新商品。

　　19 世紀(jì) 90 年代末，尼古拉·特斯拉發(fā)明了交流發(fā)電機(jī)，而英偉達(dá)發(fā)明了AI 生成器。交流發(fā)電機(jī)生成電子，英偉達(dá) AI 生成器生成 token，這兩種東西在市場上都有巨大的機(jī)會，在幾乎每個行業(yè)中都是完全可以替代的，這也是為什么這是一次新的工業(yè)革命。

　　英偉達(dá)現(xiàn)在有一個新的工廠，為每個行業(yè)生產(chǎn)一種新的商品，這種商品具有非凡的價值。這種方法具有高度的可擴(kuò)展性，并且這種方法的可重復(fù)性也非常高。

　　注意到每天都有這么多不同的生成式 AI 模型被發(fā)明出來。每個行業(yè)現(xiàn)在都在涌入。第一次，價值 3 萬億美元 IT 行業(yè)，正在創(chuàng)造一些可以直接服務(wù)于 100 萬億美元產(chǎn)業(yè)的東西。不再只是信息存儲或數(shù)據(jù)處理的工具，而是一個為每個行業(yè)生成智能的工廠。這將成為一個制造業(yè)產(chǎn)業(yè)，但不是計算機(jī)制造業(yè)，而是使用計算機(jī)進(jìn)行制造業(yè)。

　　這在歷史上從未發(fā)生過。加速計算帶來了AI，帶來了生成式 AI，現(xiàn)在帶來了工業(yè)革命。對行業(yè)的影響也非常顯著，可以為許多行業(yè)創(chuàng)造一種新商品，一種新的產(chǎn)品，稱之為 token ，但對我們自己的行業(yè)的影響也非常深遠(yuǎn)。

　　60 年來，計算的每一層都發(fā)生了變化，從 CPU 通用計算到加速 GPU 計算，計算機(jī)需要指令?，F(xiàn)在計算機(jī)處理 LLM，AI模型。而過去的計算模型是基于檢索的。幾乎每次你觸摸手機(jī)時，都會為你檢索一些預(yù)錄文本、圖像或視頻，并基于推薦系統(tǒng)重新組合并呈現(xiàn)給你。

　　黃仁勛表示，未來計算機(jī)將盡可能多地生成數(shù)據(jù)，只檢索必要的信息。原因是生成的數(shù)據(jù)需要更少的能量去獲取信息。生成的數(shù)據(jù)也更具上下文相關(guān)性。它將編碼知識，理解你。你不再是讓計算機(jī)獲取信息或文件，而是讓它直接回答你的問題。計算機(jī)將不再是我們使用的工具，而是生成技能，執(zhí)行任務(wù)。

　　▍NIMs，英偉達(dá)推理微服務(wù)

　　而不是一個生產(chǎn)軟件的行業(yè)，這在 90 年代初是一個革命性的想法。記得微軟創(chuàng)造的軟件包裝的想法革命化了PC 行業(yè)。沒有包裝軟件，我們會用 PC 做什么？它驅(qū)動了這個行業(yè)，現(xiàn)在英偉達(dá)有一個新的工廠，一個新的計算機(jī)。我們將在其上運(yùn)行一種新的軟件，稱之為 NIMs，英偉達(dá)推理微服務(wù)。

　　NIM 在這個工廠內(nèi)部運(yùn)行，這個 NIM 是一個預(yù)訓(xùn)練模型，它是一個AI。這個 AI 本身非常復(fù)雜，但運(yùn)行 AI 的計算堆棧是極其復(fù)雜的。當(dāng)你使用 ChatGPT 時，其背后的堆棧是大量的軟件。其背后的提示符是大量的軟件，極其復(fù)雜，因為模型龐大，有數(shù)十億到數(shù)萬億的參數(shù)。它不僅在一臺計算機(jī)上運(yùn)行，而是在多臺計算機(jī)上運(yùn)行。它必須在多個 GPU 之間分配工作負(fù)載，使用張量并行、流水線并行、數(shù)據(jù)并行、各種并行性、專家并行性等各種并行性，在多個 GPU 之間分配工作負(fù)載，盡可能快速地處理它。

　　因為如果你在一個工廠里運(yùn)行，你的吞吐量直接與收入相關(guān)。你的吞吐量直接與服務(wù)質(zhì)量相關(guān)，你的吞吐量直接與能使用你服務(wù)的人數(shù)相關(guān)。

　　我們現(xiàn)在處于一個數(shù)據(jù)中心吞吐量利用率至關(guān)重要的世界。在過去這很重要，但沒有現(xiàn)在重要。在過去這很重要，但人們不測量它。今天，每一個參數(shù)都被測量，啟動時間、運(yùn)行時間、利用率、吞吐量、空閑時間等，因為這是一個工廠。當(dāng)某物是一個工廠時，其操作直接與公司的財務(wù)表現(xiàn)相關(guān)，這對大多數(shù)公司來說極其復(fù)雜。

　　所以英偉達(dá)做了什么？英偉達(dá)創(chuàng)建了這個 AI 盒子，這個容器里裝滿了大量的軟件，這個容器內(nèi)部包括 CUDA、cuDNN、TensorRT、Triton 推理服務(wù)。它是云原生的，可以在 Kubernetes 環(huán)境中自動擴(kuò)展，它有管理服務(wù)和鉤子，可以監(jiān)控你的 AI。它有通用 API，標(biāo)準(zhǔn) API，你可以與這個盒子聊天。下載這個 NIM，可以與它聊天，只要你的計算機(jī)上有 CUDA，它現(xiàn)在當(dāng)然是無處不在的。它在每一個云中可用，來自每一個計算機(jī)制造商。它在數(shù)億臺 PC 上可用，所有的軟件都整合在一起，400 個依賴項都整合在一個里面。

　　英偉達(dá)測試了這個NIM，每一個預(yù)訓(xùn)練模型都在整個安裝基礎(chǔ)上測試，所有不同版本的 Pascal、Ampere 和 Hopper，以及各種不同的版本。我甚至忘記了一些名字。令人難以置信的發(fā)明，這是我最喜歡的之一。

　　黃仁勛表示，英偉達(dá)有所有這些不同版本，無論是基于語言的還是基于視覺的，還是基于圖像的，或者用于醫(yī)療保健、數(shù)字生物學(xué)的版本，有數(shù)字人(10.100, -0.01, -0.10%)類的版本，只需訪問 ai.nvidia.com。

　　黃仁勛還表示，今天英偉達(dá)剛剛在 HuggingFace 上發(fā)布了完全優(yōu)化的 Llama3 NIM，它在那里可以供你嘗試，你甚至可以帶走它。它免費(fèi)提供給你。你可以在云中運(yùn)行它，在任何云中運(yùn)行。你可以下載這個容器，將其放入你自己的數(shù)據(jù)中心，并可以使其可用于你的客戶。

　　英偉達(dá)有各種不同領(lǐng)域的版本，物理學(xué)，一些用于語義檢索，稱為 RAGs，視覺語言，各種不同的語言。你使用它們的方法是將這些微服務(wù)連接到大型應(yīng)用程序中。

　　未來最重要的應(yīng)用之一當(dāng)然是客戶服務(wù)。幾乎每個行業(yè)都需要 Agent。這代表了數(shù)萬億美元的客戶服務(wù)。護(hù)士在某些方面也是客戶服務(wù) Agent，一些非處方或非診斷性的護(hù)士基本上是零售業(yè)的客戶服務(wù)，快速服務(wù)食品、金融服務(wù)、保險業(yè)。數(shù)以千萬計的客戶服務(wù)現(xiàn)在可以通過語言模型和AI增強(qiáng)。因此你看到的這些盒子基本上就是NIMs。

　　一些 NIM 是推理 Agent，給出任務(wù)，確定任務(wù)，分解成計劃。一些 NIM 檢索信息。一些 NIM 可能會進(jìn)行搜索。一些 NIM 可能會使用工具，比如黃仁勛之前提到的 cuOpt。它可以使用在 SAP 上運(yùn)行的工具。因此它必須學(xué)習(xí)一種叫做 ABAP 的特定語言。也許一些 NIM 必須進(jìn)行 SQL 查詢。因此，所有這些 NIM 都是專家，現(xiàn)在被組裝成一個團(tuán)隊。

　　所以發(fā)生了什么變化？應(yīng)用層發(fā)生了變化。過去用指令編寫的應(yīng)用程序，現(xiàn)在是組裝AI團(tuán)隊的應(yīng)用程序。很少有人知道如何編寫程序，但幾乎每個人都知道如何分解問題并組裝團(tuán)隊。我相信未來每家公司都會有大量 NIM 集合。你會下載你想要的專家，將它們連接成一個團(tuán)隊，你甚至不必確切知道如何連接它們。你只需將任務(wù)交給一個 Agent，一個NIM，讓它確定如何分配任務(wù)。那個團(tuán)隊領(lǐng)導(dǎo) Agent 將會分解任務(wù)并分配給各個團(tuán)隊成員。團(tuán)隊成員會執(zhí)行任務(wù)，將結(jié)果返回給團(tuán)隊領(lǐng)導(dǎo)，團(tuán)隊領(lǐng)導(dǎo)會對結(jié)果進(jìn)行推理并將信息呈現(xiàn)給你，就像人類一樣，這是不久的未來，應(yīng)用的未來形態(tài)。

　　當(dāng)然，可以通過文本提示和語音提示與這些大型 AI 服務(wù)互動。然而，有許多應(yīng)用程序希望與人類形式互動。英偉達(dá)稱之為數(shù)字人類，并一直在研究數(shù)字人類技術(shù)。

　　黃仁勛繼續(xù)介紹，數(shù)字人類有可能成為與你互動的偉大 Agent，使互動更加引人入勝，更有同情心。當(dāng)然，我們必須跨越這個巨大的現(xiàn)實鴻溝，使數(shù)字人類顯得更加自然。想象一下未來，計算機(jī)能夠像人類一樣與我們互動。這就是數(shù)字人類的驚人現(xiàn)實。數(shù)字人類將徹底改變從客戶服務(wù)到廣告和游戲的各個行業(yè)。數(shù)字人類的可能性是無窮無盡的。

　　使用你當(dāng)前廚房的掃描數(shù)據(jù)。通過你的手機(jī)，它們將成為AI室內(nèi)設(shè)計師，幫助生成美麗的照片級建議，并提供材料和家具的來源。

　　英偉達(dá)已經(jīng)為你生成了幾種設(shè)計選項可供選擇。它們還將成為 AI 客戶服務(wù) Agent，使互動更加生動和個性化，或數(shù)字醫(yī)療工作者，檢查病人，提供及時和個性化的護(hù)理，它們甚至?xí)蔀?AI 品牌大使，設(shè)定下一波市場營銷和廣告趨勢。

　　生成式 AI 和計算機(jī)圖形學(xué)的新突破讓數(shù)字人類能夠以類似人類的方式看見、理解和與我們互動。從我所看到的情況來看，你似乎是在某種錄音或制作設(shè)置中。數(shù)字人類的基礎(chǔ)是建立在多語言語音識別和合成、以及能夠理解和生成對話的LLM模型上的AI模型。

　　這些 AI 連接到另一個生成式 AI，以動態(tài)地動畫化一個逼真的 3D 面部網(wǎng)格。最后，AI模型重現(xiàn)逼真的外觀，實現(xiàn)實時路徑跟蹤的次表面散射，模擬光線如何穿透皮膚、散射并在不同點(diǎn)出射，使皮膚具有柔和和半透明的外觀。

　　Nvidia Ace 是一套數(shù)字人類技術(shù)，打包成易于部署的完全優(yōu)化的微服務(wù)或NIMs。開發(fā)者可以將Ace NIMs集成到他們現(xiàn)有的框架、引擎和數(shù)字人類體驗中，Nematons SLM和LLM NIMs 理解我們的意圖并協(xié)調(diào)其他模型。

　　Riva Speech Nims 用于交互式語音和翻譯，Audio to Face 和 Gesture NIMs 用于面部和身體動畫，Omniverse RTX 與 DLSS 用于皮膚和頭發(fā)的神經(jīng)渲染。

　　相當(dāng)令人難以置信。這些 Ace 可以在云端運(yùn)行，也可以在 PC 上運(yùn)行，在所有 RTX GPU中都包括了張量核心 GPU，所以英偉達(dá)已經(jīng)在出貨 AI GPU，為這一天做準(zhǔn)備。原因很簡單，為了創(chuàng)建一個新的計算平臺，首先需要一個安裝基礎(chǔ)。

　　最終，應(yīng)用程序會出現(xiàn)。如果不創(chuàng)建安裝基礎(chǔ)，應(yīng)用程序怎么會出現(xiàn)呢？所以如果你建造它，他們可能不會來。但如果你不建造它，他們就不能來。因此，英偉達(dá)在每一個 RTX GPU 中安裝了張量核心處理器。現(xiàn)在英偉達(dá)在全球有 1 億臺 GeForce RTX AI PC，并且英偉達(dá)正在出貨 200 臺。

　　在本次 Computex，英偉達(dá)展示了四款新的令人驚嘆的筆記本電腦。它們都能夠運(yùn)行AI。未來的筆記本電腦、PC 將成為一個AI。它將不斷在后臺幫助你、協(xié)助你。PC還將運(yùn)行由AI增強(qiáng)的應(yīng)用程序。

　　當(dāng)然，你所有的照片編輯、寫作工具、你使用的一切工具都將由AI增強(qiáng)。你的PC還將托管帶有數(shù)字人類的 AI 應(yīng)用程序。因此，AI 將在不同的方式中表現(xiàn)出來并被用于PC中。PC 將成為非常重要的 AI 平臺。

　　那么我們從這里往哪里走？我之前談到了數(shù)據(jù)中心的擴(kuò)展。每次擴(kuò)展時，我們都會發(fā)現(xiàn)一個新的飛躍。當(dāng)從 DGX 擴(kuò)展到大型 AI 超級計算機(jī)時，英偉達(dá)使 Transformer 能夠在非常大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。一開始，數(shù)據(jù)是人工監(jiān)督的，需要人工標(biāo)注來訓(xùn)練 AI。不幸的是，人類標(biāo)注的數(shù)據(jù)是有限的。Transformer 使得無監(jiān)督學(xué)習(xí)成為可能。現(xiàn)在，Transformer 只需查看大量的數(shù)據(jù)、視頻或圖像，它就能通過研究大量的數(shù)據(jù)自己找到模式和關(guān)系。

　　下一代 AI 需要基于物理。今天的大多數(shù) AI 不了解物理定律，它們沒有扎根于物理世界。為了生成圖像、視頻和3D圖形以及許多物理現(xiàn)象，我們需要基于物理并了解物理定律的 AI。你可以通過視頻學(xué)習(xí)來實現(xiàn)這一點(diǎn)，這是一種來源。

　　另一種方法是合成數(shù)據(jù)、模擬數(shù)據(jù)，另一種方法是讓計算機(jī)相互學(xué)習(xí)。這實際上與 AlphaGo 自我對弈沒有什么不同，通過相同能力的對弈，經(jīng)過很長時間，它們會變得更加聰明。你將開始看到這種類型的AI出現(xiàn)。

　　如果 AI 數(shù)據(jù)是合成生成的，并使用強(qiáng)化學(xué)習(xí)，數(shù)據(jù)生成的速度將繼續(xù)提高。每次數(shù)據(jù)生成增長，需要提供的計算量也需要增長。

　　我們即將進(jìn)入一個階段，AI 可以學(xué)習(xí)物理定律，并扎根于物理世界的數(shù)據(jù)中。因此，英偉達(dá)預(yù)計模型將繼續(xù)增長，我們需要更大的GPU。

　　▍Blackwell

　　Blackwell 是為這一代設(shè)計的，擁有幾項非常重要的技術(shù)。首先是芯片的大小。英偉達(dá)在臺積電制造了最大的芯片，并將兩個芯片通過每秒 10TB的連接連接在一起，世界上最先進(jìn)的 SerDes 將這兩個芯片連接在一起。然后英偉達(dá)將兩個芯片放在一個計算節(jié)點(diǎn)上，通過 Grace CPU 連接。

　　Grace CPU 可以用于多種用途。在訓(xùn)練情況下，可以用于快速檢查點(diǎn)和重啟。在推理和生成情況下，可以用于存儲上下文記憶，使AI了解你想要進(jìn)行的對話的上下文，這是英偉達(dá)的第二代Transformer引擎，允許根據(jù)計算層所需的精度和范圍動態(tài)調(diào)整精度。

　　這是第二代具有安全 AI 的 GPU，可以要求服務(wù)提供商保護(hù) AI 免受盜竊或篡改。這是第五代 NVLink，允許將多個 GPU 連接在一起，我會稍后詳細(xì)介紹。

　　這是英偉達(dá)的第一代具有可靠性和可用性引擎的 GPU。這個 RAS 系統(tǒng)允許測試每個晶體管、觸發(fā)器、片上內(nèi)存、片外內(nèi)存，以便現(xiàn)場確定某個芯片是否故障。擁有 1 萬個 GPU 的超級計算機(jī)的平均故障間隔時間是以小時計算的。擁有10 萬個GPU的超級計算機(jī)的平均故障間隔時間是以分鐘計算的。

　　因此，如果不發(fā)明技術(shù)來提高可靠性，超級計算機(jī)長時間運(yùn)行并訓(xùn)練幾個月的模型幾乎是不可能的?？煽啃詴岣哒＿\(yùn)行時間，從而直接影響成本。最后是解壓引擎，數(shù)據(jù)處理是必須做的最重要的事情之一。英偉達(dá)添加了一個數(shù)據(jù)壓縮引擎和解壓引擎，使英偉達(dá)夠從存儲中提取數(shù)據(jù)的速度提高 20 倍，比今天可能的速度更快。

　　Blackwell 正在生產(chǎn)中，擁有大量的技術(shù)，可以看到每一個 Blackwell 芯片，兩個連接在一起。你看到這是世界上最大的芯片。然后將兩個芯片通過每秒 10TB 連接在一起，性能是驚人的。

　　英偉達(dá)的每一代計算的浮點(diǎn)運(yùn)算能力增加了 1000 倍。摩爾定律在八年內(nèi)增長大約 40~60 倍。而在過去的八年里，摩爾定律的增長速度大大減慢。即使在摩爾定律最好的時候，也無法與 Blackwell 性能相比。

　　計算量是驚人的。每次提高計算能力，成本就會下降。英偉達(dá)已經(jīng)通過增加計算能力，將訓(xùn)練 GPT-4 能量需求從 1000 GWh 降低到 3 GWh。Pascal 需要 1000 GWh 的能量。1000 GWh 意味著需要一個 GW 數(shù)據(jù)中心。世界上沒有一個 GW的數(shù)據(jù)中心，但如果你有一個 GW 數(shù)據(jù)中心，它需要一個月。如果你有一個100 MW 數(shù)據(jù)中心，需要大約一年。因此，沒有人會建造這樣的設(shè)施。

　　這就是為什么在八年前，像 ChatGPT 這樣的 LLM 是不可能的。通過提高性能，隨著能效的提高，英偉達(dá)現(xiàn)在將 Blackwell 的能量需求從 1000 GWh 降低到 3 GWh，這是一個令人難以置信的進(jìn)步。如果是1萬個GPU，例如，需要幾天，可能需要10天左右。在短短八年內(nèi)取得的進(jìn)展是驚人的。

　　這部分是關(guān)于推理和生成 token 的。生成一個GPT-4 token 需要兩個燈泡運(yùn)行兩天。生成一個單詞大約需要三個 token 。因此，Pascal 生成 GPT-4 并與你進(jìn)行 ChatGPT 體驗所需的能量幾乎是不可能的。但是現(xiàn)在每個 token 只使用 0.4 焦耳，并且可以以極低的能量生成 token 。

　　Blackwell是一個巨大的飛躍。即便如此，它還不夠大。因此必須建造更大的機(jī)器。因此英偉達(dá)建造的方法叫做 DGX。

　　這是一個 DGX Blackwell，這是空氣冷卻的，內(nèi)部有8個GPU?？纯催@些GPU上的散熱片的大小，大約15千瓦，完全是空氣冷卻的。這一版本支持x86，并進(jìn)入了英偉達(dá)一直在發(fā)貨的 Hoppers 基礎(chǔ)設(shè)施，英偉達(dá)有一個新的系統(tǒng)，稱之為MGX，意為模塊化系統(tǒng)。

　　兩塊Blackwell板子，一個節(jié)點(diǎn)有四個 Blackwell 芯片。這些 Blackwell 芯片是液冷的，72 個 GPU通過新的 NVLink 連接在一起。這是第 5 代 NVLink 交換機(jī)，NVLink 交換機(jī)本身就是一個技術(shù)奇跡，這是世界上最先進(jìn)的交換機(jī)，數(shù)據(jù)速率驚人，這些交換機(jī)將每一個 Blackwell 連接在一起，因此有一個巨大的 72 個 GPU 的 Blackwell。

　　這樣做的好處是，在一個域中，一個 GPU 域現(xiàn)在看起來像一個 GPU，這個 GPU 有 72個，而上一代是 8 個。因此增加了九倍的帶寬。AI 浮點(diǎn)運(yùn)算性能增加了 18 倍，提高了 45 倍。而功耗僅增加了 10 倍，這是 100 千瓦，而那是 10 千瓦。這是一個。

　　當(dāng)然，你總是可以將更多這些連接在一起，我稍后會展示如何做到這一點(diǎn)。但奇跡在于這個芯片，這個 NVLink 芯片。人們開始意識到這個 NVLink 芯片的重要性，因為它連接了所有這些不同 GPU。因為 LLM 非常龐大，不能僅僅放在一個GPU上，也不能僅僅放在一個節(jié)點(diǎn)上。它需要整個 GPU 機(jī)架，比如我剛剛站在旁邊的新DGX，它可以容納數(shù)萬億參數(shù)的 LLM。

　　NVLink 交換機(jī)本身就是一個技術(shù)奇跡，擁有 500 億個晶體管，74 個端口，每個端口 400Gbps，橫截帶寬 7.2Tbps。但重要的是它在交換機(jī)內(nèi)有數(shù)學(xué)運(yùn)算能力，這在深度學(xué)習(xí)中非常重要，可以在芯片上進(jìn)行歸約運(yùn)算。所以這就是現(xiàn)在的DGX。

　　黃仁勛表示，許多人問，有人對英偉達(dá)的工作產(chǎn)生了困惑，為什么英偉達(dá)通過制造 GPU 變得如此龐大。因此有人認(rèn)為這就是 GPU 的樣子。

　　現(xiàn)在這是一個GPU，這是世界上最先進(jìn)的GPU之一，但這是一個游戲GPU。你和我知道這就是GP的樣子。這是一個GPU，女士們先生們，DGX GPU。你知道這個GPU的背面是NVLink主干。NVLink 主干有 5000 根線，兩英里長，它將兩個GPU連接在一起，這是一個電氣、機(jī)械奇跡。收發(fā)器使能夠在銅線上驅(qū)動整個長度，能夠在一個機(jī)架中節(jié)省 20 千瓦的功耗。

　　黃仁勛表示，有兩種類型的網(wǎng)絡(luò)。InfiniBand 在全球超級計算和 AI 工廠中被廣泛使用，增長速度驚人。然而，不是每個數(shù)據(jù)中心都能處理 InfiniBand，因為他們已經(jīng)在其生態(tài)系統(tǒng)中投資了太多 Ethernet，并且管理 InfiniBand 交換機(jī)和網(wǎng)絡(luò)需要一些專業(yè)知識。

　　因此英偉達(dá)將 InfiniBand 能力帶到了 Ethernet 架構(gòu)，這是非常困難的。原因很簡單。Ethernet 是為高平均吞吐量設(shè)計的，因為每個節(jié)點(diǎn)，每臺計算機(jī)都連接到互聯(lián)網(wǎng)上的不同人，大多數(shù)通信是數(shù)據(jù)中心與互聯(lián)網(wǎng)另一端的人進(jìn)行的。

　　然而，深度學(xué)習(xí)和 AI 工廠，GPU 主要是相互通信的。它們彼此通信，因為它們在收集部分產(chǎn)品，然后進(jìn)行歸約并重新分發(fā)。部分產(chǎn)品的收集、歸約和重新分發(fā)。這種流量是非常突發(fā)的，重要的不是平均吞吐量，而是最后一個到達(dá)的。因此英偉達(dá)創(chuàng)建了幾項技術(shù)，創(chuàng)建了端到端架構(gòu)，使網(wǎng)絡(luò)接口卡和交換機(jī)可以通信，并應(yīng)用了四種不同的技術(shù)來實現(xiàn)這一點(diǎn)。首先，英偉達(dá)擁有世界上最先進(jìn)的 RDMA，現(xiàn)在能夠在 Ethernet 上進(jìn)行網(wǎng)絡(luò)級 RDMA，這是非常了不起的。

　　第二，英偉達(dá)有擁塞控制。交換機(jī)一直在進(jìn)行快速遙測，當(dāng) GPU 或網(wǎng)絡(luò)接口卡發(fā)送太多信息時，可以告訴它們退后，以免造成熱點(diǎn)。

　　第三，自適應(yīng)路由。Ethernet 需要按順序傳輸和接收。英偉達(dá)看到擁塞或未使用的端口，不論順序如何，將發(fā)送到可用端口，BlueField 在另一端重新排序，以確保順序正確，自適應(yīng)路由非常強(qiáng)大。

　　最后，噪聲隔離。數(shù)據(jù)中心總是有多個模型在訓(xùn)練或其他事情在進(jìn)行，它們的噪聲和流量可能相互干擾并導(dǎo)致抖動。因此，當(dāng)一個訓(xùn)練模型的噪聲導(dǎo)致最后一個到達(dá)的時間過晚時，整體訓(xùn)練速度會顯著降低。

　　記住，你已經(jīng)建造了一個價值 50 億美元或 30 億美元的數(shù)據(jù)中心，用于訓(xùn)練。如果網(wǎng)絡(luò)利用率降低 40%，導(dǎo)致訓(xùn)練時間延長 20%，50 億美元的數(shù)據(jù)中心實際上相當(dāng)于一個 60 億美元的數(shù)據(jù)中心。因此成本影響非常大。使用 Spectrum X 的 Ethernet 允許大幅提高性能，而網(wǎng)絡(luò)基本上是免費(fèi)的。

　　英偉達(dá)有一整條 Ethernet產(chǎn)品線。這是 Spectrum X800，速度為每秒51.2Tbps，256個端口。接下來的是512個端口，明年推出，稱為 Spectrum X800 Ultra，再接下來是 X16。重要的理念是 X800 設(shè)計用于成千上萬個 GPU，X800 Ultra 設(shè)計用于數(shù)十萬個 GPU，X16 設(shè)計用于數(shù)百萬個 GPU，數(shù)百萬 GPU 數(shù)據(jù)中心時代即將到來。

　　未來幾乎你與互聯(lián)網(wǎng)或計算機(jī)的每一次互動都會在某個地方運(yùn)行一個生成式AI。這個生成式AI與你合作，與你互動，生成視頻、圖像或文本，甚至是一個數(shù)字人類。你幾乎一直在與計算機(jī)互動，總有一個生成式 AI 連接著，部分在本地，部分在你的設(shè)備上，大部分可能在云端。這些生成式 AI 還會進(jìn)行大量推理能力，不是一次性的回答，而是通過多次迭代改進(jìn)答案的質(zhì)量。所以未來生成的內(nèi)容量將是驚人的。

　　Blackwell當(dāng)然是英偉達(dá)平臺的第一代，在世界認(rèn)識到生成式AI時代來臨之際發(fā)布。正當(dāng)世界意識到AI工廠的重要性，正值這一新工業(yè)革命的開始。英偉達(dá)得到了幾乎所有 OEM、計算機(jī)制造商、云服務(wù)提供商、GPU云、主權(quán)云，甚至電信公司的支持。Blackwell 的成功、采用和熱情真是難以置信。我想感謝大家。

　　黃仁勛繼續(xù)比哦啊是，在這個驚人的增長期間，英偉達(dá)要確保繼續(xù)提高性能，繼續(xù)降低訓(xùn)練成本和推理成本，并繼續(xù)擴(kuò)展 AI 能力，使每家公司都能接受。英偉達(dá)推動性能的提升，成本的下降越大。Hopper 平臺當(dāng)然是歷史上最成功的數(shù)據(jù)中心處理器，這真的是一個不可思議的成功故事。

　　然而，Blackwell 已經(jīng)到來，每一個平臺，如你所見，都包含了幾樣?xùn)|西。你有CPU，有 GPU，有NVLink，有網(wǎng)絡(luò)接口，還有連接所有GPU的 NVLink 交換機(jī)，盡可能大規(guī)模的域。無論能做什么，英偉達(dá)都將其連接到大規(guī)模、非常高速的交換機(jī)。

　　每一代產(chǎn)品，你會發(fā)現(xiàn)不僅僅是 GPU，而是整個平臺。構(gòu)建整個平臺。將整個平臺集成到一個 AI 工廠超級計算機(jī)中。然而，再將其分解并提供給世界。這樣做的原因是因為你們所有人都可以創(chuàng)建有趣和創(chuàng)新的配置，并適應(yīng)不同的數(shù)據(jù)中心和不同的客戶需求，有些用于邊緣計算，有些用于電信。所有不同的創(chuàng)新都是可能的，如果將系統(tǒng)開放，并使你們能夠創(chuàng)新。因此英偉達(dá)設(shè)計了集成的，但將其分解提供給客戶，以便可以創(chuàng)建模塊化系統(tǒng)。

　　Blackwell 平臺已經(jīng)到來，英偉達(dá)的基本理念非常簡單：每年構(gòu)建整個數(shù)據(jù)中心，分解并以零件形式銷售，將一切推向技術(shù)的極限，無論是臺積電的工藝技術(shù)、封裝技術(shù)、內(nèi)存技術(shù)、SerDes技術(shù)、光學(xué)技術(shù)，一切都被推向極限。之后，確保所有軟件都能在整個安裝基礎(chǔ)上運(yùn)行。

　　軟件慣性是計算機(jī)中最重要的事情之一。當(dāng)計算機(jī)向后兼容，并與所有已創(chuàng)建的軟件架構(gòu)兼容時，你進(jìn)入市場的速度會快得多。因此，當(dāng)能夠利用已經(jīng)創(chuàng)建的整個軟件安裝基礎(chǔ)時，速度是驚人的。

　　黃仁勛表示，Blackwell 已經(jīng)到來，明年是 Blackwell Ultra，就像有 H100 和H200，你們可能會看到一些令人興奮的新一代 Blackwell Ultra，推動極限。我提到的下一代 Spectrum 交換機(jī)，這是第一次實現(xiàn)這種飛躍，下一代平臺叫做Ruben，再一年后將有 Ruben Ultra 平臺。

　　展示的所有這些芯片都在全速開發(fā)中，100% 的開發(fā)。這是英偉達(dá)一年的節(jié)奏，所有 100% 架構(gòu)兼容，英偉達(dá)正在構(gòu)建的所有豐富的軟件。

　　▍AI 機(jī)器人

　　讓我談?wù)劷酉聛頃l(fā)生什么，下一波 AI 是物理 AI，了解物理定律，能夠在我們中間工作。因此，它們必須理解世界模型，理解如何解釋世界，如何感知世界。它們當(dāng)然還需要出色的認(rèn)知能力，以便理解我們的問題并執(zhí)行任務(wù)。

　　機(jī)器人是一個更廣泛的概念。當(dāng)然，當(dāng)我說機(jī)器人時，通常指的是人形機(jī)器人，但這并不完全正確。一切都將是機(jī)器人。所有的工廠將是機(jī)器人化的，工廠將協(xié)調(diào)機(jī)器人，這些機(jī)器人將制造機(jī)器人產(chǎn)品，機(jī)器人相互協(xié)作，制造機(jī)器人產(chǎn)品。為了實現(xiàn)這一點(diǎn)，需要一些突破。

　　接下來，黃仁勛展示了一段視頻，視頻中提到：

　　機(jī)器人時代已經(jīng)到來。一天內(nèi)，所有移動的東西都將是自主的。世界各地的研究人員和公司正在開發(fā)由物理AI驅(qū)動的機(jī)器人，這些AI模型能夠理解指令，并在現(xiàn)實世界中自主執(zhí)行復(fù)雜任務(wù)。多模態(tài) LLM 是突破，使機(jī)器人能夠?qū)W習(xí)、感知和理解周圍的世界，并規(guī)劃它們的行動。

　　通過人類演示，機(jī)器人現(xiàn)在可以學(xué)習(xí)所需的技能，使用粗大和精細(xì)的運(yùn)動技能與世界互動。推進(jìn)機(jī)器人技術(shù)的一個關(guān)鍵技術(shù)是強(qiáng)化學(xué)習(xí)。就像 LLM 需要 RLHF來學(xué)習(xí)特定技能一樣，生成物理 AI 可以使用物理反饋在模擬世界中學(xué)習(xí)技能。這些模擬環(huán)境是機(jī)器人通過在遵循物理定律的虛擬世界中執(zhí)行動作來學(xué)習(xí)決策的地方。在這些機(jī)器人健身房中，機(jī)器人可以安全快速地學(xué)習(xí)執(zhí)行復(fù)雜和動態(tài)的任務(wù)，通過數(shù)百萬次試驗和錯誤行為來提高技能。

　　英偉達(dá)構(gòu)建了Nvidia Omniverse 作為物理AI的操作系統(tǒng)。Omniverse 是一個虛擬世界模擬開發(fā)平臺，結(jié)合了實時物理渲染、物理模擬和生成式AI技術(shù)。在Omniverse 中，機(jī)器人學(xué)習(xí)如何成為機(jī)器人。它們學(xué)習(xí)如何自主精確地操控物體，比如抓取和處理物體，或自主導(dǎo)航環(huán)境，找到最佳路徑，同時避免障礙和危險。在 Omniverse 中學(xué)習(xí)最大限度地減少模擬與現(xiàn)實的差距，并最大限度地轉(zhuǎn)移所學(xué)行為。

　　構(gòu)建具有生成物理AI的機(jī)器人需要三臺計算機(jī)：Nvidia AI超級計算機(jī)來訓(xùn)練模型，Nvidia Jetson Orin 和下一代 Jetson Thor 機(jī)器人超級計算機(jī)來運(yùn)行模型，以及Nvidia Omniverse，機(jī)器人可以在模擬世界中學(xué)習(xí)和改進(jìn)技能。構(gòu)建了開發(fā)人員和公司所需的平臺、加速庫和AI模型，并允許他們使用最適合的堆棧。下一波AI已經(jīng)到來。由物理 AI 驅(qū)動的機(jī)器人將徹底改變各個行業(yè)。

　　黃仁勛提到，這不是未來，這正在發(fā)生。英偉達(dá)將通過幾種方式服務(wù)市場。首先，英偉達(dá)將為每種類型的機(jī)器人系統(tǒng)創(chuàng)建平臺，一個用于機(jī)器人工廠和倉庫，一個用于操縱物體的機(jī)器人，一個用于移動的機(jī)器人，一個用于人形機(jī)器人。因此，每個機(jī)器人平臺就像英偉達(dá)做的幾乎所有事情一樣，都是計算機(jī)、加速庫和預(yù)訓(xùn)練模型。計算機(jī)、加速庫、預(yù)訓(xùn)練模型。在 Omniverse 中測試、訓(xùn)練和集成所有東西，正如視頻所說，機(jī)器人在這里學(xué)習(xí)如何成為機(jī)器人。

　　當(dāng)然，機(jī)器人倉庫的生態(tài)系統(tǒng)非常復(fù)雜。建造現(xiàn)代倉庫需要很多公司、很多工具、很多技術(shù)，倉庫正日益自動化。有一天，它們將完全自動化。因此，在每個生態(tài)系統(tǒng)中，都有連接到軟件行業(yè)的 SDK 和 API，連接到邊緣 AI 行業(yè)和公司的 SDK 和 API，以及為 Odms 設(shè)計的 PLC 和機(jī)器人系統(tǒng)的系統(tǒng)集成。這些最終由集成商集成，構(gòu)建給客戶的倉庫。這里有一個例子，Kenmac 為 Giant 集團(tuán)構(gòu)建的機(jī)器人倉庫。

　　黃仁勛繼續(xù)表示，工廠有一個完全不同的生態(tài)系統(tǒng)，富士康正在建造一些世界上最先進(jìn)的工廠。它們的生態(tài)系統(tǒng)再次包括邊緣計算機(jī)和機(jī)器人，設(shè)計工廠的軟件、工作流程、編程機(jī)器人以及協(xié)調(diào)數(shù)字工廠和 AI 工廠的 PLC 計算機(jī)。英偉達(dá)有連接到每個生態(tài)系統(tǒng)的 SDK，這在整個臺灣都在發(fā)生。

　　富士康正在為其工廠建造數(shù)字孿生體。臺達(dá)正在為其工廠建造數(shù)字孿生體。順便說一下，一半是真實的，一半是數(shù)字的，一半是Omniverse。和碩正在為其機(jī)器人工廠建造數(shù)字孿生體，廣達(dá)正在為其機(jī)器人工廠建造數(shù)字孿生體。

　　黃仁勛繼續(xù)演示了一段視頻，視頻中提到：

　　隨著世界將傳統(tǒng)數(shù)據(jù)中心現(xiàn)代化為生成式AI工廠，對Nvidia加速計算的需求正在飆升。富士康，世界上最大的電子制造商，正準(zhǔn)備通過Nvidia Omniverse和AI建造機(jī)器人工廠來滿足這一需求。工廠規(guī)劃人員使用Omniverse將來自西門子Team Center X和Autodesk Revit等領(lǐng)先行業(yè)應(yīng)用程序的設(shè)施和設(shè)備數(shù)據(jù)集成到數(shù)字孿生體中。

　　在數(shù)字孿生體中，他們優(yōu)化了地板布局和生產(chǎn)線配置，并定位了最佳相機(jī)位置，以使用Nvidia Metropolis支持的視覺AI監(jiān)控未來的操作。虛擬集成節(jié)省了規(guī)劃人員在建設(shè)期間巨大的物理變更訂單成本。富士康團(tuán)隊使用數(shù)字孿生體作為準(zhǔn)確設(shè)備布局的真實來源進(jìn)行溝通和驗證。

　　Omniverse數(shù)字孿生體也是機(jī)器人健身房，富士康開發(fā)人員在這里為機(jī)器人感知和操作訓(xùn)練和測試Nvidia Isaac AI應(yīng)用程序，以及用于傳感器融合的Metropolis AI應(yīng)用程序。

　　黃仁勛繼續(xù)表示，在Omniverse中，富士康模擬了兩個機(jī)器人AI，在將運(yùn)行時部署到裝配線上的 Jetson 計算機(jī)之前。他們模擬了 Isaac Manipulator 庫和用于自動光學(xué)檢測的AI模型，以進(jìn)行物體識別、缺陷檢測和軌跡規(guī)劃。他們還模擬了Isaac Perceptor驅(qū)動的Ferrobot AMRS，這些機(jī)器人通過3D映射和重建感知和移動他們的環(huán)境。通過Omniverse，富士康建立了運(yùn)行在Nvidia Isaac上的機(jī)器人工廠，這些機(jī)器人建造了Nvidia AI超級計算機(jī)，反過來訓(xùn)練富士康的機(jī)器人。

　　一個機(jī)器人工廠設(shè)計了三臺計算機(jī)。首先在Nvidia AI上訓(xùn)練AI，然后在PLC系統(tǒng)上運(yùn)行機(jī)器人以協(xié)調(diào)工廠操作，最后在Omniverse中模擬一切。機(jī)器人手臂和機(jī)器人AMRS也是如此，三臺計算機(jī)系統(tǒng)的區(qū)別在于兩個Omniverse將結(jié)合在一起，共享一個虛擬空間。當(dāng)它們共享一個虛擬空間時，機(jī)器人手臂將進(jìn)入機(jī)器人工廠。再次強(qiáng)調(diào)，三臺計算機(jī)，提供計算機(jī)、加速層和預(yù)訓(xùn)練AI模型。

　　英偉達(dá)將Nvidia Manipulator和Nvidia Omniverse與世界領(lǐng)先的工業(yè)自動化軟件和系統(tǒng)公司西門子連接起來。這真的是一個非常棒的合作，他們正在世界各地的工廠中工作。

　　Semantic Pick AI現(xiàn)在集成了Isaac Manipulator，Semantic Pick AI運(yùn)行并操作ABB、Kuka、安川、Fanuc、Universal Robotics和Techman。因此，西門子是一個絕佳的整合。

　　黃仁勛繼續(xù)演示了一段視頻，視頻中提到：

　　Arcbest正在將Isaac Perceptor集成到Fox智能自主機(jī)器人中，以增強(qiáng)物體識別和人體動作跟蹤及材料處理。比亞迪(238.150, 1.05, 0.44%)電子正在將Isaac Manipulator和Perceptor集成到他們的AI機(jī)器人中，以提高全球客戶的制造效率。Ideal Works正在將Isaac Perceptor集成到他們的iOS軟件中，用于工廠物流中的AI機(jī)器人。

　　Gideon正在將Isaac Perceptor集成到托盤AI驅(qū)動的叉車中，以推進(jìn)AI驅(qū)動的物流。Argo Robotics正在采用Isaac Perceptor用于高級視覺AMRS的感知引擎。Solomon正在他們的Acupic 3D軟件中使用Isaac Manipulator AI模型進(jìn)行工業(yè)操作。Techman Robot正在將Isaac Sim和Manipulator集成到TM Flow中，以加速自動光學(xué)檢測。Teradine Robotics正在將Isaac Manipulator集成到Polyscope X用于協(xié)作機(jī)器人，并將Isaac Perceptor集成到MiR AMRS中。

　　Vention正在將Isaac Manipulator集成到Machine Logic中，用于AI操作機(jī)器人。機(jī)器人技術(shù)已經(jīng)到來，物理AI已經(jīng)到來。

　　黃仁勛繼續(xù)介紹，這不是科幻小說，它正在整個臺灣被廣泛應(yīng)用，真的非常令人興奮。這是工廠，里面的機(jī)器人，當(dāng)然所有產(chǎn)品也將是機(jī)器人化的。

　　有兩種非常高產(chǎn)量的機(jī)器人產(chǎn)品。一種當(dāng)然是自動駕駛汽車或具有高度自動駕駛能力的汽車。英偉達(dá)再次構(gòu)建了整個堆棧。

　　明年，英偉達(dá)將與梅賽德斯車隊一起投入生產(chǎn)。之后，在 2026 年，將是 JLR 車隊。英偉達(dá)向世界提供整個堆棧。然而，你可以選擇英偉達(dá)堆棧中的任何部分，任何層，就像整個 Drive 堆棧是開放的。

　　下一個將由機(jī)器人工廠內(nèi)的機(jī)器人制造的高產(chǎn)量機(jī)器人產(chǎn)品可能是人形機(jī)器人。近年來在認(rèn)知能力和世界理解能力方面取得了巨大進(jìn)展，這要?dú)w功于基礎(chǔ)模型和英偉達(dá)正在開發(fā)的技術(shù)。

　　黃仁勛表示，他對這一領(lǐng)域非常興奮，因為顯然，最容易適應(yīng)世界的機(jī)器人是人形機(jī)器人，因為我們?yōu)樽约航ㄔ炝诉@個世界，還可以通過演示和視頻提供大量的訓(xùn)練數(shù)據(jù)，遠(yuǎn)遠(yuǎn)超過其他類型的機(jī)器人。因此，英偉達(dá)將在這一領(lǐng)域看到很多進(jìn)展。

　　下一波AI。臺灣不僅制造帶鍵盤的計算機(jī)，還制造用于口袋的計算機(jī)、用于數(shù)據(jù)中心的計算機(jī)。在未來，你們將制造會走動的計算機(jī)和四處滾動的計算機(jī)。這些都是計算機(jī)。事實證明，構(gòu)建這些計算機(jī)的技術(shù)與今天你們已經(jīng)構(gòu)建的所有其他計算機(jī)的技術(shù)非常相似，這將是一個非常非凡的旅程。

新聞中心

英偉達(dá)CEO黃仁勛COMPUTEX 2024大會演講

評論

相關(guān)推薦

技術(shù)專區(qū)