黃教主深夜丟“核彈”,加速光刻領(lǐng)域2nm制程、最新GPU提速10倍
前言
北京時(shí)間3月21日晚11點(diǎn),一年一度的英偉達(dá)GPU技術(shù)大會(huì)GTC(Gpu Technology Conference)如期而至,吸引了超過(guò)25萬(wàn)名觀眾參與。
黃仁勛教主一如既往地穿著標(biāo)志性的黑皮夾,進(jìn)行了長(zhǎng)達(dá)78分鐘的主題演講,逐一向觀眾披露了英偉達(dá)的最新產(chǎn)品——挑戰(zhàn)芯片極限的計(jì)算光刻技術(shù)、ChatGPT專用GPU等,無(wú)一不是“核彈”級(jí)別的殺手锏。
黃仁勛表示,近40年以來(lái),摩爾定律一直是引領(lǐng)計(jì)算機(jī)行業(yè)發(fā)展的重要規(guī)律,但在成本與功耗不變的情況下,這一定律已經(jīng)逐漸放緩,各行各業(yè)都在尋找數(shù)字化轉(zhuǎn)型,而英偉達(dá)要用技術(shù)重塑行業(yè),“要成為顛覆者,而不是被顛覆者。要利用加速計(jì)算和AI,幫助企業(yè)應(yīng)對(duì)這些挑戰(zhàn)?!?/span>
野心勃勃的英偉達(dá),不斷用芯片推動(dòng)AI技術(shù),也正在用AI技術(shù)賦能芯片行業(yè)。
01
AI輔助制芯技術(shù),將計(jì)算光刻提速40倍
此次大會(huì)中,黃仁勛宣布了一項(xiàng)為芯片領(lǐng)域帶來(lái)的重大突破——推出計(jì)算光刻軟件庫(kù)cuLitho,將加速計(jì)算帶入計(jì)算光刻領(lǐng)域,使計(jì)算速度提升40倍。
黃仁勛稱,英偉達(dá)經(jīng)過(guò)與臺(tái)積電、ASML、Synopsys(新思科技)三大半導(dǎo)體巨頭的多年合作,終于推出了這一技術(shù),大大降低芯片代工廠在這一工序上所消耗的時(shí)間和能耗,為2nm以及更先進(jìn)制程的到來(lái)做好準(zhǔn)備。
我們知道,光刻是芯片制造過(guò)程中的一個(gè)重要工藝,相當(dāng)于用“光刀”在晶圓上“雕刻”出精細(xì)的電路圖。這個(gè)圖案首先要呈現(xiàn)在光掩膜(photomask)上。掩膜板就像是漏字板,激光一照,通過(guò)鏡頭,“漏字板”上的圖案也就落到了硅片上,如下圖:
晶體管、器件、互聯(lián)線路都需要經(jīng)過(guò)這樣的光刻步驟。光刻機(jī)巨頭ASML也是靠著這一技術(shù)一直壟斷著全球的EUV光刻機(jī)。
ASML曾表示,計(jì)算光刻是其“鐵三角”業(yè)務(wù)之一。計(jì)算光刻技術(shù)是通過(guò)模擬光通過(guò)光學(xué)元件并與光刻膠相互作用時(shí)的行為,應(yīng)用逆物理算法來(lái)預(yù)測(cè)掩膜板上的圖案,以便在晶圓上生成最終圖案。
換言之,就是計(jì)算光刻是通過(guò)軟件,對(duì)整個(gè)光刻過(guò)程來(lái)做建模和仿真,對(duì)工藝流程做優(yōu)化,比如說(shuō)形貌優(yōu)化、掩膜板修正等。計(jì)算光刻目的是消除光刻過(guò)程中,小尺寸器件“模糊”的問(wèn)題。
在芯片設(shè)計(jì)和制造領(lǐng)域中,計(jì)算光刻是最大的計(jì)算工作負(fù)載,每年都要消耗數(shù)百億CPU小時(shí)。
隨著晶體管和互聯(lián)線寬的持續(xù)微縮,掩膜板的復(fù)雜度可能會(huì)越來(lái)越高。英偉達(dá)先進(jìn)技術(shù)副總裁Vivek Singh說(shuō),foundry廠所需的數(shù)據(jù)中心規(guī)模擴(kuò)張速度,會(huì)比摩爾定律本身的發(fā)展速度還要快;最終就是沒(méi)有足夠多的算力來(lái)解決問(wèn)題。
“按照過(guò)去15年的趨勢(shì),如果某個(gè)foundry廠現(xiàn)有3座數(shù)據(jù)中心,那么未來(lái)10年內(nèi)就需要100座這樣的數(shù)據(jù)中心?!盫ivek說(shuō)道,“功耗方面,45兆瓦(MegaWatt)或許還行,但如果是45千兆瓦(GigaWatt),問(wèn)題就比較大了。英偉達(dá)對(duì)此給出的回答是cuLitho?!?/span>
英偉達(dá)的新算法cuLitho,可以讓日益復(fù)雜的計(jì)算光刻工作流程能夠在GPU上并行執(zhí)行,它不僅能使計(jì)算速度提升40倍,而且功耗也可以降低9倍之多。
舉個(gè)例子,比如英偉達(dá)的H100在制造過(guò)程中需要89塊掩膜板。如果用CPU進(jìn)行處理的話,每個(gè)掩膜板都需要消耗兩周的時(shí)間。
而如果在GPU上運(yùn)行cuLitho,則只需8個(gè)小時(shí)即可處理完一個(gè)掩膜板。
而臺(tái)積電也可以用500個(gè)DGX H100系統(tǒng)中的4,000個(gè)Hopper GPU,完成之前需要多達(dá)40,000臺(tái)基于CPU的服務(wù)器才能搞定的工作,并且功率也會(huì)從35MW降至5MW。
英偉達(dá)拋出的這一技術(shù),無(wú)疑相當(dāng)于一枚芯片界的“核彈”,它使得2nm及更先進(jìn)芯片的生產(chǎn)成為可能。未來(lái),臺(tái)積電、ASML、Synopsys也將引入這一技術(shù),繼續(xù)突破芯片制造的物理極限。臺(tái)積電方面消息稱,將于今年6月對(duì)cuLitho進(jìn)行生產(chǎn)資格認(rèn)證,加速2nm芯片試產(chǎn)。
02
ChatGPT專用GPU:H100 NVL——提速10倍
黃仁勛一直對(duì)AI和機(jī)器學(xué)習(xí)持倡導(dǎo)態(tài),他曾公開表示AI技術(shù)已經(jīng)來(lái)到拐點(diǎn),押注AI十年也使得英偉達(dá)在ChatGPT浪潮中獲得豐厚回報(bào)。對(duì)于大型語(yǔ)言模型而言,算力是其中最重要一環(huán),因此高度依賴英偉達(dá)強(qiáng)大的GPU芯片。
針對(duì)算力需求巨大的 ChatGPT,英偉達(dá)發(fā)布了 NVIDIA H100 NVL,這是一種具有 94GB 內(nèi)存和加速 Transformer Engine 的大語(yǔ)言模型(LLM)專用解決方案,配備了雙 GPU NVLINK 的 PCIE H100 GPU。
黃仁勛的主題演講中披露了該公司推出的全新GPU推理平臺(tái),該平臺(tái)包括4種不同配置,針對(duì)不同工作負(fù)載進(jìn)行優(yōu)化,分別對(duì)應(yīng)了AI視頻加速、圖像生成加速、大型語(yǔ)言模型(LLM)加速和推薦系統(tǒng)和LLM數(shù)據(jù)庫(kù)。包括:L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper超級(jí)芯片。
其中最主要的是H100 NVL,它將英偉達(dá)的兩個(gè)H100 GPU拼接在一起,以部署像ChatGPT這樣的大型語(yǔ)言模型(LLM)。黃仁勛表示,“當(dāng)前唯一可以實(shí)際處理ChatGPT的GPU是英偉達(dá)HGX A100。與前者相比,現(xiàn)在一臺(tái)搭載四對(duì)H100和雙NVLINK的標(biāo)準(zhǔn)服務(wù)器速度能快10倍,可以將大語(yǔ)言模型的處理成本降低一個(gè)數(shù)量級(jí)。”
據(jù)悉,H100 NVL附帶94GB內(nèi)存,與上一代產(chǎn)品相比,H100的綜合技術(shù)創(chuàng)新可以將大型語(yǔ)言模型的速度提高30倍。據(jù)黃仁勛透露,H100 NVL預(yù)計(jì)將在今年下半年上市。
H100
此外,用于AI Video的L4芯片,在視頻解碼和轉(zhuǎn)碼、視頻內(nèi)容審核、視頻通話功能上做了優(yōu)化。英偉達(dá)稱其可以提供比CPU高120倍的AI視頻性能,同時(shí)能效提高99%。
同時(shí),英偉達(dá)還針對(duì)Omniverse、圖形渲染以及文本轉(zhuǎn)圖像/視頻等生成式AI推出了L40芯片。其性能是英偉達(dá)最受歡迎的云推理GPU T4的10倍。
英偉達(dá)推出的全新超級(jí)芯片Grace-Hopper,適用于推薦系統(tǒng)和大型語(yǔ)言模型的AI數(shù)據(jù)庫(kù),圖推薦模型、向量數(shù)據(jù)庫(kù)和圖神經(jīng)網(wǎng)絡(luò)的理想選擇,通過(guò)900GB/s的高速一致性芯片到芯片接口連接英偉達(dá)Grace CPU和Hopper GPU。
超級(jí)芯片Grace-Hopper
03
全球首個(gè)GPU加速量子計(jì)算系統(tǒng)
在21日的活動(dòng)中,英偉達(dá)還官宣了一個(gè)使用 Quantum Machines 構(gòu)建的新系統(tǒng),該系統(tǒng)為從事高性能和低延遲量子經(jīng)典計(jì)算的研究人員提供了一種革命性的新架構(gòu)。
據(jù)黃仁勛介紹,NVIDIA DGX Quantum是全球首個(gè)GPU加速的量子計(jì)算系統(tǒng),可以實(shí)現(xiàn)GPU和量子處理單元(QPU)之間的亞微秒級(jí)延遲。其將全球最強(qiáng)大的加速計(jì)算平臺(tái)(由 NVIDIA Grace Hopper 超級(jí)芯片和 CUDA Quantum 開源編程模型實(shí)現(xiàn))與全球最先進(jìn)的量子控制平臺(tái) OPX(由 Quantum Machines 提供)相結(jié)合。這種組合使研究人員能夠建立空前強(qiáng)大的應(yīng)用,將量子計(jì)算與最先進(jìn)的經(jīng)典計(jì)算相結(jié)合,實(shí)現(xiàn)校準(zhǔn)、控制、量子糾錯(cuò)和混合算法。
英偉達(dá)公司 HPC 和量子主管 Tim Costa 表示:“量子加速的超級(jí)計(jì)算有可能重塑科學(xué)和工業(yè),英偉達(dá) DGX Quantum 將使研究人員能夠突破量子 - 經(jīng)典計(jì)算的界限?!?/span>
對(duì)此,英偉達(dá)將高性能的 Hopper 架構(gòu) GPU 與該公司的新 Grace CPU 整合為”Grace Hopper“,為巨型 AI 和 HPC 應(yīng)用提供了超強(qiáng)的動(dòng)力。它為運(yùn)行 TB 級(jí)數(shù)據(jù)的應(yīng)用提供了高達(dá) 10 倍的性能,為量子 - 經(jīng)典研究人員解決世界上最復(fù)雜的問(wèn)題提供了更多動(dòng)力。
總 結(jié)
在本次GTC大會(huì)上,黃仁勛說(shuō)道,“加速計(jì)算并非易事,2012年,計(jì)算機(jī)視覺(jué)模型AlexNet動(dòng)用了GeForce GTX 580,每秒可處理262 PetaFLOPS。該模型引發(fā)了AI技術(shù)的爆炸。”
“十年之后,Transformer出現(xiàn)了,GPT-3動(dòng)用了323 ZettaFLOPS的算力,是AlexNet的100萬(wàn)倍,創(chuàng)造了ChatGPT這個(gè)震驚全世界的AI。嶄新的計(jì)算平臺(tái)出現(xiàn)了,AI的‘iPhone時(shí)刻’已經(jīng)來(lái)臨?!?/span>
顯然,手握GPU算力技術(shù)的英偉達(dá)抓住了AI的關(guān)鍵時(shí)刻,在大模型軍備競(jìng)賽中,英偉達(dá)贏得盆滿缽滿。ChatGPT在全球的爆火,就讓英偉達(dá)股價(jià)飆升市值直接增加700多億美元。
目前,英偉達(dá)市值為6400億美元。而在Microsoft 365, Azure,Stable Diffusion,DALL-E……時(shí)下最紅的AI產(chǎn)品中,英偉達(dá)都能分得一杯羹。
從大會(huì)發(fā)布的內(nèi)容來(lái)看,英偉達(dá)對(duì)先進(jìn)AI計(jì)算的支撐已經(jīng)覆蓋到從GPU、DPU等硬件到幫助企業(yè)加速構(gòu)建定制生成式AI模型的云服務(wù)。或許正如黃仁勛所說(shuō),AI行業(yè)的”iPhone時(shí)刻“已來(lái)臨,創(chuàng)業(yè)公司正在競(jìng)相建立顛覆式的商業(yè)模型,業(yè)界巨頭也在尋找應(yīng)對(duì)之道。
而英偉達(dá)正在成為AI“背后的巨人”。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。