用VPU帶來全民AI能力|英特爾AI on PC技術(shù)解讀
如今的AI技術(shù)的進(jìn)步可以說是一日千里,也從前幾年我們經(jīng)常提到的判定式AI的基礎(chǔ)上,產(chǎn)生了大量的生成式AI的應(yīng)用,這些基于AI大模型的新應(yīng)用,其實(shí)也給產(chǎn)業(yè)鏈上游的硬件廠商提出了新的要求。
本文引用地址:http://m.butianyuan.cn/article/202306/447448.htm通過布局異構(gòu)計(jì)算,藍(lán)色巨人如何涉入AI這條河流
對于藍(lán)色芯片巨頭英特爾來說,目前已經(jīng)通過OneAPI和OPENVINO為基礎(chǔ),形成了CPU、GPU、FPGA/ASIC 、神經(jīng)網(wǎng)絡(luò)計(jì)劃、RISC-V一系列的異構(gòu)計(jì)算的產(chǎn)品線,前兩年,英特爾提出了XPU——超異構(gòu)計(jì)算的概念,其實(shí)就是將不同計(jì)算構(gòu)架下的計(jì)算能力統(tǒng)在一個通用計(jì)算的平臺下生成,而且據(jù)說英特爾的RISC-V處理器也處理于即將推出的狀態(tài)。
今天給大家聊的自然不是RISC-V,而是大家耳熟能悉的通用計(jì)算CPU平臺的AI應(yīng)用,是的,你沒聽錯,在英特爾最新的CPU MapRoad(產(chǎn)品圖線圖)上,將整合進(jìn)新的AI運(yùn)算模塊,讓每一臺PC都具備一定的AI能力。而實(shí)現(xiàn)這一能力的正是下半年即將面市的Meteor Lake,如果放在個人PC上,也就是大家所關(guān)注的Meteor Lake。
你如果仔細(xì)關(guān)注過英特爾酷睿處理器,就知道英特爾其實(shí)早在Alder Lake到Raptor Lake,也就是之前混合架構(gòu)的12代和13代酷睿就集成了AI深度學(xué)習(xí)的能力,它是通過一塊嵌入式芯片專門處理向量神經(jīng)網(wǎng)絡(luò)指今集(VNNI),其實(shí)也就向AVX-512中增加了新的深度學(xué)習(xí)的功能,諸如英特爾智音技術(shù)、語音喚醒、高質(zhì)音頻等以判定式AI為底層的技術(shù)都是通過它來實(shí)現(xiàn)的。而且英特爾通過向13代酷睿上加載Movidius Myriad X視覺處理單元,通過計(jì)算機(jī)視覺和深度神經(jīng)網(wǎng)絡(luò)推理讓PC具備了生成式AI的能力。
對英特爾極為關(guān)鍵的Meteor Lake,會有哪些技術(shù)亮點(diǎn)
在日前英特爾的一場名為“AI on PC”技術(shù)交流會上,英特爾明確了Meteor Lake將在硬件能力上對AI的主要應(yīng)用場景進(jìn)行支持,而且細(xì)聊到了支持AI功能的具體構(gòu)架,甚至還進(jìn)一步聊到英特爾接下來IDM 2.0對芯片構(gòu)架的影響。我們一步一步來給大家展開來聊。
從帕特·基辛格主導(dǎo)的產(chǎn)品路線圖來看,英特爾會在四年時間里跨越5個制程工藝的節(jié)點(diǎn),其中會有三個非常重要的飛躍,第一是intel 7的Alder Lake到Raptor Lake,通過混合構(gòu)架,英特爾重塑了CPU的異構(gòu)計(jì)算能力;第二便是今年下半年發(fā)布的intel 4工藝制程,它采用Foveros 3D封裝技術(shù),包含即將發(fā)布的到Meteor Lake和Arrow Lake,從英特爾代工步伐和面臨的競爭環(huán)境來看,它甚至比下一步的Intel 20A更加重要;第三就是Intel 20A和18A的2nm和1.8nm工藝。就這樣的節(jié)奏來看,英特爾必須在Meteor Lake上為新的工藝制程開一個好頭,將AI能力集成在PC中自然就是一個非常有看點(diǎn)的技術(shù)路線。
我們都知道,目前用于AI計(jì)算的主要是GPU,英特爾的技術(shù)人員已經(jīng)明確談到,得益于前兩年在銳炫(Arc)獨(dú)立顯卡上的布局,Meteor Lake的GPU能力將會更加強(qiáng)大,這一代的酷睿平臺中集成的顯卡將集成銳炫顯卡技術(shù)同樣的圖形引擎——的確,英特爾過去兩代沿用相同的集成顯卡,讓競爭對手在輕薄筆記本領(lǐng)域,甚至在英特爾過去一直很強(qiáng)勢的商用筆記本領(lǐng)域中嘗盡了甜頭。Meteor Lake英特爾一定會利用強(qiáng)大的集顯能力扳回一程,甚至?xí)尲娠@卡具備光線追蹤、XeSS超級分辨率這樣的獨(dú)顯才會擁有的技術(shù)。要知道,光追對硬件能力的要求其實(shí)是很高的,這也讓我們對Meteor Lake即將展示的集顯性能非常期待。
VPU,英特爾首次在CPU上放入獨(dú)立的AI硬件單元
但是,但是,但是(重要的事說三遍),集成顯卡并不是英特爾用來實(shí)現(xiàn)AI的關(guān)鍵硬件,我在文章開始時一再強(qiáng)調(diào)英特爾在異構(gòu)計(jì)算上的整合能力,是因?yàn)橛⑻貭栍脕韺?shí)現(xiàn)AI能力的是一個CPU上首次出現(xiàn)的全新計(jì)算模式——VPU,而在完全掌控異構(gòu)計(jì)算的底層技術(shù)之后,英特爾是隨時有為新一波的科技浪潮添加相對應(yīng)的硬件能力的。
之前,Movidius視覺處理器就被命名為VPU,不必意外,集成入Meteor Lake的就是這樣一個基于神經(jīng)網(wǎng)絡(luò)計(jì)算的獨(dú)立運(yùn)算模塊,與以往的通過CPU和GPU的人工智能加速指令集去實(shí)現(xiàn)人工智能服務(wù)不同,這是一個獨(dú)立的處理單元,在針對人工智能進(jìn)行加速處理模式中,采用的也是“CPU+GPU+VPU“的混合處理方式,通過各個計(jì)算單元的特點(diǎn),將AI處理效率最大化。這件事之所以是英特爾率先落地,是因?yàn)橛⑻貭柾ㄟ^OneAPI和OPENVINO對不同構(gòu)架的算力已經(jīng)形成了”歸一化“的統(tǒng)籌,換其他人,還真不一定干得這么利索。
我們再來看看這塊VPU究竟有何優(yōu)勢?按英特爾技術(shù)人員的介紹,它最大的優(yōu)勢就是在消費(fèi)端PC上用最快速、最便宜、最低成本的方式實(shí)現(xiàn)AI功能。其實(shí),英特爾的Movidius視覺處理器已經(jīng)在非常寬泛的領(lǐng)域得到應(yīng)用,它以非常優(yōu)秀的每瓦性能比實(shí)現(xiàn)了高性能的深度學(xué)習(xí)功能,特別在視覺判別上擁有支持ISP、高兼容性,以及邊緣端易于布署等優(yōu)勢,適于在邊緣端部署,從某種意義上來說它很容易移植在“端”上,事實(shí)上,過去Movidius也有很多“端”上部署的案例。
放在一臺酷睿PC上行不行?答案自然是肯定的。Meteor Lake上的這個VPU計(jì)算單元便擁有端側(cè)上非常優(yōu)秀的延時表現(xiàn)、數(shù)據(jù)安全性和較低的運(yùn)營成本。目前,大規(guī)模的AI運(yùn)算都是通過云端來提供支持的,自然就有延時和數(shù)據(jù)安全等問題,而且云端需要有大量的服務(wù)器設(shè)備來支持,從目前的用于AI運(yùn)算的超算設(shè)備來看(比如英偉達(dá)才發(fā)布的DGX GH200),AI運(yùn)營方需要支付非常巨大的成本,相應(yīng),消費(fèi)者也需要為AI成果支付巨額的費(fèi)用,之所以止前GPT和各個運(yùn)營方都沒有收費(fèi),只是大模型還在發(fā)展階段,能夠開源免費(fèi)使用的也是大語言模型等一些基礎(chǔ)服務(wù),那些沒開源的項(xiàng)目未來都是非常昂貴的,不是每個項(xiàng)目都能玩得起的。
英特爾在酷睿平臺上集成AI能力,這無疑為AI應(yīng)用打開了一個新的天窗。如果每一臺消費(fèi)級PC都具有本地化的AI能力,那么未來很可能會誕生無數(shù)多的新商業(yè)模式,所以如今圖片生成式AI除了云端支持的Midjourney之外,還有端側(cè)支持的Stable Diffusion,我相信未來更多富有想象力的AI畫作將出自Stable Diffusion,而不是Midjourney。未來,還有可能會有統(tǒng)籌每臺電腦AI算力的網(wǎng)絡(luò)平臺或拓?fù)錁?gòu)架出現(xiàn),用于支撐大型的AI應(yīng)用,當(dāng)然,這種商業(yè)模式就不是本文的探討范圍之內(nèi)了。
英特爾如何推進(jìn)AI技術(shù),VPN在未來PC構(gòu)架上承擔(dān)怎樣的角色
再回到英特爾VPU的討論之上。英特爾一直在推進(jìn)AI方面的應(yīng)用,過去我們看到的大多是判定式AI,比如像噪音抑制、圖像分割等,比如英特爾今年在網(wǎng)絡(luò)會議的背景處理上就采用非常完善的分割模型,能夠?qū)㈩^部和背景非常細(xì)致地區(qū)分,相比兩年前模型有了10倍復(fù)雜度的提升;另外,噪音抑制的復(fù)雜度也有50倍的提升。而在生成式AI上,大語言模型、Stable Diffusion同樣也對硬件提出了較高的要求。
所以英特爾在Meteor Lake和接下來的產(chǎn)品路線上明確加入了VPU這樣的獨(dú)立IP,并且也在和眾多ISV合作,目前已經(jīng)與超過100家的ISV開展AI方面的合作。與其他廠商不同,英特爾提供的AI服務(wù)基于整個處理器算力,也就是CPU+GPU+VPU,他們可以處理不同使用場景、不同負(fù)載、不同延時下的AI需求。比如CPU處理AI 的延時很低,不需要長時間裝載,適合敏感的AI負(fù)載;GPU延時高,但算力強(qiáng),適于AI大模型;而VPU則是專門為AI設(shè)計(jì)的一套架構(gòu),能夠非常高效地完成一些矩陣運(yùn)算,而且對稀疏化的處理非常擅長。之前英特爾在無人機(jī)避障上便強(qiáng)入了這個嵌入式IP,它的功耗非常低,對流媒體的AI處理,比如手勢控制 、背景虛化等需要長時間運(yùn)行的AI負(fù)載,是非常高耗且省電的。
之所以要將VPU引入到PC之上,是因?yàn)樽鳛橥ㄓ糜?jì)算平臺,如今PC上會并行很多運(yùn)算任務(wù),如果將AI負(fù)載過多加載在CPU和GPU之上,那么在占用率高的情況下就會擠占渲染等實(shí)時任務(wù),造成游戲等應(yīng)用場景的卡頓,而交給能耗較低的VPU,那么就會讓CPU和GPU隨時保持較為空載的狀態(tài),留給其他通用計(jì)算的任務(wù)。
在Meteor Lake發(fā)布之后,哪些任務(wù)可以交給VPU來做呢?以Adobe的一些軟件為例 ,自動化的處理、智能化摳圖都可以交由VPU執(zhí)行,另外,Blender(3D創(chuàng)作)、Audacity(音頻剪輯)、OBS(直播推流)、GIMP(對標(biāo) Photoshop的一個開源軟件)等軟件會做VPU的資源調(diào)用。另外,英特爾與跟Unreal Engine做的數(shù)字人,以及其他引擎級別的插件,也會由VPU來支撐AI方面的負(fù)載。另外,基于Stable Diffusion做的生成式AI,同樣可以交由英特爾的這套CPU+GPU+VPU的執(zhí)行邏輯高效的完成。
現(xiàn)場,英特爾為我們展示了一個在Stable Diffusion完成的Diffusion的模型生成,就是跑在了Meteor Lake的開發(fā)機(jī)之上,上邊沒有獨(dú)立GPU,是通過不同的IP協(xié)作完成的。比如VPU上承載了VNET模塊運(yùn)行,GPU上承載了encoder模塊的運(yùn)行。就VPU的具體AI性能,英特爾技術(shù)人員并沒有直接回答,最終指標(biāo)會留在Meteor Lake正式發(fā)布時才會公布。不過經(jīng)過我再三向英特爾技術(shù)人員確認(rèn),Meteor Lake中的這塊VPU性能,將比在13代酷睿上加載的那塊Movidius Myriad X視覺處理單元在性能和功耗上均更為強(qiáng)大!
可以明確的是,在上述演示的僅需20秒完成的DEMO中,明確基于VPU的方案是INT8精度,與GPU上常用的FP32或BF16相比,的確在精度上有一定差別,但大部分消費(fèi)類場景上,用戶的感知差別都不會太明顯。
英特爾硬件布局上更多的話題,非常重要!
對于VPU的前生過往,今天都給大家談到了,最終只剩下一個問題,英特爾為什么要推VPU?其實(shí)我在上談解讀中已經(jīng)解構(gòu)得非常清晰——之所以要推VPU這個新IP,還是基于解決AI門檻的出發(fā)點(diǎn),英特爾希望未來每一臺筆記本上都能運(yùn)行Stable Diffusion這樣的生成式AI大模型。更何況,VPU本身是一個低功耗的IP,在實(shí)現(xiàn)AI能力同時,不會給整塊芯片帶來更大負(fù)載壓力,也符合行業(yè)越來越看重“每瓦性能比”的趨勢。
VPU本身并不是一個解決所有AI應(yīng)用場景的硬件,但英特爾,卻是一個擁有解決AI所有場景、負(fù)載的芯片廠商。而且,英特爾在整合能力上,擁有比NVIDIA更強(qiáng)的能力,比如英偉達(dá)最近推出的DGX GH200上首次采用了拓?fù)浣Y(jié)構(gòu),而英特爾去年構(gòu)架日推出Xe HPC的GPU——Ponte Vecchio,就已經(jīng)在SoC里將這個結(jié)構(gòu)玩得非常溜了。
在這個技術(shù)溝通會上,我和英特爾技術(shù)人員還聊到一個關(guān)于Meteor Lake的重要的話題。這個全新處理器將采用Foveros 3D封裝技術(shù),也就意味著英特爾在整合整個SoC的連接能力上將更強(qiáng)。更為重要的是,在這個封裝中,英特爾的芯片將全面啟用分離式的模塊構(gòu)架,這意味著芯片中的每一個IP都可以作為獨(dú)立模塊設(shè)計(jì),根據(jù)計(jì)算和功用,甚至?xí)捎貌煌闹瞥坦に嚒4蠹铱梢粤粢獾?,AMD早就采用了Chiplet技術(shù)對SoC內(nèi)不同IP采用不同制程工藝節(jié)點(diǎn)來降低成本,從ZEN 2開始就把邏輯運(yùn)算模塊和I/O模塊分用不同制程工藝,這樣的需求遠(yuǎn)不止AMD一家,而英特爾這樣做的目的更多是為了服務(wù)其代工業(yè)務(wù)(IDM2.0),滿足的客戶按需采購要求。
VPU在DIE上的面積不大,功耗也低,但卻從硬件端解決了AI功能的入門問題,讓未來所有的PC用戶都能夠使用本地端的AI功能。在芯片行業(yè),制程工藝的進(jìn)步是芯片廠商能力的重要標(biāo)志,異構(gòu)計(jì)算的整合能力則是另一方面的能力體現(xiàn),所以未來英特爾在AI方面的布局會持續(xù)加強(qiáng),從VPU到獨(dú)立GPU,再到Xe HPC GPU產(chǎn)品上都會看到具體AI能力的落地。
評論