用VPU帶來全民AI能力｜英特爾AI on PC技術(shù)解讀

作者：新潮電子時間：2023-06-07 來源：搜狐科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

如今的AI技術(shù)的進(jìn)步可以說是一日千里，也從前幾年我們經(jīng)常提到的判定式AI的基礎(chǔ)上，產(chǎn)生了大量的生成式AI的應(yīng)用，這些基于AI大模型的新應(yīng)用，其實(shí)也給產(chǎn)業(yè)鏈上游的硬件廠商提出了新的要求。

本文引用地址：http://m.butianyuan.cn/article/202306/447448.htm

通過布局異構(gòu)計(jì)算，藍(lán)色巨人如何涉入AI這條河流

對于藍(lán)色芯片巨頭英特爾來說，目前已經(jīng)通過OneAPI和OPENVINO為基礎(chǔ)，形成了CPU、GPU、FPGA/ASIC 、神經(jīng)網(wǎng)絡(luò)計(jì)劃、RISC-V一系列的異構(gòu)計(jì)算的產(chǎn)品線，前兩年，英特爾提出了XPU——超異構(gòu)計(jì)算的概念，其實(shí)就是將不同計(jì)算構(gòu)架下的計(jì)算能力統(tǒng)在一個通用計(jì)算的平臺下生成，而且據(jù)說英特爾的RISC-V處理器也處理于即將推出的狀態(tài)。

今天給大家聊的自然不是RISC-V，而是大家耳熟能悉的通用計(jì)算CPU平臺的AI應(yīng)用，是的，你沒聽錯，在英特爾最新的CPU MapRoad（產(chǎn)品圖線圖）上，將整合進(jìn)新的AI運(yùn)算模塊，讓每一臺PC都具備一定的AI能力。而實(shí)現(xiàn)這一能力的正是下半年即將面市的Meteor Lake，如果放在個人PC上，也就是大家所關(guān)注的Meteor Lake。

你如果仔細(xì)關(guān)注過英特爾酷睿處理器，就知道英特爾其實(shí)早在Alder Lake到Raptor Lake，也就是之前混合架構(gòu)的12代和13代酷睿就集成了AI深度學(xué)習(xí)的能力，它是通過一塊嵌入式芯片專門處理向量神經(jīng)網(wǎng)絡(luò)指今集（VNNI），其實(shí)也就向AVX-512中增加了新的深度學(xué)習(xí)的功能，諸如英特爾智音技術(shù)、語音喚醒、高質(zhì)音頻等以判定式AI為底層的技術(shù)都是通過它來實(shí)現(xiàn)的。而且英特爾通過向13代酷睿上加載Movidius Myriad X視覺處理單元，通過計(jì)算機(jī)視覺和深度神經(jīng)網(wǎng)絡(luò)推理讓PC具備了生成式AI的能力。

對英特爾極為關(guān)鍵的Meteor Lake，會有哪些技術(shù)亮點(diǎn)

在日前英特爾的一場名為“AI on PC”技術(shù)交流會上，英特爾明確了Meteor Lake將在硬件能力上對AI的主要應(yīng)用場景進(jìn)行支持，而且細(xì)聊到了支持AI功能的具體構(gòu)架，甚至還進(jìn)一步聊到英特爾接下來IDM 2.0對芯片構(gòu)架的影響。我們一步一步來給大家展開來聊。

從帕特·基辛格主導(dǎo)的產(chǎn)品路線圖來看，英特爾會在四年時間里跨越5個制程工藝的節(jié)點(diǎn)，其中會有三個非常重要的飛躍，第一是intel 7的Alder Lake到Raptor Lake，通過混合構(gòu)架，英特爾重塑了CPU的異構(gòu)計(jì)算能力；第二便是今年下半年發(fā)布的intel 4工藝制程，它采用Foveros 3D封裝技術(shù)，包含即將發(fā)布的到Meteor Lake和Arrow Lake，從英特爾代工步伐和面臨的競爭環(huán)境來看，它甚至比下一步的Intel 20A更加重要；第三就是Intel 20A和18A的2nm和1.8nm工藝。就這樣的節(jié)奏來看，英特爾必須在Meteor Lake上為新的工藝制程開一個好頭，將AI能力集成在PC中自然就是一個非常有看點(diǎn)的技術(shù)路線。

我們都知道，目前用于AI計(jì)算的主要是GPU，英特爾的技術(shù)人員已經(jīng)明確談到，得益于前兩年在銳炫（Arc）獨(dú)立顯卡上的布局，Meteor Lake的GPU能力將會更加強(qiáng)大，這一代的酷睿平臺中集成的顯卡將集成銳炫顯卡技術(shù)同樣的圖形引擎——的確，英特爾過去兩代沿用相同的集成顯卡，讓競爭對手在輕薄筆記本領(lǐng)域，甚至在英特爾過去一直很強(qiáng)勢的商用筆記本領(lǐng)域中嘗盡了甜頭。Meteor Lake英特爾一定會利用強(qiáng)大的集顯能力扳回一程，甚至?xí)尲娠@卡具備光線追蹤、XeSS超級分辨率這樣的獨(dú)顯才會擁有的技術(shù)。要知道，光追對硬件能力的要求其實(shí)是很高的，這也讓我們對Meteor Lake即將展示的集顯性能非常期待。

VPU，英特爾首次在CPU上放入獨(dú)立的AI硬件單元

但是，但是，但是（重要的事說三遍），集成顯卡并不是英特爾用來實(shí)現(xiàn)AI的關(guān)鍵硬件，我在文章開始時一再強(qiáng)調(diào)英特爾在異構(gòu)計(jì)算上的整合能力，是因?yàn)橛⑻貭栍脕韺?shí)現(xiàn)AI能力的是一個CPU上首次出現(xiàn)的全新計(jì)算模式——VPU，而在完全掌控異構(gòu)計(jì)算的底層技術(shù)之后，英特爾是隨時有為新一波的科技浪潮添加相對應(yīng)的硬件能力的。

之前，Movidius視覺處理器就被命名為VPU，不必意外，集成入Meteor Lake的就是這樣一個基于神經(jīng)網(wǎng)絡(luò)計(jì)算的獨(dú)立運(yùn)算模塊，與以往的通過CPU和GPU的人工智能加速指令集去實(shí)現(xiàn)人工智能服務(wù)不同，這是一個獨(dú)立的處理單元，在針對人工智能進(jìn)行加速處理模式中，采用的也是“CPU+GPU+VPU“的混合處理方式，通過各個計(jì)算單元的特點(diǎn)，將AI處理效率最大化。這件事之所以是英特爾率先落地，是因?yàn)橛⑻貭柾ㄟ^OneAPI和OPENVINO對不同構(gòu)架的算力已經(jīng)形成了”歸一化“的統(tǒng)籌，換其他人，還真不一定干得這么利索。

我們再來看看這塊VPU究竟有何優(yōu)勢？按英特爾技術(shù)人員的介紹，它最大的優(yōu)勢就是在消費(fèi)端PC上用最快速、最便宜、最低成本的方式實(shí)現(xiàn)AI功能。其實(shí)，英特爾的Movidius視覺處理器已經(jīng)在非常寬泛的領(lǐng)域得到應(yīng)用，它以非常優(yōu)秀的每瓦性能比實(shí)現(xiàn)了高性能的深度學(xué)習(xí)功能，特別在視覺判別上擁有支持ISP、高兼容性，以及邊緣端易于布署等優(yōu)勢，適于在邊緣端部署，從某種意義上來說它很容易移植在“端”上，事實(shí)上，過去Movidius也有很多“端”上部署的案例。

放在一臺酷睿PC上行不行？答案自然是肯定的。Meteor Lake上的這個VPU計(jì)算單元便擁有端側(cè)上非常優(yōu)秀的延時表現(xiàn)、數(shù)據(jù)安全性和較低的運(yùn)營成本。目前，大規(guī)模的AI運(yùn)算都是通過云端來提供支持的，自然就有延時和數(shù)據(jù)安全等問題，而且云端需要有大量的服務(wù)器設(shè)備來支持，從目前的用于AI運(yùn)算的超算設(shè)備來看（比如英偉達(dá)才發(fā)布的DGX GH200），AI運(yùn)營方需要支付非常巨大的成本，相應(yīng)，消費(fèi)者也需要為AI成果支付巨額的費(fèi)用，之所以止前GPT和各個運(yùn)營方都沒有收費(fèi)，只是大模型還在發(fā)展階段，能夠開源免費(fèi)使用的也是大語言模型等一些基礎(chǔ)服務(wù)，那些沒開源的項(xiàng)目未來都是非常昂貴的，不是每個項(xiàng)目都能玩得起的。

英特爾在酷睿平臺上集成AI能力，這無疑為AI應(yīng)用打開了一個新的天窗。如果每一臺消費(fèi)級PC都具有本地化的AI能力，那么未來很可能會誕生無數(shù)多的新商業(yè)模式，所以如今圖片生成式AI除了云端支持的Midjourney之外，還有端側(cè)支持的Stable Diffusion，我相信未來更多富有想象力的AI畫作將出自Stable Diffusion，而不是Midjourney。未來，還有可能會有統(tǒng)籌每臺電腦AI算力的網(wǎng)絡(luò)平臺或拓?fù)錁?gòu)架出現(xiàn)，用于支撐大型的AI應(yīng)用，當(dāng)然，這種商業(yè)模式就不是本文的探討范圍之內(nèi)了。

英特爾如何推進(jìn)AI技術(shù)，VPN在未來PC構(gòu)架上承擔(dān)怎樣的角色

再回到英特爾VPU的討論之上。英特爾一直在推進(jìn)AI方面的應(yīng)用，過去我們看到的大多是判定式AI，比如像噪音抑制、圖像分割等，比如英特爾今年在網(wǎng)絡(luò)會議的背景處理上就采用非常完善的分割模型，能夠?qū)㈩^部和背景非常細(xì)致地區(qū)分，相比兩年前模型有了10倍復(fù)雜度的提升；另外，噪音抑制的復(fù)雜度也有50倍的提升。而在生成式AI上，大語言模型、Stable Diffusion同樣也對硬件提出了較高的要求。

所以英特爾在Meteor Lake和接下來的產(chǎn)品路線上明確加入了VPU這樣的獨(dú)立IP，并且也在和眾多ISV合作，目前已經(jīng)與超過100家的ISV開展AI方面的合作。與其他廠商不同，英特爾提供的AI服務(wù)基于整個處理器算力，也就是CPU+GPU+VPU，他們可以處理不同使用場景、不同負(fù)載、不同延時下的AI需求。比如CPU處理AI 的延時很低，不需要長時間裝載，適合敏感的AI負(fù)載；GPU延時高，但算力強(qiáng)，適于AI大模型；而VPU則是專門為AI設(shè)計(jì)的一套架構(gòu)，能夠非常高效地完成一些矩陣運(yùn)算，而且對稀疏化的處理非常擅長。之前英特爾在無人機(jī)避障上便強(qiáng)入了這個嵌入式IP，它的功耗非常低，對流媒體的AI處理，比如手勢控制、背景虛化等需要長時間運(yùn)行的AI負(fù)載，是非常高耗且省電的。

之所以要將VPU引入到PC之上，是因?yàn)樽鳛橥ㄓ糜?jì)算平臺，如今PC上會并行很多運(yùn)算任務(wù)，如果將AI負(fù)載過多加載在CPU和GPU之上，那么在占用率高的情況下就會擠占渲染等實(shí)時任務(wù)，造成游戲等應(yīng)用場景的卡頓，而交給能耗較低的VPU，那么就會讓CPU和GPU隨時保持較為空載的狀態(tài)，留給其他通用計(jì)算的任務(wù)。

在Meteor Lake發(fā)布之后，哪些任務(wù)可以交給VPU來做呢？以Adobe的一些軟件為例，自動化的處理、智能化摳圖都可以交由VPU執(zhí)行，另外，Blender（3D創(chuàng)作）、Audacity（音頻剪輯）、OBS（直播推流）、GIMP（對標(biāo) Photoshop的一個開源軟件）等軟件會做VPU的資源調(diào)用。另外，英特爾與跟Unreal Engine做的數(shù)字人，以及其他引擎級別的插件，也會由VPU來支撐AI方面的負(fù)載。另外，基于Stable Diffusion做的生成式AI，同樣可以交由英特爾的這套CPU+GPU+VPU的執(zhí)行邏輯高效的完成。

現(xiàn)場，英特爾為我們展示了一個在Stable Diffusion完成的Diffusion的模型生成，就是跑在了Meteor Lake的開發(fā)機(jī)之上，上邊沒有獨(dú)立GPU，是通過不同的IP協(xié)作完成的。比如VPU上承載了VNET模塊運(yùn)行，GPU上承載了encoder模塊的運(yùn)行。就VPU的具體AI性能，英特爾技術(shù)人員并沒有直接回答，最終指標(biāo)會留在Meteor Lake正式發(fā)布時才會公布。不過經(jīng)過我再三向英特爾技術(shù)人員確認(rèn)，Meteor Lake中的這塊VPU性能，將比在13代酷睿上加載的那塊Movidius Myriad X視覺處理單元在性能和功耗上均更為強(qiáng)大！

可以明確的是，在上述演示的僅需20秒完成的DEMO中，明確基于VPU的方案是INT8精度，與GPU上常用的FP32或BF16相比，的確在精度上有一定差別，但大部分消費(fèi)類場景上，用戶的感知差別都不會太明顯。

英特爾硬件布局上更多的話題，非常重要！

對于VPU的前生過往，今天都給大家談到了，最終只剩下一個問題，英特爾為什么要推VPU？其實(shí)我在上談解讀中已經(jīng)解構(gòu)得非常清晰——之所以要推VPU這個新IP，還是基于解決AI門檻的出發(fā)點(diǎn)，英特爾希望未來每一臺筆記本上都能運(yùn)行Stable Diffusion這樣的生成式AI大模型。更何況，VPU本身是一個低功耗的IP，在實(shí)現(xiàn)AI能力同時，不會給整塊芯片帶來更大負(fù)載壓力，也符合行業(yè)越來越看重“每瓦性能比”的趨勢。

VPU本身并不是一個解決所有AI應(yīng)用場景的硬件，但英特爾，卻是一個擁有解決AI所有場景、負(fù)載的芯片廠商。而且，英特爾在整合能力上，擁有比NVIDIA更強(qiáng)的能力，比如英偉達(dá)最近推出的DGX GH200上首次采用了拓?fù)浣Y(jié)構(gòu)，而英特爾去年構(gòu)架日推出Xe HPC的GPU——Ponte Vecchio，就已經(jīng)在SoC里將這個結(jié)構(gòu)玩得非常溜了。

在這個技術(shù)溝通會上，我和英特爾技術(shù)人員還聊到一個關(guān)于Meteor Lake的重要的話題。這個全新處理器將采用Foveros 3D封裝技術(shù)，也就意味著英特爾在整合整個SoC的連接能力上將更強(qiáng)。更為重要的是，在這個封裝中，英特爾的芯片將全面啟用分離式的模塊構(gòu)架，這意味著芯片中的每一個IP都可以作為獨(dú)立模塊設(shè)計(jì)，根據(jù)計(jì)算和功用，甚至?xí)捎貌煌闹瞥坦に嚒４蠹铱梢粤粢獾?，AMD早就采用了Chiplet技術(shù)對SoC內(nèi)不同IP采用不同制程工藝節(jié)點(diǎn)來降低成本，從ZEN 2開始就把邏輯運(yùn)算模塊和I/O模塊分用不同制程工藝，這樣的需求遠(yuǎn)不止AMD一家，而英特爾這樣做的目的更多是為了服務(wù)其代工業(yè)務(wù)（IDM2.0），滿足的客戶按需采購要求。

VPU在DIE上的面積不大，功耗也低，但卻從硬件端解決了AI功能的入門問題，讓未來所有的PC用戶都能夠使用本地端的AI功能。在芯片行業(yè)，制程工藝的進(jìn)步是芯片廠商能力的重要標(biāo)志，異構(gòu)計(jì)算的整合能力則是另一方面的能力體現(xiàn)，所以未來英特爾在AI方面的布局會持續(xù)加強(qiáng)，從VPU到獨(dú)立GPU，再到Xe HPC GPU產(chǎn)品上都會看到具體AI能力的落地。

新聞中心

用VPU帶來全民AI能力｜英特爾AI on PC技術(shù)解讀

評論

相關(guān)推薦

技術(shù)專區(qū)