PC上跑AIGC,英特爾不僅行,而且很擅長
不管被動還是主動,大模型,AIGC,ChatGPT,Stable Diffusion,MidJourney 等等名詞在大家的新聞列表里狂轟濫炸,經(jīng)歷了上半年的驚喜、恐慌、期待和擔憂之后,AIGC 現(xiàn)今已不是天降福音或者天網(wǎng)再臨,人們開始正視它,理解它,適度利用它。
當然,這一輪 AIGC 浪潮主要發(fā)生在云端,無論是 ChatGPT,還是文心一言,通義千問這類大語言模型應用,亦或是 MidJourney 這類 AI 生成圖片的應用,還有不少像 Runway 這樣 AI 生成視頻的應用,都需要聯(lián)網(wǎng),因為 AI 計算都發(fā)生在千里之外的云端服務器上。
畢竟一般而言,服務器端能夠提供的算力和存儲,要遠大于電腦端和手機端,但情況也并非絕對,響應快,無需聯(lián)網(wǎng)的端側 AI 毫無疑問是另一個趨勢,和云端 AI 能夠相互互補。
在前不久的小米年度演講中,小米創(chuàng)始人雷軍表示,小米 AI 大模型最新一個 13 億參數(shù)大模型已經(jīng)成功在手機本地跑通,部分場景可以媲美 60 億參數(shù)模型在云端運行結果。
雖然參數(shù)量不太大,但說明了大模型在端側的可行性和潛力。
在算力大得多的 PC 端,是否也有端側大模型等 AIGC 運用的可行性和潛力呢?8 月 18 日,英特爾舉辦了一場技術分享會,著重分享了 2 個方面的信息:英特爾銳炫顯卡 DX11 性能更新,并推出全新英特爾 PresentMon Beta 工具,以及展示英特爾在 AIGC 領域的進展。
去年英特爾銳炫臺式機產(chǎn)品發(fā)布時,就承諾過英特爾銳炫顯卡會持續(xù)優(yōu)化升級,帶來更出色的體驗。
通過最新 Game On 驅動的發(fā)布,英特爾銳炫顯卡在運行一系列 DX11 游戲的時候,能夠獲得 19% 的幀率提升,以及平均約 20% 的99th Percentile幀率流暢度提升(相較于首個驅動版本)。此前購買使用過英特爾銳炫 A750 顯卡的用戶,可以直接下載最新驅動,在《守望先鋒 2》、《DOTA 2》、《Apex Legends》等游戲中獲得體驗升級。
對于在顯卡選擇上有點猶豫的用戶來說,1700 元檔位上的銳炫 A750 顯卡也成為了頗有競爭力的選擇。
PresentMon Beta 則是英特爾推出的圖形性能分析工具,提供了 Overlay(疊加視圖)等功能,可以在運行游戲時在屏幕上顯示性能數(shù)據(jù),幫助玩家實時遙測 GPU 的電壓和溫度等,實時分析大量信息。同時也可以查看 99th Percentile 幀時間與 GPU 占用率圖表。
另外,PresentMon Beta 也帶來了名為「GPU Busy」的全新指標。這里可以解釋一下,用戶通過它可以看到 GPU 實際使用了多少時間進行實際渲染而不是處于等待狀態(tài),或者在運行游戲的 PC 是否處于 CPU 和 GPU 平衡。
游戲是 PC 永恒的主題,而 AI 則是新晉的主題。
實際上,這一輪 AIGC 浪潮發(fā)生的主陣地設備,就是 PC,無論是 ChatGPT,還是 MidJourney,或者 Stable Diffusion 等等應用,包括基于大模型的微軟 Office Copilot,亦或是金山辦公的 WPS AI,都是在 PC 上才可以獲得更好的體驗。
但 PC 相較于其他設備,諸如手機,平板和優(yōu)勢,不僅在于屏幕更大,交互輸入更高效,還在于芯片性能。
在英特爾談 PC 上的 AIGC 之前,我們關注到 PC 端側跑 AIGC,往往就是用高性能游戲本去跑圖,但輕薄本往往被排除在外。
現(xiàn)在,英特爾明確表示了,基于英特爾處理器的輕薄本能跑大模型,也可以跑大模型和 Stable Diffusion。
英特爾基于 OpenVINO PyTorch (英特爾推出的一個開放源碼工具包,旨在優(yōu)化深度學習模型的推理性能,并將其部署到不同的硬件平臺上)后端的方案,通過 Pytorch API 讓社區(qū)開源模型能夠很好地運行在英特爾的客戶端處理器、集成顯卡、獨立顯卡和專用 AI 引擎上。
比如開源的圖像生成模型 Stable Diffusion (具體講,是 Automatic1111 WebUI)就可以通過這種方式,在英特爾 CPU 和 GPU(包括集成顯卡和獨立顯卡)上運行 FP16 精度的模型,用戶實現(xiàn)文字生成圖片、圖片生成圖片以及局部修復等功能。
(圖片來自:愛極物)
比如這張 512×512 分辨率的蜂蜜薄餅圖在英特爾處理器輕薄本(只用 i7-13700H 的核顯)上,只需要十幾秒就可以生成出來。
這主要得益于 13 代酷睿處理器在核心數(shù)、性能、功耗比還有圖形性能上的進步,以 14 核心 20 線程的 i7-13700H 處理器為例,它的 TDP 達到了 45W,集成的 Intel Iris Xe Graphics (96EU) 顯卡也不容小覷。
作為目前最高規(guī)格的核顯之一,Intel Iris Xe Graphics (96EU) 相較于 Iris Plus 核顯最高 64EU,基本規(guī)格提升明顯,F(xiàn)P16、FP32 浮點性能提升幅度高達 84%,還引入了 INT8 整數(shù)計算能力 ,這些都加強了它的 AI 圖形計算能力,也是英特爾輕薄本能夠很好支持 Stable Diffusion 的主要原因。
在以往,TDP 45W 左右的英特爾處理器很難裝進輕薄本,不過到了 13 代酷睿,已經(jīng)出現(xiàn)了一大批在 1.4KG 左右的輕薄本把 14 核心 20 線程的 i7-13700H 處理器乃至性能更高的 i7-13900H 處理器塞了進去,所以,在筆記本上跑 Stable Diffusion 快速出圖已經(jīng)不是高性能獨顯游戲本的專屬,今后輕薄本同樣能夠勝任這項工作。
當然,Stable Diffusion 本身主要跑在本地,輕薄本通過芯片性能的提升和優(yōu)化來運行合乎邏輯,不過本地的端側大模型則屬于較為新生的事物。
通過通過模型優(yōu)化,降低了模型對硬件資源的需求,進而提升了模型的推理速度,英特爾讓一些社區(qū)開源模型能夠很好地運行在個人電腦上。
以大語言模型為例,英特爾通過第 13 代英特爾酷睿處理器 XPU 的加速、low-bit 量化以及其它軟件層面的優(yōu)化,讓最高達 160 億參數(shù)的大語言模型,通過 BigDL-LLM 框架運行在 16GB 及以上內(nèi)存容量的個人電腦上。
雖然離 ChatGPT3.5 的 1750 億參數(shù)有量級差距,但畢竟 ChatGPT3.5 是跑在一萬顆英偉達 V100 芯片構建的 AGI 網(wǎng)絡集群上。而這通過 BigDL-LLM 框架運行 160 億參數(shù)大模型是跑在英特爾酷睿 i7-13700H 或 i7-13900H 這樣為高性能輕薄本打造的處理器上。
不過這里也可以看到,PC 端側的大語言模型,也比手機端側的大語言模型高一個量級。
出現(xiàn)了數(shù)十年的 PC,并非運行云端大模型的工具人,得益于硬件進步,英特爾處理器支持的 PC 已經(jīng)能夠快速對接新興模型,兼容 HuggingFace 上的 Transformers 模型,目前已經(jīng)驗證過的模型包括但不限于:LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper 等。
(圖片來自:愛極物)
在技術分享會現(xiàn)場,英特爾演示了基于酷睿 i7-13700H 設備跑大模型的表現(xiàn):ChatGLM-6b 可以做到首個 token 生成 first latency 241.7ms,后續(xù) token 平均生成率為 55.63ms/token。在在自然語言處理領域,「token」 是指文本中的一個基本單元,可以是一個單詞、一個字、一個子詞(subword)、一個標點符號,或者其他可以進行語義處理的最小單元??梢钥吹?,這個處理器速度相當不錯。
目前還可以得到的消息是,英特爾的下一代處理器 Meteor Lake 具備獨特的分離式模塊架構的優(yōu)勢,更好地為 AI 服務,包括像 Adobe Premiere Pro 中的自動重新構圖和場景編輯檢測等多媒體功能,并實現(xiàn)更有效的機器學習加速。
雖然 AIGC 是 2023 年的一個關鍵詞,但是 AI 并不新鮮,而且也是英特爾這幾年來經(jīng)常掛在嘴邊的關鍵詞。
更早之前的 AI 視頻通話降噪,AI 視頻通話背景降噪等等,其實都是 AI 的應用。
可以看到,未來處理器的競爭力,將不局限于核心數(shù)、線程數(shù)、主頻這些,能否更好地驅動 AI 功能,將成為愈發(fā)重要的維度,也會是今后消費者選購產(chǎn)品會考慮的因素之一。
評論