PC上跑AIGC，英特爾不僅行，而且很擅長

作者：時間：2023-08-22 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文引用地址：http://m.butianyuan.cn/article/202308/449830.htm

不管被動還是主動，大模型，AIGC，ChatGPT，Stable Diffusion，MidJourney 等等名詞在大家的新聞列表里狂轟濫炸，經(jīng)歷了上半年的驚喜、恐慌、期待和擔憂之后，AIGC 現(xiàn)今已不是天降福音或者天網(wǎng)再臨，人們開始正視它，理解它，適度利用它。

當然，這一輪 AIGC 浪潮主要發(fā)生在云端，無論是 ChatGPT，還是文心一言，通義千問這類大語言模型應用，亦或是 MidJourney 這類 AI 生成圖片的應用，還有不少像 Runway 這樣 AI 生成視頻的應用，都需要聯(lián)網(wǎng)，因為 AI 計算都發(fā)生在千里之外的云端服務器上。

畢竟一般而言，服務器端能夠提供的算力和存儲，要遠大于電腦端和手機端，但情況也并非絕對，響應快，無需聯(lián)網(wǎng)的端側 AI 毫無疑問是另一個趨勢，和云端 AI 能夠相互互補。

在前不久的小米年度演講中，小米創(chuàng)始人雷軍表示，小米 AI 大模型最新一個 13 億參數(shù)大模型已經(jīng)成功在手機本地跑通，部分場景可以媲美 60 億參數(shù)模型在云端運行結果。

雖然參數(shù)量不太大，但說明了大模型在端側的可行性和潛力。

在算力大得多的 PC 端，是否也有端側大模型等 AIGC 運用的可行性和潛力呢？8 月 18 日，英特爾舉辦了一場技術分享會，著重分享了 2 個方面的信息：英特爾銳炫顯卡 DX11 性能更新，并推出全新英特爾 PresentMon Beta 工具，以及展示英特爾在 AIGC 領域的進展。

去年英特爾銳炫臺式機產品發(fā)布時，就承諾過英特爾銳炫顯卡會持續(xù)優(yōu)化升級，帶來更出色的體驗。

通過最新 Game On 驅動的發(fā)布，英特爾銳炫顯卡在運行一系列 DX11 游戲的時候，能夠獲得 19% 的幀率提升，以及平均約 20% 的99th Percentile幀率流暢度提升（相較于首個驅動版本）。此前購買使用過英特爾銳炫 A750 顯卡的用戶，可以直接下載最新驅動，在《守望先鋒 2》、《DOTA 2》、《Apex Legends》等游戲中獲得體驗升級。

對于在顯卡選擇上有點猶豫的用戶來說，1700 元檔位上的銳炫 A750 顯卡也成為了頗有競爭力的選擇。

PresentMon Beta 則是英特爾推出的圖形性能分析工具，提供了 Overlay（疊加視圖）等功能，可以在運行游戲時在屏幕上顯示性能數(shù)據(jù)，幫助玩家實時遙測 GPU 的電壓和溫度等，實時分析大量信息。同時也可以查看 99th Percentile 幀時間與 GPU 占用率圖表。

另外，PresentMon Beta 也帶來了名為「GPU Busy」的全新指標。這里可以解釋一下，用戶通過它可以看到 GPU 實際使用了多少時間進行實際渲染而不是處于等待狀態(tài)，或者在運行游戲的 PC 是否處于 CPU 和 GPU 平衡。

游戲是 PC 永恒的主題，而 AI 則是新晉的主題。

實際上，這一輪 AIGC 浪潮發(fā)生的主陣地設備，就是 PC，無論是 ChatGPT，還是 MidJourney，或者 Stable Diffusion 等等應用，包括基于大模型的微軟 Office Copilot，亦或是金山辦公的 WPS AI，都是在 PC 上才可以獲得更好的體驗。

但 PC 相較于其他設備，諸如手機，平板和優(yōu)勢，不僅在于屏幕更大，交互輸入更高效，還在于芯片性能。

在英特爾談 PC 上的 AIGC 之前，我們關注到 PC 端側跑 AIGC，往往就是用高性能游戲本去跑圖，但輕薄本往往被排除在外。

現(xiàn)在，英特爾明確表示了，基于英特爾處理器的輕薄本能跑大模型，也可以跑大模型和 Stable Diffusion。

英特爾基于 OpenVINO PyTorch （英特爾推出的一個開放源碼工具包，旨在優(yōu)化深度學習模型的推理性能，并將其部署到不同的硬件平臺上）后端的方案，通過 Pytorch API 讓社區(qū)開源模型能夠很好地運行在英特爾的客戶端處理器、集成顯卡、獨立顯卡和專用 AI 引擎上。

比如開源的圖像生成模型 Stable Diffusion （具體講，是 Automatic1111 WebUI）就可以通過這種方式，在英特爾 CPU 和 GPU（包括集成顯卡和獨立顯卡）上運行 FP16 精度的模型，用戶實現(xiàn)文字生成圖片、圖片生成圖片以及局部修復等功能。

（圖片來自：愛極物）

比如這張 512×512 分辨率的蜂蜜薄餅圖在英特爾處理器輕薄本（只用 i7-13700H 的核顯）上，只需要十幾秒就可以生成出來。

這主要得益于 13 代酷睿處理器在核心數(shù)、性能、功耗比還有圖形性能上的進步，以 14 核心 20 線程的 i7-13700H 處理器為例，它的 TDP 達到了 45W，集成的 Intel Iris Xe Graphics (96EU) 顯卡也不容小覷。

作為目前最高規(guī)格的核顯之一，Intel Iris Xe Graphics (96EU) 相較于 Iris Plus 核顯最高 64EU，基本規(guī)格提升明顯，F(xiàn)P16、FP32 浮點性能提升幅度高達 84％，還引入了 INT8 整數(shù)計算能力，這些都加強了它的 AI 圖形計算能力，也是英特爾輕薄本能夠很好支持 Stable Diffusion 的主要原因。

在以往，TDP 45W 左右的英特爾處理器很難裝進輕薄本，不過到了 13 代酷睿，已經(jīng)出現(xiàn)了一大批在 1.4KG 左右的輕薄本把 14 核心 20 線程的 i7-13700H 處理器乃至性能更高的 i7-13900H 處理器塞了進去，所以，在筆記本上跑 Stable Diffusion 快速出圖已經(jīng)不是高性能獨顯游戲本的專屬，今后輕薄本同樣能夠勝任這項工作。

當然，Stable Diffusion 本身主要跑在本地，輕薄本通過芯片性能的提升和優(yōu)化來運行合乎邏輯，不過本地的端側大模型則屬于較為新生的事物。

通過通過模型優(yōu)化，降低了模型對硬件資源的需求，進而提升了模型的推理速度，英特爾讓一些社區(qū)開源模型能夠很好地運行在個人電腦上。

以大語言模型為例，英特爾通過第 13 代英特爾酷睿處理器 XPU 的加速、low-bit 量化以及其它軟件層面的優(yōu)化，讓最高達 160 億參數(shù)的大語言模型，通過 BigDL-LLM 框架運行在 16GB 及以上內存容量的個人電腦上。

雖然離 ChatGPT3.5 的 1750 億參數(shù)有量級差距，但畢竟 ChatGPT3.5 是跑在一萬顆英偉達 V100 芯片構建的 AGI 網(wǎng)絡集群上。而這通過 BigDL-LLM 框架運行 160 億參數(shù)大模型是跑在英特爾酷睿 i7-13700H 或 i7-13900H 這樣為高性能輕薄本打造的處理器上。

不過這里也可以看到，PC 端側的大語言模型，也比手機端側的大語言模型高一個量級。

出現(xiàn)了數(shù)十年的 PC，并非運行云端大模型的工具人，得益于硬件進步，英特爾處理器支持的 PC 已經(jīng)能夠快速對接新興模型，兼容 HuggingFace 上的 Transformers 模型，目前已經(jīng)驗證過的模型包括但不限于：LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper 等。

（圖片來自：愛極物）

在技術分享會現(xiàn)場，英特爾演示了基于酷睿 i7-13700H 設備跑大模型的表現(xiàn)：ChatGLM-6b 可以做到首個 token 生成 first latency 241.7ms，后續(xù) token 平均生成率為 55.63ms/token。在在自然語言處理領域，「token」是指文本中的一個基本單元，可以是一個單詞、一個字、一個子詞（subword）、一個標點符號，或者其他可以進行語義處理的最小單元?？梢钥吹?，這個處理器速度相當不錯。

目前還可以得到的消息是，英特爾的下一代處理器 Meteor Lake 具備獨特的分離式模塊架構的優(yōu)勢，更好地為 AI 服務，包括像 Adobe Premiere Pro 中的自動重新構圖和場景編輯檢測等多媒體功能，并實現(xiàn)更有效的機器學習加速。

雖然 AIGC 是 2023 年的一個關鍵詞，但是 AI 并不新鮮，而且也是英特爾這幾年來經(jīng)常掛在嘴邊的關鍵詞。

更早之前的 AI 視頻通話降噪，AI 視頻通話背景降噪等等，其實都是 AI 的應用。

可以看到，未來處理器的競爭力，將不局限于核心數(shù)、線程數(shù)、主頻這些，能否更好地驅動 AI 功能，將成為愈發(fā)重要的維度，也會是今后消費者選購產品會考慮的因素之一。