行業(yè)大牛開啟新征程，芯片架構(gòu)創(chuàng)新迎來新局面

作者：時間：2023-12-05 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本周，全球 IT 業(yè)最大的新聞非 OpenAI 聯(lián)合創(chuàng)始人山姆·奧特曼（Sam Altman）離開原公司、加入微軟莫屬。當(dāng)然，這并不是終點(diǎn)。

本文引用地址：http://m.butianyuan.cn/article/202312/453557.htm

Sam Altman 被 OpenAI 董事會驅(qū)逐，被認(rèn)為是技術(shù)派的勝利，因?yàn)榱硪幻?lián)合創(chuàng)始人薩斯克維爾認(rèn)為 Altman 商業(yè)化行動過于激進(jìn)，存在很多安全隱患，因此，聯(lián)合其他三名外部董事驅(qū)逐了 Altman。

本文不關(guān)注 OpenAI 的「宮斗」大戲，無論 Altman 最終留在微軟，還是回歸 OpenAI，都不會影響他開創(chuàng) AI 軟硬件新技術(shù)和市場的意愿，區(qū)別只是在哪里做而已。

據(jù)悉，在被解職之前，Altman 就在探尋新業(yè)務(wù)，曾試圖在中東籌集數(shù)十億美元用于人工智能（AI）芯片項(xiàng)目 Tigris，還想創(chuàng)建一家專注于 AI 芯片研發(fā)的公司，或許，這一項(xiàng)目已經(jīng)被微軟拿下了。另外，Altman 還一直在尋求為一款 AI 硬件設(shè)備籌集資金，該設(shè)備是他與前蘋果設(shè)計總監(jiān) Jony Ive 共同開發(fā)的。

近些年，在 AI 發(fā)展方興未艾的大背景下，不甘于已經(jīng)取得的「輝煌成績」，選擇開創(chuàng)新業(yè)務(wù)（從新創(chuàng)業(yè)或加盟一家富有活力的大公司）的行業(yè)大牛不止 Altman 一人，還有多位業(yè)界知名業(yè)界人士，特別是技術(shù)大牛，都選擇了再創(chuàng)業(yè)，因?yàn)樗麄儫o法抵擋 AI 發(fā)展的巨大潛力，要趁當(dāng)下還處于「野蠻成長」的產(chǎn)業(yè)發(fā)展初級階段，爭取用先進(jìn)的技術(shù)和產(chǎn)品，掌控未來競爭的主動權(quán)。在這些人當(dāng)中，典型代表是 CPU 架構(gòu)大神 Jim Keller 和 GPU 架構(gòu)大神 Raja Koduri。

2020 年 6 月，Jim Keller 離開了工作兩年的英特爾，2021 年初，AI 芯片初創(chuàng)公司 Tenstorrent 宣布任命 Jim Keller 為公司總裁兼首席技術(shù)官，以及董事會成員。Tenstorrent 創(chuàng)立于 2016 年，旨在通過一種新方法和體系結(jié)構(gòu)，研發(fā)新型 AI 處理器，以推動 AI 和機(jī)器學(xué)習(xí)的發(fā)展。近兩年，Tenstorrent 十分看重 RISC-V 的應(yīng)用前景，認(rèn)為其非常適合未來低功耗 AI 應(yīng)用市場需求。

2023 年 3 月，Raja Koduri 離開了工作五年的英特爾，選擇創(chuàng)業(yè)。據(jù) Koduri 透露，他的新創(chuàng)公司 Mihira AI 要打造新的生成式人工智能工具，這些工具可以在英特爾、AMD、蘋果等公司的芯片上運(yùn)行，也可以在未來的 RISC-V 架構(gòu)芯片上運(yùn)行。

AI 系統(tǒng)和芯片需要改進(jìn)

當(dāng)下的 AI 服務(wù)器，多采用異構(gòu)形式搭建，也就是在計算系統(tǒng)中，使用多種不同類型的處理器（CPU、GPU、FPGA、NPU 等），這樣可以增加計算速度和效率，以滿足不同工作負(fù)載的需求，因?yàn)?AI 工作負(fù)載通常需要大量的數(shù)值計算和并行運(yùn)算。

傳統(tǒng) CPU 在通用計算方面表現(xiàn)出色，但對于深度學(xué)習(xí)等需要大量矩陣計算的任務(wù)，效能就會不足，這時，將 GPU、TPU 等處理器組合其中，可以更好地滿足 AI 任務(wù)的需求，提供更高效的運(yùn)算能力。

對于 AI 系統(tǒng)的這種異構(gòu)需求，不同處理器廠商，特別是像 AMD 和英偉達(dá)這樣的傳統(tǒng)大廠，以及自研 AI 芯片的互聯(lián)網(wǎng)大廠，都有各自的解決方案，但不同方案雖然有各自優(yōu)勢，但也存在這樣或那樣的缺點(diǎn)。

AMD 公司推出了 APU 概念和產(chǎn)品，它就是 CPU +GPU 的組合，其優(yōu)點(diǎn)是可以充分發(fā)揮兩種處理器各自的優(yōu)勢，互相彌補(bǔ)短板，也能在一定程度上減少功耗。不過，其 AI 訓(xùn)練性能并不比獨(dú)立的 GPU 好。

為了滿足自家系統(tǒng)的需求，Google 自研了張量處理器 TPU（Tensor Processing Unit），它是一種 ASIC 處理器，與 CPU、GPU 和 APU 等通用處理器有很大區(qū)別，TPU 的專用性很強(qiáng)，針對機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等 AI 應(yīng)用進(jìn)行了優(yōu)化，專門用于加速 AI 的計算任務(wù)。不過，在 Google 的整個網(wǎng)絡(luò)系統(tǒng)當(dāng)中，依然需要用到大量的通用 CPU 和 GPU，TPU 雖然很好用，但可用規(guī)模還是有限的。

可見，要不斷改善 AI 服務(wù)器系統(tǒng)性能，單一的通用或?qū)Ｓ锰幚砥鞫紵o法獨(dú)自解決問題，需要多種處理器配合工作才行，這就給新的 AI 芯片技術(shù)和產(chǎn)品發(fā)展提供了機(jī)會。

AI 系統(tǒng)的訓(xùn)練和推理平衡水平需要改善。

目前，英偉達(dá)的 GPU 是 AI 訓(xùn)練芯片市場的領(lǐng)導(dǎo)者，但這只占整個 AI 芯片需求的 20% 左右，推理芯片市場相當(dāng)大，當(dāng)下的 GPU 擅長 AI 訓(xùn)練，而 CPU 擅長推理，二者在對方領(lǐng)域的局限性都很大。

在 AI 推理市場，除了數(shù)據(jù)中心和云計算，用戶對邊緣側(cè)（如手機(jī)、PC，以及機(jī)器人、工業(yè)系統(tǒng)和汽車等）的推理需求在快速增長。因此，AI 推理市場不僅很大，而且相當(dāng)分散。在這種情況下，邊緣側(cè) AI 推理芯片的市場規(guī)模非常大，而且具有極大的發(fā)展?jié)摿Α?/span>

蘋果公司的 iPhone 就是一個典型的例子，它在 A 系列處理器中集成了 AI 內(nèi)核，目前，AI 功能已經(jīng)占據(jù)了 A 系列處理器整體功能的 20%。近些年，多家公司也在采用類似于蘋果的 SoC AI 策略。

粗略計算，AI 芯片市場包括約 15% 的訓(xùn)練，45% 的數(shù)據(jù)中心推理，以及 40% 的邊緣側(cè)推理。在這樣的市場背景下，一方面，各大處理器廠商正在提升 AI 訓(xùn)練和推理能力的融合水平，另一方面，邊緣側(cè)推理市場的巨大發(fā)展空間給很多移動處理器廠商提供了拓展機(jī)會。

AI 系統(tǒng)和芯片的功耗也需要改善。

如上文所述，邊緣側(cè)推理市場巨大，而這些應(yīng)用對低功耗要求很高。同時，數(shù)據(jù)中心和云計算系統(tǒng)的功耗高的嚇人，不可能無止境地增加下去，解決這一大應(yīng)用領(lǐng)域的功耗問題也被越來越多的芯片和系統(tǒng)廠商所重視。

問題如何解決？

從上文介紹中可以看出，AI 系統(tǒng)和相關(guān)芯片還處于成長期，有很多問題需要解決，特別是 AI 訓(xùn)練和推理芯片的功能融合、邊緣側(cè) AI 推理，以及功耗問題，是各大廠商，以及初創(chuàng)企業(yè)共同關(guān)注的。

最近，英偉達(dá)推出的新 GPU 在 AI 訓(xùn)練和推理融合能力方面就有很大進(jìn)步，該公司表示，H100 芯片的升級產(chǎn)品 H200 集成了 141GB 的 HBM3e 內(nèi)存，更加擅長推理，在用于推理或生成問題答案時，性能較 H100 提高了 60%-90%。英偉達(dá)表示，與 H100 相比，H200 在 Llama 2 這樣擁有 700 億參數(shù)大語言模型上的推理速度提升了近一倍。

在邊緣側(cè)推理方面，以蘋果為學(xué)習(xí)對象，傳統(tǒng)手機(jī)處理器廠商也在增加新產(chǎn)品的 AI 推理能力。以聯(lián)發(fā)科為例，該公司推出的天璣 8300 可支持生成式 AI，最高支持 100 億參數(shù) AI 大語言模型。該芯片集成了生成式 AI 引擎，整數(shù)運(yùn)算和浮點(diǎn)運(yùn)算的性能是上一代的兩倍，支持 Transformer 算子加速和混合精度 INT4 量化技術(shù)，AI 綜合性能是上一代的 3.3 倍，可流暢運(yùn)行終端側(cè)生成式 AI 的各種新應(yīng)用。

在降低 AI 服務(wù)器功耗方面，初創(chuàng)企業(yè)和各大知名廠商投入的力度更大。

以上文提到的 Jim Keller 加入的 Tenstorrent 為例，該公司正在開發(fā)數(shù)據(jù)中心解決方案，核心產(chǎn)品是基于 RISC-V 架構(gòu)的 AI/ML 加速器和通用處理器。之所以采用 RISC-V 指令集，很重要的一個原因就是其功耗低。

據(jù)悉，Tenstorrent 正在與日本新創(chuàng)晶圓廠 Rapidus 合作，開發(fā)基于 2nm 制程工藝的邊緣側(cè) AI 處理器及相關(guān) IP。從目前的 AI 系統(tǒng)市場需求，以及未來該領(lǐng)域?qū)Φ凸模〝?shù)據(jù)中心、云和邊緣側(cè)都要求降低功耗）的要求來看，先進(jìn)制程的未來發(fā)展前景依然值得期待，因?yàn)?3nm、2nm，甚至是 1nm 這樣的先進(jìn)制程技術(shù)，就是要在不斷提升性能的同時，持續(xù)降低功耗。未來，先進(jìn)制程工藝幾乎就是為 AI 芯片而生的。

對于開發(fā) RISC-V 芯片和系統(tǒng)，半導(dǎo)體大國政府都很重視。美國政府已經(jīng)下達(dá)了使用 RISC-V 處理器來模擬下一代稀疏性超級計算機(jī)的指示，歐盟也建立了一個基于 RISC-V 架構(gòu)的本土加速器項(xiàng)目，稱為 EPAC。

除了新創(chuàng)企業(yè)，傳統(tǒng)大廠也在發(fā)展低功耗 AI 芯片方面不遺余力。

以微軟為例，該公司于近期推出了用于云端軟件服務(wù)的處理器 Cobalt，該芯片是基于 Arm 架構(gòu)的通用處理器，同時，微軟還推出了另一款專用 AI 加速器 Maia 100，用于云端訓(xùn)練和推理。這兩款芯片將于 2024 年導(dǎo)入該公司的 Azure 數(shù)據(jù)中心。微軟基于 Arm 架構(gòu)研發(fā)芯片，很重要的一個原因就是其功耗比較低。

除了將 AI 訓(xùn)練和推理融合，以及低功耗之外，現(xiàn)有架構(gòu)芯片，特別是 CPU、GPU，在 AI 計算方面都存在局限性，因此，一些初創(chuàng)公司，以及傳統(tǒng)知名廠商還在探索新型架構(gòu)的 AI 芯片，特別是在打破處理單元與內(nèi)存之間的「通信墻「方面，下了很多功夫。

近些年，以 Groq、Cerebras、SambaNova、NextSilicon 等為代表的創(chuàng)業(yè)公司都在開發(fā)各自的新型 AI 加速器，目標(biāo)是替代英偉達(dá)的 GPU。這些公司的產(chǎn)品多為 ASIC，也就是 AI 專用處理器，目前來看，這些新型處理器正在被美國能源部實(shí)驗(yàn)室所采用，用于科學(xué)研究。同時，美國多家大學(xué)也對試用這些芯片持開放態(tài)度，例如，NCSA 正在與 SambaNova 合作開發(fā)芯片，Cerebras 的處理器已經(jīng)用于 AI 訓(xùn)練。

在創(chuàng)新架構(gòu)處理器研發(fā)方面，大廠 IBM 一直都是業(yè)界的典型代表，AI 專用芯片方面同樣如此。最近，IBM 推出了一種新的原型芯片架構(gòu) NorthPole，可以使 AI 計算更快、更節(jié)能。NorthPole 是一款基于人腦計算通路進(jìn)行神經(jīng)推理的數(shù)字 AI 芯片，它采用了一種截然不同的設(shè)計方法，將所有內(nèi)存都集成在了處理器芯片上，無需外掛 RAM，這使得該處理器能夠進(jìn)行快速的 AI 推理。該芯片專為 AI 推理而設(shè)計，不需要復(fù)雜的冷卻系統(tǒng)。據(jù)悉，小巧靈活的 NorthPole 非常適合邊緣側(cè) AI 應(yīng)用。

以上介紹的都是各種 AI 處理器，是硬件。要使整個 AI 系統(tǒng)充分發(fā)揮效能，軟件工具的作用也很重要。如前文所述，GPU 架構(gòu)大神 Raja Koduri 離開英特爾后，創(chuàng)建了新公司 Mihira AI，該公司研發(fā)的就是 AI 軟件工具。

據(jù) Koduri 介紹，Mihira AI 的最底層是一個異構(gòu)數(shù)據(jù)中心架構(gòu)，涵蓋三類工作負(fù)載，分別是：用于渲染通用 CPU 計算；用于 AI 的異構(gòu)加速器；用于游戲 GPU 工作負(fù)載。他說，未來的第四個集群可以針對低功耗 AI 推理進(jìn)行優(yōu)化。

從未來發(fā)展來看，Mihira AI 的目標(biāo)很可能是替代英偉達(dá)的 CUDA，以及 AMD 的 ROCm 軟件生態(tài)系統(tǒng)。不過，目前它還處于發(fā)展初期，未來的道路十分艱辛。