刷屏的清華AI光芯片，突破了什么？

作者：時(shí)間：2024-04-28 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

最近，清華大學(xué)傳出了好消息。首創(chuàng) AI 光芯片架構(gòu)，研制全新 AI「光芯片」——太極（Taichi），可以實(shí)現(xiàn) 160 TOPS/W 通用智能計(jì)算，能效是 H100 的 1000 倍。

本文引用地址：http://m.butianyuan.cn/article/202404/458166.htm

訓(xùn)練下一代萬億級(jí)參數(shù)大模型的高效芯片誕生了。目前，相關(guān)研究論文以「Large-scale photonic chiplet Taichi empowers 160-TOPS/W artificial general intelligence」為題，已發(fā)表在權(quán)威科學(xué)期刊 Science 上。

論文地址：https://www.science.org/doi/10.1126/science.adl1203

成果是什么？

當(dāng)前，越來越多跡象表明，LLM 不會(huì)是通往 AGI 的最終路徑。

計(jì)算機(jī)早已經(jīng)成為世界能耗巨頭，隨著越來越多耗電量大的人工智能投入使用，計(jì)算機(jī)的能源需求也飛速上漲。

以英偉達(dá) H100 為例，其峰值功耗為 700 瓦，按照 61% 的年利用率計(jì)算，相當(dāng)于一個(gè)美國家庭的平均功耗（假設(shè)每個(gè)家庭 2.51 人）。有專家預(yù)測，在大量部署 H100 后，總功耗將于一座美國大城市不相上下，甚至超過一些歐洲小國。

若是能夠發(fā)明一種，節(jié)省大量能耗的芯片，LLM 的性能或在未來實(shí)現(xiàn)更大的提升。

而太極，可能會(huì)讓通用人工智能（AGI）成為現(xiàn)實(shí)。

根據(jù)清華大學(xué)官網(wǎng)介紹，清華團(tuán)隊(duì)設(shè)計(jì)了基于集成衍射干涉異構(gòu)設(shè)計(jì)和通用分布式計(jì)算架構(gòu)的大規(guī)模光芯片——太極，該架構(gòu)具有上千萬個(gè)神經(jīng)元的能力，實(shí)現(xiàn) 160 萬億次/秒·瓦（TOPS/W）的通用智能計(jì)算。

此外，在太極光芯片在實(shí)驗(yàn)中實(shí)現(xiàn)了芯片上 1000 個(gè)類別級(jí)別的分類（在 1623 類別的 Omniglot 數(shù)據(jù)集上準(zhǔn)確率為 91.89%）和高保真的人工智能生成的內(nèi)容，效率提高了兩個(gè)數(shù)量級(jí)。

研究人員表示，「太極」為大規(guī)模的光子計(jì)算和高級(jí)任務(wù)鋪平了道路，進(jìn)一步發(fā)掘了光子學(xué)在現(xiàn)代 AGI 中的靈活性和潛力。

Science 對(duì)這個(gè)研究有高度評(píng)論：「來自清華的團(tuán)隊(duì)探索了分布式衍射干涉混合光計(jì)算架構(gòu)，有效地將光神經(jīng)網(wǎng)絡(luò)（ONN）的規(guī)模提高到百萬神經(jīng)元級(jí)別。通過實(shí)驗(yàn)實(shí)現(xiàn)了一個(gè)芯片上 1396 萬個(gè)神經(jīng)元的 ONN，用于復(fù)雜的、千類級(jí)的分類和人工智能生成的內(nèi)容任務(wù)。這項(xiàng)工作是向現(xiàn)實(shí)世界的光計(jì)算邁出的有希望的一步，支持人工智能中的各種應(yīng)用?！?/span>

什么東西，有什么用？

電子芯片的瓶頸

當(dāng)電子通過晶體管和其他傳統(tǒng)集成電路元件時(shí)，會(huì)遇到阻力并產(chǎn)生熱量。隨著設(shè)計(jì)者不斷將各種元件添加到芯片上，芯片產(chǎn)生的熱量自然會(huì)升高。電子這一特性甚至成為了微型芯片性能提升的障礙，同時(shí)也是計(jì)算機(jī)能耗如此之高的主要原因。

以電子為載體的技術(shù)發(fā)展已趨近物理極限，芯片尺寸降到極致時(shí)出現(xiàn)的「功耗墻」難題，訪存瓶頸下大量信息存儲(chǔ)不過來、計(jì)算不過來，以及電子芯片性能提升的同時(shí)性價(jià)比降低。

在電路上，用光子替代電子的設(shè)想由來已久。

20 世紀(jì)六七十年代，研究者就已經(jīng)開始開發(fā)光子芯片了。那時(shí)候，部分專家預(yù)計(jì)光子芯片會(huì)像傳統(tǒng)集成芯片一樣迅速微型化。

電路能耗降低，還是歸功于光的性質(zhì)。光子芯片不存在電阻問題。因?yàn)橛设D射產(chǎn)生的光子能快速通過波導(dǎo)、調(diào)制器、反射器等原件陣列。因此，光子芯片產(chǎn)生熱量更少，能耗也更低。

光為載體的計(jì)算芯片

光計(jì)算，顧名思義是將計(jì)算載體從電變?yōu)楣猓霉庠谛酒械膫鞑ミM(jìn)行計(jì)算。

人工智能時(shí)代是由算力支撐起來的，從能耗的角度來看，硅光技術(shù)能夠有效提升 GPU 的整體性能、大幅降低其功耗，有效解決目前的算力瓶頸。也就是說，下一代算力很可能會(huì)是光子計(jì)算甚至量子計(jì)算。

問題在于，當(dāng)前的集成光子計(jì)算，特別是光學(xué)神經(jīng)網(wǎng)絡(luò)（ONN），通常包含數(shù)百到數(shù)千個(gè)參數(shù)，其中數(shù)十個(gè)是可調(diào)參數(shù)，僅支持基本任務(wù)，如簡單的模式識(shí)別和元音識(shí)別。能夠進(jìn)行一些簡單任務(wù)和淺層模型，無法支撐亟需高算力與高能效的復(fù)雜大模型智能計(jì)算。

光計(jì)算對(duì)于集成度的要求會(huì)更高，但其技術(shù)難點(diǎn)其實(shí)并不只在集成，在計(jì)算單元循環(huán)使用和非線性處理方面挑戰(zhàn)更大。

據(jù)了解，一個(gè)巨大的 AI 模型中，每一層網(wǎng)絡(luò)都需要進(jìn)行矩陣運(yùn)算，一個(gè)大矩陣還可能需要拆成幾個(gè)小矩陣進(jìn)行計(jì)算。也就是說，在大模型中，矩陣乘加運(yùn)算是一個(gè)反復(fù)、循環(huán)的計(jì)算過程，每次循環(huán)，矩陣上的元素權(quán)重都會(huì)被更新。

與電子相比，光的矩陣乘加運(yùn)算非?？?，但一涉及到權(quán)重的更新，光的速度就會(huì)變慢。

要實(shí)現(xiàn)大規(guī)模、高能效的光子計(jì)算，簡單地?cái)U(kuò)大現(xiàn)有的光子神經(jīng)網(wǎng)絡(luò)芯片是不現(xiàn)實(shí)的，因?yàn)殡S著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加，不可避免的模擬噪聲會(huì)呈指數(shù)級(jí)擴(kuò)大。放大現(xiàn)有架構(gòu)的規(guī)模并不能成比例地提高性能。

新架構(gòu)：分布式衍射-干涉混合光子計(jì)算架構(gòu)

清華團(tuán)隊(duì)進(jìn)行了架構(gòu)方面的研究，「從 0 到 1」重新設(shè)計(jì)適合光計(jì)算的新架構(gòu)。

根據(jù)論文介紹，清華團(tuán)隊(duì)為采用分布式計(jì)算的太極，構(gòu)建了一個(gè)深度較淺但寬度較廣的網(wǎng)絡(luò)結(jié)構(gòu)。

與為深度計(jì)算堆疊一系列層的傳統(tǒng)方法不同，Taichi 將計(jì)算資源分布到多個(gè)獨(dú)立的集群中，為子任務(wù)分別組織集群，并最終合成這些子任務(wù)，從而完成復(fù)雜的高級(jí)任務(wù)。

具體地說，光學(xué)衍射層的完全連通特性，可以提供比傳統(tǒng) DNN 中的卷積層更大的變形能力。

這意味著光學(xué)網(wǎng)絡(luò)有可能用比電子系統(tǒng)更少的層數(shù)實(shí)現(xiàn)相同的變換。

圖中（B）中展示了「太極」芯片，包括用于大規(guī)模輸入和輸出數(shù)據(jù)的雙衍射單元，以及用于可重構(gòu)特征嵌入和硬件多路復(fù)用的 MZI 陣列的可調(diào)矩陣乘法。

論文第一作者、電子系博士生徐智昊介紹：「在「太極」架構(gòu)中，自頂向下的編碼拆分-解碼重構(gòu)機(jī)制，將復(fù)雜智能任務(wù)化繁為簡，拆分為多通道高并行的子任務(wù)，構(gòu)建的分布式『大感受野』淺層光網(wǎng)絡(luò)對(duì)子任務(wù)分而治之，突破物理模擬器件多層深度級(jí)聯(lián)的固有計(jì)算誤差?！?/span>

AI 光芯片：干涉-衍射融合計(jì)算芯片

在這項(xiàng)工作中，團(tuán)隊(duì)設(shè)計(jì)了一種具有靈活分布式計(jì)算架構(gòu)的大規(guī)模衍射-干涉混合型光子 AI 芯片——「太極」。

據(jù)論文報(bào)道：「太極」光芯片具備 879 T MACS/mm2的面積效率與 160 TOPS/W 的能量效率，實(shí)現(xiàn)了高達(dá)兩個(gè)數(shù)量級(jí)的能效提升。首次賦能光計(jì)算實(shí)現(xiàn)自然場景千類對(duì)象識(shí)別、跨模態(tài)內(nèi)容生成等人工智能復(fù)雜任務(wù)。

國內(nèi)光芯片企業(yè)情況如何？

在面向「后摩爾時(shí)代」的潛在顛覆性技術(shù)里，光子芯片已進(jìn)入人們的視野。其所具有的高速度、低能耗、工藝技術(shù)相對(duì)成熟等優(yōu)勢，能夠有效突破傳統(tǒng)集成電路物理極限上的瓶頸，滿足新一輪科技革命中人工智能、物聯(lián)網(wǎng)、云計(jì)算等產(chǎn)業(yè)對(duì)信息獲取、傳輸、計(jì)算、存儲(chǔ)、顯示的技術(shù)需求。

目前，全球光子芯片產(chǎn)業(yè)剛剛起步，作為獨(dú)立于電子集成技術(shù)的新集成技術(shù)，其技術(shù)壁壘還沒有形成。我國光子產(chǎn)業(yè)發(fā)展水平與世界處于并跑階段，在光子基礎(chǔ)理論研究和技術(shù)發(fā)展方面具有一定的優(yōu)勢。

目前中國本土的高功率激光芯片、部分高速率激光芯片（10G、25G 等）等已處于國產(chǎn)化加速突破階段，而光探測芯片、25G 以上高速率激光芯片剛剛起步。

值得注意的是，光芯片方面華為也有所布局。

今年 3 月，華為公布了一項(xiàng)「光芯片及其制備方法、通信設(shè)備」發(fā)明專利。申請(qǐng)公布號(hào)為：CN117616316A，該專利申請(qǐng)日期為 2021 年 9 月 18 日。摘要顯示，本申請(qǐng)的實(shí)施例提供一種光芯片及其制備方法、通信設(shè)備，涉及光通信技術(shù)領(lǐng)域，解決現(xiàn)有的光芯片中光波導(dǎo)在制備過程中尖端易斷裂的問題。

光芯片企業(yè)利潤下降

國內(nèi)光芯片廠商有源杰科技、長光華芯和炬光科技等。在 2023 年度業(yè)績快報(bào)中，這三家企業(yè)均提到宏觀環(huán)境、行業(yè)發(fā)展的影響，導(dǎo)致產(chǎn)品需求減少和價(jià)格降低。

源杰科技是國內(nèi)領(lǐng)先的光芯片 IDM 廠商，產(chǎn)品涵蓋從 2．5G 到 50G 磷化銦激光器芯片。從源杰科技 2023 年的業(yè)績來看，營業(yè)收入共計(jì)約 1．44 億元，與去年同期相比下降 48．96%，全年歸屬凈利潤盈利 0.195 億元，同比減少 80.58%。

長光華芯發(fā)布的業(yè)績報(bào)告來看，也同樣處于虧損狀態(tài)。營業(yè)收入約 2.92 億元，同比減少 24.2%；歸屬于上市公司股東的凈利潤虧損 8610.17 萬元。2023 年 1 至 6 月份，長光華芯的營業(yè)收入構(gòu)成為：高功率單管系列占比 90.16%，高功率巴條系列占比 8.24%，其他業(yè)務(wù)占比 0.9%，VCSEL 芯片系列占比 0.7%。

炬光科技業(yè)務(wù)覆蓋上游「產(chǎn)生光子」「調(diào)控光子」及中游汽車、泛半導(dǎo)體、醫(yī)療健康領(lǐng)域，與多家業(yè)內(nèi)知名公司達(dá)成合作。炬光科技發(fā)布 2023 年度業(yè)績快報(bào)，營業(yè)收入約 5.61 億元，同比增加 1.69%；歸屬于上市公司股東的凈利潤 8968 萬元，同比減少 29.44%

源杰科技表示「電信市場及數(shù)據(jù)中心銷售不及預(yù)期」；長光華芯稱「受宏觀經(jīng)濟(jì)環(huán)境等因素的影響，市場信心不足，激光器市場需求持續(xù)疲軟，同時(shí)行業(yè)競爭加劇」，炬光科技稱「公司部分上游元器件產(chǎn)品價(jià)格降低，綜合毛利率下降」。

新聞中心

刷屏的清華AI光芯片，突破了什么？

成果是什么？

什么東西，有什么用？

國內(nèi)光芯片企業(yè)情況如何？

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

新聞中心

刷屏的清華AI光芯片，突破了什么？

成果是什么？

什么東西，有什么用？

國內(nèi)光芯片企業(yè)情況如何？

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)

刷屏的清華AI光芯片，突破了什么？

什么東西，有什么用？

國內(nèi)光芯片企業(yè)情況如何？