世界上速度最快的AI芯片，有多快？竟是它...

發(fā)布人：xiaomaidashu 時(shí)間：2023-11-06 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

1前言這兩天，IBM低調(diào)地發(fā)了一個(gè)新聞，推出了一款類腦芯片“北極”（NorthPole），對(duì)比4nm節(jié)點(diǎn)實(shí)現(xiàn)的Nvidia H100 GPU相比，NorthPole的能效提高了五倍，成為當(dāng)之無(wú)愧是現(xiàn)在世界最強(qiáng)的AI芯片。如此逆天的性能，但在國(guó)內(nèi)，關(guān)于這款芯片的新聞卻寥寥無(wú)幾。那么，它究竟是何方神圣？付斌丨作者電子工程世界（ID：EEworldbbs）丨出品2把腦子裝進(jìn)芯片，就行了？首先，IBM的“北極”NorthPole是一種類腦芯片，我們需要先了解什么是類腦芯片。所謂類腦芯片，顧名思義，就是一種高度模擬人腦計(jì)算原理的芯片，基于對(duì)現(xiàn)代神經(jīng)科學(xué)的理解，反復(fù)思考如何從晶體管到架構(gòu)設(shè)計(jì)，算法以及軟件來(lái)模仿人腦的運(yùn)算。如果把類腦芯片做得更像人腦，就會(huì)被賦予一個(gè)新的名字——神經(jīng)形態(tài)計(jì)算（Neuromorphic Computing）。人類的思考方法與現(xiàn)在傳統(tǒng)的芯片存在許多區(qū)別，比如，人沒(méi)有單獨(dú)的存儲(chǔ)器，沒(méi)有動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器，沒(méi)有哈希層級(jí)結(jié)構(gòu)，沒(méi)有共享存儲(chǔ)器等等?！按鎯?chǔ)”和“處理器”錯(cuò)綜復(fù)雜地深繞在人腦里，在人腦的結(jié)構(gòu)中有“神經(jīng)元”的存在。在電腦中，以數(shù)字化核心相互交流基于事件的信息，叫做脈沖，這點(diǎn)和人腦傳遞信息的方式相似。人類，便從人腦中，得到靈感，從而創(chuàng)造出這樣的芯片，來(lái)提升性能，成為真正的“人工智能”，甚至無(wú)限接近人類，獲得思考能力。當(dāng)然，人腦很復(fù)雜，而且人們所制造出來(lái)的IC器件，也存在優(yōu)勢(shì)，所以人們最終目標(biāo)就是把這二者的優(yōu)勢(shì)融合起來(lái)。總而言之，用人話來(lái)解釋，類腦芯片，就是結(jié)合生物大腦和人造器件各自優(yōu)點(diǎn)而設(shè)計(jì)制造出來(lái)的一種芯片，而它也會(huì)像人一樣思考，自我學(xué)習(xí)。

想造一顆這樣的芯片，可不是光是變變器件結(jié)構(gòu)的就行的，而是從材料、器件、電路、架構(gòu)帶動(dòng)算法和應(yīng)用改變的。一言蔽之，就是集合各種最先進(jìn)的技術(shù)，才能造出這樣的芯片。雖然實(shí)現(xiàn)路徑很多，但奈何這種芯片技術(shù)難度太大了，且不說(shuō)好不好造，設(shè)計(jì)出來(lái)就很難了，所以目前也在開(kāi)拓階段，都還無(wú)法達(dá)到商業(yè)化水平。但筆者了解到，之所以類腦芯片還未形成大規(guī)模商業(yè)化，一是因?yàn)樵O(shè)計(jì)難題依存，就拿英特爾、IBM都看好的CMOS型，多塊全數(shù)字異步設(shè)計(jì)的芯片互聯(lián)、芯片連接的有效性和時(shí)效性以及軟件層互連計(jì)算、分布式計(jì)算和靈活分區(qū)等問(wèn)題都難以解決；二是制造、軟件和生態(tài)都要完全推翻，雖然硅基晶體管路線部分可復(fù)用，但底層不可能完全照搬，這就進(jìn)一步加劇大規(guī)模商業(yè)化難度。那，我們?yōu)樯顿M(fèi)大力氣折騰類腦芯片？類腦芯片實(shí)在太香了，筆者了解到，某些情況下，完美的神經(jīng)形態(tài)芯片可以用比傳統(tǒng)解決方案低1000倍的能耗來(lái)解決問(wèn)題，這意味著我們可以在固定的功耗預(yù)算下，打包更多的芯片來(lái)解決更大規(guī)模的問(wèn)題。類腦芯片的超高能效比足夠讓我們牟足力氣研究和突破。拿一個(gè)最典型的例子來(lái)看，AlphaGo下棋打敗了人類，但人類只用了20瓦的大腦能耗，而AlphaGo是2萬(wàn)瓦。

神經(jīng)形態(tài)芯片涉及的領(lǐng)域和機(jī)會(huì)，圖源丨Nature Computational Science結(jié)構(gòu)上，目前全世界的類腦芯片基本都一致，都是由神經(jīng)元計(jì)算、突觸權(quán)重存儲(chǔ)、路由通信三部分構(gòu)成，同時(shí)采用與脈沖神經(jīng)網(wǎng)絡(luò)（SNN）模型。但依據(jù)材料、器件、電路，分為模擬電路主導(dǎo)的神經(jīng)形態(tài)系統(tǒng)（數(shù)模混合CMOS型）、全數(shù)字電路神經(jīng)系統(tǒng)（數(shù)字CMOS型）、基于新型器件的數(shù)?；旌仙窠?jīng)形態(tài)系統(tǒng)（憶阻器是候選技術(shù)）三種流派。全球范圍內(nèi)，參與神經(jīng)形態(tài)計(jì)算芯片開(kāi)發(fā)的機(jī)構(gòu)主要包括三類：英特爾、IBM、高通等為代表的科技巨頭企業(yè)，斯坦福、清華為代表的高校/研究機(jī)構(gòu)以及初創(chuàng)企業(yè)。根據(jù)筆者之前與英特爾研究院對(duì)話中獲悉，數(shù)字CMOS型是目前最易產(chǎn)業(yè)化的形式，一方面，技術(shù)和制造成熟度高，另一方面，不存在模擬電路的一些顧慮和限制。當(dāng)然，需要強(qiáng)調(diào)的是，數(shù)字CMOS型還只是最初階的類腦芯片，還算不上完全模擬人腦的神經(jīng)形態(tài)器件，只能算是一種借鑒神經(jīng)形態(tài)理念的一種芯片。但光是借鑒人腦，這種芯片就能夠碾壓世界上任何一種芯片。IBM的NorthPole就是這樣的數(shù)字CMOS型的類腦芯片。

類腦芯片主要類型和研發(fā)進(jìn)度，制表丨電子工程世界3IBM的芯片，什么水平？先說(shuō)結(jié)論，應(yīng)該是迄今為止，人類水平最高的類腦芯片了，對(duì)于類腦芯片研究又上了一個(gè)臺(tái)階。2008年，IBM就開(kāi)始研究類腦計(jì)算了，2011年有了第一次突破性成果：IBM的第一代神經(jīng)突觸計(jì)算機(jī)芯片。研究人員制造出兩個(gè)這樣的芯片模型：一顆包含262,144個(gè)可編程突觸，一顆則包含65,536個(gè)可學(xué)習(xí)突觸，通過(guò)測(cè)試展示其可執(zhí)行導(dǎo)航、機(jī)器視覺(jué)、模式識(shí)別、關(guān)聯(lián)記憶和分類等簡(jiǎn)單功能。直到2014年，IBM在《科學(xué)》雜志發(fā)表了一篇文章，向全世界展示了劃時(shí)代的技術(shù)進(jìn)展：一個(gè)符合DARPA SyNAPSE項(xiàng)目指標(biāo)的、擁有100萬(wàn)神經(jīng)元的類腦處理器，即TureNorth，在當(dāng)時(shí)掀起了類腦芯片研究熱潮。

計(jì)算資源方面，NorthPole每個(gè)單元都經(jīng)過(guò)優(yōu)化，可執(zhí)行精度較低的計(jì)算，精度從 2 bit到8 bit 不等。為保證執(zhí)行單元使用，它們不能根據(jù)變量值執(zhí)行條件分支，也就是說(shuō)，使用者代碼不能包含if語(yǔ)句。這種簡(jiǎn)單的執(zhí)行方式使每個(gè)計(jì)算單元都能進(jìn)行大規(guī)模并行執(zhí)行。存儲(chǔ)方面，所有的內(nèi)存都被封裝在一顆芯片內(nèi)，這意味著每個(gè)內(nèi)核都可以輕松地訪問(wèn)芯片上的內(nèi)存。設(shè)備外部來(lái)看，NorthPole看起來(lái)像是一個(gè)主動(dòng)存儲(chǔ)芯片，這有助于將NorthPole集成到系統(tǒng)中。不止如此，這款NorthPole目前采用的是12nm納米節(jié)點(diǎn)工藝制造，目前CPU最先進(jìn)的技術(shù)是3nm，而IBM還在研發(fā)2nm納米節(jié)點(diǎn)技術(shù)，如果用上2nm，可能IBM的類腦芯片性能還會(huì)再提升很大檔次。

NorthPole的潛在應(yīng)用主要包括圖像和視頻分析、語(yǔ)音識(shí)別以及Transformer神經(jīng)網(wǎng)絡(luò)，這些網(wǎng)絡(luò)是為ChatGPT等聊天機(jī)器人提供支持的大型語(yǔ)言模型 (LLM) 。這些人工智能任務(wù)可能會(huì)用于自動(dòng)駕駛汽車、機(jī)器人、數(shù)字助理和衛(wèi)星觀測(cè)等領(lǐng)域。某些應(yīng)用程序需要的神經(jīng)網(wǎng)絡(luò)太大，無(wú)法安裝在單個(gè)NorthPole芯片上。在這種情況下，這些網(wǎng)絡(luò)可以分解為更小的部分，并分布在多個(gè)NorthPole芯片上。而NorthPole的超高能效比，意味著它不需要笨重的液體冷卻系統(tǒng)來(lái)運(yùn)行，風(fēng)扇和散熱器就足夠了，而它也可以部署在更小的空間中。4國(guó)內(nèi)開(kāi)始研究腦類芯片了嗎？如此強(qiáng)大的芯片，國(guó)內(nèi)也早已有所布局。國(guó)內(nèi)研究則包括清華大學(xué)、浙江大學(xué)、復(fù)旦大學(xué)、中科院等頂級(jí)學(xué)府和機(jī)構(gòu)，同時(shí)近兩年不斷涌現(xiàn)初創(chuàng)公司，如靈汐科技、時(shí)識(shí)科技、中科神經(jīng)形態(tài)等。其中以清華大學(xué)的天機(jī)芯和浙江大學(xué)的達(dá)爾文芯片最具代表性。

具體而言，國(guó)內(nèi)的主要成果包括：

清華大學(xué)2015年開(kāi)發(fā)的第一代天機(jī)芯采用110nm工藝，2017年，第二代天機(jī)芯開(kāi)始取得先進(jìn)成果，基于28nm工藝制成，由156個(gè)功能核心FCore組成，包含約4萬(wàn)個(gè)神經(jīng)元和1000萬(wàn)個(gè)突觸。相比第一代，密度提升20%，速度提高至少10倍，帶寬提高至少100倍，此外，清華大學(xué)還自主研發(fā)了軟件工具鏈，支持從深度學(xué)習(xí)框架到天機(jī)芯的自動(dòng)映射和編譯。根據(jù)清華大學(xué)的計(jì)劃，下一代天機(jī)芯將是14nm或更先進(jìn)的工藝，且功能會(huì)強(qiáng)大更多；
浙江大學(xué)聯(lián)合之江實(shí)驗(yàn)室共同研制的類腦計(jì)算機(jī)，其神經(jīng)元數(shù)量與小鼠大腦神經(jīng)元數(shù)量規(guī)模相當(dāng)。該計(jì)算機(jī)包含792顆達(dá)爾文2代芯片，支持1.2億個(gè)脈沖神經(jīng)元、720億個(gè)神經(jīng)突觸，而其典型運(yùn)行功耗僅為350W~500W；
2020年10月，清華大學(xué)計(jì)算機(jī)系張悠慧團(tuán)隊(duì)精儀系施路平團(tuán)隊(duì)與合作者在《自然》（Nature）雜志發(fā)文首次提出“類腦計(jì)算完備性”以及軟硬件去耦合的類腦計(jì)算系統(tǒng)層次結(jié)構(gòu)；
2023年9月，中國(guó)科學(xué)院計(jì)算技術(shù)研究所尤海航研究員和唐光明研究員帶領(lǐng)的研究團(tuán)隊(duì)研制了超導(dǎo)神經(jīng)形態(tài)處理器原型芯片“蘇軾（SUSHI）”，它是一款基于超導(dǎo)單磁通量子（SFQ）電路的超導(dǎo)計(jì)算芯片；
2023年10月，由中科南京智能技術(shù)研究院自主研發(fā)是目前國(guó)內(nèi)規(guī)模最大、國(guó)際一流的類腦超級(jí)計(jì)算機(jī)服務(wù)正式啟用，它已實(shí)現(xiàn)5億神經(jīng)元2500億突觸智能規(guī)模，較現(xiàn)有計(jì)算系統(tǒng)能效提升10倍以上，核心芯片自主可控。

IBM的成果代表著，這項(xiàng)布局未來(lái)的技術(shù)離我們又進(jìn)了一步，而目前一些初創(chuàng)公司逐漸形成方案，開(kāi)始應(yīng)用。不難預(yù)見(jiàn)，在近幾年，這項(xiàng)技術(shù)商業(yè)化將逐步展開(kāi)，而彼時(shí)研究成果也將照進(jìn)現(xiàn)實(shí)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

世界上速度最快的AI芯片，有多快？竟是它...

相關(guān)推薦

技術(shù)專區(qū)