芯至科技尹文：拆解架構(gòu)創(chuàng)新四大路徑，打造10倍性價比大模型推理芯片丨GACS 2023

發(fā)布人：芯東西時間：2023-10-09 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

解讀AI大模型推理“芯”機(jī)會，RISC-V、一致性總線、WoW的架構(gòu)創(chuàng)新大有可為。

作者 | GACS9月14日~15日，2023全球AI芯片峰會（GACS 2023）在深圳市南山區(qū)圓滿舉行。在9月14日AI芯片架構(gòu)創(chuàng)新專場上，芯至科技聯(lián)合創(chuàng)始人、首席芯片架構(gòu)師兼副總裁尹文分享了主題為《AI計算新時代催生芯片架構(gòu)走向“算力統(tǒng)一場”》的主題演講。尹文認(rèn)為，進(jìn)入AI新時代，算力創(chuàng)新不再僅僅是單個處理器微架構(gòu)和芯片工藝的創(chuàng)新，而需要軟硬件全棧的系統(tǒng)架構(gòu)全面創(chuàng)新，未來的創(chuàng)新機(jī)會來自以下方面：開放的通用指令架構(gòu)，高效的融合加速器，異構(gòu)互聯(lián)總線和芯片工程，開源算子庫、工具鏈和軟件。1、AI大模型落地到推理側(cè)的新機(jī)會與RISC-V架構(gòu)創(chuàng)新不謀而合，RISC-V不僅可以做標(biāo)量通用計算，也可以做線程級并行的AI計算。Scaler小標(biāo)量+SIMT大算力的指令集/微架構(gòu)融合將是未來RISC-V發(fā)力的重點，能以相對低的成本，為AI推理側(cè)應(yīng)用提供高效支持。2、SoC芯片系統(tǒng)的有效算力依賴于計算核心或計算Die之間的高效互聯(lián)，通用算力和異構(gòu)算力需要在整個系統(tǒng)的內(nèi)存從邏輯上可以被統(tǒng)一為一個更大的具有一致性的空間。低時延大帶寬的一致性總線互聯(lián)可以讓異構(gòu)計算芯片更好更緊密的協(xié)同，從而提高整個系統(tǒng)的性能和能效。3、WoW （Wafer on Wafer）混合鍵合在新型芯片工程技術(shù)領(lǐng)域有重大價值。在他看來，WoW可將AI Die和Memory Die垂直堆疊，以低于HBM一個量級的成本提供數(shù)倍于HBM的帶寬；對于大模型推理來說，4~6GB的Memory Die完全滿足Transformer一層網(wǎng)絡(luò)權(quán)重的存儲和層內(nèi)高帶寬需求。基于此，芯至科技圍繞RISC-V開源指令架構(gòu)、自研一致性總線、WoW 3DIC的架構(gòu)創(chuàng)新，可以帶來10倍性價比的大模型AI推理芯片。展望更長期的未來，尹文相信基于RISC-V開源指令同構(gòu)和微架構(gòu)異構(gòu)，開源軟件工具鏈及自主一致性總線和芯片工程創(chuàng)新，未來有機(jī)會推進(jìn)到算力統(tǒng)一場。算力統(tǒng)一場將更利于形成更大的自主可控軟件新生態(tài)，并符合計算架構(gòu)的原始特征，助力我國在計算體系方面換道超車。以下為尹文的演講實錄：首先謝謝主辦方的邀請，還有各位同行、各位嘉賓的參與。自從今年上半年大模型層出不窮，從芯片架構(gòu)領(lǐng)域，各位同行都在一起討論，未來芯片在AI領(lǐng)域的架構(gòu)怎么做、未來新的機(jī)會在哪里。今天我給大家?guī)淼难葜v就是我們團(tuán)隊在這一方面的思考。
01.AI新時代對算力發(fā)展提出新要求：軟硬件全棧的系統(tǒng)架構(gòu)全面創(chuàng)新

進(jìn)入AI計算的新時代，怎么催生芯片架構(gòu)不停地往前推？推向一個什么樣的地方？我們提出了一個“算力統(tǒng)一場”的概念。首先看芯片架構(gòu)的創(chuàng)新，摩爾定律的一個根本特征就是單位性能的成本在線性下降，但最近幾年，單純憑工藝，到5nm、3nm之后，成本下降并不是線性的。我們怎么樣去延續(xù)這個線性的性價比的降低？更多地是要靠軟硬件重構(gòu)。重構(gòu)的一個頂層思想其實是來自第一性原理，要把原來的架構(gòu)不停地分解，再不停地重構(gòu)。

從芯片架構(gòu)的角度來看，我們看到了幾個機(jī)會：第一個是開放的通用指令架構(gòu)，上個月（8月份）在北京的RISC-V峰會，各位同行有很多的討論，RISC-V就是開源開放架構(gòu)的典型代表。第二個是怎樣做一個高效融合的加速器。大模型應(yīng)用需要底層適應(yīng)這些模型的算力架構(gòu)，算力架構(gòu)怎樣融合在通用指令架構(gòu)上，這是我們所面臨的機(jī)會，也是一個技術(shù)難題。另外，現(xiàn)在處理器核越來越多，多Die互聯(lián)、異構(gòu)互聯(lián)、存儲的連接越來越復(fù)雜，怎樣有一個異構(gòu)互聯(lián)的高效總線，還有高效互聯(lián)的I/O設(shè)備的一個新架構(gòu)，是未來AI芯片架構(gòu)的一個新方向。最后，芯片的晶圓和Die越來越大，功耗越來越大，在提升它的性價比、能效上需要一個非常強(qiáng)大的、可演進(jìn)的一個芯片工程的支持，以及整個算子庫、工具鏈和軟件的發(fā)展。
02.AI大模型推理新機(jī)會，與RISC-V架構(gòu)創(chuàng)新不謀而合

大模型和RISC-V在最近幾年有很好的結(jié)合，算法、算力、數(shù)據(jù)三架馬車要齊步往上推，我們看到，在微架構(gòu)和模型方面是同步發(fā)展的。左邊的圖是大模型在快速發(fā)展，云端訓(xùn)練的大模型有點類似于一個人，首先從0到1，經(jīng)過九年義務(wù)教育，形成完整的世界觀。未來這些大模型要在各行各業(yè)去應(yīng)用，就好比大家上了大學(xué)，選定一個專業(yè)，進(jìn)入到一個行業(yè)。有句話叫“學(xué)好數(shù)理化”，數(shù)理化就是基礎(chǔ)，未來模型要不停地增加行業(yè)知識，那是一個fine-tuning（微調(diào)）階段，意味著更多的機(jī)會，大模型在各個行業(yè)能夠不停部署，產(chǎn)生真正的市場價值。

從右邊的圖可以看到，RISC-V的Scaler部分，有一個通用開源的超標(biāo)量架構(gòu)，可以幫助我們打造在處理器主機(jī)端的軟硬件棧的基礎(chǔ)。另外基于RISC-V的BSD協(xié)議，它有非常廣闊的指令擴(kuò)展空間。在上面綠色和紫色的部分，我們可以自定義Vector（向量）、Tensor Core（張量核）這些單元，這是RISC-V的指令框架所允許的。然后我們可以在這個擴(kuò)展指令框架下，去實現(xiàn)各種各樣的微架構(gòu)，微架構(gòu)就是芯片架構(gòu)所具體實現(xiàn)的電路，包括矩陣乘、卷積等電路。RISC-V所帶來的一個很大價值是上游性價比的急劇提升。舉個例子，大家可能不知道對OpenAI的Triton是否熟悉，現(xiàn)在有很多年輕的朋友正在利用Triton這個工具來做AI算子自動化的開發(fā)。Triton有全開源的優(yōu)勢，另外它可以通過自動化的生成工具，來生成特定的一些算子，比如說浮點的卷積或者是矩陣乘。基本上它的效率和手寫的算子庫效率是相當(dāng)?shù)?，比如說一個FP16的矩陣乘，一個Python的代碼可能就20多行，大家可以在網(wǎng)上找到很多例子。它支持像Python這樣的高級語言，可以極大降低通過自定義指令學(xué)習(xí)類似CUDA這樣編程框架的成本。按照現(xiàn)在Triton的發(fā)展，相比CUDA，它在自動化算子生成、內(nèi)存優(yōu)化、SM核心的scheduling等方面有很好的效果。

Triton目前是和整個RISC-V的生態(tài)圈、全球大的趨勢同步發(fā)展，發(fā)展速度非常快。另外它也可以避免不兼容的指令，因為RISC-V整個行業(yè)在推進(jìn)，在生態(tài)建設(shè)上是齊頭并進(jìn)。我們基于傳統(tǒng)的GPGPU方案會有大量自定義的算子，并且要開發(fā)自己的編譯器。作為一個芯片公司，其實我們在軟件的投入上反而會更大，包括在工具鏈、算子庫的開發(fā)，很多軟件開發(fā)團(tuán)隊可能高達(dá)70%~80%的規(guī)模。如果采用開源指令和開源工具鏈這樣的技術(shù)路線，首先RISC-V可以復(fù)用整個編譯器的開放成果，另外在客戶支持、算子開發(fā)這方面，有類似于像Triton，還有未來會發(fā)展更多的開源工具，可以自動化地生成第三方算子，極大降低軟件開發(fā)的人力成本。
03.一致性總線使通用和異構(gòu)算力緊密耦合，大幅提升有效算力

算力效率方面，我們提到了“有效算力”概念，跟芯片效率是非常相近的概念?，F(xiàn)在我們做芯片架構(gòu)的時候，在關(guān)注單核的算力、主頻、流水線的能力。并且我們還要看在一張晶圓上可以做多少Chiplet的Die，Chiplet集成得越多，算力、核數(shù)也會越多越大。但大家可能忽略了一點，就是我們的SoC，把那么多核互聯(lián)起來，包括die-to-die的Chiplet互聯(lián)，還有CPU和GPU這樣類似于NVLink、CXL這樣的異構(gòu)互聯(lián)，它的效率問題。我們要關(guān)注這么幾個指標(biāo)，包括總線的時延、帶寬、一致性的能力。可能大家對一致性的理解不是特別多，它就好比部門越來越多，雖然團(tuán)隊的實力和規(guī)模越來越大，但是并不代表這么多團(tuán)隊產(chǎn)生的有效績效能夠越來越強(qiáng)，需要各部門的互聯(lián)互通、能夠目標(biāo)一致。這個一致性也是一樣的，我們有那么多的CPU核、AI核，包括同構(gòu)、異構(gòu)的核，怎么保證處理任務(wù)的一致性。最后是功耗，它的能效也非常重要。

當(dāng)前業(yè)界在總線方面的發(fā)展，包括Die內(nèi)的Ring/Crossbar總線架構(gòu)，還包括最近英偉達(dá)在Grace芯片里自研開發(fā)的Scalable Coherency Fabric，都是在總線上面的一些技術(shù)探索。剛才很多同行也介紹了die-to-die（D2D）、Chiplet、并行、UCIe等各種D2D互聯(lián)總線，怎么樣提高它的效率，以及我們在一個大的集群里面怎么樣把異構(gòu)的芯片通過Switch互聯(lián)起來，這更多是一個系統(tǒng)上的概念。一致性總線最終的目的是為了通用和異構(gòu)，就是各種算力能夠有效互聯(lián)，來提高它的有效算力。
04.芯片工程新技術(shù)突破內(nèi)存墻瓶頸，極大降低帶寬成本

說完互聯(lián)墻，接下來就是大家談?wù)摫容^多的內(nèi)存墻。在AI芯片，我們當(dāng)前的方案更加依賴于HBM這種大帶寬的內(nèi)存。HBM跟CoWoS相結(jié)合，在擴(kuò)展帶寬的時候，線性擴(kuò)展帶來成本的極大增長。怎么樣把AI的邏輯Die跟內(nèi)存Die有更緊密的連接，把帶寬成本降下來？現(xiàn)在我們可以看到，Hybrid Bonding異構(gòu)鍵合技術(shù)在快速發(fā)展。基于Hybrid Bonding技術(shù)，我們可以實現(xiàn)Wafer-on-Wafer（WoW）的垂直互聯(lián)，就像從三樓到四樓可以有上萬部電梯，這樣我們會場這么多人，吞吐率就會非常大。我們芯至科技和合作伙伴一起，現(xiàn)在已經(jīng)可以做到在兩個Die有70000多個pins互聯(lián)，相當(dāng)于有這么多部電梯互聯(lián)互通，容量可以做到6GB，相當(dāng)于我的AI邏輯Die和內(nèi)存Die可以實現(xiàn)非常短距的、大帶寬的互聯(lián)互通。

由于我們可以不用那么大的die，我們可以極大降低WoW這樣一個內(nèi)存架構(gòu)的成本，從計算效率來看，雖然HBM的容量比較大，但實際上在大模型Transformer方面，網(wǎng)絡(luò)是分層的。可以看右邊的表格，剛才提到大模型未來進(jìn)入行業(yè)部署更多是微調(diào)，它的模型參數(shù)并沒有像ChatGPT或者GPT-4、5未來指數(shù)級的增長，單層參數(shù)量可以放在WoW這樣一個DRAM存儲空間上。在容量夠的情況下，實際上就可以體現(xiàn)WoW這樣一個大帶寬的巨大優(yōu)勢。
05.圍繞三大方向構(gòu)建創(chuàng)新架構(gòu)，打造約10倍性價比優(yōu)勢的大模型推理芯片

小結(jié)一下，在AI架構(gòu)創(chuàng)新方面，作為芯片架構(gòu)師，我們還有很多事情可以做：一方面，開放的指令架構(gòu)。我們可以重新來認(rèn)識一下RISC-V，它可以做CPU，大家可能熟知的是x86指令、Arm指令，RISC-V就是下一代新生的CPU指令架構(gòu)。但我們基于RISC-V也可以做SIMT的架構(gòu)，實現(xiàn)GPGPU的功能。在通過RISC-V做GPGPU的過程中，我們可以最大地復(fù)用RISC-V這個開源指令，包括它的開源工具、整個軟件復(fù)用度，就可以極大降低在做自定義芯片的情況下，我們要有大量的人力成本。第二，高效的異構(gòu)互聯(lián)，在自研一致性總線方面，我們更多要有一個系統(tǒng)框架，怎么樣把Die內(nèi)的互聯(lián)、D2D Fabric、整個Chip-to-Chip的互聯(lián)納入到一個完整的一致性框架下，并且在物理上、在芯片工程上降低時延，提升帶寬，這是我們要發(fā)力的重點。第三，新型的芯片工程，在內(nèi)存墻方面，我們怎么樣把AI Die通過WoW、Hybrid Bonding這樣的技術(shù)，把帶寬做上去，未來是能夠替代HBM、CoWoS封裝等高成本方式的最佳途徑。所以我們團(tuán)隊現(xiàn)在在考慮，在當(dāng)前的大模型推理芯片架構(gòu)上，在軟硬件結(jié)合還有芯片工程上的創(chuàng)新，來打造具有10倍性價比以上的創(chuàng)新芯片。
06.結(jié)語：重構(gòu)計算體系結(jié)構(gòu)，打造算力統(tǒng)一場，發(fā)展軟件大生態(tài)

中長期愿景，算力統(tǒng)一場。首先可以看到中間這個圖，在整個RISC-V指令規(guī)劃基礎(chǔ)下，我們在這個圓圈的內(nèi)部可以做很多事情。

我們的DSA和通用架構(gòu)，實際上是一個循環(huán)，在80年代的時候，當(dāng)時一個叫牧村的日本人提出的“牧村定律”，就是從專用到通用這個循環(huán)的規(guī)律。RISC-V的整體指令架構(gòu)是統(tǒng)一或同構(gòu)的，但我們可以在微架構(gòu)做很多事情，包括SIMT、DSP、DSA的核心等，來發(fā)揮RISC-V在整個開放指令上的優(yōu)勢。另外一點，開源工具鏈，就像我剛才給大家介紹的OpenAI所做的Triton的例子，大家可以多去看看，Triton在整個社區(qū)非?；钴S。未來會有更多像Triton這樣的開源工具發(fā)展，結(jié)合RISC-V微觀指令的發(fā)展，在整個指令、自定義算子、編譯器方面，有很大的性價比提升。從微架構(gòu)異構(gòu)和指令集同構(gòu)、開源工具鏈、在SoC層面的一致性總線還有芯片工程方面，我們有機(jī)會在未來打造一個軟硬件同構(gòu)的新生態(tài)。這個新生態(tài)更加有利于在國內(nèi)形成一個更大的、自主可控的軟件生態(tài)，并且在芯片架構(gòu)領(lǐng)域更加符合計算架構(gòu)本身原生態(tài)的架構(gòu)，有助于在計算領(lǐng)域幫助我國在計算體系方面做到換道超車。大家知道當(dāng)前的CPU、GPU的計算架構(gòu)和生態(tài)是建立和發(fā)展主要在國外，國外特別是硅谷有很多行業(yè)前輩奠定了在傳統(tǒng)計算架構(gòu)上面的基礎(chǔ)。在未來算力統(tǒng)一場的新方向，我們可以做很多自主可控的架構(gòu)創(chuàng)新。在AI新時代新機(jī)遇的引領(lǐng)下，希望我們團(tuán)隊和整個芯片行業(yè)同仁一起，能夠把算力同一場的愿景不斷地做好、做遠(yuǎn)，共同實現(xiàn)計算新生態(tài)。謝謝大家！以上是尹文演講內(nèi)容的完整整理。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

芯至科技尹文：拆解架構(gòu)創(chuàng)新四大路徑，打造10倍性價比大模型推理芯片丨GACS 2023

相關(guān)推薦

技術(shù)專區(qū)