探索AI大算力芯片的未來形態(tài):全數(shù)字存算一體
近期,GPT-4o的發(fā)布再次引爆生成式AI話題——自ChatGPT出現(xiàn)至今,生成式AI堪稱月月有爆點,這也讓AI芯片熱度持續(xù)不減。其中有一類與眾不同的芯片,這兩年正以其獨特的架構吸引著產(chǎn)業(yè)界的關注。
本文引用地址:http://m.butianyuan.cn/article/202406/459606.htm存算一體,相比傳統(tǒng)馮諾依曼架構,不僅避開“存儲墻”限制;而且借著AI發(fā)展的東風,顯得格外有潛力。億鑄科技作為市場上為數(shù)不多基于存算一體技術的AI大算力芯片企業(yè),正計劃從芯片到板卡、服務器,最終將算力橫向擴展至大規(guī)模運算集群,并最終借助存算一體技術在生成式AI時代站穩(wěn)腳跟。
對此,我們采訪了億鑄科技創(chuàng)始人、董事長兼CEO 熊大鵬博士,解讀AI浪潮下大算力AI芯片的新形態(tài)——基于ReRAM的全數(shù)字存算一體芯片。
大算力存算一體芯片何時商用?
傳統(tǒng)馮諾依曼架構芯片的“存儲墻”問題日益嚴重。在需要海量數(shù)據(jù)搬運的場景內(nèi),傳統(tǒng)芯片不僅面臨計算單元閑置導致系統(tǒng)效率降低的問題;還面臨存儲、通信和數(shù)據(jù)搬運的功耗開銷都遠高于計算的“能耗墻”問題。除此之外,億鑄科技此前在中國臨港國際半導體大會上,還提到“編譯墻”問題——即動態(tài)數(shù)據(jù)流調(diào)度復雜,編譯器無法在靜態(tài)、可預測情況下自動優(yōu)化可執(zhí)行程序,依賴手動調(diào)優(yōu)等情況。以上三點都極大限制了資源日益緊缺、功耗大幅增長的AI產(chǎn)業(yè)的發(fā)展。
對此,熊大鵬博士在主題演講中曾提到“阿姆達爾定律(Amdahl Law)”,談到存算一體相比傳統(tǒng)GPGPU在做加速時的優(yōu)勢在于數(shù)據(jù)搬運量大幅下降,令訪存限制趨近于0,實現(xiàn)有效算力密度的增長;其數(shù)據(jù)訪問模式可預測,數(shù)據(jù)流和控制流簡單,易于算子和可執(zhí)行層代碼自動優(yōu)化。
基于以上優(yōu)勢,在性能和效率方面,存算一體芯片能夠以成熟制造工藝比肩基于先進制造工藝的馮諾依曼架構傳統(tǒng)芯片,并實現(xiàn)更低成本?!按嫠阋惑w芯片的算力密度更高,擁有更好的能效比,”熊大鵬博士在接受采訪時表示,“用更少的晶體管達成相同的算力”“而且存算一體可以減少數(shù)據(jù)搬運量和距離,這也是實現(xiàn)更高能效比的主要原因”。
即便存算一體芯片的優(yōu)勢已經(jīng)被越來越多的人所知,但這類芯片到現(xiàn)在尚未全面占領大眾視野。熊大鵬博士認為存算一體芯片是新技術,“不管是架構設計、軟件生態(tài),都還面臨著相當程度的挑戰(zhàn)”。熊大鵬博士透露,億鑄在和昕原半導體合作,“目前市場公認能夠實現(xiàn)ReRAM這類新型存儲量產(chǎn)的,只有昕原和臺積電,這兩家的制造工藝也都比較成熟?!?/p>
“但在AI大算力、大模型等應用方面,存算一體技術落地,從架構設計等各方面細節(jié)來看,還是存在不少挑戰(zhàn)?!薄按笏懔Υ嫠阋惑w芯片畢竟也是最近兩三年才出現(xiàn)的,新技術推向市場也需要時間磨合。” 熊大鵬博士強調(diào),“2025-2026年,大算力存算一體芯片應該會逐步在商用市場推廣開來?!?/p>
全數(shù)字化存算一體如何解決技術挑戰(zhàn)?
在此前的主題演講中,熊大鵬博士曾提到存算一體的“三把刀”,或者說三大類方案,分別是模擬、數(shù)?;旌吓c全數(shù)字化的方案。
在一般模擬的存算一體系統(tǒng)中,數(shù)據(jù)以模擬信號的方式存儲,以存儲單元內(nèi)不同的電壓電平來表示,基于歐姆定律和基爾霍夫定律(Kirchhoff’s Laws)執(zhí)行MAC等運算。這種方案的最大問題在于精度,模擬電路噪聲和各種變量是其中原因。“不管是制造工藝還是工作環(huán)境,都會讓憶阻器代表的完整數(shù)有誤差或漂移”。數(shù)?;旌戏椒▏L試平衡效率和精度問題,但依舊不能保證高精度。
所以億鑄的方案是基于ReRAM的全數(shù)字化存算一體。因為是全數(shù)字化,數(shù)據(jù)以二進制的方式放進存儲單元內(nèi),“一個憶阻器(ReRAM)只表示一位,也就只有高低電平、高低電阻、高低電流的區(qū)別,這種情況下就能做到可靠”。
熊大鵬博士在談到存算一體芯片的算力大規(guī)模擴展時,提出當前面臨的三大挑戰(zhàn)。其一是精度不可信的問題;其二,基于模擬計算,數(shù)模模數(shù)轉換帶來了能耗、die size和性能的瓶頸;其三,AI大模型對容量有要求。全數(shù)字化路徑能夠很好地解決這些問題,這也是億鑄科技做AI大算力推理芯片的依據(jù)。
而存儲介質(zhì)選擇ReRAM(Resistive Random Access Memory),“是性能、能效比、容量密度、工藝成熟度等方面的綜合考慮。”“ReRAM技術本身也在不斷提升?!绷硗釸eRAM是CMOS兼容的,能夠基于標準CMOS工藝制造,享受CMOS的很多先進技術,實現(xiàn)密度持續(xù)提升及未來更高的算力與能效比。
在解決技術問題以后,去年億鑄科技點亮了基于ReRAM的高精度、低功耗存算一體AI大算力PoC芯片?!盁o論是能效比還是算力,都超出了我們的預期。”熊大鵬博士談到,“我們也運行了一些典型的demo,比如以圖搜圖,比如(基于)LoRA跑比較小規(guī)模的Transformer網(wǎng)絡,結果都遠超競爭對手。至于量產(chǎn)芯片,目前處于設計沖刺階段?!?/p>
億鑄的芯片會是什么樣?
采訪中我們還是獲悉了有關億鑄這顆要問世的AI大算力芯片的少量細節(jié):性能方面,億鑄的芯片 “有效性能、能效比都會有優(yōu)勢”,即便是相較競爭對手最“新的解決方案”,“也不會輸”,雖然“不敢說打開壟斷局面,但至少也能撕開一條縫,給用戶新的選擇”。
另外對于存算一體芯片的“通用性和可編程性”,鑒于“采用異構結構,存算一體本身只做大規(guī)模矩陣計算,通用性和可編程性要依靠通用處理器,包括SIMT(single instruction multiple threads)。”熊大鵬解釋道,“我們定義了一套完整的ISA。”CPU指令集主體為RISC-V,“SIMT、存算一體,和其他組成部分,將不同架構、不同體系計算單元融合在一起,最終“將通用計算與存算一體有效融合”。
“另外以前的AI芯片主要基于CNN(卷積神經(jīng)網(wǎng)絡),造成了很大的通用性局限,對現(xiàn)在主流Transformer的支持不是特別友好?!薄皟|鑄的芯片兼顧CNN和Transformer?!迸c此同時,“不少科學家工程師也在探討Transformer替代方案。我們也會關注未來AI模型、算法會往哪個方向演進。”“不管是Transformer 2, Transformer 3,還是多模態(tài)、MoE,各種流派都在往前走。”
以上是芯片層面的信息。對于要實現(xiàn)算力擴展的AI芯片而言,芯片、板卡系統(tǒng)與節(jié)點間的高速互聯(lián)是當代系統(tǒng)層面AI性能發(fā)揮的瓶頸。所以熊大鵬博士特別提到,“芯片互聯(lián)、板間互聯(lián)、節(jié)點互聯(lián)是非常關鍵的技術,我們也花了不少精力去做?!?/p>
個中細節(jié)熊大鵬博士并未透露,不過他提到不同層級的互聯(lián)會采用開放標準,“比如RDMA”。他還強調(diào)了DPU的重要性,對于大模型而言,“DPU扮演的角色越來越清晰,作用也越來越重要”,“我們會跟合作伙伴一起去開發(fā)針對大模型的DPU”。 系統(tǒng)層面,“我們會和合作伙伴一起,做到服務器級別”,將來算力擴展至整個大規(guī)模計算集群。
如何構建存算一體軟件及應用生態(tài)
對于加速器類型的芯片而言,軟件開發(fā)生態(tài)是另一大難點。“從用戶的角度來看,億鑄的芯片就相當于一顆GPGPU,只不過是基于存算一體的GPGPU?!贝嫠阋惑w架構對開發(fā)者是不可見的?!昂芏嗥髽I(yè)、前人基于GPGPU做了各種各樣的開源開發(fā)工具和生態(tài)構建,我們都用得上?!?/p>
“現(xiàn)在我們打算集中力量,在AI大模型應用場景上發(fā)展。比如說Llama 2-70b等等,容量大的、小的模型,我們都會去支持?!毙艽簌i博士談到,“存算一體自身的特點,決定了對算子的優(yōu)化相對簡單,更容易支持典型的AI大模型。所以在支持典型AI大模型的基礎上,泛化到其他AI模型?!?/p>
從AI大模型角度切入,實則涵蓋了終端應用領域的方方面面,包括數(shù)據(jù)中心、金融、游戲、安防、教育、工業(yè)、機器人、交通等等。
“建立軟件團隊要一步步來。先是圍繞芯片建立團隊,這一步基本已經(jīng)達到了目標。后續(xù)還要針對用戶使用、部署、各類工具等等完善軟件團隊?!薄吧鷳B(tài)構建是需要打磨的,也關乎用戶接受度方方面面的問題,這些都需要時間?!?/p>
億鑄科技在宣傳中提到,團隊具備數(shù)字化存算一體全棧研發(fā)經(jīng)驗及垂直整合能力——研發(fā)團隊申請的專利已經(jīng)超過40項,國際最早先進工藝非馮體系架構設計和芯片流片;具備主流架構SoC量產(chǎn)交付能力——團隊此前的SoC設計、量產(chǎn)及銷售的芯片已經(jīng)有20+顆;
更重要的是在軟件和編譯器方面,也有200+和350+案例的團隊系統(tǒng)軟件研發(fā)交付經(jīng)驗;加上還具備“國內(nèi)外一線公司算法積累”,到最終應用場景和生態(tài)可能都只是時間問題。
結語
最后,熊大鵬博士表示,中國要發(fā)展自己的AI芯片與技術,首先要“立足國內(nèi)的供應鏈”,并強調(diào),“不立足國內(nèi)供應鏈,即使做出來能夠達到國際先進水平的芯片,最終也會受到各種限制”;“其次,一定要走不同的技術路線,才有機會實現(xiàn)換道超車?!倍鴥|鑄科技就在走這樣一條明確的道路:與國內(nèi)Foundry與IP供應商合作;走與眾不同的存算一體路線,這也讓億鑄科技的大算力全數(shù)字存算一體芯片更加值得期待!
評論