入選芯片頂會ISSCC,阿里達摩院最新存算芯片技術解讀
作者 | 陳巍 千芯科技
編者注:阿里達摩院12月3日宣布其已成功研發(fā)基于DRAM的3D鍵合堆疊存算一體AI芯片,該芯片可滿足AI等場景對高帶寬、高容量內(nèi)存和極致算力的需求,相關研究成果已被國際芯片頂會ISSCC 2022收錄。本文為千芯科技董事長陳巍對該芯片創(chuàng)新技術的解讀。12月3日,阿里達摩院宣布成功研發(fā)新型架構芯片,已經(jīng)被證明能夠在阿里推薦系統(tǒng)中發(fā)揮極大的應用價值,并受到技術圈的普遍關注。據(jù)悉,這顆芯片與數(shù)據(jù)中心的推薦系統(tǒng)對于帶寬/存儲的需求完美匹配,大幅提升帶寬的同時還實現(xiàn)了超低功耗,充分展示了存算技術(第一代僅是近存計算)在數(shù)據(jù)中心場景的潛力。
讓我們根據(jù)達摩院成員已公開的技術信息,來大膽解讀這顆芯片的新科技。據(jù)悉,該工作將發(fā)表在2022年ISSCC的Session 29的第一篇,堪稱Session 29的扛鼎之作。需要說明的是,ISSCC(International Solid-State Circuits Conference)被業(yè)界視為芯片設計界的奧林匹克運動會,是芯片設計圈的頂級盛會。根據(jù)該論文的信息,我們可以看到,這款存算芯片的設計合作方包括北美Sunnyvale、北京、上海三地的達摩院和西安紫光國芯。幕后大佬包括了達摩院的謝源教授和紫光國芯的CEO任奇?zhèn)ァ?/span>該存算芯片的吞吐率能效達到184QPS/W,單位面積存儲密度為64Mb/mm^2,使用了基于3D混合鍵合(3D Hybrid Bonding)近存計算技術,將邏輯單元與DRAM單元鍵合在一起。
“馮·諾伊曼架構存儲和計算分離的模型,已無法滿足人工智能應用的需求,計算存儲一體化將突破AI算力瓶頸。”這是達摩院判斷的2020十大科技趨勢中的技術趨勢之一。AI技術的快速發(fā)展,使得算力需求呈爆炸式增長。雖然多核(例如CPU)/眾核(例如GPU)并行加速技術也能提升算力,但在后摩爾時代,存儲帶寬制約了計算系統(tǒng)的有效帶寬,芯片算力增長步履維艱。巨大的算力需求與實際算力有限增長之間的矛盾,將問題根源指向了馮·諾依曼架構存算分離的局限性。由于計算與存儲分離,在計算的過程中就需要不斷通過總線交換數(shù)據(jù),將數(shù)據(jù)從內(nèi)存讀進CPU,計算完成后再寫回存儲。這一運轉方式讓馮·諾依曼架構無法適應新型計算的大算力需求。分析顯示,數(shù)據(jù)從內(nèi)存?zhèn)鬏數(shù)接嬎銌卧枰墓拇蠹s是計算本身的200倍,真正用于計算的時間和功耗占比大大降低。為了從根本上解決馮·諾依曼架構瓶頸,就必須使用將計算和存儲合二為一的存算技術。
基于SeDRAM的近存計算技術
達摩院存算芯片的內(nèi)存單元采用了異質(zhì)集成嵌入式DRAM(SeDRAM),擁有超大帶寬、超大容量等特點,片上內(nèi)存帶寬可高達37.5GB/s/mm^2。達摩院存算芯片所使用的SeDRAM就是堆疊嵌入式DRAM(Stacked Embedded DRAM)。在以往的HBM使用硅中介層(interposer)和微凸塊(microbump)來增加邏輯到內(nèi)存接口的I/O連接數(shù)量,以在高數(shù)據(jù)速率下提供高帶寬。然而,進一步提高每引腳數(shù)據(jù)速率需要HBM和復雜且耗電的PHY電路。而且TSV 和中介層連接具有較大的電阻和電容,從而導致高功耗。在基于SeDRAM的存算芯片中,AI電路和外圍電路,包括控制、I/O和DFT,被分立到一個邏輯芯片,并通過混合鍵合堆疊在存儲陣列芯片上方,混合鍵合使用 Cu到Cu直接熔合鍵合。DFT模塊則被設計為邏輯芯片中的 IP,用于為陣列芯片執(zhí)行BISR(內(nèi)置自修復)。
作為線路后端(BEOL)互連工藝的延伸,混合鍵合比微凸塊和TSV的寄生電容小很多。因此,邏輯到存儲器接口的功耗也可以降低40%。混合鍵合的PIN間距尺寸為3μm,相反,microbump的間距約為50μm,TSV的間距約為6μm。與使用微凸塊和TSV技術的HBM相比,使用混合鍵合技術的SeDRAM可以達到 110,000/mm^2的最大通孔密度。僅就帶寬而言,基于混合鍵合技術的SeDRAM比HBM效率更高。當然,我們也看到,達摩院的這顆芯片僅僅是使用了近存計算技術,就已經(jīng)獲得了顯著的性能,如果使用更先進的存算技術,則會產(chǎn)生更大的技術躍遷。
存算芯片的數(shù)據(jù)流架構
數(shù)據(jù)流架構是這顆芯片的另一個特色。達摩院研發(fā)設計了基于數(shù)據(jù)流的定制化加速器架構,對推薦系統(tǒng)端到端進行加速,包括匹配、粗排序、神經(jīng)網(wǎng)絡計算、細排序等任務。如數(shù)據(jù)流架構圖所示,節(jié)點(Node Cluster)是構建整個架構的基本模塊,每個檢點的微架構包括多個存儲塊和一個處理核心。(例如權重存儲和輸入數(shù)據(jù)存儲)底層電路結構采用了同構設計,所有節(jié)點都可以靈活配置,每個節(jié)點有點像多處理器片上系統(tǒng)。整個計算流程分為多輪(Round)。一輪可以進一步分為兩個子輪。在計算子輪期間,存儲在其本地緩沖區(qū)中的輸入特征和神經(jīng)權重被傳送到處理數(shù)組中以進行計算。在每個通信子輪中,節(jié)點轉發(fā)其輸出特征,簇(Cluster)之間以循環(huán)方式交換存儲的數(shù)據(jù)。通過這種近存計算(基于SeDRAM)和數(shù)據(jù)流架構的耦合,可以大大減少訪問外部內(nèi)存的次數(shù),提升整體計算能效和性能。以搜索推薦為例,這一場景對內(nèi)存帶寬、功耗、時延等方面有很高的要求,如果用傳統(tǒng)計算來實現(xiàn),系統(tǒng)性能不易提高,但用存算的方式就能解決這些問題,同時降低成本。在實際推薦系統(tǒng)應用中,該芯片相對于傳統(tǒng)CPU計算系統(tǒng)可以達到10倍以上性能提升和300倍的能效提升。
存算技術路線的演進
目前存算技術在按照以下路線在演進:查存計算(Processing With Memory):GPU中對于復雜函數(shù)就采用了這種計算方法,是早已落地多年的技術。存儲芯片內(nèi)部的存儲單元完成查表計算操作,存儲單元和計算單元完全融合,沒有一個獨立的計算單元。近存計算(Computing Near Memory):典型代表包括AMD的Zen系列CPU和達摩院本次發(fā)表的存算芯片。計算操作由位于存儲區(qū)域外部的獨立計算芯片/模塊完成。這種架構設計的代際設計成本較低,適合傳統(tǒng)架構芯片轉入。存內(nèi)計算(Computing In Memory):典型代表是Mythic、閃憶、知存、九天睿芯。計算操作由位于存儲芯片/區(qū)域內(nèi)部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數(shù)字的。這種路線適合算法固定的場景算法計算,目前主要用于語音等輕算力場景。
邏輯存儲(Logic In Memory):通過在內(nèi)部存儲中添加計算邏輯,直接在內(nèi)部存儲執(zhí)行數(shù)據(jù)計算,這種架構數(shù)據(jù)傳輸路徑最短,同時能滿足大模型的計算精度要求。典型代表包括TSMC(在2021 ISSCC發(fā)表)和千芯。在達摩院前期的測試中,這顆存算芯片(目前還僅是近存計算)已經(jīng)被證明能夠在阿里推薦系統(tǒng)中發(fā)揮極大的應用價值。可以看到,由于存算技術本身的高能效和大算力特點,可以打破傳統(tǒng)計算架構的“存儲墻”問題。這次近存架構在數(shù)據(jù)中心推薦系統(tǒng)中的應用還只是小試牛刀。存算技術在海量數(shù)據(jù)計算場景中擁有天然的優(yōu)勢,將在云計算、自動駕駛、元宇宙等場景擁有廣闊的發(fā)展空間。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。