有選擇的后摩爾堆疊時代
臺積電、英特爾等大廠近年來不斷加大對異構(gòu)集成制造及相關(guān)研發(fā)的投入。隨著 AIGC、8K、AR/MR 等應用的不斷發(fā)展,3D IC 堆疊和 chiplet 異構(gòu)集成已成為滿足未來高性能計算需求、延續(xù)摩爾定律的主要解決方案。
本文引用地址:http://m.butianyuan.cn/article/202310/451209.htm不久前,華為公布了一項芯片堆疊技術(shù)的新專利,顯示了該公司在芯片技術(shù)領(lǐng)域的創(chuàng)新實力。這項專利提供了一種簡化芯片堆疊結(jié)構(gòu)制備工藝的方法,有望解決芯片堆疊過程中的各種技術(shù)難題。堆疊技術(shù)可以提高芯片的效率,并更好地利用可用空間,進一步推動芯片技術(shù)的進步。盡管目前該專利與將兩個 14nm 芯片堆疊成一個 7nm 芯片的傳聞還未得到官方認可,但這一技術(shù)潛力巨大,可以為芯片制造商帶來更多可能性。
后摩爾時代,堆疊已經(jīng)大勢。
計算堆疊需求
隨著 AIGC、AR/VR、8K 等應用的快速發(fā)展,預計將產(chǎn)生大量的計算需求,特別是對能夠在短時間內(nèi)處理大數(shù)據(jù)的并行計算系統(tǒng)的需求。為了克服 DDR SDRAM 的帶寬限制,進一步提升并行計算性能,業(yè)界越來越多地采用高帶寬內(nèi)存(HBM)。這一趨勢導致了從傳統(tǒng)的「CPU+內(nèi)存(如 DDR4)」架構(gòu)向「芯片+HBM 堆疊」2.5D 架構(gòu)的轉(zhuǎn)變。隨著計算需求的不斷增長,未來可能會通過 3D 堆疊實現(xiàn) CPU、GPU 或 SoC 的集成。
9 月中旬根據(jù)韓國 The Elec 報道,三星電子和 SK 海力士兩家公司加速推進 12 層 HBM 內(nèi)存量產(chǎn)。生成式 AI 的爆火帶動英偉達加速卡的需求之外,也帶動了對高帶寬存儲器(HBM)的需求。HBM 堆疊的層數(shù)越多,處理數(shù)據(jù)的能力就越強,目前主流 HBM 堆疊 8 層,而下一代 12 層也即將開始量產(chǎn)。
報道稱 HBM 堆疊目前主要使用正使用熱壓粘合(TCB)和批量回流焊(MR)工藝,而最新消息稱三星和 SK 海力士正在推進名為混合鍵合(Hybrid Bonding)的封裝工藝,突破 TCB 和 MR 的發(fā)熱、封裝高度等限制。
Hybrid Bonding 中的 Hybrid 是指除了在室溫下凹陷下去的銅 bump 完成鍵合,兩個 Chip 面對面的其它非導電部分也要貼合。因此,Hybrid Bonding 在芯粒與芯?;蛘?wafer 與 wafer 之間是沒有空隙的,不需要用環(huán)氧樹脂進行填充。三星電子和 SK 海力士等主要公司已經(jīng)克服這些挑戰(zhàn),擴展了 TCB 和 MR 工藝,實現(xiàn)最高 12 層。
被堆疊「棄選」?
HBM 于 2013 年推出,作為高性能 SDRAM 的 3D 堆疊架構(gòu)。隨著時間的推移,多層 HBM 的堆疊在封裝中已經(jīng)變得普遍,而 CPU/GPU 的堆疊卻沒有看到重大進展。
造成這種差異的主要原因可歸因于三個因素:
1、散熱問題,CPU 在工作時會產(chǎn)生大量的熱量,需要通過散熱器將熱量散發(fā)出去,否則會導致 CPU 溫度過高而損壞。如果多個 CPU 堆疊在一起,熱量積聚在一起會導致散熱問題更加嚴重,從而影響 CPU 的穩(wěn)定運行。
2、信號干擾問題,在 CPU 內(nèi)部,不同的電路之間需要進行大量的信號傳輸,如果多個 CPU 堆疊在一起,信號干擾就會更加嚴重,從而影響 CPU 的正常工作。
3、電路設(shè)計問題,CPU 內(nèi)部的電路設(shè)計非常復雜,需要嚴格的電路布局和連接方式,以保證 CPU 的正常工作。如果多個 CPU 堆疊在一起,電路設(shè)計就會更加復雜,可能會導致電路連接不良或者干擾等問題。IC 設(shè)計面臨 EDA 工具缺乏的挑戰(zhàn),因為傳統(tǒng) CAD 工具不足以處理 3D 設(shè)計規(guī)則。開發(fā)人員必須創(chuàng)建自己的工具來滿足工藝要求,而 3D 封裝的復雜設(shè)計進一步增加了設(shè)計、制造和測試成本。
然后也不是沒有解決辦法。自從 2.5D/3D 封裝、Chiplet、異構(gòu)集成等技術(shù)出現(xiàn)以來,CPU、GPU 和內(nèi)存之間的界限就已經(jīng)變得逐漸模糊。例如 AMD 如今在消費級和數(shù)據(jù)中心級別 CPU 上逐漸使用的 3D V-Cache 技術(shù),就是直接將 SRAM 緩存堆疊至 CPU 上。將在今年正式落地的第四代 EPYC 服務器處理器,就采用了 13 個 5nm/6nm Chiplet 混用的方案,最高將 L3 緩存堆疊至了可怕的 384MB。
在消費端,AMD 的 Ryzen 7 5800X3D 同樣也以驚人的姿態(tài)出世,以超大緩存帶來了極大的游戲性能提升。即將正式發(fā)售的 Ryzen 9 7950X3D 也打出了 128MB 三級緩存的夸張參數(shù),這些產(chǎn)品的出現(xiàn)可謂打破了過去 CPU 廠商拼時鐘頻率、拼核心數(shù)的僵局,讓消費者真切地感受到了額外的體驗提升。
GPU 也不例外,雖然 AMD 如今的消費級 GPU 基本已經(jīng)放棄了 HBM 堆疊方案,但是在 AMD 的數(shù)據(jù)中心 GPU,例如 Instinct MI250X,卻依然靠著堆疊做到了 128GB 的 HBM2e 顯存,做到了 3276.8GB/s 的峰值內(nèi)存帶寬。而下一代 MI300,AMD 則選擇了轉(zhuǎn)向 APU 方案,將 CPU、GPU 和 HBM 全部整合在一起,以新的架構(gòu)沖擊 Exascale 級的 AI 世代。
AMD CEO 蘇姿豐說過下一步就是直接將 DRAM 堆疊至 CPU 上。這里的堆疊并非硅中介層互聯(lián)、存儲單元垂直堆疊在一起的 2.5D 封裝方案,也就是如今常見的 HBM 統(tǒng)一內(nèi)存方案,AMD 提出的是直接將計算單元與存儲單元垂直堆疊在一起的 3D 混合鍵封裝方案。
CPU 如何垂直堆疊
放緩的摩爾定律,內(nèi)存上的限制,例如內(nèi)存墻這樣的性能瓶頸,不僅在限制 CPU 的性能發(fā)揮,同樣限制了 GPU 的性能發(fā)揮。蘇姿豐指出,從她這個處理器從業(yè)者的角度來說,這一路線有些反常理,但從系統(tǒng)層面來說,她也可以理解該需求存在的意義。而 AMD 這次提出的方案,則是從計算芯片出發(fā),將存儲器堆疊整合進去。
3 月 22 日,AMD 宣布全面推出世界首款采用 3D 芯片堆疊的數(shù)據(jù)中心 CPU,即采用 AMD 3D V-Cache 技術(shù)的第三代 AMD EPYC(霄龍)處理器,代號「Milan-X(米蘭-X)」。這些處理器基于「Zen 3」核心架構(gòu),進一步擴大了第三代 EPYC 處理器系列產(chǎn)品,相比非堆疊的第三代 AMD EPYC 處理器,可為各種目標技術(shù)計算工作負載提供高達 66% 的性能提升。
全新推出的處理器擁有業(yè)界領(lǐng)先的 L3 緩存,并具備與第三代 EPYC CPU 相同的插槽、軟件兼容性以及現(xiàn)代安全功能,同時還可為技術(shù)計算工作負載提供卓越的性能,如計算流體力學(CFD)、電子設(shè)計自動化(EDA)和結(jié)構(gòu)分析等。這些工作負載均是那些需要對復雜的物理世界進行建模以創(chuàng)建模型的公司的關(guān)鍵設(shè)計工具,從而為世界上那些極具創(chuàng)新性的產(chǎn)品進行測試或驗證工程設(shè)計。
AMD 高級副總裁兼服務器業(yè)務部總經(jīng)理 Dan McNamara 表示:「基于我們在數(shù)據(jù)中心一直以來的發(fā)展勢頭以及我們的多項行業(yè)首創(chuàng),采用 AMD 3D V-Cache 技術(shù)的第三代 AMD EPYC 處理器展示了我們領(lǐng)先的設(shè)計與封裝技術(shù),使我們能夠帶來業(yè)界首個采用 3D 芯片堆疊技術(shù)且專為工作負載而生的服務器處理器。我們最新所采用的 AMD 3D V-Cache 技術(shù)的處理器可為關(guān)鍵任務的技術(shù)計算工作負載提供突破性性能,從而帶來更好的產(chǎn)品設(shè)計以及更快的產(chǎn)品上市時間?!?/span>
Micron 公司高級副總裁兼計算與網(wǎng)絡事業(yè)部總經(jīng)理 Raj Hazra 說:「客戶正在越來越廣泛的采用數(shù)據(jù)豐富的應用,這對數(shù)據(jù)中心的基礎(chǔ)設(shè)施也提出了新的要求。Micron 和 AMD 的共同愿景是為高性能數(shù)據(jù)中心平臺提供領(lǐng)先的 DDR5 內(nèi)存的全部能力。我們與 AMD 之間的深度合作包括為基于 Micron 最新 DDR5 解決方案的 AMD 平臺做好準備,以及將采用 AMD 3D V-Cache 技術(shù)的第三代 AMD EPYC 處理器引入我們自己的數(shù)據(jù)中心,我們已經(jīng)看到了在特定的 EDA 工作負載中,與未采用 AMD 3D V-Cache 的第三代 AMD EPYC 處理器相比,性能提高了多達 40%。」
一直以來緩存大小的提升都是性能改進的重中之重,特別是對于嚴重依賴大數(shù)據(jù)集的技術(shù)計算工作負載。這些工作負載受益于緩存大小的提升,但 2D 芯片設(shè)計卻對 CPU 上可有效構(gòu)建的緩存量有著物理上的限制。AMD 3D V-Cache 技術(shù)通過將 AMD「Zen 3」核心與緩存模塊結(jié)合,解決了這些物理上的挑戰(zhàn),不僅增加了 L3 緩存數(shù)量,同時還最大程度減少了延遲并提高吞吐量。這項技術(shù)代表了 CPU 設(shè)計和封裝方面的又一創(chuàng)新,并為目標技術(shù)計算工作負載帶來了突破性性能。
英偉達的專利
早在 2017 年,英偉達就在國際計算機體系結(jié)構(gòu)研討會 (ISCA) 上展示了其 MCM-GPU 設(shè)計。英偉達計劃使用多個邏輯芯片來互連大量內(nèi)核,并開發(fā)具有持續(xù)性能改進的新 GPU,同時管理成本。隨著 GPU 芯片越來越大,它們的成本呈指數(shù)級增長,因此制作一些相互連接的較小芯片是更具成本效益的解決方案。MCM-GPU 封裝方法解決了這個問題,因為它連接多個芯片,從而提供巨大的性能提升作為回報。
芯片設(shè)計不限于二維縮放,而這正是英偉達今天所獲得的專利。英偉達提出了「使用擴展 TSV 增強功率傳輸?shù)拿鎸γ?die」,提出了半導體 die 的 3D 堆疊,并特別說明了使用超長硅通孔 (TSV) 增強功率傳輸。
這種設(shè)置的工作方式是首先使用芯片表面上的探針墊測試基礎(chǔ)芯片。之后,在第一個 die 的表面上形成界面層,覆蓋在已經(jīng)存在的探針焊盤上。最后,取出第二個 die 并將其安裝在界面層上,將 die 間接口的焊盤連接到其他 die 上的互補連接。這創(chuàng)建了裸片的面對面安裝,3D 芯片誕生了。
英偉達的專利專注于使用超長 TSV 增強電力傳輸。當像這樣將芯片堆疊在一起時,您可以連接從邏輯(處理核心)到內(nèi)存的任何東西。通常,連接內(nèi)存不需要太多電力,因此提及增強的電力傳輸使我們得出結(jié)論,英偉達計劃執(zhí)行處理內(nèi)核的堆疊,為 3D 處理器創(chuàng)建面向計算的方法。
EDA 的進擊
Cadence 在 LIVE 中國臺灣 2023 年用戶年會上強調(diào)了其多年來在開發(fā)解決方案方面的努力。他們推出了 Clarity 3D 解算器、Celsius 熱解算器以及 Sigrity Signal and Power Integrity 等工具,可以解決熱傳導和熱應力模擬問題。當與 Cadence 的綜合 EDA 工具相結(jié)合時,這些產(chǎn)品有助于「Integrity 3D-IC」平臺的發(fā)展,有助于 3D IC 設(shè)計的開發(fā)。
Intgrity 3D-IC 平臺是 Cadence 廣泛 3D-IC 解決方案的組成部分,在數(shù)字技術(shù)之上同時集成了系統(tǒng)、驗證及 IP 功能。廣泛的解決方案支持軟硬件協(xié)同驗證,通過由 Palladium Z2 和 Protium X2 平臺組成的 Dynamic Duo 系統(tǒng)動力雙劍實現(xiàn)全系統(tǒng)功耗分析。平臺同時支持基于小芯片的 PHY IP 互聯(lián),實現(xiàn)面向延遲、帶寬和功耗的 PPA 優(yōu)化目標。Intgrity 3D-IC 平臺支持與 Virtuoso 設(shè)計環(huán)境和 Allegro 技術(shù)的協(xié)同設(shè)計,通過與 Quantus Extraction Solution 提取解決方案和 Tempus Timing Signoff Solution 時序簽核解決方案提供集成化的 IC 簽核提取和 STA,同時還集成了 Sigrity 技術(shù)產(chǎn)品,Clarity 3D Transient Solver,及 Celsius Thermal Solver 熱求解器,從而提供集成化的信號完整性/功耗完整性分析(SI/PI),電磁干擾(EMI),和熱分析功能。全新 Integrity 3D-IC 平臺和更廣泛的 3D-IC 解決方案組合,建立在 Cadence SoC 卓越設(shè)計和系統(tǒng)級創(chuàng)新的堅實基礎(chǔ)之上,支持公司的智能系統(tǒng)設(shè)計(Intelligent System Design)戰(zhàn)略。
評論