芯片設(shè)計(jì)中，DRAM 類型的選擇正在變復(fù)雜

作者：semiengineering 時(shí)間：2023-11-16 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

芯片制造商開始將多種類型和風(fēng)格的 DRAM 整合到同一個(gè)先進(jìn)封裝中，為日益分布式的內(nèi)存但更加復(fù)雜的設(shè)計(jì)奠定了基礎(chǔ)。盡管多年來預(yù)測 DRAM 將被其他類型的內(nèi)存取代，但它仍然是幾乎所有計(jì)算中的重要組成部分。它的足跡非但沒有消失，反而在增加，選擇的數(shù)量也在增加。

本文引用地址：http://m.butianyuan.cn/article/202311/452949.htm

有幾個(gè)因素推動(dòng)了這種擴(kuò)張。

首先，系統(tǒng)中計(jì)算元素的數(shù)量和密度不斷增加，以更快地處理更多數(shù)據(jù)，特別是對于人工智能/機(jī)器學(xué)習(xí)和數(shù)據(jù)中心應(yīng)用程序。更多的核心需要更多的內(nèi)存，因?yàn)樾枰幸粋€(gè)地方來存儲數(shù)據(jù)并處理數(shù)據(jù)。

其次，通常情況下，大部分?jǐn)?shù)據(jù)都會(huì)在緩存中處理，而 SRAM 一直是 L1 到 L3 緩存的首選內(nèi)存。但 SRAM 的擴(kuò)展速度不再與數(shù)字邏輯相同。因此，它在芯片上占用了更大的空間，并且 DRAM 速度的提高使得某些類型適合 L3 緩存。

最后，來回移動(dòng)數(shù)據(jù)移動(dòng)受到帶寬和距離的限制，因此僅在一個(gè)物理位置添加更多內(nèi)存并不一定會(huì)提高性能。事實(shí)上，它可能會(huì)起到相反的作用。

由于這些原因，芯片制造商正在使用更多的 DRAM。在某些情況下，DRAM（尤其是 HBM）正在取代一些 SRAM。DRAM 擁有久經(jīng)考驗(yàn)的耐用性記錄以及成熟的工藝，而且比 SRAM 便宜得多。Objective Analysis 總經(jīng)理 Jim Handy 表示，根據(jù)原始數(shù)據(jù)，相同容量的 SRAM 成本可能比 DRAM 高出 2,500 倍以上，具體取決于 DRAM 的類型。

當(dāng)然，DRAM 有多種類型可供選擇。有些速度非常快，如 HBM，但也很昂貴。其他類型速度較慢，但價(jià)格便宜，如基本的 DDR DIMM。然而，變化的是，在異構(gòu)架構(gòu)中，兩者都可以發(fā)揮重要作用，以及多種其他 DRAM 類型和更狹義的存儲器，如 MRAM 或 ReRAM。

「我們正在考慮更多的混合模型，在同一系統(tǒng)中使用不同的 DRAM 技術(shù)，」Cadence 高級技術(shù)營銷經(jīng)理 Kos Gitchev 說?！溉绻_實(shí)需要非常高的性能，并且愿意為此付費(fèi)，那么您可能會(huì)選擇 HBM。您可以將其用于 L3 緩存，或者您需要立即訪問的任何其他內(nèi)容。如果您仍然需要更多內(nèi)存，但延遲稍長，則可以在 RDIMM（注冊雙列直插內(nèi)存模塊）或 MRDIMM（多路復(fù)用器級 DIMM）中使用 DRAM。如果您正在尋找大容量，那么您可能會(huì)考慮 CXL 后面的 DRAM。該技術(shù)開始針對非常具體的應(yīng)用程序，具有真正的高帶寬和低功耗、更大的內(nèi)存占用，但延遲稍多。將所有這些混合在一起是每個(gè)人解決這些問題的方向?！?/span>

與先進(jìn)節(jié)點(diǎn)或先進(jìn)封裝的幾乎每一項(xiàng)改進(jìn)一樣，解決一個(gè)問題可能會(huì)導(dǎo)致另一個(gè)問題。盡管如此，基本理論是合理的，并且當(dāng)今市場上也有證據(jù)。例如，保持某些功能（例如人工智能）以最大速度運(yùn)行可能至關(guān)重要，這將使高帶寬內(nèi)存成為最佳選擇。但并非所有功能都是必需的，并且它們并不都需要這種級別的性能。在某些情況下，GDDR5 或 GDDR6 可能就足夠了。在其他情況下，可能是 LPDDR，在其他情況下可能是 DDR4。所有這些都有不同的成本，這些成本可以用來回移動(dòng)數(shù)據(jù)的資源以及存儲芯片的貨幣價(jià)值來衡量。

另一方面，并不是所有的 DRAM 都是一樣的，在沒有充分了解不同類型的 DRAM 會(huì)如何影響其他組件的情況下，僅添加不同類型的 DRAM 可能會(huì)導(dǎo)致問題。重要的是要以避免未來問題的方式將它們集成起來，這包括復(fù)雜的布局規(guī)劃，以避免信號完整性和防止熱問題。眾所周知，DRAM 和散熱不太好。但也有一堆以前從未認(rèn)真考慮過的新問題。

「DRAM 向前發(fā)展的重大問題分為兩類——常見的問題（更多的帶寬和容量、管理功率）和一些新的問題（更具挑戰(zhàn)性的可靠性，這導(dǎo)致了片上 ECC 和 RowHammer 保護(hù)等問題），」Rambus 的杰出發(fā)明家 Steven Woo 說道。「為了應(yīng)對新的挑戰(zhàn)，在芯片上放置更多的電容器會(huì)增加片上錯(cuò)誤的發(fā)生，因此今天的 DRAM 在數(shù)據(jù)返回到控制器之前會(huì)進(jìn)行一定量的片上錯(cuò)誤糾正。像 RowHammer 這樣的相鄰單元干擾問題的發(fā)生是因?yàn)檫@些單元彼此非常接近，訪問一組單元可能會(huì)導(dǎo)致鄰近單元的位翻轉(zhuǎn)。」

什么地方最有效

選擇的數(shù)量不斷增加，也讓我們很難決定使用哪些存儲器。通常根據(jù)性能、功耗、成本、可靠性（糾錯(cuò)碼以及經(jīng)過全面測試和供應(yīng)鏈安全）和容量來選擇 DRAM。因此，如果 DRAM 將用于 L3 緩存，則可能需要高性能和低功耗。如果要用于高級封裝中的低級功能，則它可能是標(biāo)準(zhǔn) DIMM。

但這些選擇中的每一個(gè)也會(huì)影響整體芯片或系統(tǒng)級封裝設(shè)計(jì)，并伴隨著特定的設(shè)計(jì)考慮。

「過去，DDR4 和 LPDDR4 并沒有那么復(fù)雜，」Synopsys 產(chǎn)品營銷高級經(jīng)理 Graham Allan 表示?！敢粋€(gè)客戶將啟用 DDR4，另一個(gè)客戶將啟用 LPDDR4，并且存在重疊。隨著我們進(jìn)入 DDR5 和 LPDDR5 及更高版本，這些應(yīng)用空間確實(shí)發(fā)生了分化，接口協(xié)議和物理信令也發(fā)生了變化。DDR5 通常需要與大量 DRAM（大容量）通信，因此您主要與寄存器 DIMM 連接。使用 LPDDR，您通常會(huì)與一個(gè)封裝或設(shè)備通信，并且該設(shè)備中最多有兩個(gè)負(fù)載。LPDDR 也是接地端接的。DDR 端接到正電壓軌。這些是非常不同的物理接口和協(xié)議，這意味著客戶需要選擇其中之一?！?/span>

還有一些中間選項(xiàng)可以幫助在多個(gè)應(yīng)用程序中使用相同的設(shè)計(jì)。例如，MRDIMM 可用于將容量加倍或?qū)捈颖?，具體取決于工作負(fù)載?！付嗦窂?fù)用器級 DIMM 的容量和速度是 SDRAM（同步 DRAM）的兩倍，」Allan 說?！杆拿烂钪幵谟?DRAM 不會(huì)改變。它以兩種不同的模式運(yùn)行。它的運(yùn)行方式類似于負(fù)載減少的 DIMM，但速度不會(huì)加倍。這將是一種使用它來獲得更高容量的模式。或者它以多路復(fù)用排序模式運(yùn)行，這使得 DRAM 和外部接口之間的帶寬加倍?！?/span>

這是圖片的一部分。另一部分是 PHY，即物理層，它提供與內(nèi)存的物理接口。PHY 因所使用的 DRAM 類型而異，隨著數(shù)據(jù)量的增加和設(shè)計(jì)變得越來越異構(gòu)，它們變得尤為重要。

PHY 還可以鏈接在一起形成一種主堆棧，以便管理復(fù)雜設(shè)備中的內(nèi)存資源，無論是 GDDR6 還是 LPDDR4。這樣，所有類型的 DRAM 都可以被視為可用資源并進(jìn)行集中管理。

「通過某種類型的結(jié)構(gòu)來管理帶寬，所有內(nèi)容都是可見且可尋址的，」瑞薩電子基礎(chǔ)設(shè)施業(yè)務(wù)部公司副總裁兼總經(jīng)理 Balaji Kanigicherla 說道。「這不僅僅是提高密度或存儲器的物理原理，這是材料科學(xué)。存儲器的應(yīng)用架構(gòu)是產(chǎn)業(yè)發(fā)展的方向。密度需要提高，因?yàn)槟Ｍ谙嗤膸捪芦@得更多的容量。我們可以根據(jù)每美元或每 GB 的路徑進(jìn)行混合和匹配，并且可以在 SSD、DRAM 和本地片上 SRAM 緩存之間使用分層。這正在轉(zhuǎn)向整個(gè)系統(tǒng)的 TCO，并考慮我們將為每一層支付的成本?！?/span>

這本質(zhì)上提高了內(nèi)存管理的抽象級別。Kanigicherla 表示：「您可以從當(dāng)前模型發(fā)展到在全球范圍內(nèi)解決內(nèi)存問題，并基本上創(chuàng)建足夠有效的互連來管理緩存或減少延遲。」「這就像全局可尋址內(nèi)存的一個(gè)分區(qū)。顯然，您需要提供帶寬。但好消息是，對于人工智能工作負(fù)載，它們對延遲的敏感度稍低，對帶寬的敏感度更高。所以你可以利用這項(xiàng)技術(shù)來擴(kuò)大規(guī)模。在 CXL 和 UCIe 之間，應(yīng)該有一種更漸進(jìn)的方法來分解存儲器，可能包括光學(xué)互連，并實(shí)現(xiàn)存儲器的完整全局視圖。但這需要整個(gè)行業(yè)的努力才能實(shí)現(xiàn)。這并不簡單?！?/span>

內(nèi)存池是另一種選擇，并且在數(shù)據(jù)中心中越來越受歡迎。內(nèi)存池對于 DRAM 的作用就像超擴(kuò)展對于處理器核心的作用一樣。當(dāng)需要額外的內(nèi)存時(shí)，可以像使用額外的計(jì)算核心一樣使用它，通常是通過 CXL 接口。

Rambus 說：「池化背后的想法是，如果我有一組服務(wù)器，并且每臺服務(wù)器都有內(nèi)存，那么每臺服務(wù)器不太可能同時(shí)使用所有內(nèi)存容量?！筗oo 最近在 CASPA 活動(dòng)中的一次演講中說道?！父幸饬x的是將其中一些容量放入外部機(jī)箱中，并將其視為池資源。當(dāng)處理器需要的內(nèi)存超過機(jī)箱內(nèi)的內(nèi)存時(shí)，它們可以在短時(shí)間內(nèi)檢查并配置一些內(nèi)存，將其用于計(jì)算，然后將其返回到池中。這是讓很多業(yè)內(nèi)人士興奮不已的新功能之一。更遠(yuǎn)一點(diǎn)，一旦你做了這些類型的事情，你就可以開始考慮通過交換機(jī)附加內(nèi)存和池。CXL 標(biāo)準(zhǔn)還允許多級切換。這種靈活性將有助于提高各種應(yīng)用程序的性能和總擁有成本?！?/span>

其他存儲方法

除了更傳統(tǒng)的方法之外，DRAM 還向多種方向發(fā)展。部分原因是轉(zhuǎn)向異構(gòu)集成和高級封裝以及更多特定領(lǐng)域的設(shè)計(jì)，部分原因是更接近數(shù)據(jù)源進(jìn)行處理的好處。

「與計(jì)算和 DRAM 相比，我們使用 17% 的能量進(jìn)行計(jì)算，并使用 63% 的能量將數(shù)據(jù)從一個(gè)點(diǎn)移動(dòng)到另一個(gè)點(diǎn)，」Siemens Digital Industries Software 的內(nèi)存技術(shù)專家 Jongsin Yun 說道?！高@是大量的能量。我們可以節(jié)省這一點(diǎn)并提高速度和電源效率。當(dāng)前的解決方案是向緩存中添加更多內(nèi)存，但這是一個(gè)昂貴的解決方案。我們不需要將所有數(shù)據(jù)移動(dòng)到 DRAM。我們可以在內(nèi)存中進(jìn)行一些計(jì)算，或者使用一些基于 GPU 的 AI 卷積，這樣我們就可以在不進(jìn)行內(nèi)存?zhèn)鬏數(shù)那闆r下進(jìn)行計(jì)算?！?/span>

今天的選擇比以往任何時(shí)候都多，而且還有更多的選擇處于開發(fā)階段。例如，華邦電子開發(fā)了幾種基于 DRAM 的內(nèi)存解決方案，但超越了經(jīng)典的 DRAM 使用模型。一是該公司的單芯片 CUBE（定制超帶寬元件）架構(gòu)。另一種是偽靜態(tài) DRAM，它介于 SRAM 和 DRAM 之間，無需外部數(shù)據(jù)重寫。這兩者都針對特定市場，例如可穿戴設(shè)備和邊緣服務(wù)器。

「現(xiàn)在最熱門的話題是生成式人工智能，」華邦電子美國公司營銷主管 CS Lin 說?！傅菙?shù)據(jù)中心發(fā)生的情況與我們關(guān)注的地方有不同的要求，而且密度也有很大不同。我們專注于 16 GB/秒及以下的密度，但該解決方案可擴(kuò)展到 256 KB/秒。它的運(yùn)行速度非常接近 HBM2 帶寬，但具有功耗極低的優(yōu)勢?！?/span>

CUBE 方法，延遲約為 25 納秒，單位密度比 14 納米 SRAM 高 5 倍。來源：華邦電子

Lin 表示，這種方法的好處是能夠使用標(biāo)準(zhǔn) DRAM 來提高性能，而不是依賴最先進(jìn)的工藝節(jié)點(diǎn)。通常，較高的密度會(huì)產(chǎn)生延遲，但 CUBE 架構(gòu)使用數(shù)千個(gè)硅通孔來移動(dòng)數(shù)據(jù)，并根據(jù)更多帶寬或更高速度的需求靈活分配這些通孔。這允許更細(xì)粒度的系統(tǒng)架構(gòu)，以及更小的占地面積。

另一種方法是均衡。這個(gè)計(jì)劃已經(jīng)醞釀了一段時(shí)間，但似乎終于獲得了關(guān)注?！妇饪梢愿纳颇谕ǖ滥┒私邮盏降臄?shù)據(jù)，」Synopsys 的 Allan 解釋道。「簡單來說，這就像符號間干擾。當(dāng)一系列比特通過通道傳輸時(shí)，當(dāng)一個(gè)比特完成時(shí)，它實(shí)際上已經(jīng)進(jìn)入下一個(gè)比特的時(shí)域。信號上升和下降以及從 1 到 0 的切換需要比一個(gè)單位間隔更長的時(shí)間。你并不是從穩(wěn)定的低潛力狀態(tài)開始的。你是從一個(gè)更高的狀態(tài)開始的。使用決策反饋均衡來偏移輸入接收器中的采樣點(diǎn)。那么我現(xiàn)在如何優(yōu)化我的輸入接收器，以便對一和零檢測具有相似的余量？我并沒有真正感覺到有什么東西可以將參考電壓精確地放在中間?！?/span>

內(nèi)存計(jì)算也即將出現(xiàn)。雖然已經(jīng)有幾種使用 MRAM 的商業(yè)方法，但普林斯頓大學(xué)的研究人員在 2019 年的一篇論文中展示了 FPGA 中的外部 DRAM 控制器，可以與現(xiàn)成的 DRAM 一起使用來創(chuàng)建大規(guī)模并行計(jì)算。研究人員聲稱，這種方法克服了所謂的內(nèi)存墻，即邏輯性能已經(jīng)超過了內(nèi)存帶寬。

權(quán)衡

那么，與 DRAM 相比，SRAM 的使用量是多少？對此沒有簡單的公式，因?yàn)檫@不是同類比較。

Flex Logix 首席技術(shù)官兼聯(lián)合創(chuàng)始人 Cheng Wang 表示：「確實(shí)沒有什么神奇的方法可以做到這一點(diǎn)。」我們的大部分設(shè)計(jì)權(quán)衡來自于對 SRAM 帶寬、SRAM 容量和 DRAM 帶寬進(jìn)行建模的性能估計(jì)。這是我們的三個(gè)主要旋鈕。基本上，我們有四種標(biāo)準(zhǔn)的計(jì)算規(guī)模，為我們的標(biāo)準(zhǔn) IP 產(chǎn)品提供不同數(shù)量的 SRAM 和 DRAM 帶寬。這是基于我們運(yùn)行模型的經(jīng)驗(yàn)數(shù)據(jù)來確定哪種效果更好。如果我們有 2 倍的 SRAM 容量，某些模型可以運(yùn)行得更好。如果您可以通過將 SRAM 加倍來使性能幾乎翻倍，并且再用 20% 的面積來實(shí)現(xiàn) 2 倍的性能，那就太好了。但還有很多其他型號無法從額外的 SRAM 中受益，那么您就白白添加了該區(qū)域。這就是為什么進(jìn)行周期準(zhǔn)確的性能估計(jì)很重要。在我們的例子中，它的精確度不能精確到單個(gè)周期，但可以精確到 8%，這超出了我們的需要。然后，您可以對適當(dāng)?shù)?SRAM/DRAM 計(jì)算權(quán)衡進(jìn)行大量架構(gòu)分析，這可能因工作負(fù)載類型而異。」

這是復(fù)雜的數(shù)學(xué)，并且隨著系統(tǒng)被分解為異構(gòu)元素（例如小芯片），它變得更加復(fù)雜。「SRAM 每一位需要更多晶體管才能實(shí)現(xiàn)。它比 DRAM 密度更低、更昂貴，并且在讀取和寫入過程中具有更高的功耗?！笰nsys 首席產(chǎn)品經(jīng)理 Takeo Tomine 說道?！改壳?，SRAM 是在 CPU 通常設(shè)計(jì)的先進(jìn) finFET 技術(shù)節(jié)點(diǎn)上設(shè)計(jì)的，而 finFET 器件由于器件的熱阻較高，更容易產(chǎn)生熱效應(yīng)（自熱）?！?/span>

在某些情況下，使用什么類型的內(nèi)存以及在何處使用它可能取決于設(shè)備的預(yù)期使用壽命?！赣袃蓚€(gè)主要的可靠性問題會(huì)導(dǎo)致存儲器的壽命縮短，」Tomine 說?！钙渲兄皇?，互連可靠性與技術(shù)節(jié)點(diǎn)縮小會(huì)導(dǎo)致存儲器的使用壽命縮短，因?yàn)樽詿釙?huì)導(dǎo)致嚴(yán)重的電遷移（EM），這是最關(guān)鍵的可靠性問題之一。材料和工藝技術(shù)以及技術(shù)擴(kuò)展不斷提高電磁壽命。其次是不同架構(gòu)的設(shè)備帶來的可靠性挑戰(zhàn)。在將器件架構(gòu)從 finFET 轉(zhuǎn)移到納米片再到 CFET 的過程中，熱阻急劇增加，這意味著器件通道的 Delta T 值更高。器件自熱將與金屬焦耳熱耦合。器件的自熱會(huì)影響柵極氧化物擊穿（時(shí)間相關(guān)的電介質(zhì)擊穿），并且還會(huì)降低 HCI（熱載流子注入）性能，從而使器件的 BTI（偏置溫度不穩(wěn)定性）惡化?！?/span>

可靠性是衡量存儲設(shè)備在給定時(shí)間內(nèi)無故障運(yùn)行的能力的指標(biāo)。智能手機(jī)的預(yù)期壽命為 4 年，而汽車、軍事或金融服務(wù)器應(yīng)用的預(yù)期壽命為 10 至 15 年（或更長），這一時(shí)間范圍可能非常不同。能夠理解可能影響存儲器壽命的潛在相互作用至關(guān)重要，它們可能因架構(gòu)、存儲器類型和使用情況而異。

這也會(huì)影響使用哪種內(nèi)存以及整個(gè)系統(tǒng)架構(gòu)。因此，如果記憶可以被替換，那么與將這些記憶嵌入某種類型的高級封裝中并密封起來相比，壽命就不那么重要了?！高@就像擁有一個(gè) DRAM 卡池，現(xiàn)在就可以升級，」瑞薩電子的 Kanigicherla 說道。「使用 HBM，如果出現(xiàn)問題，你將無能為力，因此你將扔掉非常昂貴的芯片。在 CPU 方面，服務(wù)器之間的聯(lián)系非常緊密，你無法做太多的事情來升級任何東西。這就是全局共享內(nèi)存概念起作用的原因。其中一些解決方案是自動(dòng)出現(xiàn)的。」

延遲增加了另一個(gè)權(quán)衡。「特別是使用 HBM，可以將處理器和 DRAM 非常緊密地結(jié)合在一起，」Cadence IP 集團(tuán)產(chǎn)品營銷總監(jiān) Frank Ferro 說道?！高@樣做有很多好處。HBM 一直在快速發(fā)展。我們幾乎每兩年就會(huì)看到性能的改進(jìn)。所以這條曲線很陡。但從系統(tǒng)設(shè)計(jì)的角度來看，2.5D 仍然是一個(gè)挑戰(zhàn)。優(yōu)化中介層并幫助客戶設(shè)計(jì)這確實(shí)是對話的關(guān)鍵部分。」

結(jié)論

自 1967 年發(fā)明以來，DRAM 一直是計(jì)算的關(guān)鍵。盡管多年來無數(shù)存儲技術(shù)對其提出了挑戰(zhàn)，但沒有任何技術(shù)可以取代它。鑒于圍繞這項(xiàng)技術(shù)的狂熱活動(dòng)，在可預(yù)見的未來沒有任何東西可以取代它。

DRAM 現(xiàn)在不再是一種類型，而是有多種類型，并且每種類型都在不斷發(fā)展并催生新的想法。從內(nèi)存到處理元件的物理連接，到服務(wù)器機(jī)架外部的內(nèi)存池，各個(gè)層面都有創(chuàng)新。目前正在努力縮短信號在內(nèi)存和處理器內(nèi)核之間傳輸?shù)木嚯x，這將減少移動(dòng)數(shù)據(jù)所需的功耗以及每個(gè)周期所需的時(shí)間。

從長遠(yuǎn)來看，DRAM 仍然是一個(gè)充滿活力和創(chuàng)新的領(lǐng)域，并且即將出現(xiàn)更多的創(chuàng)新和不同的方式來組合內(nèi)存解決方案，這些解決方案可以對性能、成本、可靠性和壽命產(chǎn)生重大影響。

新聞中心

芯片設(shè)計(jì)中，DRAM 類型的選擇正在變復(fù)雜

什么地方最有效

其他存儲方法

權(quán)衡

結(jié)論

評論

相關(guān)推薦

技術(shù)專區(qū)