系統(tǒng)設(shè)計工程師不可不知的DRAM控制器核心結(jié)論(二)
與前面所述不同的是DRAM時序非常復(fù)雜,接近混沌。從DRAM芯片設(shè)計人員的角度看,這非常合理,但是,很難滿足多核SoC的需求。DRAM序列或者時序命令上看起來無關(guān)緊要的小改動會導(dǎo)致您訪問存儲器的帶寬的巨大變化。由于存儲器帶寬通常是關(guān)鍵任務(wù)的瓶頸所在,因此,帶寬的變化很快就會影響系統(tǒng)性能。然而,命令序列和時序來自應(yīng)用程序和系統(tǒng)軟件之間,以及系統(tǒng)硬件各種單元之間復(fù)雜的交互——包括緩存控制器、存儲器管理器、直接存儲器訪問(DMA)控制器和加速器,以及DRAM控制器。
SoC的功能越來越強大,這種情況會更加復(fù)雜。目前,一個多核系統(tǒng)級IC會有同時運行的兩個甚至更多的多線程CPU,導(dǎo)致共享L2高速緩存來讀取指令線,隨機對數(shù)據(jù)線進行讀寫操作。同時,計算加速器以自己的方式遍歷數(shù)據(jù)結(jié)構(gòu)。一個器件可以處理流視頻,另一個用于矩陣乘法預(yù)讀取,第三個執(zhí)行路由表的隨機訪問。增加一個散射收集DMA控制器,處理光纖接口、硬盤和顯示器之間的數(shù)據(jù),結(jié)果是,在DRAM控制器的系統(tǒng)側(cè)會有些不協(xié)調(diào)。
如果DRAM控制器只是按照系統(tǒng)接收順序進行操作,那么,優(yōu)化DRAM操作的工作會同等落在規(guī)劃人員、設(shè)計人員和軟件開發(fā)人員上——這是很難做到的。Altera公司戰(zhàn)略市場經(jīng)理Argy Krikelis提醒說:“特別是多核設(shè)計,規(guī)劃人員遇到定位和性能問題?!必?zé)任落在DRAM控制器上,那么,盡可能利用其信息消除這種不協(xié)調(diào),轉(zhuǎn)換為經(jīng)過優(yōu)化的命令流。
深入了解DRAM控制器就會知道,這些模塊的設(shè)計人員怎樣處理這些難題。您可以認(rèn)為一個現(xiàn)代DRAM控制器有三個主要模塊——物理接口、命令處理器以及事物處理器——如圖3 所示。
圖3.一個現(xiàn)代DRAM控制器涉及到事物處理器、命令處理器和物理接口
物理接口連接DRAM芯片或者存儲器模塊。它讀取來自命令處理器的一個命令流,將具有正確時序的命令發(fā)送至DRAM芯片,管理相關(guān)的數(shù)據(jù)字節(jié)流。接口收發(fā)器、命令和數(shù)據(jù)同步緩沖,以及產(chǎn)生正確命令和數(shù)據(jù)時序的狀態(tài)機都含在這一模塊中。而且,還有用于進行復(fù)雜的初始化操作的狀態(tài)機,校準(zhǔn)DDR3 DRAM規(guī)范設(shè)定的序列,如圖1所示。此外,某些應(yīng)用的物理接口還會包括自測試、診斷和誤碼探測以及糾錯硬件。當(dāng)您改變DRAM的容量或者速率等級時,必須調(diào)整物理接口。
物理接口的上游是命令處理器。這一模塊跟蹤DRAM的狀態(tài),將到達(dá)總線讀寫周期轉(zhuǎn)換為相應(yīng)的DRAM命令序列。例如,命令處理器會找到通過其輸入隊列散射連續(xù)字的總線讀序列,然后,向其輸出隊列發(fā)出預(yù)充電,激活,以及模塊讀命令。對此,命令處理器必須知道當(dāng)發(fā)出新命令后,將打開哪一芯片的哪一塊的哪一行。在某些設(shè)計中,命令處理器還處理地址重新映射,在多個塊上擴展一個連續(xù)的數(shù)據(jù)結(jié)構(gòu)。
隨著對帶寬需求的增長,命令處理器的復(fù)雜度也在不斷提高。例如,處理器會提前處理其輸入隊列,重新安排操作,盡可能保持在激活的行上,重疊預(yù)充電讀操作,或者對塊進行間插操作。最重要的是,處理器會盡量避免一個塊的行之間出現(xiàn)乒乓效應(yīng)。必須確定所有這些調(diào)整,并且隨時能夠進行調(diào)整。
這方面的努力會有其回報。Krikelis說:“我們看到在某些應(yīng)用中,分組和重新排序能夠?qū)崿F(xiàn)92%的理論最大DRAM帶寬。”
最后,事物處理器位于命令處理器和SoC的其他部分之間。一般有一些通道連接至SoC的高速中心交換結(jié)構(gòu)上。事物處理器的主要工作是將到達(dá)的各種通道的讀寫數(shù)據(jù)流進行組合,加上優(yōu)先級,這樣,每一通道得到了所需的延時和帶寬——因此,每一高速緩存控制器、DMA引擎或者這些通道另一端的加速器也得到了所需的延時和帶寬。
在動態(tài)環(huán)境中選擇這種優(yōu)先級方案并不容易。如果您不能精確的預(yù)測每一通道的數(shù)據(jù)流特性,那么,這會非常困難。理想情況下,工作負(fù)荷是固定的,因此,您可以為其優(yōu)化優(yōu)先級方案?;蛘?,會有一些清晰的訪問模式,隨著數(shù)據(jù)流的變化而提供動態(tài)調(diào)整優(yōu)先級。Krikelis說,系統(tǒng)規(guī)劃人員和控制器設(shè)計人員研究了這一問題,使用了從表格到商用DRAM仿真工具的所有工具。但,還是無法讓工作更簡單一些。
在某些情況下,應(yīng)用的特征很明顯,事物處理器會承擔(dān)更多的工作。Krikelis說,可以對最近的DRAM行進行高速緩存操作,或者控制器中經(jīng)常被激活的行進行高速緩存操作。而且,在某些情況下,設(shè)計人員可以針對某些通道進行一些特定任務(wù)的重新排序或者某些讀寫操作。
高級DRAM控制器中的三個主要模塊協(xié)同工作,能夠使復(fù)雜多核SoC盡可能接近最大理論DRAM帶寬。但是提高帶寬可能需要犧牲延時,最高優(yōu)先級線程除外。某些控制器設(shè)計會有32或者64深命令序列,意味著,低優(yōu)先級訪問會長時間停留在序列中。一般而言,DRAM控制器能夠進行的工作越多,它處理的SoC體系結(jié)構(gòu)和組合任務(wù)就越具體。這就把難題留給了系統(tǒng)設(shè)計人員。
回到系統(tǒng)級
您可能會說:“很有趣。對此,我應(yīng)該做什么?”正如我們在開始所闡述的,軟件、系統(tǒng)硬件以及控制器之間的交互會決定您從DRAM那里能夠得到的實際帶寬。作為一名系統(tǒng)設(shè)計人員,您的確有一定的自由度。
最好的方法一般是采用SoC供應(yīng)商的參考設(shè)計。參考設(shè)計團隊完成了他們的工作。理想情況下,您完全按照設(shè)計人員所希望的方式來使用SoC。Krikelis提醒說:“如果您購買了ASSP,那就沒有太多的選擇。DRAM控制器和芯片中的其他模塊會針對特定的應(yīng)用進行整體優(yōu)化?!?/P>
參考設(shè)計中的這些軟件也是在知道了這些優(yōu)化后才編寫的。例如,經(jīng)驗豐富的編程人員會盡可能保持存儲器參考位于行中,可以同時打開,以便減少高速緩存未命中和DRAM行未命中等問題。他們能夠熟練的在塊上分配數(shù)據(jù)結(jié)構(gòu),采用間插操作。他們可以安排CPU內(nèi)核、加速器和DMA的工作,避免控制器可能解決不了的沖突問題。他們知道,對于控制器中未處理器的命令,DRAM、高速緩存以及命令隊列中的數(shù)據(jù),數(shù)據(jù)一致性是他們要解決的關(guān)鍵問題。采用這類參考設(shè)計的系統(tǒng)設(shè)計人員的工作是盡量不打破這種一致性。
但是有些時候,系統(tǒng)設(shè)計人員會有更大的自由度。Krikelis指出,如果DRAM物理接口是可配置的,您可以通過簡單的使用更大的DRAM來提高存儲器的有效帶寬。在某些情況下,可以調(diào)整一些DRAM控制器的內(nèi)部參數(shù),例如,分配給通道的優(yōu)先級、重新排序算法,以及命令隊列的深度等。
但是,在某些情況下,僅僅進行調(diào)整是不夠的。Krikelis提醒說:“沒有一個簡單的答案來滿足所有人的規(guī)劃需求。有時候您需要建立自己的訪問抽象層?!?/P>
對于資金雄厚的有影響的設(shè)計團隊,這意味著,與ASSP供應(yīng)商合作,修改事物處理器,甚至是命令處理器。對于其他規(guī)模較大的工程,DRAM帶寬需求會滿足開發(fā)ASIC的要求。對于不能滿足ASIC前端成本的設(shè)計,替代方案是系統(tǒng)級FPGA。通過這些方法,系統(tǒng)設(shè)計人員在控制器的某些部分采用現(xiàn)有的知識產(chǎn)權(quán)(IP),設(shè)計盡可能多的定制操作和命令處理操作,以滿足其需求。
即使系統(tǒng)團隊選擇不去修改DRAM控制器,他們理解其功能也很重要。很多選擇都能夠?qū)崿F(xiàn)與DRAM控制器的互操作,從DRAM芯片選擇到數(shù)據(jù)怎樣在系統(tǒng)中輸入輸出,線程怎樣分配給處理器,應(yīng)用程序怎樣將數(shù)據(jù)結(jié)構(gòu)映射到物理存儲器中等。難點是怎樣高效的使用DARM帶寬,最終目的是提高整個系統(tǒng)的性能和能效。
評論