KeyStone存儲(chǔ)器架構(gòu)
3
相應(yīng)地,局域 L2 存儲(chǔ)器是高達(dá) 1MB 的統(tǒng)一存儲(chǔ)器(最初宣布推出的器件為 512KB 或 1MB)。此外,該存儲(chǔ)器也可配置為全高速緩存、全存儲(chǔ)器映射 SRAM(默認(rèn)),或是 32、64、128、256 或 512KB 四路集關(guān)聯(lián)高速緩存選項(xiàng)的組合。本文引用地址:http://m.butianyuan.cn/article/202429.htm
至共享存儲(chǔ)器子系統(tǒng)的存取路徑經(jīng)過精心的重新設(shè)計(jì),能夠顯著降低至較高級(jí)存儲(chǔ)器的時(shí)延,無論所有CorePac和數(shù)據(jù) I/O 是否處于繁忙狀態(tài),均能維持相同的效率。
二級(jí)存儲(chǔ)器效率 —— 與之前的系列產(chǎn)品相比,LL2 存儲(chǔ)器器件和控制器的時(shí)鐘運(yùn)行速率更高。C66x LL2 存儲(chǔ)器以等同于 CPU 時(shí)鐘的時(shí)鐘速率運(yùn)行。更高的時(shí)鐘頻率可實(shí)現(xiàn)更快的訪問時(shí)間,從而減少了因 L1 高速緩存失效造成的停滯,在此情況下必須從 LL2 高速緩存或 SRAM 獲取存儲(chǔ)器)。光這一項(xiàng)改進(jìn)就自動(dòng)使得從 C64X+ 或 C67X 器件進(jìn)行應(yīng)用升級(jí)實(shí)現(xiàn)了很大的速度提升,而且無需為 C66x 指令集進(jìn)行重新編譯。
此外,無論是對(duì)用戶隱藏的還是由軟件命令驅(qū)動(dòng)的高速緩存一致性操作都會(huì)變得更高效,而且需要執(zhí)行的周期數(shù)也更少。反之,這也意味著自動(dòng)的高速緩存一致性操作(例如檢測(cè)、數(shù)據(jù)移出)對(duì)處理器的干擾更小,因而停滯周期數(shù)也更少。手動(dòng)的高速緩存一致性操作(例如全局或模塊回寫和/或無效)占用較少的周期即可完成,這就意味著在為共享存儲(chǔ)器判優(yōu)的過程中,實(shí)現(xiàn)CorePac 之間或 CorePac 與 DMA 主系統(tǒng)的同步將需要更短的等待時(shí)間。
共享存儲(chǔ)器效率 —— 為進(jìn)一步提高共享存儲(chǔ)器的執(zhí)行效率,在 CorePac 內(nèi)置了擴(kuò)展存儲(chǔ)器控制器 (XMC)。對(duì)共享內(nèi)部存儲(chǔ)器 (SL2/SL3) 和外部存儲(chǔ)器 (DDR3 SRAM) 來說,XMC 是通向 MSMC 的通道,且架構(gòu)的構(gòu)建基礎(chǔ)實(shí)施在此前具有共享二級(jí)(SL2)存儲(chǔ)器(比如TMS320C6472 DSP)的器件之上。
圖 3 - 共享存儲(chǔ)器架構(gòu)
在以前具有 SL2 存儲(chǔ)器的器件上,通向 SL2 的存取路徑與通向 LL2的存取路徑一樣,在鄰近內(nèi)部接口處均有一個(gè)預(yù)取緩沖器。預(yù)取功能可隱藏對(duì)共享 RAM 庫的訪問時(shí)延,并可優(yōu)化代碼執(zhí)行及對(duì)只讀數(shù)據(jù)的存取(全面支持寫操作)。XMC 雖然也遵循相同的目標(biāo),但是卻進(jìn)一步擴(kuò)展添加了強(qiáng)大得多的預(yù)取功能,從而對(duì)程序執(zhí)行和 R/W 數(shù)據(jù)獲取提供了可與 LL2 相媲美的最佳性能。預(yù)取功能不僅能在訪問存儲(chǔ)器之前通過拉近存儲(chǔ)器和 C66x DSP 內(nèi)核之間的距離來降低存取時(shí)延,而且還能緩解其他 CorePac 和數(shù)據(jù) I/O 通過 MSMC 爭(zhēng)奪同一存儲(chǔ)器資源的競(jìng)爭(zhēng)局面。
MSMC 通過 256 位寬的總線與 XMC 相連,而 XMC 則可直接連接至用于內(nèi)部 SL2/SL3 RAM 的 4 個(gè)寬 1024 位存儲(chǔ)器組。內(nèi)部存儲(chǔ)器組使 XMC 中的預(yù)取邏輯功能能夠在未來每次請(qǐng)求訪問物理 RAM 之前獲取程序和數(shù)據(jù),從而避免后續(xù)訪問停滯在 XMC。MSMC 可通過另一 256 位接口與外部存儲(chǔ)器接口控制器直接相連,進(jìn)一步將 CorePac 的高帶寬接口一直擴(kuò)展到外部存儲(chǔ)器。
對(duì)于外部存儲(chǔ)器而言,KeyStone架構(gòu)可通過與共享內(nèi)部存儲(chǔ)器相同的通道進(jìn)行訪問,從而較之前的架構(gòu)實(shí)現(xiàn)了顯著的增強(qiáng)。該通道的寬度是之前器件的兩倍,而速度則為一半,從而大幅降低了到達(dá)外部 DDR3 存儲(chǔ)器控制器(通過 XMC 和 MSMC)的時(shí)延。在此前的 C6000 DSP 中以及眾多的嵌入式處理器架構(gòu)中,外部 CPU 和高速緩存訪問是通過芯片級(jí)互連進(jìn)行發(fā)布的,而 XMC 則可提供更為直接的最優(yōu)通道。當(dāng)從外部存儲(chǔ)器執(zhí)行程序時(shí),其可大幅提高 L1/L2 高速緩存效率,并在多個(gè)內(nèi)核與數(shù)據(jù) I/O 對(duì)外部存儲(chǔ)器并行判優(yōu)時(shí)能夠顯著降低所帶來的遲滯。
評(píng)論