關(guān) 閉

新聞中心

EEPW首頁(yè) > 工控自動(dòng)化 > 設(shè)計(jì)應(yīng)用 > 基于CC―NUMA的多處理器系統(tǒng)研究

基于CC―NUMA的多處理器系統(tǒng)研究

作者: 時(shí)間:2009-04-23 來(lái)源:網(wǎng)絡(luò) 收藏

圖4中展現(xiàn)了北橋架構(gòu)細(xì)節(jié),包括交叉通道(XBar)、內(nèi)存管理器之間的路由指令和數(shù)據(jù)信息、3個(gè)HyperTransport(超傳輸)技術(shù)的連接和處理器自己的系統(tǒng)請(qǐng)求接口(System Request Interface,SRI)。
現(xiàn)在對(duì)Opteron處理器組成的CC―系統(tǒng)的內(nèi)存訪問(wèn)進(jìn)行分析。將內(nèi)存訪問(wèn)分為本地訪問(wèn)和遠(yuǎn)程訪問(wèn)。如圖5所示為hops圖,處理器對(duì)本地存儲(chǔ)器的訪問(wèn),由于其無(wú)需經(jīng)過(guò)節(jié)點(diǎn),訪問(wèn)路程為O―hop(跳躍),依次的處理器分別需要經(jīng)過(guò)1個(gè)和2個(gè)其他的處理器才能訪問(wèn)遠(yuǎn)程存儲(chǔ)器,路程分別為1一 hop和2-hops。Opteron處理器支持在無(wú)其他任何芯片組連接的情況下支持無(wú)粘合地將至多8個(gè)處理器連接成CC―系統(tǒng)。如圖6 所示為8個(gè)處理器拓?fù)洌袑?個(gè)處理器連接成系統(tǒng)的兩種方案。在圖6中,提供兩條HyperTransport I/0通道,32 GB/s的對(duì)分帶寬,經(jīng)過(guò)計(jì)算其平均訪問(wèn)路程為1.64 hops。圖6提供了4條HyperTransport I/O通道,25.6 GB/s的對(duì)分帶寬,1.71hops的平均訪問(wèn)路程。這兩種方案各有所長(zhǎng),前者I/O帶寬雖然小于后者,但提供了更高的處理器間帶寬和更小的平均訪問(wèn)路程,在訪問(wèn)延遲上也相當(dāng)小,所以在總體性能上優(yōu)于后者。

本文引用地址:http://m.butianyuan.cn/article/202701.htm

3 新型架構(gòu)
考慮到以上兩種架構(gòu)所用的處理器具有特殊性,都有獨(dú)有的處理器間互聯(lián)總線,不能推廣到大部分處理器。而Origin2000的架構(gòu)過(guò)于復(fù)雜,也就失去了其普遍性。故在此,基于前幾種架構(gòu),提出一種更加簡(jiǎn)單、通用的CC―框架,如圖7所示為一個(gè)四處理器的系統(tǒng)原理圖。

圖7中,整個(gè)系統(tǒng)完全是一個(gè)模塊化的架構(gòu),各個(gè)模塊之間都是獨(dú)立的,包括CPU、內(nèi)存控制器、存儲(chǔ)器路由器、存儲(chǔ)器以及I/0系統(tǒng)。每個(gè)CPU有自己的CACHE、內(nèi)存控制器和可共享的本地存儲(chǔ)器,CPU可以直接訪問(wèn)本地存儲(chǔ)器,也可以通過(guò)存儲(chǔ)器路由選擇存儲(chǔ)器,然后訪問(wèn)遠(yuǎn)程存儲(chǔ)器。CACHE的一致性也通過(guò)存儲(chǔ)器路由實(shí)現(xiàn)。這樣,在CPU L2 CACHE比較大的情況下,CPU可以較少地訪問(wèn)存儲(chǔ)器,或者可以很快地訪問(wèn)本地存儲(chǔ)器,減少在訪問(wèn)遠(yuǎn)程存儲(chǔ)器時(shí)的延遲。各處理器之間的互聯(lián)可以通過(guò)現(xiàn)有的各種總線完成,如PCI一E,RAPIDI/O等,這樣既利用了現(xiàn)有技術(shù),又很方便,具體實(shí)現(xiàn)還在研究中。
存儲(chǔ)器路由的選擇可以由高速FPGA實(shí)現(xiàn),不同的FPGA可以擴(kuò)展到不同數(shù)量、類型的處理器,所以整個(gè)系統(tǒng)的擴(kuò)展性大大提高。
系統(tǒng)帶寬取決于內(nèi)存控制器帶寬,其平均的訪問(wèn)路程為1.5 hops,明顯低于前面幾種架構(gòu)的延遲。在總體性能上主要取決于FPGA路由器的性能。當(dāng)前的高速FPGA在頻率吞吐量上可以達(dá)到500 MHz以上的速度,在單引腳上可以達(dá)到6.5 Gb/s的傳輸,完全可以滿足存儲(chǔ)器路由的帶寬要求,并且其高頻率也可以有效控制整個(gè)系統(tǒng)的訪存延遲。
整個(gè)系統(tǒng)可以快速地配置起來(lái),并且可以擴(kuò)展。所用的處理器可以是X86架構(gòu)的處理器、PowerPc、MIPS處理器等,甚至一些嵌入式處理器也可以使用,真正達(dá)到了通用性。

4 結(jié) 語(yǔ)
系統(tǒng)的建構(gòu)是一個(gè)很復(fù)雜的工程,要想充分發(fā)揮硬件架構(gòu)的性能優(yōu)勢(shì)還需要操作系統(tǒng)及應(yīng)用程序的配合,不同的操作系統(tǒng)及應(yīng)用程序運(yùn)行在同樣的處理構(gòu)架上其性能表現(xiàn)也會(huì)大相徑庭。


上一頁(yè) 1 2 下一頁(yè)

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉