大型商用服務(wù)器的三大系統(tǒng)架構(gòu)

作者：時(shí)間：2010-04-02 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

從系統(tǒng)架構(gòu)來(lái)看，目前的商用服務(wù)器大體可以分為三類，即對(duì)稱多處理器結(jié)構(gòu)(SMP：Symmetric Multi-Processor)，非一致存儲(chǔ)訪問(wèn)結(jié)構(gòu)(NUMA：Non-Uniform Memory Access)，以及海量并行處理結(jié)構(gòu)(MPP：Massive Parallel Processing)。它們的特征分別描述如下：

本文引用地址：http://m.butianyuan.cn/article/257986.htm

SMP(Symmetric Multi-Processor)

　　所謂對(duì)稱多處理器結(jié)構(gòu)，是指服務(wù)器中多個(gè)CPU對(duì)稱工作，無(wú)主次或從屬關(guān)系。各CPU共享相同的物理內(nèi)存，每個(gè) CPU訪問(wèn)內(nèi)存中的任何地址所需時(shí)間是相同的，因此SMP也被稱為一致存儲(chǔ)器訪問(wèn)結(jié)構(gòu)(UMA：Uniform Memory Access)。對(duì)SMP服務(wù)器進(jìn)行擴(kuò)展的方式包括增加內(nèi)存、使用更快的CPU、增加CPU、擴(kuò)充I/O(槽口數(shù)與總線數(shù))以及添加更多的外部設(shè)備(通常是磁盤存儲(chǔ))。

　　SMP服務(wù)器的主要特征是共享，系統(tǒng)中所有資源(CPU、內(nèi)存、I/O等)都是共享的。也正是由于這種特征，導(dǎo)致了SMP服務(wù)器的主要問(wèn)題，那就是它的擴(kuò)展能力非常有限。對(duì)于SMP服務(wù)器而言，每一個(gè)共享的環(huán)節(jié)都可能造成SMP服務(wù)器擴(kuò)展時(shí)的瓶頸，而最受限制的則是內(nèi)存。由于每個(gè)CPU必須通過(guò)相同的內(nèi)存總線訪問(wèn)相同的內(nèi)存資源，因此隨著CPU數(shù)量的增加，內(nèi)存訪問(wèn)沖突將迅速增加，最終會(huì)造成CPU資源的浪費(fèi)，使 CPU性能的有效性大大降低。實(shí)驗(yàn)證明，SMP服務(wù)器CPU利用率最好的情況是2至4個(gè)CPU。

圖1.SMP服務(wù)器CPU利用率狀態(tài)

NUMA(Non-Uniform Memory Access)

　　由于SMP在擴(kuò)展能力上的限制，人們開始探究如何進(jìn)行有效地?cái)U(kuò)展從而構(gòu)建大型系統(tǒng)的技術(shù)，NUMA就是這種努力下的結(jié)果之一。利用NUMA技術(shù)，可以把幾十個(gè)CPU(甚至上百個(gè)CPU)組合在一個(gè)服務(wù)器內(nèi)。其CPU模塊結(jié)構(gòu)如圖2所示：

圖2.NUMA服務(wù)器CPU模塊結(jié)構(gòu)

　　NUMA服務(wù)器的基本特征是具有多個(gè)CPU模塊，每個(gè)CPU模塊由多個(gè)CPU(如4個(gè))組成，并且具有獨(dú)立的本地內(nèi)存、I/O槽口等。由于其節(jié)點(diǎn)之間可以通過(guò)互聯(lián)模塊(如稱為Crossbar Switch)進(jìn)行連接和信息交互，因此每個(gè)CPU可以訪問(wèn)整個(gè)系統(tǒng)的內(nèi)存(這是NUMA系統(tǒng)與MPP系統(tǒng)的重要差別)。顯然，訪問(wèn)本地內(nèi)存的速度將遠(yuǎn)遠(yuǎn)高于訪問(wèn)遠(yuǎn)地內(nèi)存(系統(tǒng)內(nèi)其它節(jié)點(diǎn)的內(nèi)存)的速度，這也是非一致存儲(chǔ)訪問(wèn)NUMA的由來(lái)。由于這個(gè)特點(diǎn)，為了更好地發(fā)揮系統(tǒng)性能，開發(fā)應(yīng)用程序時(shí)需要盡量減少不同CPU模塊之間的信息交互。

　　利用NUMA技術(shù)，可以較好地解決原來(lái)SMP系統(tǒng)的擴(kuò)展問(wèn)題，在一個(gè)物理服務(wù)器內(nèi)可以支持上百個(gè)CPU。比較典型的NUMA服務(wù)器的例子包括HP的Superdome、SUN15K、IBMp690等。

　　但NUMA技術(shù)同樣有一定缺陷，由于訪問(wèn)遠(yuǎn)地內(nèi)存的延時(shí)遠(yuǎn)遠(yuǎn)超過(guò)本地內(nèi)存，因此當(dāng)CPU數(shù)量增加時(shí)，系統(tǒng)性能無(wú)法線性增加。如HP公司發(fā)布Superdome服務(wù)器時(shí)，曾公布了它與HP其它UNIX服務(wù)器的相對(duì)性能值，結(jié)果發(fā)現(xiàn)，64路CPU的Superdome (NUMA結(jié)構(gòu))的相對(duì)性能值是20，而8路N4000(共享的SMP結(jié)構(gòu))的相對(duì)性能值是6.3。從這個(gè)結(jié)果可以看到，8倍數(shù)量的CPU換來(lái)的只是3倍性能的提升。

圖3.MPP服務(wù)器架構(gòu)圖

MPP(Massive Parallel Processing)

　　和NUMA不同，MPP提供了另外一種進(jìn)行系統(tǒng)擴(kuò)展的方式，它由多個(gè)SMP服務(wù)器通過(guò)一定的節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)進(jìn)行連接，協(xié)同工作，完成相同的任務(wù)，從用戶的角度來(lái)看是一個(gè)服務(wù)器系統(tǒng)。其基本特征是由多個(gè)SMP服務(wù)器(每個(gè)SMP服務(wù)器稱節(jié)點(diǎn))通過(guò)節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)連接而成，每個(gè)節(jié)點(diǎn)只訪問(wèn)自己的本地資源(內(nèi)存、存儲(chǔ)等)，是一種完全無(wú)共享(Share Nothing)結(jié)構(gòu)，因而擴(kuò)展能力最好，理論上其擴(kuò)展無(wú)限制，目前的技術(shù)可實(shí)現(xiàn)512個(gè)節(jié)點(diǎn)互聯(lián)，數(shù)千個(gè)CPU。目前業(yè)界對(duì)節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)暫無(wú)標(biāo)準(zhǔn)，如 NCR的Bynet，IBM的SPSwitch，它們都采用了不同的內(nèi)部實(shí)現(xiàn)機(jī)制。但節(jié)點(diǎn)互聯(lián)網(wǎng)僅供MPP服務(wù)器內(nèi)部使用，對(duì)用戶而言是透明的。

　　在MPP系統(tǒng)中，每個(gè)SMP節(jié)點(diǎn)也可以運(yùn)行自己的操作系統(tǒng)、數(shù)據(jù)庫(kù)等。但和NUMA不同的是，它不存在異地內(nèi)存訪問(wèn)的問(wèn)題。換言之，每個(gè)節(jié)點(diǎn)內(nèi)的CPU不能訪問(wèn)另一個(gè)節(jié)點(diǎn)的內(nèi)存。節(jié)點(diǎn)之間的信息交互是通過(guò)節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)實(shí)現(xiàn)的，這個(gè)過(guò)程一般稱為數(shù)據(jù)重分配(Data Redistribution)。

　　但是MPP服務(wù)器需要一種復(fù)雜的機(jī)制來(lái)調(diào)度和平衡各個(gè)節(jié)點(diǎn)的負(fù)載和并行處理過(guò)程。目前一些基于MPP技術(shù)的服務(wù)器往往通過(guò)系統(tǒng)級(jí)軟件(如數(shù)據(jù)庫(kù))來(lái)屏蔽這種復(fù)雜性。舉例來(lái)說(shuō)，NCR的Teradata就是基于MPP技術(shù)的一個(gè)關(guān)系數(shù)據(jù)庫(kù)軟件，基于此數(shù)據(jù)庫(kù)來(lái)開發(fā)應(yīng)用時(shí)，不管后臺(tái)服務(wù)器由多少個(gè)節(jié)點(diǎn)組成，開發(fā)人員所面對(duì)的都是同一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)，而不需要考慮如何調(diào)度其中某幾個(gè)節(jié)點(diǎn)的負(fù)載。

　　NUMA與MPP的區(qū)別

　　從架構(gòu)來(lái)看，NUMA與MPP具有許多相似之處：它們都由多個(gè)節(jié)點(diǎn)組成，每個(gè)節(jié)點(diǎn)都具有自己的CPU、內(nèi)存、I/O，節(jié)點(diǎn)之間都可以通過(guò)節(jié)點(diǎn)互聯(lián)機(jī)制進(jìn)行信息交互。那么它們的區(qū)別在哪里？通過(guò)分析下面NUMA和MPP服務(wù)器的內(nèi)部架構(gòu)和工作原理不難發(fā)現(xiàn)其差異所在。

　　首先是節(jié)點(diǎn)互聯(lián)機(jī)制不同，NUMA的節(jié)點(diǎn)互聯(lián)機(jī)制是在同一個(gè)物理服務(wù)器內(nèi)部實(shí)現(xiàn)的，當(dāng)某個(gè)CPU需要進(jìn)行遠(yuǎn)地內(nèi)存訪問(wèn)時(shí)，它必須等待，這也是NUMA服務(wù)器無(wú)法實(shí)現(xiàn)CPU增加時(shí)性能線性擴(kuò)展的主要原因。而MPP的節(jié)點(diǎn)互聯(lián)機(jī)制是在不同的SMP服務(wù)器外部通過(guò)I/O 實(shí)現(xiàn)的，每個(gè)節(jié)點(diǎn)只訪問(wèn)本地內(nèi)存和存儲(chǔ)，節(jié)點(diǎn)之間的信息交互與節(jié)點(diǎn)本身的處理是并行進(jìn)行的。因此MPP在增加節(jié)點(diǎn)時(shí)性能基本上可以實(shí)現(xiàn)線性擴(kuò)展。

　　其次是內(nèi)存訪問(wèn)機(jī)制不同。在NUMA服務(wù)器內(nèi)部，任何一個(gè)CPU可以訪問(wèn)整個(gè)系統(tǒng)的內(nèi)存，但遠(yuǎn)地訪問(wèn)的性能遠(yuǎn)遠(yuǎn)低于本地內(nèi)存訪問(wèn)，因此在開發(fā)應(yīng)用程序時(shí)應(yīng)該盡量避免遠(yuǎn)地內(nèi)存訪問(wèn)。在MPP服務(wù)器中，每個(gè)節(jié)點(diǎn)只訪問(wèn)本地內(nèi)存，不存在遠(yuǎn)地內(nèi)存訪問(wèn)的問(wèn)題。

　　數(shù)據(jù)倉(cāng)庫(kù)的選擇

　　哪種服務(wù)器更加適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境？這需要從數(shù)據(jù)倉(cāng)庫(kù)環(huán)境本身的負(fù)載特征入手。眾所周知，典型的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境具有大量復(fù)雜的數(shù)據(jù)處理和綜合分析，要求系統(tǒng)具有很高的I/O處理能力，并且存儲(chǔ)系統(tǒng)需要提供足夠的I/O帶寬與之匹配。而一個(gè)典型的OLTP系統(tǒng)則以聯(lián)機(jī)事務(wù)處理為主，每個(gè)交易所涉及的數(shù)據(jù)不多，要求系統(tǒng)具有很高的事務(wù)處理能力，能夠在單位時(shí)間里處理盡量多的交易。顯然這兩種應(yīng)用環(huán)境的負(fù)載特征完全不同。

　　從NUMA架構(gòu)來(lái)看，它可以在一個(gè)物理服務(wù)器內(nèi)集成許多CPU，使系統(tǒng)具有較高的事務(wù)處理能力，由于遠(yuǎn)地內(nèi)存訪問(wèn)時(shí)延遠(yuǎn)長(zhǎng)于本地內(nèi)存訪問(wèn)，因此需要盡量減少不同CPU模塊之間的數(shù)據(jù)交互。顯然，NUMA架構(gòu)更適用于OLTP事務(wù)處理環(huán)境，當(dāng)用于數(shù)據(jù)倉(cāng)庫(kù)環(huán)境時(shí)，由于大量復(fù)雜的數(shù)據(jù)處理必然導(dǎo)致大量的數(shù)據(jù)交互，將使CPU的利用率大大降低。

　　相對(duì)而言，MPP服務(wù)器架構(gòu)的并行處理能力更優(yōu)越，更適合于復(fù)雜的數(shù)據(jù)綜合分析與處理環(huán)境。當(dāng)然，它需要借助于支持MPP技術(shù)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)來(lái)屏蔽節(jié)點(diǎn)之間負(fù)載平衡與調(diào)度的復(fù)雜性。另外，這種并行處理能力也與節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)有很大的關(guān)系。顯然，適應(yīng)于數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的MPP服務(wù)器，其節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)的I/O性能應(yīng)該非常突出，才能充分發(fā)揮整個(gè)系統(tǒng)的性能。

新聞中心

大型商用服務(wù)器的三大系統(tǒng)架構(gòu)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)