新聞中心

EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 解析Linux新技術(shù)對(duì)象存儲(chǔ)文件系統(tǒng)

解析Linux新技術(shù)對(duì)象存儲(chǔ)文件系統(tǒng)

作者: 時(shí)間:2016-09-12 來(lái)源:網(wǎng)絡(luò) 收藏

2、并發(fā)數(shù)據(jù)訪問(wèn)體系結(jié)構(gòu)定義了一個(gè)新的、更加智能化的磁盤接口OSD。OSD是與網(wǎng)絡(luò)連接的設(shè)備,它自身包含存儲(chǔ)介質(zhì),如磁盤或磁帶,并具有足夠的智能可以管理本地存儲(chǔ)的數(shù)據(jù)。計(jì)算結(jié)點(diǎn)直接與OSD通信,訪問(wèn)它存儲(chǔ)的數(shù)據(jù),由于OSD具有智能,因此不需要文件服務(wù)器的介入。如果將的數(shù)據(jù)分布在多個(gè)OSD上,則聚合I/O速率和數(shù)據(jù)吞吐率將線性增長(zhǎng),對(duì)絕大多數(shù)集群應(yīng)用來(lái)說(shuō),持續(xù)的I/O聚合帶寬和吞吐率對(duì)較多數(shù)目的計(jì)算結(jié)點(diǎn)是非常重要的。結(jié)構(gòu)提供的性能是目前其它存儲(chǔ)結(jié)構(gòu)難以達(dá)到的,如ActiveScale的帶寬可以達(dá)到10GB/s。

2.3 Lustre對(duì)象存儲(chǔ)

Lustre對(duì)象存儲(chǔ)文件系統(tǒng)就是由客戶端(client)、存儲(chǔ)服務(wù)器(OST,Object Storage Target)和元數(shù)據(jù)服務(wù)器(MDS)三個(gè)主要部分組成。Lustre的客戶端運(yùn)行Lustre文件系統(tǒng),它和OST進(jìn)行文件數(shù)據(jù)I/O的交互,和MDS進(jìn)行命名空間操作的交互。為了提高Lustre文件系統(tǒng)的性能,通常Client、OST和MDS是分離,當(dāng)然這些子系統(tǒng)也可以運(yùn)行在同一個(gè)系統(tǒng)中。其三個(gè)主要部分如圖1所示。

圖1 Lustre文件系統(tǒng)的組成

Lustre是一個(gè)透明的全局文件系統(tǒng),客戶端可以透明地訪問(wèn)集群文件系統(tǒng)中的數(shù)據(jù),而無(wú)需知道這些數(shù)據(jù)的實(shí)際存儲(chǔ)位置??蛻舳送ㄟ^(guò)網(wǎng)絡(luò)讀取服務(wù)器上的數(shù)據(jù),存儲(chǔ)服務(wù)器負(fù)責(zé)實(shí)際文件系統(tǒng)的讀寫操作以及存儲(chǔ)設(shè)備的連接,元數(shù)據(jù)服務(wù)器負(fù)責(zé)文件系統(tǒng)目錄結(jié)構(gòu)、文件權(quán)限和文件的擴(kuò)展屬性以及維護(hù)整個(gè)文件系統(tǒng)的數(shù)據(jù)一致性和響應(yīng)客戶端的請(qǐng)求。 Lustre把文件當(dāng)作由元數(shù)據(jù)服務(wù)器定位的對(duì)象,元數(shù)據(jù)服務(wù)器指導(dǎo)實(shí)際的文件I/O請(qǐng)求到存儲(chǔ)服務(wù)器,存儲(chǔ)服務(wù)器管理在基于對(duì)象的磁盤組上的物理存儲(chǔ)。由于采用元數(shù)據(jù)和存儲(chǔ)數(shù)據(jù)相分離的技術(shù),可以充分分離計(jì)算和存儲(chǔ)資源,使得客戶端計(jì)算機(jī)可以專注于用戶和應(yīng)用程序的請(qǐng)求;存儲(chǔ)服務(wù)器和元數(shù)據(jù)服務(wù)器專注于讀、傳輸和寫數(shù)據(jù)。存儲(chǔ)服務(wù)器端的數(shù)據(jù)備份和存儲(chǔ)配置以及存儲(chǔ)服務(wù)器擴(kuò)充等操作不會(huì)影響到客戶端,存儲(chǔ)服務(wù)器和元數(shù)據(jù)服務(wù)器均不會(huì)成為性能瓶頸。

Lustre的全局命名空間為文件系統(tǒng)的所有客戶端提供了一個(gè)有效的全局唯一的目錄樹(shù),并將數(shù)據(jù)條塊化,再把數(shù)據(jù)分配到各個(gè)存儲(chǔ)服務(wù)器上,提供了比傳統(tǒng)SAN的塊共享更為靈活的共享訪問(wèn)方式。全局目錄樹(shù)消除了在客戶端的配置信息,并且在配置信息更新時(shí)仍然保持有效。

三、測(cè)試和結(jié)論

1、Lustre iozone測(cè)試

針對(duì)對(duì)象存儲(chǔ)文件系統(tǒng),我們對(duì)Lustre文件系統(tǒng)作了初步測(cè)試,具體配置如下:

3臺(tái)雙至強(qiáng)系統(tǒng):CPU:1.7GHz,內(nèi)存:1GB,千兆位以太網(wǎng)

Lustre文件系統(tǒng):lustre-1.0.2

版本:RedHat 8

測(cè)試程序:iozone

測(cè)試結(jié)果如下:

塊寫(MB/s/thread) 單線程 兩個(gè)線程

Lustre 1個(gè)OST 2個(gè)OST 1個(gè)OST 2個(gè)OST

21.7 50 12.8 24.8

NFS 12 5.8

從以上的測(cè)試表明,單一OST的寫帶寬比NFS好,2個(gè)OST的擴(kuò)展性很好,顯示strip的效果,兩個(gè)線程的聚合帶寬基本等于飽和帶寬,但lustre客戶方的CPU利用率非常高(90%以上),測(cè)試系統(tǒng)的規(guī)模(三個(gè)節(jié)點(diǎn))受限,所以沒(méi)有向上擴(kuò)展OST和client數(shù)量。另外,lustre的cache對(duì)文件寫的性能提升比NFS好。通過(guò)bonnie++初步測(cè)試了lustre的元數(shù)據(jù)處理能力,和NFS比,文件創(chuàng)建速度相對(duì)快一些,readdir速度慢。

2、lustre小規(guī)模測(cè)試數(shù)據(jù)(文件寫測(cè)試,單位KB/s):

硬件:Dual Xeon1.7,GigE, SCSI Ultra160 軟件:RedHat8,iozone

圖2 2個(gè)OST / 1個(gè)MDS

圖3 1個(gè)OST/1個(gè)MDS

圖4 NFS測(cè)試

從初步的測(cè)試看,lustre的性能和可擴(kuò)展性都不錯(cuò)。與傳統(tǒng)的文件系統(tǒng)相比,對(duì)象存儲(chǔ)文件系統(tǒng)具有以下優(yōu)勢(shì):

(1)性能。對(duì)象存儲(chǔ)體系結(jié)構(gòu)沒(méi)有其它共享存儲(chǔ)系統(tǒng)中的元數(shù)據(jù)管理器瓶頸。NAS系統(tǒng)使用一個(gè)集中的文件服務(wù)器作為元數(shù)據(jù)管理器,一些SAN文件系統(tǒng)則采用集中的鎖管理器,最后元數(shù)據(jù)管理將成為一個(gè)瓶頸。對(duì)象存儲(chǔ)體系結(jié)構(gòu)類似于SAN,每個(gè)結(jié)點(diǎn)都可以直接訪問(wèn)它的存儲(chǔ)設(shè)備。對(duì)象存儲(chǔ)體系結(jié)構(gòu)對(duì)SAN的改進(jìn)是沒(méi)有RAID控制器的瓶頸問(wèn)題,當(dāng)計(jì)算結(jié)點(diǎn)的規(guī)模增大時(shí),該優(yōu)勢(shì)將非常明顯,所有結(jié)點(diǎn)的總吞吐率最后將受限于存儲(chǔ)系統(tǒng)的規(guī)模和網(wǎng)絡(luò)的性能。存儲(chǔ)對(duì)象結(jié)點(diǎn)發(fā)送數(shù)據(jù)到OSD,OSD自動(dòng)優(yōu)化數(shù)據(jù)的分布,這樣減少了計(jì)算結(jié)點(diǎn)的負(fù)擔(dān),并允許向多個(gè)OSD并行讀寫,最大化單個(gè)Client的吞吐率。

(2)可擴(kuò)展性。將負(fù)載分布到多個(gè)智能的OSD,并用網(wǎng)絡(luò)和軟件將它們有機(jī)結(jié)合起來(lái),消除了可擴(kuò)展問(wèn)題。一個(gè)對(duì)象存儲(chǔ)系統(tǒng)有內(nèi)存、處理器、磁盤系統(tǒng)等,允許它們?cè)黾悠浯鎯?chǔ)處理能力而與系統(tǒng)其它部分無(wú)關(guān)。如果對(duì)象存儲(chǔ)系統(tǒng)沒(méi)有足夠的存儲(chǔ)處理能力,可以增加OSD,確保線性增加性能。

(3)OSD分擔(dān)主要的元數(shù)據(jù)服務(wù)任務(wù)。元數(shù)據(jù)管理能力通常是共享存儲(chǔ)系統(tǒng)的瓶頸,所有計(jì)算結(jié)點(diǎn)和存儲(chǔ)結(jié)點(diǎn)都需要訪問(wèn)它。在對(duì)象存儲(chǔ)結(jié)構(gòu)中,元數(shù)據(jù)服務(wù)有兩部分組成:inode元數(shù)據(jù),管理介質(zhì)上的存儲(chǔ)塊分布;文件元數(shù)據(jù),管理文件系統(tǒng)的文件層次結(jié)構(gòu)和目錄。對(duì)象存儲(chǔ)結(jié)構(gòu)增加了元數(shù)據(jù)訪問(wèn)的可擴(kuò)展,OSD負(fù)責(zé)自己的inode元數(shù)據(jù),增加一個(gè)OSD可以增加磁盤容量,并可以增加元數(shù)據(jù)管理資源。而傳統(tǒng)的NAS服務(wù)器增加更多的磁盤,則性能將更慢。對(duì)象存儲(chǔ)系統(tǒng)在容量擴(kuò)展時(shí),確保持續(xù)的吞吐率。

(4)易管理。智能化的分布對(duì)象存儲(chǔ)結(jié)構(gòu)可以簡(jiǎn)化存儲(chǔ)管理任務(wù),可以簡(jiǎn)化數(shù)據(jù)優(yōu)化分布的任務(wù)。例如,新增存儲(chǔ)容量可以自動(dòng)合并到存儲(chǔ)系統(tǒng)中,因?yàn)镺SD可以接受來(lái)自計(jì)算結(jié)點(diǎn)發(fā)出的對(duì)象請(qǐng)求。系統(tǒng)管理員不需要?jiǎng)?chuàng)建LUN,不需要重新調(diào)整分區(qū),不需要重新平衡邏輯卷,不需要更新文件服務(wù)器等。RAID塊可自動(dòng)擴(kuò)展到新的對(duì)象,充分利用新增的OSD。



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉