如何讓linux服務(wù)器磁盤io性能翻倍

作者：時間：2016-09-12 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

一機械磁盤的io的速度主要受“尋道速度”的限制，所以在訪問小文件時io性能會極差。如果不在乎成本，可以通過使用固態(tài)硬盤來解決這個問題。

本文引用地址：http://m.butianyuan.cn/article/201609/304177.htm

二 linux的主流文件系統(tǒng)(如ext4等)，在文件系統(tǒng)持續(xù)比較滿，且需要經(jīng)常刪改文件時，會產(chǎn)生大量文件碎片。在我開發(fā)的一款代理服務(wù)器中，磁盤長期滿負(fù)荷運轉(zhuǎn)，運行一個月后文件碎片大約會讓io性能降低至只剩20%-30%

這一期我們來看一下有哪些辦法可以減少linux下的文件碎片。主要是針對磁盤長期滿負(fù)荷運轉(zhuǎn)的使用場景(例如http代理服務(wù)器);另外有一個小技巧，針對互聯(lián)網(wǎng)圖片服務(wù)器，可以將io性能提升數(shù)倍。

如果為服務(wù)器訂制一個專用文件系統(tǒng)，可以完全解決文件碎片的問題，將磁盤io的性能發(fā)揮至極限。對于我們的代理服務(wù)器，相當(dāng)于把io性能提升到3-5倍。

在現(xiàn)有文件系統(tǒng)下進(jìn)行優(yōu)化

linux內(nèi)核和各個文件系統(tǒng)采用了幾個優(yōu)化方案來提升磁盤訪問速度。但這些優(yōu)化方案需要在我們的服務(wù)器設(shè)計中進(jìn)行配合才能得到充分發(fā)揮。

文件系統(tǒng)緩存

linux內(nèi)核會將大部分空閑內(nèi)存交給虛擬文件系統(tǒng)，來作為文件緩存，叫做page cache。在內(nèi)存不足時，這部分內(nèi)存會采用lru算法進(jìn)行淘汰。

通過free命令查看內(nèi)存，顯示為cached的部分就是文件緩存了。

如何針對性優(yōu)化：

lru并不是一個優(yōu)秀淘汰算法，lru最大的優(yōu)勢是普適性好，在各種使用場景下都能起到一定的效果。

如果能找到當(dāng)前使用場景下，文件被訪問的統(tǒng)計特征，針對性的寫一個淘汰算法，可以大幅提升文件緩存的命中率。

對于http正向代理來說，一個好的淘汰算法可以用1GB內(nèi)存達(dá)到lru算法100GB內(nèi)存的緩存效果。

如果不打算寫一個新的淘汰算法，一般不需要在應(yīng)用層再搭一個文件cache程序來做緩存。

最小分配

當(dāng)文件擴大，需要分配磁盤空間時，大部分文件系統(tǒng)不會僅僅只分配當(dāng)前需要的磁盤空間，而是會多分配一些磁盤空間。這樣下次文件擴大時就可以使用已經(jīng)分配好的空間，而不會頻繁的去分配新空間。

例如ext3下，每次分配磁盤空間時，最小是分配8KB。

最小分配的副作用是會浪費一些磁盤空間(分配了但是又沒有使用)

如何針對性優(yōu)化：

我們在reiserfs下將最小分配空間從8KB改大到128K后提升了30%的磁盤io性能。

如果當(dāng)前使用場景下小文件很多，把預(yù)分配改大就會浪費很多磁盤空間，所以這個數(shù)值要根據(jù)當(dāng)前使用場景來設(shè)定。

似乎要直接改源代碼才能生效，不太記得了，09年的時候改的，有興趣的同學(xué)自己google吧。

io訪問調(diào)度

在同時有多個io訪問時，linux內(nèi)核可以對這些io訪問按LBA進(jìn)行合并和排序，這樣磁頭在移動時，可以“順便”讀出移動過程中的數(shù)據(jù)。

2.6內(nèi)核有四種不同的排序算法，有些側(cè)重于io性能最大化，也有一些側(cè)重于調(diào)度的公平性，大致上的原理都類似于電梯排序。

SATA等磁盤甚至在磁盤中內(nèi)置了io排序來進(jìn)一步提升性能，一般需要在主板中進(jìn)行配置才能啟動磁盤內(nèi)置io排序。linux的io排序是根據(jù)LBA進(jìn)行的，但LBA是一個一維線性地址，無法完全反應(yīng)出二維的圓形磁盤，所以磁盤的內(nèi)置io排序能達(dá)到更好的效果。

關(guān)于LBA請參考上一期博客，http://blog.chinaunix.net/uid-29873073-id-4514435.html

如何針對性優(yōu)化：

io訪問調(diào)度能大幅提升io性能，前提是應(yīng)用層同時發(fā)起了足夠的io訪問供linux去調(diào)度。

怎樣才能從應(yīng)用層同時向內(nèi)核發(fā)起多個io訪問呢?

方案一是用aio_read異步發(fā)起多個文件讀寫請求。

方案二是使用磁盤線程池同時發(fā)起多個文件讀寫請求。

對我們的http正向代理來說，采用16個線程讀寫磁盤可以將性能提升到2.5倍左右。具體開多少個線程/進(jìn)程，可以根據(jù)具體使用場景來決定。

小提示：

將文件句柄設(shè)置為非阻塞時，進(jìn)程還是會睡眠等待磁盤io，非阻塞對于文件讀寫是不生效的。在正常情況下，讀文件只會引入十幾毫秒睡眠，所以不太明顯;而在磁盤io極大時，讀文件會引起十秒以上的進(jìn)程睡眠。

詳見內(nèi)核源代碼do_generic_file_read會調(diào)用lock_page_killable進(jìn)入睡眠，但是不會判斷句柄的非阻塞標(biāo)志。

預(yù)讀取

linux內(nèi)核可以預(yù)測我們“將來的讀請求”并提前將數(shù)據(jù)讀取出來。通過預(yù)讀取可以減少讀io的次數(shù)，并且減小讀請求的延時。