新聞中心

EEPW首頁 > 業(yè)界動態(tài) > 庫瀚科技協(xié)辦中國移動科技周,共建多樣性算力科創(chuàng)發(fā)展新未來

庫瀚科技協(xié)辦中國移動科技周,共建多樣性算力科創(chuàng)發(fā)展新未來

作者: 時間:2023-09-11 來源: 收藏

近期,中國移動第四屆科技周暨戰(zhàn)略性新興產(chǎn)業(yè)共創(chuàng)發(fā)展大會正式啟動。中國移動攜手產(chǎn)學研用各方合作伙伴,以“澎湃創(chuàng)新力 戰(zhàn)新共未來”為主題,匯聚院士學者、產(chǎn)業(yè)大咖、業(yè)界專家,圍繞云和算力網(wǎng)絡、人工智能、6G、大數(shù)據(jù)、能力中臺、安全等領域,聚焦科創(chuàng)前沿,共商協(xié)同創(chuàng)新新模式,共謀戰(zhàn)新產(chǎn)業(yè)發(fā)展新未來。

本文引用地址:http://m.butianyuan.cn/article/202309/450415.htm

其中,庫瀚科技協(xié)辦了以“多樣性算力”為主題的分論壇,該論壇聚焦算力基礎設施領域,與各界合作伙伴開展技術創(chuàng)新分享和實踐經(jīng)驗交流,促進技術生態(tài)繁榮,共同推動數(shù)字經(jīng)濟高速發(fā)展。

(圖片來源:中國移動)

庫瀚科技軟件架構師邱重陽在本次論壇中,分享了庫瀚在全RISC-V架構下高性能存儲軟件的實踐與探索


庫瀚分享:挑戰(zhàn)與趨勢

根據(jù)IDC預測數(shù)據(jù),2025年全球數(shù)據(jù)量將增長到175ZB,中國將成為全球最大數(shù)據(jù)圈( 48.6ZB ),存算比趨近1:1,存儲與計算同等重要?;A設施(服務器)市場近萬億,目前主導這個市場的還是X86 CPU通用計算為核心的生態(tài)。而X86 CPU的核心技術被境外壟斷,價格昂貴的同時不符合國內信創(chuàng)趨勢。摩爾定律在服務器芯片上逐漸失效,但是高速的存儲、網(wǎng)絡設備還在快速發(fā)展,通用CPU很難再同時處理計算、網(wǎng)絡、存儲等需求。

在此背景下,數(shù)據(jù)中心存算一體架構一直面臨兩個主要挑戰(zhàn)

第一個挑戰(zhàn)是數(shù)據(jù)存儲生命周期和服務器更新周期不同,存算一體的服務器架構無法使存算獨立擴容,服務器的更新?lián)Q代由處理器的升級周期決定,一般是2~3年更換,與數(shù)據(jù)存儲5~10年的生命周期有較大區(qū)別,兩者之間巨大的差異導致系統(tǒng)資源大量浪費,增加數(shù)據(jù)遷移丟失風險。

另外一個挑戰(zhàn)是,傳統(tǒng)分布式存儲架構使得性能和存儲資源利用率難以兼得,通常情況下,性能型存儲通常采用三副本模式,得盤率僅僅約30%,容量型存儲采用EC模式提升得盤率,但同時增加了CPU、網(wǎng)絡的開銷,導致存儲系統(tǒng)整體性能受損。

數(shù)字經(jīng)濟時代,多樣應用推動生產(chǎn)進步,當下比較熱有ChatGPT、自動駕駛等,這些應用的背后都在消耗巨大的算力。這些不同的應用需要不同的算法,特定的算法匹配特定的算力來處理才能發(fā)揮更好的能效比。

業(yè)界涌現(xiàn)出越來越多的數(shù)據(jù)處理單元(DPU)和基礎設施處理單元(IPU)專用芯片,在數(shù)據(jù)流處理路徑上取代通用處理器,提升算力能效比。面對新的業(yè)務需求,結合計算、網(wǎng)絡和存儲的新技術發(fā)展趨勢,新型存算分離的Diskless架構將重新定義數(shù)據(jù)中心基礎設施。Top 廠商積極布局Diskless 架構,通過IPU對接共享的閃存盤框。

我們可以說:傳統(tǒng)存儲是存儲1.0時代,分布式存儲開啟存儲2.0時代,Diskless正在帶領我們走進存儲3.0時代。



策略與思路

·思路一:存儲服務器使用存儲專用芯片

目前芯片龍頭已經(jīng)推出的各類智能網(wǎng)卡形態(tài)數(shù)據(jù)處理芯片,主要是滿足云廠商自定義的CPU算力卸載需求。頭部廠商都在專用數(shù)據(jù)處理芯片的方向,但是目前看到的數(shù)據(jù)處理芯片側重于計算服務器側網(wǎng)絡、計算虛擬化卸載等問題,存儲服務器更強調IO加速、EC壓縮的優(yōu)化,低功耗、低成本的需求?;诖鎯S眯酒拇鎯Ψ掌魇侨86架構、提升算力能效比、降低存儲服務器成本的一個有效手段,當然也同時需要對應存儲基礎軟件來與之配套。

·思路二:通過數(shù)據(jù)分層機制來解決存儲性能和資源的有效利用率難以兼得的矛盾

數(shù)據(jù)分層存儲已經(jīng)是一個比較老話題了,但就當前數(shù)據(jù)中心Diskless架構的趨勢來說,數(shù)據(jù)分層本身使用了兩層數(shù)據(jù)分離存儲的策略,這和Diskless數(shù)據(jù)拉遠池化的理念更加契合。一般來說,數(shù)據(jù)分層機制,通過副本機制對外提供統(tǒng)一的高性能存儲服務;通過EC策略進行數(shù)據(jù)存儲使得存儲系統(tǒng)整體得盤率更高。通過兩層架構的技術整合,以提高存儲系統(tǒng)整體的存儲性能和資源的有效利用率。

·思路三:通過軟硬融合的設計提升存儲系統(tǒng)資源的有效利用率

首先,目前SSD訪問接口仍然是基于塊語義的隨機覆蓋寫,這并不契合NAND Flash的特性,NAND Flash是追加寫、擦除后寫,SSD為了適配傳統(tǒng)塊語義的接口,不得不在內部實現(xiàn)轉換層FTL,增加了元數(shù)據(jù)管理、GC、OP空間預留等資源的開銷。為了解決這個問題,庫瀚提出了open channel技術,以及繼承于它的zoned namespace技術,這些技術突破傳統(tǒng)的標準硬件接口,打通設備與應用層之間的信息屏障。

其次是存儲側的計算卸載,也可以說是近存儲計算。存儲服務器側的數(shù)據(jù)壓縮、EC等算法,不適合利用通用處理器來計算,將其卸載到專用處理器可以顯著提升能效比。

實踐與探索

庫瀚打造的存儲平臺是從底層SSD 主控芯片、SSD 固件、存儲服務器主控到存儲底層基礎軟件全技術棧打通的一個存儲架構,在IO鏈路上基于全RISC-V架構主控平臺,軟硬融合設計的全閃存存儲平臺。

庫瀚兩顆RISC-V芯片——Aurora SSD主控、eSPU覆蓋從應用到存儲全流程,eSPU主板主控形態(tài)支持實現(xiàn)無x86架構的存儲服務器,eSPU智能網(wǎng)卡形態(tài)面向數(shù)據(jù)服務基礎設置場景;Aurora SSD主控支持實現(xiàn)PCIE 5.0/4.0等多型號的高性能企業(yè)級固態(tài)硬盤。

庫瀚StorEngine 軟固件平臺是一套軟件定義存儲生態(tài)的高性能分布式存儲軟件基礎計算模組,也是兩顆RISC-V芯片平臺的存儲基礎軟件,以助力數(shù)據(jù)中心實現(xiàn)在現(xiàn)有硬件平臺、eSPU/Aurora硬件平臺下發(fā)揮業(yè)界領先的性能。

StorEngine 既可以運行在x86ARM平臺上,也可以運行在eSPU(RISC-V)平臺上。

庫瀚StorEngine 采用Diskless 存算分離架構,把存儲資源拉遠池化,以替換傳統(tǒng)存儲中的本地盤;通過高密度的SPU盤框 + 存儲計算分開擴容的能力,來降低數(shù)據(jù)中心整體成本。

庫瀚StorEngine 使用數(shù)據(jù)分層和統(tǒng)一zone設計,性能層和容量層的分層設計使得系統(tǒng)在提升得盤率的同時,能夠提供高性能存儲服務;統(tǒng)一zone架構,使StorEngine兼容不同介質存儲設備,全局存儲資源以zone為單位進行分配,實現(xiàn)全局FTL,使SSD的磨損均衡可以在全局作用,同樣可以延長SSD的壽命。

庫瀚與中移已就存儲系統(tǒng)項目開展了合作與探索。中移ESSD是一套全自研的高性能全閃分布式存儲系統(tǒng),單卷可達百萬 IOPS以上;庫瀚StorEngine RPC組件KRPC在中移動ESSD高性能場景下的應用,提升了RPC組件效率,降低了硬件資源的開銷。單卷客戶端所需的CPU核心數(shù)量從改造前的21個下降為改造后的5個,與此同時單路IO延遲也從600us下降到270us,整個資源的利用率得到了顯著的提高,存儲系統(tǒng)的長尾延遲也有所改善。




關鍵詞:

評論


相關推薦

技術專區(qū)

關閉