Gartner調(diào)查顯示,生成式人工智能將推動(dòng)中國(guó)企業(yè)數(shù)據(jù)中心設(shè)計(jì)轉(zhuǎn)型
Gartner近期發(fā)布的2024年CIO和技術(shù)高管調(diào)研顯示,超過(guò)60%的中國(guó)企業(yè)計(jì)劃在未來(lái)12至24個(gè)月內(nèi)部署生成式人工智能(GenAI)。由于中國(guó)企業(yè)傾向于在本地而非通過(guò)公有云部署GenAI,目前的基礎(chǔ)設(shè)施環(huán)境無(wú)法支持GenAl項(xiàng)目,這將推動(dòng)中國(guó)企業(yè)數(shù)據(jù)中心的設(shè)計(jì)轉(zhuǎn)型。
本文引用地址:http://m.butianyuan.cn/article/202404/457645.htmGartner研究總監(jiān)張吟鈴表示:“由于安全和數(shù)據(jù)隱私方面的擔(dān)憂(yōu)以及監(jiān)管要求,一些企業(yè)更傾向于在本地部署GenAl解決方案或微調(diào)大語(yǔ)言模型(LLM)。在本地部署GenAl對(duì)于數(shù)據(jù)中心來(lái)說(shuō)并不僅僅是一個(gè)簡(jiǎn)單的托管需求,而是可能改變企業(yè)數(shù)據(jù)中心的戰(zhàn)略,因?yàn)槟P陀?xùn)練需要大規(guī)模的GPU集群?!?/p>
Gartner定義了五種GenAl部署方法(見(jiàn)圖1)。根據(jù)企業(yè)選擇的GenAI部署方法,中國(guó)的首席信息官(CIO)及基礎(chǔ)設(shè)施和運(yùn)營(yíng)(I&O)領(lǐng)導(dǎo)者需要了解GenAI部署的影響以及如何采取行動(dòng)。
圖1 生成式人工智能部署的五種方法
中國(guó)的CIO及I&O領(lǐng)導(dǎo)者須為應(yīng)對(duì)這一技術(shù)對(duì)數(shù)據(jù)中心的影響做好準(zhǔn)備。
本地部署GenAI將迫使I&O領(lǐng)導(dǎo)者改變托管環(huán)境的設(shè)計(jì)方式
部署GenAI對(duì)數(shù)據(jù)中心的影響取決于所運(yùn)行的工作負(fù)載類(lèi)型,因?yàn)槟承〨enAI工作負(fù)載需要使用高端圖形處理器(GPU)。由于中國(guó)市場(chǎng)上的高端GPU供應(yīng)有限,I&O領(lǐng)導(dǎo)者要在本地部署GenAI就需要改變托管環(huán)境的設(shè)計(jì)方式。
I&O領(lǐng)導(dǎo)者無(wú)法獨(dú)自解決供應(yīng)短缺問(wèn)題,必須與業(yè)務(wù)、AI工程師和職能團(tuán)隊(duì)合作應(yīng)對(duì)這一挑戰(zhàn)。
張吟鈴表示:“為GenAl的部署準(zhǔn)備基礎(chǔ)設(shè)施資源的中國(guó)CIO及I&O領(lǐng)導(dǎo)者應(yīng)該主動(dòng)與業(yè)務(wù)及相關(guān)團(tuán)隊(duì)合作,預(yù)測(cè)不同工作負(fù)載對(duì)數(shù)據(jù)中心的成本和時(shí)間表的影響,從而為GenAl的部署制定數(shù)據(jù)中心宏觀戰(zhàn)略。如果訓(xùn)練模型需要高端GPU集群,則需要通過(guò)平衡成本、風(fēng)險(xiǎn)和機(jī)遇(如購(gòu)買(mǎi)替代硬件或租賃GPU資源),充分了解各類(lèi)托管方案?!?/p>
部署大規(guī)模GPU集群需要改造并升級(jí)數(shù)據(jù)中心基礎(chǔ)設(shè)施和設(shè)備
從零開(kāi)始構(gòu)建基礎(chǔ)模型或微調(diào)模型需要部署大規(guī)模GPU集群,這將對(duì)現(xiàn)有數(shù)據(jù)中心帶來(lái)顛覆。因?yàn)镚enAI模型的訓(xùn)練需要高吞吐量、低延遲和無(wú)損的基礎(chǔ)設(shè)施。為了支持此類(lèi)高性能計(jì)算集群,必須對(duì)網(wǎng)絡(luò)、存儲(chǔ)、電力供應(yīng)和冷卻系統(tǒng)進(jìn)行升級(jí)。在某些情況下,需要對(duì)現(xiàn)有設(shè)施進(jìn)行改造,以承載升級(jí)后的基礎(chǔ)設(shè)施(見(jiàn)圖2)。
圖2 大規(guī)模GPU集群對(duì)數(shù)據(jù)中心的影響
張吟鈴表示:“中國(guó)CIO及I&O領(lǐng)導(dǎo)者需要與數(shù)據(jù)科學(xué)家和工程師合作,明確GPU集群規(guī)模和GenAI性能要求,從而確定網(wǎng)絡(luò)和存儲(chǔ)等方面的基礎(chǔ)設(shè)施要求。同時(shí),也需要分析電力需求、冷卻效率、機(jī)架、空間等,確定現(xiàn)有數(shù)據(jù)中心環(huán)境在部署大型GPU集群方面存在的差距。平衡時(shí)間和成本,選擇最適合的數(shù)據(jù)中心改造方案?!?/p>
評(píng)論