博客專欄

EEPW首頁(yè) > 博客 > 關(guān)于 AIOps 的過(guò)去與未來(lái),微軟亞洲研究院給我們講了這些故事

關(guān)于 AIOps 的過(guò)去與未來(lái),微軟亞洲研究院給我們講了這些故事

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-02-12 來(lái)源:工程師 發(fā)布文章

作者 | 賈凱強(qiáng)

出品 | AI科技大本營(yíng)(ID:rgznai100)

在過(guò)去的15年里,云計(jì)算實(shí)現(xiàn)了飛速發(fā)展,而這種發(fā)展也為諸多的前沿技術(shù)奠定了基礎(chǔ),AIOps便在此環(huán)境中獲得了良好的發(fā)展契機(jī)。在數(shù)字化轉(zhuǎn)型的浪潮下,云計(jì)算已經(jīng)成為了整個(gè)社會(huì)的基礎(chǔ)設(shè)施之一。當(dāng)企業(yè)把服務(wù)建立在云上,云計(jì)算的平臺(tái)性能、安全性等要求也在不斷增加,這種情況下,運(yùn)維的升級(jí)便已如箭在弦上。

為了進(jìn)一步明晰AIOps技術(shù)發(fā)展的趨勢(shì),微軟亞洲研究院常務(wù)副院長(zhǎng),微軟杰出首席科學(xué)家張冬梅,微軟亞洲研究院首席研究員林慶維兩位專家為大家做出了明確的解析。

云時(shí)代下,AIOps的希望與契機(jī)

在云計(jì)算時(shí)代里,云平臺(tái)的系統(tǒng)規(guī)模已然成為了一種大規(guī)模分布式且復(fù)雜度非常高的操作系統(tǒng)。系統(tǒng)之間存在各種問(wèn)題,盡管工程師在設(shè)計(jì)時(shí)已經(jīng)盡量將其模塊化,但不改的依然是系統(tǒng)的復(fù)雜度。而要保證復(fù)雜系統(tǒng)的穩(wěn)定、高效和安全等,就必須在整體設(shè)計(jì)、開發(fā)、運(yùn)維等各方面完成模式轉(zhuǎn)變。

微信圖片_20220212154940.jpg

張冬梅博士介紹稱,云計(jì)算帶來(lái)的范式轉(zhuǎn)變主要包括了四個(gè)層面。首先是基于規(guī)則的系統(tǒng),變成數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)。以前開發(fā)模式基本上是憑借著經(jīng)驗(yàn)和想象而來(lái),難以預(yù)測(cè)運(yùn)行狀態(tài)如何,軟件在運(yùn)行的時(shí)候會(huì)發(fā)生很多事情,模式的轉(zhuǎn)變就是希望把運(yùn)行時(shí)產(chǎn)生和記錄的數(shù)據(jù)進(jìn)行分析,增加對(duì)整個(gè)系統(tǒng)狀況的理解?;诖?,整個(gè)系統(tǒng)在設(shè)計(jì)時(shí)將不再一成不變,而是有不斷變化的思想,從基于規(guī)則到數(shù)據(jù)驅(qū)動(dòng)。

第二則是從靜態(tài)到自適應(yīng)的發(fā)展。當(dāng)系統(tǒng)不再是固定的,如CI/CD一樣,系統(tǒng)可能隨時(shí)開發(fā),隨時(shí)變化,并附帶諸多檢查,當(dāng)新代碼提交并構(gòu)建后,經(jīng)過(guò)測(cè)試會(huì)再進(jìn)行部署,依賴部署策略,在更大的范圍內(nèi)部署到整個(gè)平臺(tái)上去。整個(gè)過(guò)程從靜態(tài)變成了動(dòng)態(tài),系統(tǒng)也需要在動(dòng)態(tài)過(guò)程當(dāng)中,根據(jù)外部環(huán)境的變化進(jìn)行自身的調(diào)整。

第三則是從局部到整體的觀念轉(zhuǎn)化。在一個(gè)大的云計(jì)算系統(tǒng)中不能只看一點(diǎn),應(yīng)該把視野放大。比如在云平臺(tái)里面肯定會(huì)有存儲(chǔ),但是當(dāng)某塊硬盤壞掉時(shí),要考慮的不僅僅是換硬盤,還要考慮為什么它會(huì)壞?它壞了之后,是否旁邊的也存在風(fēng)險(xiǎn)。

第四便是防患于未然。以往的被動(dòng)式反應(yīng)是等系統(tǒng)出了問(wèn)題才去處理,但是云時(shí)代更要做的是防患于未然,要主動(dòng)在其快出問(wèn)題的時(shí)候,先行采取措施,讓問(wèn)題最好不要出現(xiàn)。而AIOps便是這樣的一種機(jī)制。尤其是在大的云計(jì)算平臺(tái),其往往可以根據(jù)自身特點(diǎn)和期望,對(duì)其設(shè)計(jì)、實(shí)現(xiàn)、運(yùn)維這三個(gè)方面實(shí)現(xiàn)模式轉(zhuǎn)變。

事實(shí)上,微軟亞洲研究院早在十余年前就開始對(duì)AIOps領(lǐng)域進(jìn)行研究。那么到底什么是AIOps呢?張冬梅博士解釋稱AIOps是通過(guò)創(chuàng)新的AI、ML技術(shù),讓用戶可以有效且高效地設(shè)計(jì)、構(gòu)建、運(yùn)營(yíng)大規(guī)模復(fù)雜的云服務(wù)。

微信圖片_20220212155002.jpg

微軟亞洲研究院常務(wù)副院長(zhǎng)、微軟杰出首席科學(xué)家張冬梅

關(guān)于現(xiàn)在,AIOps能夠帶來(lái)怎樣的改變

微軟亞洲研究院在嘗試AIOps的更多可能,關(guān)于AIOps的定義,其主要有三個(gè)方面的研究。

第一是服務(wù)/系統(tǒng),即AI for System。軟件的源代碼只有運(yùn)行起來(lái)才是一個(gè)軟件系統(tǒng),而從運(yùn)行的系統(tǒng)觀點(diǎn)來(lái)看待問(wèn)題,其便關(guān)系到系統(tǒng)的性能、穩(wěn)定性、安全性等各方面的問(wèn)題。

第二是客戶,即AI for Customer。系統(tǒng)可以服務(wù)于個(gè)人,也可以服務(wù)于企業(yè)。那么為用戶服務(wù)時(shí)便一定要注重用戶體驗(yàn)。

第三是開發(fā)/運(yùn)維的生產(chǎn)效率,即AI for DevOps。開發(fā)和運(yùn)維主要是針對(duì)開發(fā)人員和運(yùn)維人員,如果能夠用智能技術(shù)幫到他們,提高生產(chǎn)效率,則可以讓平時(shí)的工作能夠變得更加順暢。

那么AIOps的應(yīng)用場(chǎng)景包含了哪些呢?在系統(tǒng)服務(wù)方面,會(huì)常常用于異常行為檢測(cè)和預(yù)警,其可以基于數(shù)據(jù)采取機(jī)器學(xué)習(xí)的方法,再結(jié)合專業(yè)領(lǐng)域知識(shí),實(shí)現(xiàn)較好的判斷和預(yù)判。

在開發(fā)和運(yùn)維方面,如CI/CD等。其不僅需要在不影響用戶的情況下快速讓系統(tǒng)恢復(fù)正常,還需要找出問(wèn)題出現(xiàn)的原因,但是由于系統(tǒng)的復(fù)雜性導(dǎo)致很多時(shí)候很難發(fā)現(xiàn)問(wèn)題漏洞,因此需要甄別如日志等各種信息并進(jìn)行大量的診斷,從而可以通過(guò)智能的方法將診斷工作提高效率。

在客戶方面,也需要讓客戶的體驗(yàn)提升。微軟的云平臺(tái)經(jīng)過(guò)多年實(shí)踐后,將AIOps方面的實(shí)踐提煉成工具,并提供給客戶。當(dāng)客戶自己構(gòu)建服務(wù)和運(yùn)維時(shí),基于整個(gè)云平臺(tái),就能夠幫助客戶構(gòu)建其他服務(wù)。

在整個(gè)運(yùn)維系統(tǒng)里面,AIOps的研發(fā)難度可謂排名前列。在不同的場(chǎng)景中,有著不同的系統(tǒng)、客戶和DevOps運(yùn)維等。不同的場(chǎng)景會(huì)使得研究的角度不同,研究人員需要針對(duì)共性問(wèn)題進(jìn)行抽象,并從研究角度解決共性問(wèn)題,找到可推廣的算法或者解決方案,這樣才能提高解決問(wèn)題的效率。

微信圖片_20220212155022.jpg

在AIOps的研發(fā)過(guò)程中,其主要面對(duì)的挑戰(zhàn)有四個(gè)領(lǐng)域。首先是檢測(cè),也就是需要知道問(wèn)題能否及時(shí)知道;第二是診斷,要及時(shí)的找到問(wèn)題在哪里,并了解根本原因;第三是預(yù)測(cè),其需要防患于未然,而不只是出現(xiàn)問(wèn)題才采取措施;第四是優(yōu)化,面對(duì)多重約束等問(wèn)題需要不斷地將模型和產(chǎn)品進(jìn)行打磨優(yōu)化。

面向未來(lái),AIOps還有哪些發(fā)展

微軟亞洲研究院多年以來(lái)在AIOps方面進(jìn)行了深入的研究工作。其在AIOps方向上起步非常早,早在2009年前后便已經(jīng)成立了Software Analytics Group(軟件分析組),并希望從數(shù)據(jù)驅(qū)動(dòng)的角度研究軟件領(lǐng)域。這其中包括了運(yùn)行系統(tǒng)問(wèn)題、用戶體驗(yàn)問(wèn)題、開發(fā)效率問(wèn)題等。

云計(jì)算作為過(guò)去10到15年里整個(gè)軟件和工業(yè)范式的轉(zhuǎn)變,云計(jì)算系統(tǒng)也變成了運(yùn)行軟件的主要形式。因此,Software Analytics研究的焦點(diǎn)便集中到云計(jì)算系統(tǒng),微軟亞洲研究院也相應(yīng)提出了云智能/AIOps。Software Analytics做的事情就像是軟件行業(yè)的數(shù)字化轉(zhuǎn)型。用數(shù)字化轉(zhuǎn)型的觀念來(lái)看,AIOps就像把整個(gè)云計(jì)算平臺(tái)用最先進(jìn)的AI技術(shù),實(shí)現(xiàn)持續(xù)不斷的創(chuàng)新。

張冬梅博士認(rèn)為,AIOps的發(fā)展一定要落地,如果不能對(duì)軟件工業(yè)進(jìn)步做出任何貢獻(xiàn),那么技術(shù)就沒有太大意義。因此微軟亞洲研究院在研究的同時(shí),也在尋找機(jī)會(huì)將其真正部署到微軟的Azure云平臺(tái)里面,從而對(duì)公司和社會(huì)做出一些貢獻(xiàn)。

林慶維隨后對(duì)微軟亞洲研究院在AIOps方面的工作進(jìn)行了補(bǔ)充。服務(wù)系統(tǒng)方面,檢測(cè)異常行為很重要?,F(xiàn)在硬件問(wèn)題是虛擬機(jī)宕機(jī)的原因之一,在大型的硬件平臺(tái)中,磁盤故障是造成硬件問(wèn)題的主要原因。研究員們希望在出故障之前,系統(tǒng)能更早地意識(shí)到或者是能預(yù)測(cè)出磁盤故障并采取措施。如把用戶的虛擬機(jī)遷移到別的機(jī)器上去,或者通過(guò)軟啟動(dòng)等方式解決問(wèn)題,讓用戶不會(huì)受到影響。其可以作為一個(gè)機(jī)器學(xué)習(xí)的問(wèn)題,讓模型從大量硬盤的歷史數(shù)據(jù)中學(xué)習(xí)到知識(shí)之后,根據(jù)目前磁盤的狀態(tài),預(yù)測(cè)將來(lái)是否可以及時(shí)采取措施。

開發(fā)和運(yùn)維方面,在云平臺(tái)上不會(huì)像桌面軟件那樣很長(zhǎng)時(shí)間才更新一次。云平臺(tái)上,每時(shí)每刻都有非常多的新的部署產(chǎn)生,需要時(shí)時(shí)刻刻檢測(cè)其安全性,避免任何一個(gè)部署出問(wèn)題,進(jìn)而導(dǎo)致整個(gè)云平臺(tái)宕機(jī)。因此,這就需要通過(guò)AIOps的方法,以智能的方式來(lái)解決問(wèn)題,在中間階段將問(wèn)題抑制,回歸到安全狀態(tài)。針對(duì)安全部署診斷問(wèn)題,在云平臺(tái)上面的部署,需要確保從小規(guī)模部署到大規(guī)模的每一步都是安全的,最后才能部署到云平臺(tái)。在整個(gè)部署的過(guò)程中需要檢測(cè)所有的健康信號(hào),包括各種資質(zhì)、傳感器信號(hào)、狀態(tài)等,必須精確評(píng)估是否與部署相關(guān)。

因此,微軟亞洲研究院提出了遷移學(xué)習(xí)方案和主動(dòng)學(xué)習(xí)方案,即主動(dòng)遷移學(xué)習(xí)異常檢測(cè)ATAD。該方案在云平臺(tái)上的挑戰(zhàn)主要集中在難獲得高質(zhì)量的標(biāo)簽數(shù)據(jù),所以微軟亞洲研究院采用了遷移學(xué)習(xí)的方式將其他數(shù)據(jù)學(xué)到的知識(shí)轉(zhuǎn)化為目標(biāo)領(lǐng)域。并通過(guò)主動(dòng)學(xué)習(xí),讓工程師給出不同的優(yōu)先級(jí),得到最好的學(xué)習(xí)效果。通過(guò)遷移學(xué)習(xí)和主動(dòng)學(xué)習(xí),其能夠?qū)崿F(xiàn)較好的效果。用少于0.1%的人工標(biāo)注,得到了非常好的準(zhǔn)確率。目前這一方案已經(jīng)用于云平臺(tái)中,達(dá)到了高效的準(zhǔn)確度和召回率,且沒有大的遺漏。

微信圖片_20220212155043.jpg

微軟亞洲研究院首席研究員林慶維

在AIOps未來(lái)的研究方向上,微軟亞洲研究院希望其能夠更加自主化,幫助用戶做出最優(yōu)的決策,而不需要人工干預(yù);再比如希望其能夠更加主動(dòng)化,不能等問(wèn)題出現(xiàn)才想起來(lái)解決問(wèn)題,應(yīng)該在問(wèn)題出現(xiàn)之前,就將其扼殺于萌芽狀態(tài);第三則是希望其能夠更加通用,希望以后跨平臺(tái)的AIOps應(yīng)用,不僅是服務(wù)于云平臺(tái),而是服務(wù)于所有平臺(tái)。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉