李飛飛對話王建民 | 云原生數(shù)據(jù)庫:重啟冰山下的戰(zhàn)爭
來源:阿里研究院
本期嘉賓:
李飛飛 阿里巴巴集團副總裁、達摩院數(shù)據(jù)庫與存儲實驗室負責人
王建民 清華大學軟件學院院長
安筱鵬 阿里研究院副院長
2020年9月17日,美國數(shù)據(jù)庫公司Snowflake上市,市值一度超過1000億美元,但其2019年銷售額不到3億美元。
2020年微軟取代了Oracle,歷史上第一次站在了數(shù)據(jù)庫全球市場的榜首地位。
亞馬遜創(chuàng)始人貝索斯曾說,“The real battle will be in databases”(未來真正的戰(zhàn)爭在數(shù)據(jù)庫)。
2020年《中共中央國務院關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》提出,數(shù)據(jù)是新的生產(chǎn)要素。數(shù)據(jù)作為一種新要素如何創(chuàng)造價值?數(shù)據(jù)如何被采集、被存儲、被處理、被加工?
數(shù)據(jù)庫是數(shù)字時代最底層的技術(shù),是數(shù)字技術(shù)體系中人們看不到的水面下的冰山,云原生正在重構(gòu)數(shù)據(jù)庫市場的競爭格局。
數(shù)據(jù)庫技術(shù)的50年:經(jīng)歷了如同移動通信從1G到5G的跨越
李飛飛
阿里達摩院數(shù)據(jù)庫與存儲實驗室負責人
數(shù)據(jù)庫是數(shù)字經(jīng)濟里最重要的基石,人們能感受到移動通信、智能手機、AI日新月異的變化,但數(shù)據(jù)庫好像幾十年如一日沒有變化。從數(shù)據(jù)庫從業(yè)者角度看,在過去的50年,數(shù)字時代最底層的數(shù)據(jù)庫技術(shù)一直在持續(xù)創(chuàng)新與迭代,經(jīng)歷了如同移動通信技術(shù)從1G到5G的跨越。
數(shù)據(jù)庫英文叫Database,即Data的Base,也就是數(shù)據(jù)基地。相當于Air Base,空軍基地一樣。在Air Base里有各種飛機,波音、空客和各類戰(zhàn)斗機。數(shù)據(jù)也一樣,今天的各類圖片、視頻、結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),都需要有一個“基地”,一個 database。
我們在實踐上觀察到的趨勢是:
第一,數(shù)據(jù)規(guī)模不斷增長。今天,數(shù)據(jù)規(guī)模已達到 ZB級增長,數(shù)據(jù)還會持續(xù)爆發(fā)式增長。
第二,數(shù)據(jù)日益多樣化。各行各業(yè)正在不斷匯聚更加多樣化的數(shù)據(jù),從趨勢上看,非結(jié)構(gòu)化數(shù)據(jù)占比會越來越高,未來幾年,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)占比可能會超過80%。
第三,云計算改變數(shù)據(jù)庫競爭格局。云計算的核心就是用虛擬化的技術(shù)將計算資源、存儲資源等資源池化,帶來數(shù)據(jù)庫向云原生系統(tǒng)演進的新趨勢。到2023年,全球各行各業(yè)75%的數(shù)據(jù)庫都將以云上部署方式運營,全球數(shù)據(jù)庫產(chǎn)業(yè)結(jié)構(gòu)正在加速重構(gòu)。
王建民
清華大學軟件學院院長
麥肯錫的報告中曾就哪個行業(yè)的數(shù)據(jù)最多給出過一個判斷:制造業(yè)是各行業(yè)中數(shù)據(jù)量最多的行業(yè)。
在民航領(lǐng)域,波音737一次跨國旅行,通過傳感器采集的數(shù)據(jù)量達到4TB,首都機場一年起落幾十萬架次客機,我們可以設想能有產(chǎn)生多少數(shù)據(jù)。
在風電領(lǐng)域,風電設備7×24小時源源不斷地產(chǎn)生數(shù)據(jù)。根據(jù)風電的國際標準,每秒鐘要采集200多個參數(shù),規(guī)模大概是225k。一臺風機如果一年運行8000個小時,積累的數(shù)據(jù)量大概是6TB。
工業(yè)體系中積累了大量的數(shù)據(jù),從數(shù)據(jù)來源上看有兩類來源:一類是傳統(tǒng)信息化系統(tǒng)使用的“慢數(shù)據(jù)”,就是就靠人輸入單據(jù)形成的數(shù)據(jù)。這些數(shù)據(jù)含金量高、但規(guī)模不大,增長相對較慢;另一類是來自物聯(lián)網(wǎng)“快數(shù)據(jù)”,特別是來自工業(yè)物聯(lián)網(wǎng)的數(shù)據(jù),工業(yè)成為工業(yè)大數(shù)據(jù)的主體。
從美Snowflake上市高估值,看數(shù)據(jù)庫的未來
安筱鵬
阿里研究院副院長
2020年9月17日,一家創(chuàng)立于2012年的Snowflake數(shù)據(jù)庫公司在美國上市,2019年Snowflake的銷售不到3億美元,但市值超過750億美元。Snowflake上市是2019年美國IPO融資規(guī)模最大公司,也創(chuàng)造了軟件公司IPO的最高記錄。一向?qū)萍脊綢PO審慎的巴菲特,也參與到項目中。
Snowflake的高估值,反映出了全球數(shù)據(jù)庫產(chǎn)業(yè)的什么趨勢?
李飛飛
阿里達摩院數(shù)據(jù)庫與存儲實驗室負責人
可以看到,Snowflake經(jīng)歷了三個階段:
第一階段,Snowflake最初定位是以計算分析為主的分析型數(shù)據(jù)庫,開發(fā)了一個高并行處理數(shù)據(jù)庫引擎。
第二階段,Snowflake演進到云原生的數(shù)據(jù)倉庫。即用云原生技術(shù),推動存儲池化和計算池化,然后實現(xiàn)存儲計算分離,利用云原生技術(shù)構(gòu)建下一代高彈性的云原生數(shù)據(jù)倉庫,主要還是以數(shù)據(jù)分析聚類等功能為主,但具備云原生這一鮮明特點。
云原生帶來的好處是,企業(yè)在決定要上不上云,或者決定上云后使用什么樣的數(shù)據(jù)庫時,極大減少決策成本和使用成本。因為云原生提供了按需按量使用、按需按量付費的新模式。就像今天家里接水電煤,一個老百姓在新房裝修的時候不接自來水,而是要去自己挖井。要自己挖井,那這個決策成本將會非常高。
第三階段,在Snowflake上市前后,開始轉(zhuǎn)型為一個云上的數(shù)據(jù)平臺。
Snowflake希望構(gòu)建一個一站式的數(shù)據(jù)管理全生命周期服務體系,這個平臺不僅是傳統(tǒng)關(guān)系型數(shù)據(jù)庫的交易服務,以及數(shù)據(jù)倉庫提供的分析能力,而且建立一個從數(shù)據(jù)生產(chǎn)到集成、傳輸?shù)絺浞?、交易到分析、智能化應用和挖掘的一站式?shù)據(jù)治理平臺。
正因為是這個理念,讓大家看到了Snowflake可能代表了下一代云原生數(shù)據(jù)庫演進的方向,所以才會讓它的估值這么高。我非常認可Snowflake提出的這種云上數(shù)據(jù)平臺概念,也認為下一代云原生數(shù)據(jù)庫一定是一個一站式的、全生命周期管理服務平臺。
安筱鵬
阿里研究院副院長
李飛飛把云原生數(shù)據(jù)庫服務比喻成自來水,還有人把它比喻成“買車”、“租車”或“打車”?!百I車”,就是要自建系統(tǒng),所有數(shù)字化硬件軟件自己來買;“租車”,就是以年、月周期鎖定資源、享受服務,周期比較長。這一商業(yè)模式再向前演進,資源鎖定的顆粒度更細、周期更短,就相當于“打車”,需要的時候按照小時去租。
從這個角度去看,這相當于過去企業(yè)使用軟件是基于license進行購買(買車),之后演進到SaaS,即按年月采購訂閱服務(租車),再向前演進到DaaS,按照數(shù)據(jù)加工處理使用的數(shù)量實時計費(打車)。
王建民
清華大學軟件學院院長
通過自己買車、租車,演變到今天打車,其實就是在提高數(shù)據(jù)資源開發(fā)利用的效率,同時降低成本、降低風險。
今天,大家都看到數(shù)字時代到來帶來的好處,但也要看到進入數(shù)字時代的成本。數(shù)字時代的技術(shù)不僅讓大家好用,同時還要用得起,這才是真正驅(qū)動數(shù)字化變革的好技術(shù)。這樣的數(shù)字化變革才能從技術(shù)走向經(jīng)濟,走到經(jīng)濟社會深處。今天的數(shù)字技術(shù)革命,不完全是技術(shù),而是需求牽引技術(shù)持續(xù)迭代。
傳統(tǒng)數(shù)據(jù)庫的挑戰(zhàn)與云原生數(shù)據(jù)庫的價值
李飛飛
阿里達摩院數(shù)據(jù)庫與存儲實驗室負責人
大數(shù)據(jù)時代,傳統(tǒng)數(shù)據(jù)庫面臨兩大挑戰(zhàn)。
一是系統(tǒng)面臨持續(xù)擴容的挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫是在馮·諾依曼架構(gòu)下發(fā)展而來的,其核心特征是計算、存儲等資源的緊耦合。當業(yè)務需要的資源超過了底層系統(tǒng)所能提供的容量后,就需要對現(xiàn)有系統(tǒng)進行不斷擴容。
二是系統(tǒng)永遠存在宕機的風險。業(yè)務運行中由于各種原因會出現(xiàn)錯誤,作為核心支撐在線業(yè)務的數(shù)據(jù)庫出問題,業(yè)務系統(tǒng)就無法正常運行了。數(shù)據(jù)庫要高可用,要確保如果底層資源發(fā)生任何問題,數(shù)據(jù)庫可以實現(xiàn)切換,實現(xiàn)同機房不同服務器、不同虛擬機之間的切換,保證上層業(yè)務系統(tǒng)對底層硬件資源的錯誤或者風險的無感知。
面對這兩個核心挑戰(zhàn),云原生帶來什么變化?就是用虛擬化的技術(shù)將資源池化。
去年疫情暴發(fā)后,釘釘業(yè)務量突然爆發(fā),尤其是很多學校老師學生利用釘釘在線上課,在線教育的需求對業(yè)務來說就像一樣突然到來的洪峰。瞬間業(yè)務洪峰出現(xiàn),現(xiàn)有系統(tǒng)容量如果不能處理,發(fā)生雪崩式的災難后果。
云原生數(shù)據(jù)庫系統(tǒng)就是將存儲計算分離,將存儲池化、計算也池化。就像以前每家每戶各打一個水井(相當于建立獨立的數(shù)據(jù)庫);現(xiàn)在,把這些水井連起來變成北京市自來水廠(相當于存儲資源池、計算資源池)。通過在技術(shù)上把存儲計算分離,獲得彈性的高可用,為業(yè)務提供不間斷服務。
去年,我們?yōu)獒斸斂焖贁U容了相當于幾千臺服務器的軟硬件資源,但是我們數(shù)據(jù)庫系統(tǒng)并不需要做像傳統(tǒng)數(shù)據(jù)庫那樣進行復雜且耗時的擴容部署,而是通過層級分離、彈性解耦的方式來更好地滿足業(yè)務需要。這樣在“洪峰”過去以后,我們又能夠快速的將資源釋放,大大提升資源使用效率。
在城市大腦里面,需要在云原生能力上構(gòu)建更加智能化的數(shù)據(jù)處理能力。在城市里,數(shù)據(jù)的種類和來源很多,有各種各樣傳感器、攝像頭上搜集的數(shù)據(jù)。一方面,我們要做實時交易,即+1-1記賬式的數(shù)據(jù)處理,要求準確性、可靠性、穩(wěn)定性、高可用;另一方面,還要做復雜的計算和分析,比如實時智能化交互式分析、處理非結(jié)構(gòu)化數(shù)據(jù)等。這時,我們從云原生數(shù)據(jù)庫衍生出來云原生數(shù)據(jù)倉庫,面向物聯(lián)網(wǎng)、互聯(lián)網(wǎng)的原生多模數(shù)據(jù)庫等多種形態(tài),來更好支持業(yè)務做實時數(shù)據(jù)分析決策。
在北京,整個公交系統(tǒng)是由啟迪公交來提供服務,每次乘客上車刷卡,就涉及到實時計費,以及后臺數(shù)據(jù)實時分析處理。北京公交業(yè)務早晚高峰期間業(yè)務量很大,其它時間業(yè)務容量壓力沒那么大。那是不是要按照峰值來設計你整個系統(tǒng)資源使用呢?當然可以,但這樣肯定會帶來很多資源浪費。如使用云原生的技術(shù),實現(xiàn)資源池化、彈性高可用,應可以快速匹配業(yè)務需求,需要多少資源釋放多少資源。
軟硬件解耦對數(shù)據(jù)庫技術(shù)有什么啟示?
安筱鵬
阿里研究院副院長
從傳統(tǒng)數(shù)據(jù)庫到云原生數(shù)據(jù)庫,最大的技術(shù)變革這一是存儲和計算的分離,是技術(shù)的不斷解耦,是技術(shù)的解構(gòu)與重組。
如果看過去IT產(chǎn)業(yè)發(fā)展的60年,從大型機、小型機、計算機、功能手機、智能手機,到今天的傳統(tǒng)汽車到智能汽車,底層技術(shù)演進的一個基本邏輯是,硬件和軟件解耦。過去一個硬件對應的一個操作系統(tǒng)、一個軟件,正通過軟硬解耦的方式重構(gòu)技術(shù)和產(chǎn)業(yè)體系。過去60年發(fā)生IT領(lǐng)域的技術(shù)路線,正在向OT(控制技術(shù))、DCS、自動化等領(lǐng)域拓展。
從軟件本身看,數(shù)據(jù)庫也在走同樣的解耦、重構(gòu)的道路和模式。從技術(shù)趨勢來說,計算跟存儲的分離,是云原生數(shù)據(jù)庫技術(shù)變革的重要趨勢。
李飛飛
阿里達摩院數(shù)據(jù)庫與存儲實驗室負責人
解耦是理解今天云原生數(shù)據(jù)庫的關(guān)鍵詞。
作為一家企業(yè)或者用戶,部署一套IT系統(tǒng),就需要部署一個數(shù)據(jù)庫。在傳統(tǒng)架構(gòu)下,企業(yè)要按照可預知的一段時間業(yè)務的峰值來設計系統(tǒng)容量和冗余,進行安裝部署。比如中國****或者北京市工商****,一年364天都沒問題,但如果有一天撐不過去,就會發(fā)生了系統(tǒng)性災難。這一天的業(yè)務需求超過系統(tǒng)所能處理的容量,那全年也就只能打0分了。
這一模式帶來的問題和挑戰(zhàn)是高成本和低使用效率,因為大部分時間系統(tǒng)是閑置的、資源是錯配的。技術(shù)解耦很好地解決了這個問題。
比如,我用虛擬化的技術(shù),通過虛擬機、容器等技術(shù),將資源可以快速部署和調(diào)用。當真正需要時,可以迅速把系統(tǒng)處理能力提升到十年一遇、百年一遇的水平。
這有點像洪水來了,快速地堆沙袋;洪水退去,沙袋可以快速去掉。今天,我們在現(xiàn)實中堆沙袋還是很痛苦的,效率很低、成本很高,但在云原生數(shù)據(jù)庫系統(tǒng)里,這是智能自動化的過程,可以快速調(diào)動資源;業(yè)務峰值過后,可以快速釋放資源,做到了對系統(tǒng)資源最大程度調(diào)動和使用效率。反過來對業(yè)務系統(tǒng)來講,運維的簡易化程度和效率也大大提升。
工業(yè)互聯(lián)網(wǎng)時代:數(shù)據(jù)庫怎么變?
王建民
清華大學軟件學院院長
萬物互聯(lián)的確是我們這個時代的主要特征?;ヂ?lián)之后的結(jié)果是連進來很多數(shù)據(jù),產(chǎn)生了很多數(shù)據(jù)。
傳統(tǒng)的信息化系統(tǒng)中,人們關(guān)注數(shù)據(jù)存儲、加工、處理,主要在后臺,面臨的挑戰(zhàn)是如何在一個大的蓄水池中解決數(shù)據(jù)問題;當物聯(lián)網(wǎng)來了之后,數(shù)據(jù)庫的架構(gòu)體系和業(yè)務模式變了,面臨的挑戰(zhàn)是在各種“端”中如何處理數(shù)據(jù)問題,需要解決的是前端的涓涓細流怎么能匯聚,思考的問題是,如何在不同“端”的節(jié)點上,做一些實時處理、優(yōu)化。
物聯(lián)網(wǎng)不僅帶來數(shù)據(jù)庫應用場景的變化,最終還將帶來數(shù)據(jù)庫處理技術(shù)的變化。
可以看出,今天驅(qū)動數(shù)據(jù)技術(shù)發(fā)展有兩個原動力,一是需求應用,應用場景驅(qū)動數(shù)據(jù)庫技術(shù)的發(fā)展,像物聯(lián)網(wǎng)從硬件技術(shù)來推動發(fā)展,會衍生出來新的應用;一是技術(shù)進步,軟件、硬件、機器、網(wǎng)絡供給能力在推動數(shù)據(jù)處理技術(shù)的發(fā)展。
驅(qū)動數(shù)據(jù)庫發(fā)展的動力是什么?
李飛飛
阿里達摩院數(shù)據(jù)庫與存儲實驗室負責人
我在美國大學當教授時候,一直認為,技術(shù)變革一直推動人類文明進步。進入產(chǎn)業(yè)界后,我越來越覺得技術(shù)變革推進人類文明進步?jīng)]有錯,但有個先決條件,就是商業(yè)需求和進步激發(fā)了技術(shù)進步,技術(shù)再推進人類文明進步。有強烈業(yè)務需求會激發(fā)人類對新技術(shù)進步的渴望。
用“買車”、“租車”、“打車”這種使用方式來描述云原生、數(shù)據(jù)庫的演進非常有道理,核心是如何優(yōu)化資源配置效率,解決資源閑置或資源配置錯位的問題。
傳統(tǒng)商業(yè)型數(shù)據(jù)庫,按照傳統(tǒng)業(yè)務規(guī)模來評估需求并進行部署,這必然會帶來資源閑置、資源錯位和匹配錯位。使用云原生架構(gòu)以后,企業(yè)基于業(yè)務需求、經(jīng)濟發(fā)展的需要,牽引技術(shù)向這個領(lǐng)域去開拓創(chuàng)新,帶來了原生數(shù)據(jù)庫技術(shù)日新月異的發(fā)展。
百度百家:http://navo.top/jyyuQv
新浪財經(jīng):http://navo.top/vu2QZz
每日經(jīng)濟新聞:http://navo.top/MZBRRf
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。