博客專欄

EEPW首頁(yè) > 博客 > 干貨 | 數(shù)字經(jīng)濟(jì)創(chuàng)新創(chuàng)業(yè)——DWF和Apache IOTDB研究項(xiàng)目介紹(2)

干貨 | 數(shù)字經(jīng)濟(jì)創(chuàng)新創(chuàng)業(yè)——DWF和Apache IOTDB研究項(xiàng)目介紹(2)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-12-23 來源:工程師 發(fā)布文章

接下來有請(qǐng)清華大學(xué)的Yingbo向大家介紹他們目前的項(xiàng)目。

——Chris

圖片 

圖片


非常榮幸能向大家介紹我們目前的工作。今天我向大家介紹的是快速數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序發(fā)展。其實(shí)大數(shù)據(jù)在今天并不是一個(gè)新的轉(zhuǎn)折。我們中國(guó)有很多互聯(lián)網(wǎng)行業(yè)的領(lǐng)導(dǎo)者,比如阿里巴巴、百度,他們是大數(shù)據(jù)的強(qiáng)勢(shì)玩家。而且大部分都是面向消費(fèi)者的。不過,如果仔細(xì)看看中國(guó)經(jīng)濟(jì),可能會(huì)發(fā)現(xiàn),還有一些主要行業(yè)仍然在追不上大數(shù)據(jù)的潮流,例如制造業(yè)建筑運(yùn)輸?shù)?。而今天這些行業(yè)正面臨兩大挑戰(zhàn),第一是從需求方面,行業(yè)仍然缺乏對(duì)先進(jìn)的大數(shù)據(jù)應(yīng)用程序有深刻理解的人才,如果我們回頭看看我們今天提供的技術(shù),也不足以讓他們解決他們的具體問題。然而,大數(shù)據(jù)有許多新的重點(diǎn)領(lǐng)域,如人工智能機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)等,所以我們希望我們正在做的是面向主要經(jīng)濟(jì)部門的技術(shù)和應(yīng)用創(chuàng)新?;谶@一使命,我們清華大學(xué)還成立了“大數(shù)據(jù)研究中心”,而這些研究中心是基于兩個(gè)由國(guó)家發(fā)改委支持成立的研究中心。

圖片 

圖片


我們有三個(gè)主要研究方向,第一個(gè)是數(shù)據(jù)庫(kù)技術(shù),最具代表性的是IOTDB。第二個(gè)是數(shù)據(jù)分析,包括Flok和Anylearn。第三個(gè)方向是數(shù)據(jù)vacation開發(fā)包括dataway框架,我將在接下來幾分鐘向大家介紹。


圖片


圖片我們開發(fā)dataway框架的動(dòng)機(jī)是因?yàn)樵谥袊?guó)我們發(fā)現(xiàn)有很多傳統(tǒng)行業(yè)在嘗試數(shù)字化,但這些行業(yè)總是受到現(xiàn)實(shí)世界的限制。對(duì)于工程機(jī)械來說,它的增長(zhǎng)速度是受到材料技術(shù)發(fā)展和一些現(xiàn)實(shí)問題的限制。但如果在另一邊我們可以看看左邊,會(huì)發(fā)現(xiàn)我們也見過被世界公認(rèn)的著名項(xiàng)目包括 mongoDB,Tensor Flow和最古老的東西。傳統(tǒng)工業(yè)和數(shù)字化之間存在著巨大的差距,左側(cè)的軟件可以迅速地更新迭代,但不幸的是,在另一邊,他們發(fā)現(xiàn)必須全部使用它們或全部學(xué)習(xí)它們。一個(gè)簡(jiǎn)單的要求經(jīng)常以艱難的方式實(shí)施。

圖片 

圖片


在中國(guó),我們也面臨諸多挑戰(zhàn),工具太過笨重,人才價(jià)格昂貴,企業(yè)缺乏現(xiàn)成的應(yīng)用程序,因?yàn)镮T行業(yè)快速發(fā)展,新的需求無法第一時(shí)間得到滿足。結(jié)果是薄弱的,數(shù)字化轉(zhuǎn)型的增長(zhǎng)預(yù)期與工業(yè)內(nèi)部的開發(fā)規(guī)則之間存在矛盾。

圖片 

圖片


因此,基于這種演變,我們希望改變我們只想專注于大數(shù)據(jù)的想法,我們必須做一些大數(shù)據(jù)的應(yīng)用程序開發(fā)工具。我們定義了開發(fā)環(huán)節(jié)的四個(gè)指標(biāo),第一個(gè)是一體化,開發(fā)人員關(guān)注兩個(gè)重要方面:數(shù)據(jù)和交互,節(jié)約時(shí)間來考慮軟件架構(gòu)和技術(shù)細(xì)節(jié)。第二點(diǎn)是高度整合性,我們采用了一個(gè)模型驅(qū)動(dòng)的設(shè)計(jì)概念來推行基于整合行為的系統(tǒng),減少后續(xù)測(cè)試和維護(hù)的成本。第三點(diǎn)是敏感性,系統(tǒng)適時(shí)交付、適時(shí)修改、對(duì)改變需求及時(shí)響應(yīng)。最后一點(diǎn)是少代碼化?;谀P偷拇a減少代碼總量,降低開發(fā)難度。Dataway 架構(gòu)與傳統(tǒng)架構(gòu)不同之處在于,更關(guān)注應(yīng)用程序。

圖片 

圖片


基于數(shù)據(jù)框架,它通常用于三個(gè)主要場(chǎng)景。第一個(gè)是大數(shù)據(jù)系統(tǒng)協(xié)作,我們都知道大數(shù)據(jù)系統(tǒng)非常復(fù)雜,我們不能要求每個(gè)人都成為程序員去使用它,而使用dataway 框架就可以實(shí)現(xiàn)用戶與數(shù)據(jù)的交互。另外一個(gè)是快速應(yīng)用開發(fā),為了給中小企業(yè)檢驗(yàn)新的想法是否可行。最后一個(gè)是智能應(yīng)用程序快速開發(fā)工具。該工具整合了IOT和AI。以上關(guān)于大數(shù)據(jù)的內(nèi)容,接下來我會(huì)展示一個(gè)例子。Dataway 框架有兩個(gè)主要的部分,第一個(gè)是現(xiàn)代工具,包括一個(gè)數(shù)據(jù)模型、形成模型、功能模型、組織模型和授權(quán)模型。數(shù)據(jù)整合也是現(xiàn)代管理。這是一種模型驅(qū)動(dòng)的編輯工具。另外一個(gè)是解釋模型的應(yīng)用程序,最終用于用戶教育。對(duì)于前者來說,如果我們從簡(jiǎn)單的教育開始,比如一個(gè)Excel表格文件,dataway框架的數(shù)據(jù)會(huì)自動(dòng)分析表格內(nèi)容,并迅速創(chuàng)建模型。

——YingBo

圖片 

圖片


感謝Kris對(duì)大數(shù)據(jù)現(xiàn)狀的介紹,而我們所做的正是管理大數(shù)據(jù)。今天我想跟大家分享的是清華大學(xué)開發(fā)的IOTDB項(xiàng)目,這是目前世界上頂尖的開源項(xiàng)目。

圖片 

圖片


首先,我將向大家介紹什么是時(shí)序數(shù)據(jù)。時(shí)序是在特定時(shí)間點(diǎn)序列采集的標(biāo)準(zhǔn)化記錄,占據(jù)了80%的數(shù)據(jù)席位。時(shí)序數(shù)據(jù)隨處可見,滲透到工業(yè)和人類活動(dòng)的方方面面。實(shí)際上,時(shí)序數(shù)據(jù)在幾年前的工業(yè)革新關(guān)鍵基礎(chǔ)設(shè)施中就已經(jīng)為人所知。通用電氣早在十年前就已經(jīng)強(qiáng)調(diào)了時(shí)序數(shù)據(jù)的重要性。


電力行業(yè)也有一些場(chǎng)景顯露出時(shí)序數(shù)據(jù)管理的重要。從傳統(tǒng)角度來看,我們有一些不錯(cuò)的去中心化控制系統(tǒng)用于管理實(shí)時(shí)數(shù)據(jù),但現(xiàn)在我們需要的不僅是堆積如山的實(shí)時(shí)數(shù)據(jù),還有歷史數(shù)據(jù)的管理。例如,變電站和能源發(fā)電站已經(jīng)變得越來越需求導(dǎo)向,對(duì)于實(shí)時(shí)數(shù)據(jù),我們可以進(jìn)行遠(yuǎn)程監(jiān)控和遠(yuǎn)程操作,但是如果我們有一批歷史數(shù)據(jù),我們就有更多的事可以做??梢宰鰴C(jī)器的數(shù)字配置文以評(píng)估機(jī)器健康狀況,如果有機(jī)器備件,我們也可以在變電站出現(xiàn)設(shè)備失靈的情況之前及時(shí)進(jìn)行調(diào)撥。再者,如果我們擁有全生命過程數(shù)據(jù),我們可以嘗試改善生產(chǎn)或發(fā)電流程。

圖片 

圖片


過去幾年,我們?cè)?jīng)使用DCS系統(tǒng),但現(xiàn)在我們不僅在數(shù)據(jù)中心的工廠,而且在設(shè)備中部署軟件。我們的管理容量也從十年或二十年前的幾萬個(gè)數(shù)據(jù)點(diǎn)到幾千萬個(gè)數(shù)據(jù)點(diǎn)。以前我們可能只需存儲(chǔ)百分之一到百分之十的數(shù)據(jù),現(xiàn)在為了更多的分析,我們可能需要存儲(chǔ)所有的數(shù)據(jù)。近幾年有一個(gè)非?;鸬男略~叫做”邊緣到云同步”(edge-to-cloud synchronization),它也要求為數(shù)據(jù)處理更好地管理數(shù)據(jù)。

圖片 

圖片


上圖是使用DB-engines生成的圖表,它表明,時(shí)序數(shù)據(jù)的重要性在最近一段時(shí)間內(nèi)已經(jīng)引起了業(yè)界的關(guān)注。數(shù)據(jù)庫(kù)還是數(shù)據(jù)庫(kù)管理系統(tǒng)有很多種,例如傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)或鍵值數(shù)據(jù)庫(kù),但現(xiàn)在我們有一個(gè)非常熱門的時(shí)序數(shù)據(jù)庫(kù),例如Influxdb和GE PREDIX以及KairosDB等是分布式非關(guān)系型數(shù)據(jù)庫(kù)。

圖片 

圖片


下面我將介紹的是Apache IOTDB。你可能會(huì)疑惑,為什么已經(jīng)有這么多種類型的數(shù)據(jù)庫(kù),還要再開發(fā)新的呢?那是因?yàn)樵S多數(shù)據(jù)庫(kù)有自身缺陷,例如關(guān)系型數(shù)據(jù)庫(kù),目前用于90%的系統(tǒng),但是其模型數(shù)量有限,不能儲(chǔ)存大量數(shù)據(jù),如果我們有一個(gè)表格,表格只能設(shè)置1000列和1000萬行以內(nèi)的數(shù)據(jù)。另一種類型是鍵值數(shù)據(jù)庫(kù),它的缺陷也是數(shù)據(jù)存儲(chǔ)量限制。例如MangoDB對(duì)管理大數(shù)據(jù)表現(xiàn)很差。也有一些時(shí)序數(shù)據(jù)庫(kù),但是其中大部分也是基于關(guān)系型數(shù)據(jù)庫(kù)或鍵值數(shù)據(jù)庫(kù)管理系統(tǒng)。而IOTDB則解決了上述缺陷。它是在十年前由清華大學(xué)團(tuán)隊(duì)打造的新型數(shù)據(jù)庫(kù),于2018年11月進(jìn)入捐贈(zèng)給Apache,進(jìn)行了為期1年10個(gè)月的孵化,兩年后成為世界頂尖的項(xiàng)目,并榮獲了許多獎(jiǎng)項(xiàng)。

圖片 

圖片


IOTDB是一個(gè)IOT native數(shù)據(jù)管理系統(tǒng),IOT native意味著專門針對(duì)IOT場(chǎng)景使用,非常輕便易用,并且能夠深度整合進(jìn)入大數(shù)據(jù)生態(tài)系統(tǒng)的軟件。例如Apache PLC4X。物聯(lián)網(wǎng)旨在解決典型物聯(lián)網(wǎng)用例的痛點(diǎn),例如海量數(shù)據(jù)生成和高頻采樣。這是 Apache IOTDB 的架構(gòu)。我們可以從圖片中看到,有兩個(gè)部分實(shí)際上是一個(gè)文件層和引擎層。ts文件是優(yōu)化了記錄數(shù)據(jù)的文件格式,它將被上傳到IOTDB服務(wù)器。而Grafana連接器是可視化的儀表板。對(duì)于與大數(shù)據(jù)系統(tǒng)的集成,有許多連接器。

圖片 

圖片


IOTDB有許多特點(diǎn)。例如,它的跨平臺(tái)部署能力強(qiáng)。它是一個(gè)開源的,有一個(gè)非常廣泛的生態(tài)系統(tǒng)。而且其特有的數(shù)據(jù)格式ts文件具有非常高的壓縮率,可以節(jié)省大量存儲(chǔ)空間。

圖片 

圖片


IOTDB擁有大量的數(shù)據(jù)模型。以車輛數(shù)據(jù)為例,燃油車輛可以有一個(gè)唯一的ID,它的速度或燃油狀態(tài)將單獨(dú)存儲(chǔ),而不在這里的可以隨時(shí)根據(jù)需要擴(kuò)展。對(duì)ts文件來說,有很多不同數(shù)據(jù)類型,可以隨時(shí)根據(jù)需要存儲(chǔ)。

圖片 

圖片


目前有兩種非常流行的文件格式Parquet和ORC。Ts文件與之相類似性能卻優(yōu)于兩者。不僅有多種數(shù)據(jù)模型,其時(shí)序編碼也是優(yōu)化的。除此之外,它還有設(shè)備水平指數(shù),這在我們導(dǎo)入數(shù)據(jù)的時(shí)候可以獲得更多關(guān)于數(shù)據(jù)本身的信息。通常,如果我們想從邊緣設(shè)備(例如我們的手機(jī))或從車輛上傳數(shù)據(jù)到云,我們需要有兩個(gè)過程,首先我們需要對(duì)數(shù)據(jù)進(jìn)行編碼,然后上傳包。而云必須解碼數(shù)據(jù)并做進(jìn)一步的處理。但是對(duì)于 T S 文件,T S 文件本身可以只上傳到云或數(shù)據(jù)中心,可以只導(dǎo)入數(shù)據(jù),這樣我們可以節(jié)省大量的時(shí)間和計(jì)算資源。

圖片 

圖片


簡(jiǎn)單介紹一下邊云協(xié)同。它有兩個(gè)含義,第一,IOTDB可以部署在云上或數(shù)據(jù)中心或者在邊緣設(shè)備上。而在另一方面, ts文件可以在三個(gè)不同的平臺(tái)上同步。而且IOTDB還有一個(gè)非常廣泛的生態(tài)系統(tǒng),它能夠與大數(shù)據(jù)系統(tǒng)深度集成。

圖片 

圖片


Apache IOTDB有一些已經(jīng)非常廣泛的用例,不僅在中國(guó)而且在美國(guó)和歐洲都有使用,并且涵蓋了衛(wèi)星航空和鐵路和船舶業(yè)。從重點(diǎn)央企和國(guó)內(nèi)龍頭企業(yè)都有使用。

圖片 

圖片


這是上海地鐵的一個(gè)非常典型的用例,他們?cè)趪L試IOTDB之前使用Cassandra數(shù)據(jù)庫(kù)管理系統(tǒng),但后來他們發(fā)現(xiàn)其性能不佳。而IOTDB一臺(tái)服務(wù)器可以取代15個(gè)原始數(shù)據(jù)庫(kù)服務(wù)器。而且可以管理300條列車的數(shù)據(jù),每條列車每200毫秒可以收集3200條數(shù)據(jù),日均數(shù)據(jù)量達(dá)到4000億。在IOTDB被使用之前,大約是兩百太字節(jié)的數(shù)據(jù)存儲(chǔ),但在IOTDB使用之后,數(shù)據(jù)量減少到大約十六太。IOTDB在其他領(lǐng)域也有著非常廣泛的應(yīng)用。


圖片


最后,我想介紹一下Apache IOTDB開源社區(qū),這是一個(gè)開源項(xiàng)目,如果大家感興趣,都可以加入進(jìn)來。

圖片 ——Pengcheng


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉