數(shù)據(jù)采集技術(shù)要點(diǎn)剖析(五)
“ 當(dāng)前的主要差距不再是關(guān)于誰(shuí)可以采集更多的數(shù)據(jù);而是關(guān)于誰(shuí)可以快速理解所采集的數(shù)據(jù)。”本文引用地址:http://m.butianyuan.cn/article/201701/337490.htm
—— Matt Wood, 首席數(shù)據(jù)科學(xué)家, 亞馬遜公司
過去,硬件的采樣速率受到模數(shù)(A/D)轉(zhuǎn) 換速度的限制,在物理上限制了所能夠采集到的數(shù)據(jù)的多少。但時(shí)至今日,硬件供應(yīng)商已經(jīng)加快了數(shù)據(jù)采集速率,使工程師和科學(xué)家迅速地突破了速率和分辨率的障 礙,他們最終引發(fā)了新一輪的數(shù)據(jù)膨脹浪潮。簡(jiǎn)單地說,在采集應(yīng)用中,硬件不再是限制因素;對(duì)所采集到的數(shù)據(jù)如何進(jìn)行有效的管理才是未來的挑戰(zhàn)。
計(jì)算技術(shù)的進(jìn)步——包括微處理速度的提高和硬盤儲(chǔ)存容量的增加,以及硬件和軟件成本的降低——極快地引發(fā)了數(shù)據(jù)的大爆炸。特別是在測(cè)量應(yīng)用中,工程師和科學(xué)家們可以在一天中的每秒采集大量的數(shù)據(jù)。在歐洲核子研究中心(CERN)的大型強(qiáng)子對(duì)撞機(jī)運(yùn)行的實(shí)驗(yàn)中,儀器每秒可以生成40 TB的數(shù)據(jù)。一架波音噴氣發(fā)動(dòng)機(jī)在工作過程中,系統(tǒng)每30分鐘將會(huì)生成10TB的運(yùn)行信息。對(duì)于跨越大西洋的單程飛行過程中,一個(gè)四引擎的大型噴氣式客機(jī)可以生成640 TB的數(shù)據(jù)。算一算每天世界上有超過25,000次的航班,您就會(huì)理解了為什么會(huì)存在如此大量的數(shù)據(jù)。這就是“海量數(shù)據(jù)”的由來。
技術(shù)研究公司IDC最 近進(jìn)行了一項(xiàng)針對(duì)數(shù)字?jǐn)?shù)據(jù)的研究,其中包括世界范圍內(nèi)的測(cè)量文件、視頻文件和音樂文件等。這項(xiàng)研究表明,可獲取的數(shù)據(jù)量每?jī)赡昃蜁?huì)翻一番。這個(gè)事實(shí)類似于 電子領(lǐng)域最著名的定律:摩爾定律。如果數(shù)字?jǐn)?shù)據(jù)的產(chǎn)生速度繼續(xù)模仿摩爾定律,那么一個(gè)公司或組織能否取得成功的關(guān)鍵將在于它能否快速地將所采集的數(shù)據(jù)轉(zhuǎn)變 為有用的結(jié)論。
海量數(shù)據(jù)的出現(xiàn)為數(shù)據(jù)分 析、搜索、整合、報(bào)告以及系統(tǒng)維護(hù)帶來了新的挑戰(zhàn),它們必須能夠滿足與數(shù)據(jù)的指數(shù)型增長(zhǎng)速度保持同步。數(shù)據(jù)的來源很多。但是,其中工程師和科學(xué)家最感興趣 的是真實(shí)世界生成的模擬數(shù)據(jù)。它是從振動(dòng)、射頻信號(hào)、溫度、壓力、聲音、圖像、光、磁和電壓等測(cè)量中收集而來。通常數(shù)據(jù)的特點(diǎn)由四個(gè)V組成——數(shù)量(volume)、種類(variety)、速度(velocity)和價(jià)值(value)。但另一個(gè)“V”——可視化(visibility),正逐漸成為一個(gè)關(guān)鍵的決定性特性。也就是說,全球企業(yè)一個(gè)日益增長(zhǎng)的需求就是訪問不同地區(qū)的商業(yè)、工程和科學(xué)數(shù)據(jù)。這就需要云等互聯(lián)信息技術(shù)(IT)系統(tǒng)與數(shù)據(jù)采集系統(tǒng)(DAQ)緊密連接,這是目前數(shù)據(jù)采集領(lǐng)域所引起的革命性的理念突破。
具體來說,工程師正在尋找如上圖所示的三級(jí)解決方案體系架構(gòu),以構(gòu)建一個(gè)統(tǒng)一的集成解決方案,從而改善前端傳感器的實(shí)時(shí)數(shù)據(jù)捕獲和后端IT基礎(chǔ)設(shè)施的數(shù)據(jù)分析。數(shù)據(jù)流開始于第一級(jí)的傳感器,被第二級(jí)的系統(tǒng)節(jié)點(diǎn)捕獲。這些節(jié)點(diǎn)執(zhí)行初始的實(shí)時(shí)、動(dòng)態(tài)和早期數(shù)據(jù)分析。被認(rèn)為重要的信息通過軟硬件“邊緣”傳輸至傳統(tǒng)IT設(shè)備。第3級(jí)的IT基礎(chǔ)設(shè)施(服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備)負(fù)責(zé)管理、整理和深入分析早期數(shù)據(jù)或靜態(tài)數(shù)據(jù)。最后,對(duì)數(shù)據(jù)進(jìn)行存檔以備后用。通過數(shù)據(jù)流的不同階段,不斷發(fā)展的海量數(shù)據(jù)分析領(lǐng)域正在為人們提供前有未有的有用信息。例如,NI公司與Duke Energy能源公司共同開發(fā)的InsightCM(下圖)狀態(tài)監(jiān)控系統(tǒng),將硬件監(jiān)控轉(zhuǎn)變?yōu)檐浖途W(wǎng)絡(luò)級(jí),實(shí)現(xiàn)了總共3萬(wàn)多個(gè)傳感器,200多個(gè)節(jié)點(diǎn),60個(gè)不同地域的智能電網(wǎng)監(jiān)控。
評(píng)論