如何管理模擬世界的大規(guī)模測(cè)量數(shù)據(jù)
收集更多的數(shù)據(jù)已經(jīng)不能讓您脫引而出,更重要的是誰(shuí)能夠迅速分清所收集到的數(shù)據(jù)。 在過(guò)去,硬件采樣率由于受模數(shù)轉(zhuǎn)換發(fā)生速度的限制,在物理上局限了采集數(shù)據(jù)的數(shù)量。 而如今,硬件已不再是采集應(yīng)用的限制因素。 如何管理采集到的數(shù)據(jù)才是未來(lái)的挑戰(zhàn)。
計(jì)算技術(shù)的不斷進(jìn)步,包括了微處理器速度和硬盤驅(qū)動(dòng)器存儲(chǔ)容量的提高,加之軟硬件成本的降低,引發(fā)了驚人速度的數(shù)據(jù)爆炸。 特別是在測(cè)量應(yīng)用中,工程師和科學(xué)家們每分每秒都能收集大量的數(shù)據(jù)。 歐洲核子研究中心的大型強(qiáng)子對(duì)撞機(jī)的運(yùn)行實(shí)驗(yàn)每秒鐘能產(chǎn)生40 TB的數(shù)據(jù)。 而波音噴氣發(fā)動(dòng)機(jī)運(yùn)行時(shí),每隔30分鐘系就統(tǒng)會(huì)創(chuàng)建10 TB的操作信息(Gantz,2011)。 這就是“大規(guī)模數(shù)據(jù)”。
大規(guī)模數(shù)據(jù)現(xiàn)象為數(shù)據(jù)分析、搜索、集成、報(bào)告和系統(tǒng)維護(hù)帶來(lái)了新的挑戰(zhàn),只有滿足這些挑戰(zhàn)才能跟上數(shù)據(jù)飛速增長(zhǎng)的步伐。 數(shù)據(jù)的來(lái)源是多方面的,而工程師和科學(xué)家認(rèn)為最為有趣的是來(lái)自真實(shí)世界的數(shù)據(jù), 即捕獲和數(shù)字化的測(cè)量數(shù)據(jù)。 因此,它也被稱作“大規(guī)模測(cè)量數(shù)據(jù)”,可以通過(guò)測(cè)量振動(dòng)、射頻信號(hào)、溫度、壓力、聲音、圖象、光、磁、電壓等現(xiàn)象獲得這些數(shù)據(jù)。 大規(guī)模測(cè)量數(shù)據(jù)TM在廣泛的數(shù)據(jù)采集領(lǐng)域激起了三大技術(shù)趨勢(shì)。
上下文數(shù)據(jù)挖掘
真實(shí)現(xiàn)象的物理特性能夠防止在采集速率不夠高的時(shí)候采集數(shù)據(jù),讓小規(guī)模數(shù)據(jù)集變得不再可行。 即使測(cè)量現(xiàn)象的特性允許更多的信息采集,小規(guī)模數(shù)據(jù)集往往一開(kāi)始就限制了結(jié)論和預(yù)測(cè)的準(zhǔn)確性。
以挖掘一個(gè)金礦為例,其中只有20%的黃金是可見(jiàn)的。 其余的80%是存在于您看不見(jiàn)的泥土中。 礦業(yè)的目的就是充分挖掘礦井的全部?jī)r(jià)值。 這就引出了術(shù)語(yǔ)“數(shù)字塵土”,意思為數(shù)字化數(shù)據(jù)帶有隱藏價(jià)值。 因此,需要通過(guò)數(shù)據(jù)分析和數(shù)據(jù)挖掘來(lái)發(fā)掘前所未有的見(jiàn)解。
數(shù)據(jù)挖掘的過(guò)程就是使用與數(shù)據(jù)一同保存的上下文信息,搜索并削減大規(guī)模數(shù)據(jù)集,使其變得更容易管理及利用。 將原始數(shù)據(jù)與背景,或“元數(shù)據(jù)”共同保存下來(lái),數(shù)據(jù)采集、定位、過(guò)后的處理和理解就會(huì)變得更為方便。 例如,查看一系列看似隨機(jī)的整數(shù): 5126838937。乍看之下,該原始信息的含義不得而知。 然而,當(dāng)它變?yōu)?512)683-8937時(shí),我們就能知道清楚地識(shí)別出它是一個(gè)電話號(hào)碼。
測(cè)量數(shù)據(jù)上下文的描述性信息提供了類似的益處,它能夠詳細(xì)描述指定測(cè)量通道的傳感器類型、制造商與校準(zhǔn)日期,或是整體待測(cè)組件的修訂記錄、設(shè)計(jì)師或型號(hào)。 事實(shí)上,原始數(shù)據(jù)存儲(chǔ)的上下文越多,在整個(gè)設(shè)計(jì)生命周期中數(shù)據(jù)追蹤、搜索或定位,以及通過(guò)專用數(shù)據(jù)后處理軟件在今后與其他測(cè)量關(guān)聯(lián)才會(huì)更為有效。
智能DAQ節(jié)點(diǎn)
數(shù)據(jù)采集應(yīng)用的形式多種多樣。 但由于涉及多種行業(yè)和應(yīng)用,只有在需要時(shí)才會(huì)采集數(shù)據(jù)。 工程師和科學(xué)家們將重要資源投資在構(gòu)建高級(jí)采集系統(tǒng)上,但這些系統(tǒng)生成的原始數(shù)據(jù)也不會(huì)因此就無(wú)用了。 相反,采集原始數(shù)據(jù),將它輸入分析或處理算法,構(gòu)建設(shè)計(jì)者所需的實(shí)際結(jié)果系統(tǒng)。
例如,汽車碰撞測(cè)試在毫秒之間就能收集千兆字節(jié)有關(guān)速度、溫度、沖擊力和加速度的數(shù)據(jù)。 可以從這些原始數(shù)據(jù)計(jì)算得出的一個(gè)關(guān)鍵性相關(guān)結(jié)論為顱腦損傷標(biāo)準(zhǔn)(HIC),它是單標(biāo)量的計(jì)算值,能夠表示碰撞假人在碰撞中頭部受傷的可能性。
此外,一些應(yīng)用程序—尤其是有關(guān)環(huán)境、結(jié)構(gòu)、機(jī)器狀態(tài)監(jiān)測(cè)空間—能夠保持周期性的慢采集速率,而當(dāng)檢測(cè)到明顯的條件時(shí)又能大幅提高。 該技術(shù)的采集速度低,且最大限度地減少了記錄的數(shù)據(jù),同時(shí)采樣率要足夠滿足應(yīng)用中高速波形的需求。 想要在滿足特定標(biāo)準(zhǔn)時(shí),采用某項(xiàng)技術(shù),如將原始數(shù)據(jù)轉(zhuǎn)化為結(jié)果,或調(diào)整測(cè)量細(xì)節(jié),您必須使您的數(shù)據(jù)采集系統(tǒng)智能化。
評(píng)論