新聞中心

EEPW首頁 > 測試測量 > 設計應用 > 探索性數據分析(EDA),你會使用嗎?

探索性數據分析(EDA),你會使用嗎?

—— 探索性數據分析(EDA)及其應用
作者: 時間:2010-10-13 來源:電子產品世界 收藏

  所謂探索性(Exploratory Data Analysis,以下簡稱),是指對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規(guī)律的一種方法。特別是當我們對這些數據中的信息沒有足夠的經驗,不知道該用何種傳統(tǒng)統(tǒng)計方法進行分析時,探索性就會非常有效。探索性數據分析在上世紀六十年代被提出,其方法由美國著名統(tǒng)計學家約翰·圖基(John Tukey)命名。

本文引用地址:http://m.butianyuan.cn/article/113459.htm

  的出現(xiàn)主要是在對數據進行初步分析時,往往還無法進行常規(guī)的統(tǒng)計分析。這時候,如果分析者先對數據進行探索性分析,辨析數據的模式與特點,并把它們有序地發(fā)掘出來,就能夠靈活地選擇和調整合適的分析模型,并揭示數據相對于常見模型的種種偏離。在此基礎上再采用以顯著性檢驗和置信區(qū)間估計為主的統(tǒng)計分析技術,就可以科學地評估所觀察到的模式或效應的具體情況。

  所以概括起來說,分析數據可以分為探索和驗證兩個階段。探索階段強調靈活探求線索和證據,發(fā)現(xiàn)數據中隱藏的有價值的信息,而驗證階段則著重評估這些證據,相對精確地研究一些具體情況。在驗證階段,常用的主要方法是傳統(tǒng)的統(tǒng)計學方法,在探索階段,主要的方法就是,下面我們重點對EDA做進一步的說明。

  EDA的特點有三個:一是在分析思路上讓數據說話,不強調對數據的整理。傳統(tǒng)統(tǒng)計方法通常是先假定一個模型,例如數據服從某個分布(特別常見的是正態(tài)分布),然后使用適合此模型的方法進行擬合、分析及預測。但實際上,多數數據(尤其是實驗數據)并不能保證滿足假定的理論分布。因此,傳統(tǒng)方法的統(tǒng)計結果常常并不令人滿意,使用上受到很大的局限。EDA則可以從原始數據出發(fā),深入探索數據的內在規(guī)律,而不是從某種假定出發(fā),套用理論結論,拘泥于模型的假設。

  二是EDA分析方法靈活,而不是拘泥于傳統(tǒng)的統(tǒng)計方法。傳統(tǒng)的統(tǒng)計方法以概率論為基礎,使用有嚴格理論依據的假設檢驗、置信區(qū)間等處理工具。EDA處理數據的方式則靈活多樣,分析方法的選擇完全從數據出發(fā),靈活對待,靈活處理,什么方法可以達到探索和發(fā)現(xiàn)的目的就使用什么方法。這里特別強調的是EDA更看重的是方法的穩(wěn)健性、耐抗性,而不刻意追求概率意義上的精確性。

  三是EDA分析工具簡單直觀,更易于普及。傳統(tǒng)的統(tǒng)計方法都比較抽象和深奧,一般人難于掌握,EDA則更強調直觀及數據可視化,更強調方法的多樣性及靈活性,使分析者能一目了然地看出數據中隱含的有價值的信息,顯示出其遵循的普遍規(guī)律及與眾不同的突出特點,促進發(fā)現(xiàn)規(guī)律,得到啟迪,滿足分析者的多方面要求,這也是EDA對于數據分析的的主要貢獻。

  值得一提的是,正因為EDA更強調直觀及圖形顯示,所以它采用了很多創(chuàng)新的可視化技術,目前這些可視化技術已經有了很好的實現(xiàn)載體,目前最為主流的探索性數據分析軟件是以圖形效果好、交互性強、易學易用著稱的統(tǒng)計發(fā)現(xiàn)軟件JMP。即使不具備統(tǒng)計學基礎的分析者也能在JMP的幫助下,輕松地發(fā)現(xiàn)數據、擬合以及殘差的規(guī)律,獲得意想不到的發(fā)現(xiàn),為后續(xù)的分析啟發(fā)思路、指明方向。

  下面,用一個典型的小案例來說明EDA的實際應用。

  我們?yōu)榱藢θ蚪洕陌l(fā)展趨勢和世界頂級公司的經營狀況做一些研究,可以從公共網站上下載數據(如http://www.forbes.com/lists中的福布斯2000強名單),用JMP略作整理之后可以得到如表一所示的數據表,其中包含了上榜公司的名稱、所屬行業(yè)、所屬國家、上榜年份、上榜排名、市場價值、資產額、銷售額、利潤額等9個變量,總計14000條記錄(每年2000條,從2004年至2010年共7個年度)?,F(xiàn)在的問題是:數據有了,其中到底隱藏著怎樣的有價值的信息呢?我們又如何發(fā)現(xiàn)這些信息呢?

  有人說:既然是連續(xù)型數據,又包含時間變量,應該用時間序列方法進行分析!的確,時間序列可以告訴我們變量隨時間的變化,然而實際中我們所希望和可以得到的有價值的信息,往往遠不止“隨時間變化”這么簡單,更何況,需要分析這些商業(yè)數據的用戶常常并不清楚什么是“時間序列分析”方法。


上一頁 1 2 3 下一頁

關鍵詞: EDA 數據分析

評論


相關推薦

技術專區(qū)

關閉