基奇PCA的貝葉斯網(wǎng)絡(luò)分糞器研究

作者：時間：2018-09-12 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

1 引言
近幾年來，貝葉斯網(wǎng)絡(luò)已成為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)中的一個主要工具，在分類、聚類、預(yù)測和規(guī)則推導(dǎo)等方面取得了良好的應(yīng)用效果。從歷史數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò)可采用基于依賴分析的方法。
常用的有：用Polytree表示概率網(wǎng)的方法、從完全圖刪除邊的方法等。這種方法需要進行指數(shù)級的CI測試以發(fā)現(xiàn)依賴關(guān)系，當(dāng)結(jié)點集較大時，其計算效率低，所以大多數(shù)此類算法都假設(shè)結(jié)點有序；但這種假設(shè)可能會影響最后學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)的正確性。對于稀疏網(wǎng)絡(luò)和具有較大樣本數(shù)據(jù)集的系統(tǒng)，這種方法非常有效。
針對基于依賴分析方法的這一缺點，在網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)之前應(yīng)用主元分析方法將數(shù)據(jù)降維，減少網(wǎng)絡(luò)結(jié)點數(shù)目，可提高算法效率、簡化網(wǎng)絡(luò)結(jié)構(gòu)。

本文引用地址：http://m.butianyuan.cn/article/201809/388957.htm

2 數(shù)據(jù)處理及離散化
現(xiàn)實數(shù)據(jù)庫中的數(shù)據(jù)常存在數(shù)據(jù)不一致、數(shù)據(jù)丟失等現(xiàn)象，所以在運用數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)前要對數(shù)據(jù)進行預(yù)處理。此外，對于連續(xù)性數(shù)據(jù)(如溫度、濕度、長度等)，直接建立貝葉斯網(wǎng)絡(luò)模型計算復(fù)雜度大，從連續(xù)數(shù)據(jù)中很難正確學(xué)習(xí)到變量間的關(guān)系。因此首先將數(shù)據(jù)標(biāo)準(zhǔn)化，再將標(biāo)準(zhǔn)化后的連續(xù)變量離散化，用離散化后的數(shù)據(jù)進行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)。這里采用模糊離散化方法，對數(shù)據(jù)集的每個屬性分別進行離散化，每個屬性都有3個標(biāo)度：5標(biāo)度、7標(biāo)度、9標(biāo)度可以選擇。算法步驟如下：
(1)隨機初始化隸屬度矩陣：

3 基于PCA的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法
主元分析PCA(Principal Component Analysis)是通過可逆線性變換，將數(shù)據(jù)集轉(zhuǎn)換為由維數(shù)較少的特征成分表示的、包含原數(shù)據(jù)集所有信息或大部分信息的技術(shù)。通過PCA技術(shù)，可以將復(fù)雜數(shù)據(jù)簡化，因此它現(xiàn)已被廣泛應(yīng)用于數(shù)據(jù)挖掘、模式識別、信號評估、信號探測、圖像編碼等領(lǐng)域。主元分析的原理如下：
令x為表示環(huán)境的m維隨機向量。假設(shè)x均值為零，即

E[x]=0 (4)
令w表示m維單位向量，x在ω上投影。該投影被定義為向量x和ω的內(nèi)積，表示為：

主元分析的目的就是尋找一個權(quán)值向量w，使得表達式的值最大化：

即使得式(7)值最大化的w是矩陣的最大特征值所對應(yīng)的特征向量。
鑒于主元分析的優(yōu)點，這里引入主元分析技術(shù)給數(shù)據(jù)集降維，然后用降維后的數(shù)據(jù)構(gòu)建網(wǎng)絡(luò)，提高學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)算法的效率、簡化網(wǎng)絡(luò)結(jié)構(gòu)。構(gòu)造貝葉斯網(wǎng)絡(luò)的算法步驟如下：
(1)用普瑞姆算法生成最大似然樹構(gòu)造初始貝葉斯網(wǎng)絡(luò)；
(2)對所有互信息大于閾值且在當(dāng)前圖中無邊的結(jié)點對n1、n2：①找出它們鄰接路徑上的鄰居結(jié)點，設(shè)n1、n2的鄰居結(jié)點的結(jié)點集分別為S1和S2；② 令集合S1和S2中較小的一個作為條件集合C；③計算條件互信息v=I(n1，n2|c)，如果vε，則返回分離；否則，如果C只包含一個結(jié)點，那么轉(zhuǎn)去步驟⑤，否則，對每一個i，令Ci=c{C中的第i個結(jié)點}，vi=I(n1，n2|Ci)；④如果vminε，則返回分離，否則返回步驟③；⑤如果S2沒有用過，那么用S2作為條件集C，返回步驟③；否則，返回失敗。⑥如果這對結(jié)點在當(dāng)前圖中能夠被分離，則檢測下一對結(jié)點，否則，向網(wǎng)中添加連接這對結(jié)點的邊。
(3)對每一條圖中存在邊的結(jié)點對，如果除這條邊外它們之間還存在其他路徑，那么暫時從圖中移掉這條邊，然后對這對結(jié)點進行步驟①～⑥的檢驗；如果這對結(jié)點不能被分離，則仍將前面移掉的邊加入圖中，否則永久移除這條邊；
(4)用碰撞識別V結(jié)構(gòu)的方法定向網(wǎng)絡(luò)中的邊，對不能構(gòu)成V結(jié)構(gòu)的邊用打分的方法對其進行定向。

4 實驗
用IRIS實際數(shù)據(jù)、Zoo Data、Glass Identification Data作為網(wǎng)絡(luò)學(xué)習(xí)的數(shù)據(jù)集，這3組數(shù)據(jù)是UCI數(shù)據(jù)集中3個用于分類的數(shù)據(jù)集。
其中IRIS數(shù)據(jù)和Glass Identification Data是連續(xù)的，所以在用數(shù)據(jù)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)前需要對數(shù)據(jù)進行模糊離散化處理。以下實驗中的每個屬性的離散化標(biāo)度是任意選擇的。實驗1，比較經(jīng)PCA降維的數(shù)據(jù)構(gòu)造貝葉斯網(wǎng)絡(luò)并進行分類的結(jié)果與未經(jīng)PCA降維的數(shù)據(jù)分類結(jié)果的準(zhǔn)確率，如表1所示。

用經(jīng)PCA降維的數(shù)據(jù)和未經(jīng)降維的數(shù)據(jù)集分別進行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)，所用時間如表2所示。

對所用的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法進行CI測試，最壞情況下的時間復(fù)雜度為O(N4)。由表2可知，采用PCA降維后，算法所用時間約占原構(gòu)造算法時間的34．58％，貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)效率有所提高。
經(jīng)PCA降維，IRIS數(shù)據(jù)集的屬性由4個減少為3個；ZooData的屬性由18個減少到12個；Glass Identification Data的屬性由11個減少為8個。屬性數(shù)量的減少使得網(wǎng)絡(luò)結(jié)構(gòu)更為簡單，并且由表2可以看出，經(jīng)PCA降維后進行分類的結(jié)果準(zhǔn)確率不低于不經(jīng)過降維直接由數(shù)據(jù)集學(xué)習(xí)得到的貝葉斯網(wǎng)絡(luò)分類結(jié)果的準(zhǔn)確率。
經(jīng)PCA降維后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1～圖3所示。

用圖1中的結(jié)點V4、圖2中的結(jié)點F13及圖3中的結(jié)點F8是類別標(biāo)簽結(jié)點，其余結(jié)點為原數(shù)據(jù)結(jié)點的線性變換，無實際意義。實驗2用經(jīng)過PCA降維后數(shù)據(jù)構(gòu)造的貝葉斯網(wǎng)絡(luò)器(BN)與樸素貝葉斯(NB)分類器、TAN分類器分類對以上3組數(shù)據(jù)進行分類。分類準(zhǔn)確率的比較如表3所示。

由實驗1可知，使用PCA降維后構(gòu)造的貝葉斯網(wǎng)絡(luò)與未使用降維數(shù)據(jù)學(xué)習(xí)得到的網(wǎng)絡(luò)分類結(jié)果正確率相差不大，而這樣構(gòu)造的網(wǎng)絡(luò)分類結(jié)果比其他分類器正確率高很多，同時使用降維后數(shù)據(jù)構(gòu)造的網(wǎng)絡(luò)還具有結(jié)點少、結(jié)構(gòu)簡單、學(xué)習(xí)效率高等優(yōu)點。

5 結(jié)束語
基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)中依賴分析方法需進行指數(shù)級的CI測試因而存在結(jié)點集較大時計算效率低的缺點，提出了將數(shù)據(jù)集先經(jīng)過PCA主元分析的方法降維。減少結(jié)點數(shù)，再用降維后的數(shù)據(jù)進行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的方法，提高了網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的效率，并通過提高學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)的正確性保證了較好的分類結(jié)果。此外。構(gòu)建的網(wǎng)絡(luò)還具有結(jié)點少、結(jié)構(gòu)簡單的特點，減少了網(wǎng)絡(luò)的復(fù)雜性。

新聞中心

基奇PCA的貝葉斯網(wǎng)絡(luò)分糞器研究

評論

相關(guān)推薦

焦點

推薦視頻

技術(shù)專區(qū)