模塊化免疫神經(jīng)網(wǎng)絡(luò)模型在計(jì)算機(jī)病毒分類(lèi)檢測(cè)中的應(yīng)用
0 引言
本文引用地址:http://m.butianyuan.cn/article/201610/309307.htm隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)應(yīng)用的普及,計(jì)算機(jī)系統(tǒng)受到計(jì)算機(jī)病毒的威脅。計(jì)算機(jī)病毒分類(lèi)檢測(cè),指將可疑文件作為輸入,執(zhí)行某病毒檢測(cè)算法后輸出結(jié)果(無(wú)毒、帶毒/帶何種毒)的過(guò)程,實(shí)質(zhì)上是對(duì)文件的分類(lèi)。病毒分類(lèi)檢測(cè)應(yīng)屬于模式識(shí)別范疇。由于單一的技術(shù)無(wú)法有效地對(duì)抗計(jì)算機(jī)病毒,技術(shù)的融合并用及智能化,將是未來(lái)計(jì)算機(jī)病毒檢測(cè)的趨勢(shì)。故采用免疫算法和神經(jīng)網(wǎng)絡(luò)的新型網(wǎng)絡(luò)模型,對(duì)計(jì)算機(jī)病毒分類(lèi)檢測(cè)進(jìn)行研究。
1 模塊化免疫神經(jīng)網(wǎng)絡(luò)模型的提出
人工神經(jīng)網(wǎng)絡(luò)和人工免疫系統(tǒng)都是受生物學(xué)的啟發(fā)發(fā)展而來(lái)的理論和技術(shù),兩者在生物學(xué)原理和人工原理上各有異同。研究表明,免疫原理可以應(yīng)用到神經(jīng)網(wǎng)絡(luò)中,以提高神經(jīng)網(wǎng)絡(luò)的性能;反之,神經(jīng)網(wǎng)絡(luò)理論也可以應(yīng)用到人工免疫系統(tǒng)中,從而產(chǎn)生一個(gè)相互之間可以受益的研究領(lǐng)域。
圖1中,抗原(Ag)表示神經(jīng)網(wǎng)絡(luò)中輸入神經(jīng)元到輸出神經(jīng)元的權(quán)向量Wk(由抗體Ab和自體庫(kù)集S共同作用后,基本調(diào)節(jié)好的權(quán)向量),基于計(jì)算機(jī)病毒的入侵檢測(cè)中,代表一類(lèi)網(wǎng)絡(luò)數(shù)據(jù)包,以二進(jìn)制串表示。抗體(Ab)表示神經(jīng)網(wǎng)絡(luò)中的輸入樣本。S代表自體庫(kù)集合。權(quán)值及輸入樣本和輸出單元都使用二進(jìn)制,即只使用0和1表示,如圖2。
首先抗體庫(kù)中的向量都會(huì)和白體庫(kù)的向量進(jìn)行識(shí)別。如果抗體庫(kù)中的向量一旦和自體庫(kù)中的向量匹配,則會(huì)進(jìn)行剪枝操作。
沿用傳統(tǒng)的抗體網(wǎng)絡(luò)特征,規(guī)定ξj表示網(wǎng)絡(luò)中抗體j的抗原濃度,即抗體j所能識(shí)別的抗原個(gè)數(shù)。1個(gè)抗體細(xì)胞k與某種抗原細(xì)胞的親和力,由權(quán)向量與該抗體的漢明距離(Hamming)決定,可由式(1)得到與Ag可能性的最大狀態(tài)序列δ:
親和力δ越大,說(shuō)明這種抗體能夠?qū)Υ丝乖M(jìn)行較好的應(yīng)答,保留。相反,通過(guò)剪枝的方式,從網(wǎng)絡(luò)中刪掉。把不與自身反應(yīng)的抗體保留,進(jìn)行對(duì)抗原的識(shí)別,進(jìn)行后續(xù)的工作。
否定選擇后的抗體與抗原進(jìn)行神經(jīng)網(wǎng)絡(luò)的作用,規(guī)則如上,如果抗體不匹配,按照已有的神經(jīng)網(wǎng)絡(luò)的權(quán)值算法的改進(jìn)步驟進(jìn)行權(quán)值的調(diào)整,以達(dá)到在給定抗體空間中擁有最大的解空間度,即2個(gè)抗體之間有最大的不相同度。
更新抗體種群,經(jīng)過(guò)若干次的疊代運(yùn)算,把抗體種群訓(xùn)練收斂于一個(gè)較穩(wěn)定的集合,即學(xué)習(xí)過(guò)程完畢。學(xué)習(xí)完成后,可以用于計(jì)算機(jī)病毒檢測(cè)中。
2 模型設(shè)計(jì)思路
整個(gè)網(wǎng)絡(luò)的競(jìng)爭(zhēng)學(xué)習(xí)步驟分為2部分:
第1部分:首先從抗體庫(kù)里根據(jù)概率密度P(Ab)選擇出1個(gè)抗體進(jìn)行輸入。并和自體庫(kù)S進(jìn)行運(yùn)算,并設(shè)定閾值ε,當(dāng)滿足式(2)時(shí):
抗體經(jīng)過(guò)了自體耐受,變?yōu)槌墒斓臋z測(cè)器,且不與自體發(fā)生免疫應(yīng)答,是合格的檢測(cè)器。如果超過(guò)閾值ε,則從網(wǎng)絡(luò)中刪除此抗體節(jié)點(diǎn)??贵wAb1和自體集S中的S1產(chǎn)生了免疫應(yīng)答。
第2部分:經(jīng)過(guò)自體耐受的抗體分別和某個(gè)抗原Agk進(jìn)行作用,在抗體內(nèi)部設(shè)定1個(gè)ξi,一旦抗原的權(quán)向量和抗體的漢明距離超過(guò)閾值ε,ξj增加1,如果ξj長(zhǎng)時(shí)間等于0,將此抗體從網(wǎng)絡(luò)中刪去。當(dāng)ξj增加到1個(gè)常值M時(shí),不再繼續(xù)增加,啟動(dòng)1個(gè)計(jì)時(shí)器,按一定的間隔時(shí)間t遞減ξj,避免了長(zhǎng)時(shí)間未產(chǎn)生應(yīng)答的抗體繼續(xù)殘留在抗體庫(kù)中。新模型中的神經(jīng)網(wǎng)絡(luò)處理單元如圖3。
在該模型中,每個(gè)神經(jīng)元的基本性質(zhì)相同,但具體形式不同。因此,每個(gè)神經(jīng)元的激活函數(shù)被設(shè)計(jì)成可變形式,也就是說(shuō),激活函數(shù)的基本性質(zhì)保持不變,但具體的形式應(yīng)該可以通過(guò)調(diào)整函數(shù)的參數(shù)來(lái)改變,任一神經(jīng)元i的激活函數(shù)可設(shè)計(jì)成:
3 抗體自體庫(kù)的建立
隨機(jī)獲取一組輸入向量抗原X,按照式(1)產(chǎn)生與X最匹配的中心序列k,把k添加到抗體群中。由于計(jì)算機(jī)病毒入侵檢測(cè)中在某段時(shí)間出現(xiàn)相同的入侵行為的概率較高,可根據(jù)網(wǎng)絡(luò)使用情況,進(jìn)行最快速度的匹配運(yùn)算,而不需要進(jìn)行學(xué)習(xí)功能。
抗體自體庫(kù)主要由選擇抗體集、交叉抗體集和變異抗體集組成。
1)選擇抗體集的設(shè)計(jì):是保證免疫算法種群優(yōu)勝劣汰的重要抗體集,且有較多的實(shí)現(xiàn)。
2)交叉抗體集的設(shè)計(jì):交叉就是把2個(gè)父?jìng)€(gè)體的部分結(jié)構(gòu)加替換重組而生成新個(gè)體的操作,其目的是能在下一代產(chǎn)生新的優(yōu)化抗體集。
3)變異抗體集的設(shè)計(jì):因免疫算法中變異抗體集以輔助手段出現(xiàn),故采用本位變異的方法即可。
4 仿真實(shí)驗(yàn)
其訓(xùn)練方法如圖4。
4.1 仿真訓(xùn)練初始數(shù)據(jù)的收集
目前世界上很多研究機(jī)構(gòu)和研究人員致力于計(jì)算機(jī)病毒入侵檢測(cè)方面的研究和系統(tǒng)開(kāi)發(fā),提供了一些測(cè)試資料集合,包括網(wǎng)絡(luò)資料、基于主機(jī)的審計(jì)資料和系統(tǒng)調(diào)用序列。
網(wǎng)絡(luò)傳輸協(xié)議/網(wǎng)絡(luò)協(xié)議(TCP/IP)對(duì)需要組織傳輸?shù)馁Y料包進(jìn)行打包。TCP層在包中加入了頭信息如:源埠、目的埠、序列號(hào)、ACK確認(rèn)號(hào)、偏移量、SYN、FIN、窗口和緊急指針等。含有TCP頭信息的包被送到IP層,加IP資料包頭如:包頭長(zhǎng)度、服務(wù)類(lèi)型、資料包長(zhǎng)度、分段偏移量、生存期、協(xié)議類(lèi)型、源地址和目標(biāo)地址等。而正常和異常的數(shù)據(jù)包都在網(wǎng)上傳輸,其特征是有差別的。
為測(cè)試改進(jìn)后的網(wǎng)絡(luò)在病毒入侵檢測(cè)應(yīng)用中的效果,采用了具有30萬(wàn)條數(shù)據(jù)記錄的測(cè)試數(shù)據(jù)集,每條數(shù)據(jù)包括了網(wǎng)絡(luò)數(shù)據(jù)包的包頭信息、網(wǎng)絡(luò)連接信息和數(shù)據(jù)信息等,每條數(shù)據(jù)包含96位的二進(jìn)制代碼。其中前32位二進(jìn)制為源IP地址,32-64位二進(jìn)制為目標(biāo)IP地址,64-96位二進(jìn)制表示了一些數(shù)據(jù)信息,每個(gè)數(shù)據(jù)被標(biāo)記為異常或者正常。該數(shù)據(jù)源由MATLAB利用random()函數(shù)產(chǎn)生一組隨機(jī)的小數(shù),因?yàn)榭紤]到是二進(jìn)制運(yùn)算,規(guī)定:
這樣隨機(jī)產(chǎn)生的二進(jìn)制串96個(gè)為一組,模擬的IP數(shù)據(jù)包,一共產(chǎn)生96萬(wàn)個(gè)二進(jìn)制串組合。
4.2 抗體自體庫(kù)仿真訓(xùn)練(自體庫(kù)的建立)
使用這1萬(wàn)條數(shù)據(jù)進(jìn)行自體庫(kù)的建立和神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。在不斷調(diào)整抗體自體庫(kù)的同時(shí),使自體庫(kù)的解空間在最大程度上得到提高,最后趨近與一個(gè)穩(wěn)定的自體庫(kù)接集合。利用建立好的抗體檢測(cè)庫(kù)檢測(cè)未知的29萬(wàn)條數(shù)據(jù)紀(jì)錄。仿真試驗(yàn)算法如下:
4.3 病毒入侵檢測(cè)算法的仿真訓(xùn)練
建立起自體庫(kù)后,進(jìn)行病毒入侵檢測(cè)算法的仿真試驗(yàn),步驟如下:
首先,引入新的一組數(shù)據(jù)向量,與自體庫(kù)也就是所謂的記憶細(xì)胞匹配,如果在一定的閾值范圍內(nèi)匹配度很高,則認(rèn)為該向量為入侵行為,并把匹配度提升1;相反,如果匹配度不高,則找出記憶細(xì)胞里與之親和力較大的進(jìn)行權(quán)值的調(diào)整,達(dá)到兩者之間的最優(yōu)匹配度,然后把新的向量作為抗體集合加入到記憶細(xì)胞,重復(fù)操作,完成后統(tǒng)計(jì)結(jié)果。
檢測(cè)算法仿真程序如下:
4.4 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
在模式識(shí)別領(lǐng)域中,Receiver OperatingCharacteristics(ROC)曲線用于比較不同分類(lèi)檢測(cè)算法的性能。曲線下的面積越大,則算法分類(lèi)檢測(cè)性能越好越穩(wěn)定。圖5為該模型與遺傳算法模型以及傳統(tǒng)抗體模型的基于MATLAB環(huán)境下的仿真測(cè)試ROC圖??梢?jiàn),集成新型抗體模型網(wǎng)絡(luò)ROC曲線下方的面積要大于其它2個(gè)網(wǎng)絡(luò)模型的面積。說(shuō)明基于模塊化的免疫神經(jīng)網(wǎng)絡(luò)模型的計(jì)算機(jī)病毒檢測(cè)模型性能要優(yōu)于其它2個(gè),正好支持了文獻(xiàn)[2]的結(jié)論。文獻(xiàn)[2]對(duì)基于n-gram的惡意代碼檢測(cè)取得了很好的效果,一共測(cè)試了8種分類(lèi)器,結(jié)果如圖5、圖6,其中Boosted J48性能最優(yōu)。
分析以上實(shí)驗(yàn)數(shù)據(jù),可得到以下結(jié)果:
1)由表1可知,自體庫(kù)選得過(guò)小,會(huì)造成單抗體的高擾動(dòng)率,頻繁更新抗體群,缺乏抗體的多樣性,覆蓋范圍減小。
2)自體庫(kù)過(guò)大,會(huì)造成訓(xùn)練網(wǎng)絡(luò)的時(shí)間增多。擬采用200條為自體庫(kù)大小,對(duì)這30萬(wàn)條數(shù)據(jù)記錄通過(guò)新模型進(jìn)行檢測(cè),并與單免疫算法模型和傳統(tǒng)的抗體網(wǎng)絡(luò)模型進(jìn)行對(duì)比,如表2。雖然此網(wǎng)絡(luò)模型在時(shí)間上略遜于其他兩種已知算法模型,但在準(zhǔn)確率上卻有明顯的提高。
5 小結(jié)
由實(shí)驗(yàn)可知,基于免疫算法和神經(jīng)網(wǎng)絡(luò)的新型網(wǎng)絡(luò)模型降低了傳統(tǒng)的病毒入侵檢測(cè)模型的誤報(bào)率和漏報(bào)率,提高了免疫系統(tǒng)的學(xué)習(xí)效率和系統(tǒng)的智能化程度,在系統(tǒng)的容錯(cuò)性上也有較大的改善,對(duì)提高系統(tǒng)的檢測(cè)能力具有重要意義。
評(píng)論