新聞中心

EEPW首頁 > 設(shè)計應(yīng)用 > 基于文本分類技術(shù)的惡意代碼檢測工具 

基于文本分類技術(shù)的惡意代碼檢測工具 

作者:張東紅 時間:2018-08-27 來源:電子產(chǎn)品世界 收藏
編者按:惡意代碼對人們的工作和生活帶來了嚴(yán)重的威脅,對惡意代碼進行檢測也變得越來越重要。一種有效的惡意代碼檢測方式是借鑒機器學(xué)習(xí)技術(shù),訓(xùn)練檢測模型并使用其檢測新樣本中是否含有惡意代碼。為達到此目的,使用操作碼特征的檢測方法近年來深受歡迎。用于高效、可配置地反匯編多種平臺多種格式類型的可執(zhí)行樣本,避免基于遞歸下降反匯編算法的 IDA Pro 遇到的各種問題;本文還重新設(shè)計和實現(xiàn)了 “飛鼠”惡意代碼檢測系統(tǒng),自動化地采集、標(biāo)記、處理樣本,提高反匯編成功率。

作者 張東紅 中國科學(xué)院軟件研究所 (北京 100864)

本文引用地址:http://m.butianyuan.cn/article/201808/391178.htm

  張東紅,碩士生,曾獲得“2012國際青年創(chuàng)新大賽”特等獎,以及“第十三屆‘五四杯’大學(xué)生創(chuàng)業(yè)計劃競賽”二等獎。

摘要:惡意代碼對人們的工作和生活帶來了嚴(yán)重的威脅,對惡意代碼進行檢測也變得越來越重要。一種有效的方式是借鑒機器學(xué)習(xí)技術(shù),訓(xùn)練檢測模型并使用其檢測新樣本中是否含有惡意代碼。為達到此目的,使用特征的檢測方法近年來深受歡迎。用于高效、可配置地多種平臺多種格式類型的可執(zhí)行樣本,避免基于遞歸下降算法的 遇到的各種問題;本文還重新設(shè)計和實現(xiàn)了 “飛鼠”系統(tǒng),自動化地采集、標(biāo)記、處理樣本,提高成功率。

1 “飛鼠”系統(tǒng)

  針對此問題,論文根據(jù)反匯編算法實現(xiàn)了低精度的反匯編工具D-light,用于高效、可配置地反匯編多種平臺多種格式類型的可執(zhí)行樣本,避免基于遞歸下降反匯編算法的 遇到的各種問題;論文還重新設(shè)計和實現(xiàn)了“飛鼠”惡意代碼檢測系統(tǒng),自動化地采集、標(biāo)記、處理樣本,在兼容 的基礎(chǔ)上,同時支持反匯編工具 D-light,并能夠根據(jù)配置選擇相應(yīng)算法實現(xiàn)惡意代碼檢測。論文通過實驗分析指出,使用反匯編算法提取特征,能夠在允許一定程度的反匯編代碼不準(zhǔn)確的情況下,提高反匯編成功率,增加可利用的樣本數(shù)目;訓(xùn)練數(shù)據(jù)集樣本量的大幅增加可以彌補樣本反匯編質(zhì)量小幅度降低的損失,最終超越,或保持,基于 IDA Pro 的檢測模型的檢測效果。實驗中還發(fā)現(xiàn),使用多項式核函數(shù)的支持向量機分類算法在實踐中有著更好的性能和應(yīng)用價值。如圖1和圖2所示。

2 互聯(lián)網(wǎng)與病毒發(fā)展現(xiàn)狀

  隨著計算機技術(shù)的高速發(fā)展和計算機網(wǎng)絡(luò)的不斷普及,計算機和互聯(lián)網(wǎng)已經(jīng)深入到人們?nèi)粘I詈凸ぷ鞯姆椒矫婷妗8鶕?jù)中國互聯(lián)網(wǎng)信息中心在2018年1月發(fā)布的《第41次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截至2017 年12 月,我國網(wǎng)民規(guī)模達7.72億,全年共計新增網(wǎng)民4074 萬人,互聯(lián)網(wǎng)普及率達55.8%,相比較于2016年底提升了2.6%。同時我國在線政務(wù)服務(wù)用戶規(guī)模達到4.85 億,占總體網(wǎng)民的62.9%,通過支付寶或微信城市服務(wù)平臺獲得政務(wù)服務(wù)的使用率為44.0% 。

  日益便捷的網(wǎng)絡(luò)互聯(lián)環(huán)境和成熟的計算機技術(shù),也為網(wǎng)絡(luò)攻擊的產(chǎn)生與傳播提供了極大的便利條件,每年新增的軟件數(shù)量呈現(xiàn)出持續(xù)性增長的趨勢。在賽門鐵克(Symantec)公司2010 年發(fā)布的安全報告中指出,賽門鐵克公司相比于2008 年捕獲到169323 個新型軟件,2009 年共捕獲到了2895802個新型軟件。根據(jù)中國互聯(lián)網(wǎng)應(yīng)急響應(yīng)中心(CNCERT/CC )在2017年5月發(fā)布的《2016 年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報告》,CNCERT/CC 通過自主捕獲以及與廠商交換獲得的移動互聯(lián)網(wǎng)惡意程序數(shù)量約205萬個。

3 “飛鼠”的設(shè)計

  基于特征碼的靜態(tài)惡意代碼檢測流程可以分為三部分,首先需要獲取惡意代碼,然后對現(xiàn)有已知的惡意代碼進行特征分析,提取相應(yīng)的特征碼;然后匯總整理,將提取的特征碼存入特征庫;最后,在對未知的可執(zhí)行樣本進行檢測時,根據(jù)特征庫中的特征碼逐項進行匹配。如果待檢測樣本中包含特征庫中的特征信息,則認(rèn)為該樣本是惡意代碼,反之,則認(rèn)為是非惡意代碼。如圖3。

4 “飛鼠”系統(tǒng)特征訓(xùn)練檢測模型

  在獲取到包含惡意代碼樣本和非惡意代碼樣本的原始實驗數(shù)據(jù)集,并進行預(yù)處理和數(shù)據(jù)集劃分之后,對訓(xùn)練集數(shù)據(jù)首先使用線性掃描反匯編工具進行反匯編處理。然后從反匯編代碼中提取特征。在完成操作碼特征提取之后,會首先根據(jù)訓(xùn)練集中操作碼特征的數(shù)據(jù)特征選擇一定的操作碼特征對樣本進行向量化表示。最后將描述樣本的特征向量輸入分類模型中進行訓(xùn)練,得到用于惡意代碼檢測的惡意代碼檢測模型。測試階段,使用相同的線性掃描反匯編方法對未知樣本進行反匯編提取其操作碼特征。根據(jù)訓(xùn)練階段選擇出來的操作碼特征子集對未知樣本進行向量化描述。最后將該描述向量輸入到訓(xùn)練階段得到的惡意代碼檢測模型進行檢測,得到最終的惡意代碼檢測結(jié)果,惡意代碼或者非惡意代碼。

  在惡意代碼檢測工作中,可以定義混淆矩陣(confusion matrix)來記錄相應(yīng)的檢測結(jié)果數(shù)據(jù)。如表 1所示,TP 表示將惡意代碼檢測成為惡意代碼的樣本數(shù),F(xiàn)P 表示非惡意代碼檢測成為惡意代碼的樣本數(shù),F(xiàn)N 表示惡意代碼檢測成為非惡意代碼的樣本數(shù),TN 表示非惡意代碼檢測成為非惡意代碼的樣本數(shù)。

5 結(jié)論

  論文提出的解決方案,主要思想是通過訓(xùn)練樣本數(shù)量的大幅增長來彌補操作碼特征略微不準(zhǔn)確的問題,所以在該解決方案中通過 D-light 反匯編工具獲取大量稍微有些不準(zhǔn)確的反匯編代碼提取操作碼特征來訓(xùn)練惡意代碼檢測模型。在對反匯編代碼的質(zhì)量和數(shù)量對惡意代碼檢測性能影響的實驗研究中,通過使用D-light反匯編提取操作碼特征訓(xùn)練得到的惡意代碼檢測模型與使用IDA Pro反匯編提取操作碼特征訓(xùn)練得到的惡意代碼檢測模型進行對比分析,發(fā)現(xiàn)使用 D-light反匯編提取操作碼特征訓(xùn)練得到的惡意代碼檢測模型的檢測性能更好一些,驗證了本文提出的使用線性掃描反匯編算法提取操作碼特征訓(xùn)練惡意代碼檢測模型的解決方案是有效和可行的。此外,在對比分析實驗中,本文還發(fā)現(xiàn)使用多項式核函數(shù)支持向量機分類算法的惡意代碼檢測模型在實踐中檢測性能表現(xiàn)最好。

  參考文獻:

  [1] 中國互聯(lián)網(wǎng)信息中心.第 41 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[J]. 中國經(jīng)濟報告, 2017(4).

  [2] Nataraj L,Karthikeyan S,Jacob G,et al.Malware images: visualization and automatic classification[C]//Proceedings of the 8th international symposium on visualization for cyber security. ACM, 2011: 4.Fossi M, Egan G, Haley K, et al. Symantec global internet security threat report[J]. Volume 1, 2010.

  [3] Fossi M,Egan G,Haley K,et al.Symantec global internet security threat report [J]. Volume XVI, 2011.

  [4] 國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心.2016 年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報告[M/OL].北京: 人民郵電出版社,(2017).http://www.cert.org.cn/publish/main/upload/File/2016_cncert_rep -ort.pdf.

  本文來源于《電子產(chǎn)品世界》2018年第9期第75頁,歡迎您寫論文時引用,并注明出處。



評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉