999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于概率統計模型和SVM的惡意代碼分類

2017-09-08 12:13:18紀鴻旭張培李璐
數字技術與應用 2017年6期
關鍵詞:機器學習

紀鴻旭+張培+李璐

摘要:隨著惡意代碼的不斷變種,安全問題日趨嚴峻,對惡意代碼進行分類以便于分析惡意代碼從而進行防范顯得尤為重要。在數以千計的大量惡意代碼面前,傳統的分類方式已經不能滿足我們的快速分類高效分析數據的目的。本文針對惡意程序檢測分類中面對數據量大,病毒家族變種繁多等問題,提出了一種利用機器學習——支持向量機算法的方法來對惡意代碼進行分類。該方法通過提取對惡意代碼利用IDA反匯編工具生成的二進制代碼的概率統計模型特征,通過SVM算法進行分類操作。通過結果分析與對比分析,可以驗證,本文所使用的此種算法來檢測惡意代碼并對其分類是有效的。

關鍵詞:惡意軟件分類;概率統計模型;支持向量機;機器學習

中圖分類號:G350 文獻標識碼:A 文章編號:1007-9416(2017)06-0110-02

惡意代碼的大肆傳播,已成為嚴重的安全隱患。特別是近年來,隨著惡意代碼制造機、多態和變形技術的不斷成熟,惡意代碼的發作逐漸呈現變種速度快、模塊重復使用度高的特點。從惡意代碼的生成技術上,可以看到大部分“新”的惡意代碼是在原來惡意代碼的基礎上產生而來的,只是原惡意代碼的一個新變種。因此,當新的惡意代碼產生時,對惡意代碼的相似性進行自動化分析、識別和快速分類以及檢測,已經成為目前國內外研究的熱點和難點問題之一,同時也是亟待解決的問題。

1 惡意代碼分析技術

按照不同的信息獲取方式,通常采用兩種不同的分析方法,即動態分析和靜態分析。兩種分析方法獲取的信息量是不同的,而且在消耗的時間和資源上差別也很大。動態分析是指惡意代碼執行的情況下,利用程序調試工具對惡意代碼實施跟蹤和觀察,確定惡意代碼的行為;靜態分析是指在不執行二進制的前提下進行分析,如反匯編分析、源代碼分析、指令分析、反編譯等,這些方法都屬于逆向工程分析方法。其中在靜態分析中,指令分析技術最為常見、最為重要。本文的概率統計模型屬于靜態分析方法。

2 概率統計模型

2.1 模型建立

變值檢測的檢測方法為分段變值測量圖示。該方法具體描述如圖1所示。

對任意長的0-1序列,按照給定的長度分為多個分段,從第i段m長0-1序列獲取一對變值測度:分段中1的數目(P變量)和01的數目(Q變量)。將待測量序列分為M個定長段落,形成一組能夠按照次序先后編號的有序測度序列。該測量序列,在保持編號測序條件下可以分離為兩組獨立的測度序列。兩組測度序列分別映射為2種1維統計直方圖:{1PD,1DQ}。兩組測度序列在重疊移位的條件下行程有序對測度序列,構成2種2維直方圖分布:{2DP,2DQ}。除了所形成的2種1維圖示和2種2維圖示之外,變值測度序列,行成一種2為變值統計直方圖:{2DPQ}。

處理流程為:

(1)輸入N長0-1序列X,按m為長分段,形成M個段落,每個段落測出兩個參數。

(2)第i段形成二元測度組(pi,qi),2PQ:{(pi,qi)},0=

(3)將二元測度序列分離為兩個M組一元測度獨立序列,一元測度序列1P:{pi},0=

(4)利用龐加萊模型,將兩組一元序列轉化為二元序列,i-1 mod M。二元測度序列2P:{p,pi},0=

(5)將測度序列轉化為統計分布圖示,兩種一維經典圖示1P:1PM:1Q:1QM,三種二維變值圖示2P:2PM:2Q:2QM:2PQ:2PQM。

最后得出結論,從量化組合的角度來看變值模型,m=1-4時投影低維組合高維特征比較弱,最佳的轉折條件為m=8。

2.2 結果分析

(1)對于數據集的預處理,使用數據集中的byte文件,把十六進制文件轉換為2進制文件進行表示。

(2)train數據集中共包括多個分類,每個分類中又包括多個不同文件。使用抽樣學習的方法,對每類樣本中隨機抽取4個樣本進行檢測統計。

(3)對隨機抽樣得到的文件用模型進行測試。使用8bit分段值。

(4)使用二維和三維圖像分別可視化檢測結果,如圖2所示。

(5)提取相同種類的特征,比較不同種類特征。

3 基于SVM的惡意代碼分類

3.1 支持向量機

支持向量機SVM(Support Vector Machine)是在統計學習理論(Statistical Learning Theory)基礎上提出來的通用算法。其模型是定義在特征空間上的間隔最大的線性分類器,主要用于線性可分和近似可分的樣本數據中。而近年來,由于很多學者在SVM理論分析和算法實現等方面開展了大量的研究工作,現已把其擴展到了線性不可分,以及核函數的領域中。

通常情況下,同一家族的惡意程序會具有部分相同的功能或代碼[1]。所以可以通過基于數據挖掘的分類方法對惡意代碼的樣本進行分類[2]。通過學習已知惡意代碼的類別及行為信息,根據惡意代碼家族共享的特征訓練樣本,從而生成分類器或者分類模型,然后利用訓練好的分類器對未知的樣本進行分類。

3.2 結果分析

對4類惡意代碼進行SVM訓練,正確分類691例,正確率為83.8592%,如表1所示。

對數據使用PCA進行降維處理,投影到三維空間如圖3所示和二維空間如圖4所示,可以看到4類惡意代碼的分布情況。

經過研究實踐,本文已經實現了利用概率統計模型和SVM對惡意代碼分類的目的,并獲得了較為優秀的精確度。

4 結語

本文首先對惡意代碼及其相關知識作了概念性的介紹,提出基于概率統計模型的惡意代碼分析,把二進制文件以折線圖和三維圖的形式展現出來。同一個家族的惡意代碼在可視化模型上有著較為明顯的區別。對模型進行特征提取,通過SVM進行機器學習,對四類惡意代碼進行分類與檢測,獲得了較為優秀的精確度。

本文提出的方法是屬于靜態技術的一種,靜態分析不能很好地應對加殼、加密和多態的惡意代碼,因此將來的工作需要結合動態分析,提取出更為準確的特征。而且隨著惡意代碼生成和生存技術變得越來越復雜,程序的隱蔽性會更強,在傳播過程中也會改變程序本身的功能,而不僅僅是外形的變化,這些都需要我們提高重視,做好反惡意代碼的檢測工作。

參考文獻

[1]王毅.惡意代碼聚類中的特征選取研究[A].中國計算機學會.第31次全國計算機安全學術交流會論文集[C].中國計算機學會,2016:5.

[2]黃海新,張路,鄧麗.基于數據挖掘的惡意代碼檢測綜述[J].計算機科學,2016,(07):13-18+56.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 91色在线视频| 久久免费视频6| 久久精品亚洲中文字幕乱码| 欧美色丁香| 自拍偷拍欧美日韩| 免费女人18毛片a级毛片视频| 久久亚洲综合伊人| 欧美区一区| 午夜视频免费试看| 成人年鲁鲁在线观看视频| 欧美精品综合视频一区二区| 在线网站18禁| 久久国产香蕉| 自拍偷拍一区| 国产91在线|日本| 亚洲无码视频喷水| 亚洲色图欧美一区| 五月婷婷综合色| 在线观看91香蕉国产免费| 性欧美在线| 国产视频入口| 国产精品午夜福利麻豆| 欧美黄网在线| 丁香亚洲综合五月天婷婷| 99国产精品国产| 免费亚洲成人| 666精品国产精品亚洲| 日本不卡在线播放| 国产精品午夜福利麻豆| 人妻丰满熟妇av五码区| 午夜福利视频一区| 国产欧美视频一区二区三区| 欧美天天干| 国产成人一级| 中文字幕有乳无码| 狠狠躁天天躁夜夜躁婷婷| yjizz视频最新网站在线| 日韩精品一区二区三区swag| 99精品视频在线观看免费播放| 国产18在线播放| 福利视频一区| 国产成人艳妇AA视频在线| 久久国产成人精品国产成人亚洲| 国产原创自拍不卡第一页| 亚洲综合第一页| 久久人体视频| 91香蕉视频下载网站| 亚洲欧美日韩中文字幕在线| 国内精品久久人妻无码大片高| 91精品aⅴ无码中文字字幕蜜桃| 免费一级毛片不卡在线播放| 夜夜操天天摸| 国产素人在线| 丁香五月激情图片| 精品99在线观看| 茄子视频毛片免费观看| 色有码无码视频| 精品国产91爱| 国产成人资源| 欧美日韩国产精品va| 免费全部高H视频无码无遮掩| 色婷婷在线影院| 激情六月丁香婷婷四房播| 免费一级α片在线观看| 欧美精品成人一区二区在线观看| 午夜限制老子影院888| 中文天堂在线视频| 91美女在线| 啪啪国产视频| 国产精品久久久久久久久久98| 人妻无码一区二区视频| 国产色偷丝袜婷婷无码麻豆制服| 成人国产精品2021| 老熟妇喷水一区二区三区| 一级不卡毛片| 国产91麻豆免费观看| 国产成人av大片在线播放| 国产www网站| Aⅴ无码专区在线观看| 午夜啪啪网| 日韩黄色在线| 草逼视频国产|