999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模式匹配與機器學習的異常檢測模型

2018-05-22 11:13:22馮國震
中國科技縱橫 2018年7期
關鍵詞:機器學習

馮國震

摘 要:針對基于模式匹配的異常行為檢測無法實現細粒度化檢測和精確定位異常行為的問題,提出一種基于模式匹配與機器學習的異常檢測模型。該模型通過模式匹配實現異常行為檢測,同時利用機器學習算法實現越權檢測,分別從“用戶行為”和“功能點”兩個維度檢測,然后進行協作:兩者相互驗證,實現細粒度化檢測以及精確定位異常行為,加深了模型的檢測深度;兩者相互補充,拓寬了模型的檢測廣度。實驗結果表明,本文設計的檢測模型實現了細粒度化異常檢測,達到了提升異常檢測能力的目的。

關鍵詞:模式匹配;機器學習;異常檢測;AC_BM算法;孤立點;蟻群聚類算法

中圖分類號:TP181 文獻標識碼:A 文章編號:1671-2064(2018)07-0009-05

隨著互聯網的持續快速發展,網絡深入到人們生活的各個領域中,扮演著越來越重要,且不可取代的角色,這為各種針對互聯網的非法入侵提供了途徑和動力,隨之而來的網絡犯罪愈演愈烈,面臨的信息安全問題也日益嚴重。針對越來越嚴峻的安全形勢,相應的安全防御技術被社會各界廣泛關注,擁有空前的支持力度和發展空間。入侵檢測技術自被提出開始就成為一個研究熱門,迄今為止,入侵檢測仍然被視為重要的安全防御機制,得到重點研究和運用。異常檢測是入侵檢測的一個研究方向,它將與正常行為不同的“非正常”行為都劃歸為入侵行為。基于模式匹配的入侵檢測技術是利用模式匹配算法通過比對待測行為特征為與已知行為特征來實現入侵檢測的,其不足之處在于依賴數據挖掘過程中挖掘出的已知行為特征,對未知的行為直接定性為入侵行為,無法進行更加細粒度地檢測,實現精確定位入侵行為,達到精細化入侵檢測。

針對基于模式匹配的入侵檢測無法實現精細化入侵檢測的問題,本文提出了一種以模式匹配與機器學習算法相結合的入侵檢測模型。該模型在數據挖掘的基礎上,對用戶進行異常行為檢測的同時,從另一維度以機器學習算法對該用戶的行為進行越權檢測,兩種檢測方法結合,相互驗證檢測結果,可以實現未知行為的細粒度化檢測,精確定位異常行為;同時還能相互補充,加強檢測廣度,最終達到提高異常檢測模型檢測性能的目的。

1 相關研究

1.1 入侵檢測技術與模式匹配

入侵檢測的概念是在1950年由James Anderson[1]最早提出來的,它作為一種傳統的安全防御技術被提出已經有數十年,有很成熟的理論體系和豐碩的相關科研成果。入侵檢測能主動的檢測攻擊行為,防止攻擊行為造成大面積的破壞。入侵行為可以分為內部合法用戶的越權使用、濫用和外部人員侵入3種類型。與傳統的安全防御機制相比,入侵檢測是指用于檢測任何危害或者試圖危害信息系統保密性(Confidentiality)、完整性(Integrity)和可用性(Accountability)的行為的一種網絡安全防御技術[1]。入侵檢測可分為異常檢測和誤用檢測兩大類,其中異常檢測是根據系統或用戶的非正常行為和使用計算機資源的非正常情況來檢測入侵行為。一個入侵檢測系統(Intrusion Detection System,IDS)的基本組成結構如圖1[2]所示。

模式匹配是一種基于攻擊特征的入侵檢測技術[3]。它是對入侵行為的特征進行匹配的過程,若待測行為的特征與入侵行為的特征模式匹配成功,則表示該待測行為是入侵行為。目前模式匹配技術已成為入侵檢測技術中具有代表性的技術之一,得到了充分的研究和發展。

AC_BM算法[4-6]是典型的多模式匹配算法之一,是由AC算法[4-6]和BM算法[4-6]結合產生的匹配算法。該算法首先以多個模式的共同前綴作為根節點生成一棵模式樹,然后將待檢測模式與模式樹的字符從模式樹的根節點到葉子節點的方向逐個比較,待測模式能與模式樹種的某個分支匹配,則表示匹配成功。該算法將BM算法的跳躍思想與AC算法速度上的優勢相結合,相對其他模式匹配算法具有較高的效率和良好的性能。

1.2 基于蟻群聚類的孤立點檢測算法

孤立點是指在數據集中與其他數據有不同性質的對象。在入侵檢測中,孤立點因與其它數據類型不同,可能預示入侵行為。孤立點挖掘[6]是指探索和分析孤立點的數據挖掘過程。孤立點研究的意義主要在于:①它是數據分析結果的重要組成部分;②它一般是檢測、記錄錯誤,但可能代表某領域中有意義的知識;③孤立點的確認過程中通常會發現新知識。

本文在使用蟻群聚類算法[8]作為孤立點檢測算法來實現橫向越權檢測。蟻群聚類算法的優點在于實現了自組織聚類,即不需要像K-means等算法那樣預設聚類中心數目就能實現聚類[8]。

基于蟻群的聚類算法的主體思想是:首先把若干對象隨機散布在n×m的網格平面區域內,其中m和n是區域的長和寬,要求每個網格內不能放置多個對象,m和n的大小可以隨對象的數目而進行調整;然后把若干只螞蟻隨機散布在網格中,螞蟻的數目小于對象數目;每只螞蟻隨機選擇一個對象,在局部區域內,可以計算該對象與周圍對象的局部群體相似度,進而得到一個概率,這個概率決定螞蟻“拾起”、“移動”或者“放下”對象的動作。經過有限次“拾起”、“移動”或者“放下”迭代操作之后,網格區域內隨機散布的對象就會因其相似度大而聚集以及因相似度小而分隔開來[8]。

2 檢測模型構建

本文以某企業的DLP系統為研究對象進行數據挖掘和建模分析得到,內部系統用戶都有固定的角色扮演,即為了實現某一業務功能,用戶都有基本固定的行為模式,正常情況下不會去操作別人的業務,所以若發生此類情況便判定為異常行為。另外,本文研究的越權是指同級別用戶之間的“橫向越權”,因為不同級別之間的用戶因為等級和權限不同,無法確切的界定開來。所以首先要依據已知的用戶級別將用戶劃分開,然后對同等級的用戶進行基于孤立點的橫向越權檢測。

本文所研究的系統是一個多層的復雜系統,每個模塊子系統下又有若干小的功能模塊,通過數據挖掘技術把系統中的核心功能模塊挖掘出來。主要的識別特征是功能頁面的URL地址,為便于后續研究稱呼,本文將“功能頁面”統一稱為“功能點”。這些挖掘出的功能點將作為本文檢測模型中用戶的最小操作單元。通過挖掘得出系統核心模塊,并進行人工標注后得到的系統架構如圖2所示。

由用戶對功能點的時序操作提取出的用戶操作序列,并以序列挖掘算法挖掘出用戶操作的頻繁序列,再經過驗證得到用戶的正常行為序列,最終形成特征序列模式庫,作為模式匹配的“匹配標準”。由此,本文的提出的基于模式匹配與機器學習的異常檢測模型如圖3所示:

由圖3所示,本文檢測模型可分為兩個階段,數據挖掘階段挖掘系統功能點和用戶行為序列,分別作為橫向越權檢測模型和異常行為檢測模型的輸入。異常檢測階段的兩個子模型分別進行檢測,然后相互驗證并最終輸出模型的檢測結果。驗證過程的主要思路是:模式匹配檢測出異常行為通過用戶ID與對應的越權檢測結果進行驗證,進一步細化檢測。若檢測出的異常行為有與之對應的越權行為,即可精確定位異常行為,比如指出某用戶有異常行為,且其具體的異常操作是哪個功能點,越權發生在何處,最后將結果合并整理輸出。這是兩個子模型的相互驗證過程,達到加深模型檢測深度的目的。此外,輸出無對應越權的異常行為和未檢測出異常的越權行為,比如某些異常行為并未發生在本文設計的越權檢測范圍內,反之亦然。這些異常屬于兩個模型的相互補充,達到拓寬模型檢測廣度的目的。

2.1 基于模式匹配的異常行為檢測模型

基于模式匹配的異常行為檢測模型的檢測流程為:首先將挖掘出的用戶行為序列作為異常檢測的特征模式,然后把提取的用戶待測行為序列與已知特征模式進行模式匹配,若匹配成功,則待測行為是正常行為;若無法匹配,則將待測行為劃分為異常行為。異常行為檢測模型如下圖4所示。

輸入:待測行為序列,其輸入格式與特征序列模式庫中的序列一致,通過數據挖掘提取而來。

檢測過程:首先利用特征模式庫中的行為序列構建特征模式樹,然后將特征模式樹作為標準,利用AC_BM模式匹配算法將待測行為序列與特征模式樹進行模式匹配。

輸出結果:若待測序列與模式樹匹配成功,表示該序列為正常行為;若匹配失敗,則表明該待測行為是異常行為。

2.2 基于孤立點的橫向越權檢測模型

由于用戶功能點是以URL作為標識,且URL地址是相關的,同一模塊下的功能點URL地址的相似程度大于不同模塊下功能點URL地址。因此可用Levenshtein距離[9-10]定量表示URL相似度。Levenshtein距離又稱為編輯距離,編輯距離算法是指兩個字符串之間,由一個字符串通過一些編輯操作可以變成另外一個字符串所需要的最少編輯操作次數[11]。編輯距離越大,說明兩個字符串相似度越小。

橫向越權檢測原理如下:同一級別下,用戶操作的功能點相關性大,通過聚類把完成同一個業務的關聯功能模塊聚成簇,即用戶的所有正常操作都會匯聚成若干簇。如果出現離群的孤立點,即該點與用戶操作的其他功能點均不屬于同一系統模塊,即可視為越權操作。

一般情況下,用戶進行越權操作時,屬于“偶然行為”,并不會有太多操作,孤立點檢測即可實現檢測越權;然而若是用戶越權產生大量操作時,孤立點檢測便無法檢測出這種情況下的越權操作了。針對這種情況,本文設計了一個檢測閾值F,經過聚類后,若待檢測的“功能點簇”占所有功能點的比重小于該閾值,視為越權,發出告警;若比重大于該閾值,即劃分為正常操作。基于此設計,不需要考慮人員業務變更帶來的影響,檢測過程不考慮歷史數據,具有更好的實時特性。基于孤立點檢測的橫向越權檢測流程如圖5。

本文設計的橫向越權檢測模型是基于用戶本身在該次檢測的數據進行的自我檢測。之所以不直接比較待測的用戶功能與已有用戶的功能而實現越權檢測,是因為系統用戶的功能結構可能會發生變化,例如某一用戶接手其他用戶的工作,這屬于正常的變動,但是如果根據歷史數據進行比較,會產生大量誤報,人工核實工作量太大。這與本文設計初衷不符,更不符合實際需求。本文直接進行自我檢測,不會過度依賴歷史數據,減少業務上的變更對檢測模型的影響。

3 實驗結果及分析

3.1 數據準備及環境搭建

本文實驗選用的數據為北京某科技公司的DLP系統的用戶操作記錄。本文從大量的操作記錄中篩選出部分正常操作記錄,并挑選構造部分針對性研究的異常數據。實驗數據總共有2436720條記錄,其中正常操作記錄有2436006條,異常行為記錄有714條,異常記錄占總記錄的0.03%。訓練集與測試集的數據比例約為8:2,測試集中異常記錄占比約為0.146%。實驗數據具體描述如表1所示。

本文采用入侵檢測系統常采用的衡量指標中的準確率、誤報率、檢測率作為評價標準,各個指標的計算公式如下式(4)、式(5)和式(6):

3.2 實驗結果及分析

首先通過實驗得到異常行為檢測模型和越權檢測模型分別對應的針對性的實驗結果,即異常行為檢測模型檢測實驗不考慮越權異常的情況,同理越權檢測模型實驗不考慮行為序列異常,這是為了驗證兩個子模型各自的檢測能力。然后進行驗證整合,考慮所有異常數據,進行整體模型檢測實驗,得到整體模型的實驗結果如表2所示。

由表2可知,在本文實驗條件下,異常檢測模型的兩個子模型以及整體模型在準確率、檢測率和誤報率方面都有較好的表現:在較低的誤報率的情況下,準確率和檢測率都達到了較高的水平。同時,整體檢測模型在綜合所有異常情況下,各項衡量指標達到較高水平的情況下,具有較高的精確定位異常行為能力。此外,為了直觀顯示異常檢測模型的兩個子模型的檢測性能,給出子模型的ROC曲線如圖6所示。

實驗結果表明,本文實驗條件下,異常行為檢測模型與橫向越權檢測模型都有很好的檢測效果。基于模式匹配和機器學習的異常檢測系統充分發揮子模型各自的檢測優勢的同時,使子模型協同互補,實現了細粒度化的異常檢測,從檢測深度和廣度上提高了異常檢測模型檢測能力,并達到精確定位異常行為的目的。

4 結語

基于模式匹配的入侵檢測依靠數據挖掘能實現自動提取特征或規則,然而其不足在于依賴數據挖掘,無法實現細粒度化入侵檢測和精確定位入侵行為。針對這個問題,本文首先基于企業內部系統業務邏輯的數據挖掘分析,提出了基于模式匹配與機器學習的異常檢測模型,通過模式匹配和機器學習算法分別從用戶“行為”和“功能點”兩個維度進行檢測,然后綜合兩個模型的結果進行互補驗證,從深度和廣度上提升了異常檢測模型的檢測能力。通過驗證可知,本文提出的檢測模型能充分發揮兩個子模型各自的檢測優勢,達到很好的檢測水平,然后通過子模型的協作實現精確定位入侵行為,實現細粒度化異常檢測,符合入侵檢測的研究發展趨勢,對后續入侵檢測的研究有一定的參考價值。

參考文獻

[1]J. P. Anderson. Computer Security Threat Monitoring and Surveillance. Fort Washington,PA: James P.Andersonn Co.,1980:6-7.

[2]Kumar G, Kumar K,Sachdeva M.The use of artificial intelligence based techniqes for intrusion detection: a review. Artificial Intelligence Rwview,2010,34(4):369-387.

[3]Ayres J, Gehrke J, Yiu T, et al. Sequential pattern mining using a bitmap representation [C] . Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. USA, New York: ACM, 2002:429 X35.

[4]李樹政.基于Snort系統快速模式匹配算法的研究[D].吉林大學碩士畢業論文,2009.

[5]萬國根,志光.改進的AC-BM字符串匹配算法[J].電子科技大學學報,2006,35(4):531-533.

[6]李志清.基于模式匹配和協議分析的入侵檢測系統研究[D].廣東工業大學碩士畢業論文,2007.

[7]陸聲鏈,林士敏.基于距離的孤立點檢測及其應用[J],計算機與數字工程,2004,32(5):94-97.

[8]姚興仁,趙剛,吳維希.基于“智能信息中心”的蟻群文本聚類算法改進[J].信息安全研究,2017,3(2):160-165.

[9]解天書.基于編輯距離算法的中文模糊匹配技術在大數據量環境中的應用[D].湖北大學,2013.

[10]王威.融合檢索技術的譯文推薦系統的研究與實現[D].北京工業大學,2016.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产一区二区精品福利| 特级欧美视频aaaaaa| 国产日本欧美亚洲精品视| 久久免费视频播放| 亚洲天堂网在线观看视频| 久久婷婷五月综合色一区二区| 日本不卡视频在线| 国产一级精品毛片基地| 99无码中文字幕视频| 一级毛片免费不卡在线| 一级不卡毛片| 国产成人精品一区二区不卡| 欧美成人精品一区二区| 久久国产免费观看| 国产永久在线观看| 四虎精品国产永久在线观看| 欧美日韩在线第一页| 国产福利观看| 日韩AV无码免费一二三区| 亚洲AⅤ综合在线欧美一区| 萌白酱国产一区二区| 丁香五月激情图片| 97se亚洲综合在线韩国专区福利| Jizz国产色系免费| 国产成人亚洲毛片| 亚洲成a人片77777在线播放| 欧美成人aⅴ| 日本久久网站| 亚洲视频欧美不卡| 亚洲第一天堂无码专区| 久久人人妻人人爽人人卡片av| 国产成人无码综合亚洲日韩不卡| 制服丝袜 91视频| 这里只有精品国产| 91网红精品在线观看| 亚洲精品va| 亚洲AⅤ无码日韩AV无码网站| 国产一区成人| 狠狠色丁香婷婷| 国产成人综合亚洲欧美在| 色噜噜综合网| 蝴蝶伊人久久中文娱乐网| 国产凹凸一区在线观看视频| 午夜精品区| 国产人前露出系列视频| jizz亚洲高清在线观看| 国产精品偷伦视频免费观看国产| 国产玖玖玖精品视频| 精品综合久久久久久97| 欧美另类精品一区二区三区| 免费无码网站| 玖玖精品在线| 亚洲黄色成人| 97狠狠操| 成人国产一区二区三区| 日韩成人免费网站| 久久九九热视频| 久久精品只有这里有| 精品少妇人妻一区二区| 91精品网站| 国产原创演绎剧情有字幕的| 国产毛片不卡| 在线观看亚洲国产| 国产乱论视频| 国产成人精品在线1区| 一级片一区| 精品免费在线视频| 国产成人精品一区二区免费看京| 色哟哟色院91精品网站| 欧美亚洲日韩不卡在线在线观看| 2019年国产精品自拍不卡| 亚洲精品综合一二三区在线| 久996视频精品免费观看| 好紧好深好大乳无码中文字幕| 国产精品青青| 亚洲美女一区二区三区| 国产在线视频二区| 成人亚洲天堂| 69av在线| 欧美人与牲动交a欧美精品| 永久免费AⅤ无码网站在线观看| 日韩a级毛片|