999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K近鄰算法的主機異常行為檢測

2024-04-28 06:37:16黃智睿謝顯杰楊曉丹
無線互聯科技 2024年5期
關鍵詞:檢測方法模型

黃智睿,謝顯杰,楊曉丹

(1.昆明冶金高等??茖W校,云南 昆明 650033;2.云南師范大學,云南 昆明 650092)

0 引言

網絡中高價值的數據不斷吸引著黑客,黑客通過利用計算機存在的漏洞攻擊計算機系統,以竊取其中有價值的數據[1]。為了防御黑客攻擊,入侵檢測系統應運而生。入侵檢測方法可以分為基于流量的入侵檢測方法和基于主機異常的入侵檢測方法[2]。市面上的網絡安全設備主要采用基于流量的入侵檢測方法,目的是防御來自外部的直接攻擊。該方法只關注黑客入侵網絡時產生的異常流量,而忽視了監測內部人員的異常操作。這可能會產生以下2種安全隱患:(1)黑客繞過網絡安全防御設備后可以使用竊取的賬戶做破壞性的操作[3];(2)如果相關單位的網絡安全制度管理缺失或執行不到位,會導致低權限的員工使用高權限的用戶賬戶進行操作造成不可挽回的損失[4]。使用基于主機異常的入侵檢測方法可以識別用戶操作是否存在異常,進而保證信息的安全。

本文提出了一種基于K近鄰算法(K-Nearst Neighbor,KNN)的主機異常檢測方法,本方法將系統調用序列看作是有規律的語句,而入侵者系統調用的規律異于正常用戶,所以本方法使用自然語言處理(Natural Language Processing, NLP)中的N元語法(N-Gram)算法和詞頻-逆文本頻率指數(Term Frequency-Inverse Document Frequency,TF-IDF)算法對系統調用序列進行特征提取。為了減少計算開銷,本方法使用主成分分析(Principal Component Analysis,PCA)算法對特征向量進行降維處理,接著使用K近鄰算法學習降維后的特征向量,最終得到一個用于檢測主機異常的模型。本文中的實驗使用新南威爾士大學公布的澳大利亞國防學院Linux數據集(Australian Defence Force Academy-Linux Dataset,ADFA-LD)對所提方法的效果進行了驗證。實驗證明使用K近鄰算法的主機異常檢測方法建立的檢測模型有很好的性能。

1 相關工作

由于語義特征是通過分析不連續的系統調用模式得出的,適合神經網絡學習。Creech等[5]提出了一種基于完整語義特征作為神經網絡學習輸入的入侵檢測方法。該系統在ADFA-LD 數據集上的使用得到了良好的效果。不過該系統構造詞典的過程是基于經驗和實驗,并不具有普適性,并且與經典的機器學習算法相比,神經網絡的運算過程復雜、運行量大,不適合應用于對資源消耗敏感的普通主機。

Geng等[6]提出的使用N-Gram算法構造詞典的方法正好可以解決Creech等[5]提出方法中構造詞典不具普適性的問題,并且在數據集上測試得到了良好的效果。但它只考慮了詞語的頻率而忽視了特征向量等其他內在聯系。

Borisaniya等[7]提出了基于修正向量空間表示模型的主機入侵檢測框架。與各個系統調用根據它們在系統調用跟蹤中的頻率分配權重的標準向量空間表示模型不同,修改后的向量空間表示模型將多個連續的系統調用視為一個單詞。因此,該框架在跟蹤文件中保留了系統調用的相對順序,這對于正確建模進程行為至關重要。不過,該框架存在著隨著N-Gram術語數量的增加,向量空間表示模型呈指數增長的問題。

為了解決基于修正向量空間表示模型的主機入侵檢測框架中向量空間表示模型呈指數增長的問題[7],Subba等[8]提出了通過設定閾值來保留頻率大于閾值的特征值,實現了降維效果的方法。不過如何設定閾值卻成了一個問題。閾值設定過高,會去除許多有作用的特征,閾值設定過低,又達不到降維的效果。

結合相關文獻的研究,發現常見的主機異常檢測方法存在以下3個問題。

(1)針對系統調用序列提取特征值時,常見的主機異常檢測方法沒有考慮調用順序。一般情況下,異常操作和正常操作的調用順序是有差異的。所以新提出的方法需要考慮操作的調用順序。

(2)常見的主機異常檢測方法只考慮準確性,而忽視了提取特征的高維度導致巨大的運算開銷。所以新提出的方法需要對提取出的特征值進行降維處理。

(3)常見的主機異常檢測方法即使考慮采取降維措施的異常檢測方法,也只通過簡單的設定閾值達到降維效果,而沒考慮各特征值之間的聯系。所以新提出的方法在實現降維時需要考慮特征值之間的關系。

2 基于K近鄰算法的主機異常檢測方法設計

如圖1所示,本文提出的主機異常行為檢測方法主要經過以下3個階段實現對異常操作的檢測。

圖1 基于K近鄰算法的主機異常行為檢測方法

第一階段特征提取階段。本方法使用N-Gram算法和TF-IDF算法對輸入的系統調用序列進行特征提取,并且使用PCA算法對特征值進行降維處理。

第二階段K近鄰算法學習階段。本方法使用KNN算法對降維后的特征值進行學習。

第三階段檢測異常操作階段。K近鄰算法訓練后建立的檢測模型可以對新輸入的操作數據進行判斷,判斷是否為異常操作。

2.1 特征提取

在特征提取過程中,本方法將輸入的系統調用序列視為文本數據來處理,其中每次系統調用都被視作一個獨立字母。本方法采用N-Gram算法來構建詞袋模型,從而捕捉系統調用之間的局部依賴關系。隨后,本方法應用TF-IDF算法來衡量不同系統調用序列間的相關性,以突出重要特征并抑制噪聲。然而,經過N-Gram和TF-IDF處理后得到的特征值維度往往較高,這可能會影響后續分析的效率和準確性。因此,本方法進一步引入了PCA算法,對提取出的高維特征值進行降維處理,以便在保留主要信息的同時降低計算復雜度。

2.1.1 使用N-Gram算法提取詞袋

N-Gram算法是自然語言處理中最常用的一種算法,N的數值確定了組成單詞的字母數量。對于一列字母,N-Gram算法通過每次向后滑動一位來不斷生成N個字母組成新單詞,并且統計生成單詞出現的次數,最終生成一個由N個字母組成的單詞和該單詞出現的次數的詞袋[9]。此階段使用N-Gram算法生成了基于詞頻的詞袋,該詞袋將為后續的特征提取提供基礎。

2.1.2 使用TF-IDF算法統計不同系統調用序列的相關性

TF-IDF算法即詞頻-逆文檔頻率算法,是基于統計的經典算法。TF-IDF算法的主要思想是單詞的重要性隨著它在文檔中出現次數的增加而上升,并隨著它在詞袋中出現頻率的升高而下降。TF-IDF算法由詞頻(Term Frequency, TF)、逆文檔頻率(Inverse Document Frequency, IDF)2部分組成[10]。TF只注重詞在文檔中出現的頻次,沒有考慮詞在其他文檔下出現的頻次,缺乏對文檔的區分能力。IDF則更注重詞對文檔的區分能力,2種算法各有不足之處。綜合權衡詞頻、逆文檔頻率2個方面衡量詞的重要程度,TF-IDF算法的計算公式如式1所示。

(1)

其中,ni,j為詞ti在文檔j中出現的頻次;∑knk,j為文檔j的總詞數;|D|為文檔集中的總文檔數;|{j:ti∈di}|為文檔集中文檔di出現詞ti的文檔個數,分母加1是為了避免文檔集中沒有出現詞ti導致分母為零的情況。

前一階段通過N-Gram算法生成的詞袋經過TF-IDF算法的特征提取,可以得到系統調用序列之間的相關性特征。

2.1.3 對特征值進行降維處理

PCA算法是一種使用最廣泛的數據降維算法。PCA算法的主要思想是將n維特征映射到k維上,實現對數據特征的降維處理[11]。由于調用序列的數據經過N-Gram算法和TF-IDF算法提取出的特征值維度較高,使用PCA算法對特征值降維,既進行了降維處理又保留了特征值之間的關聯。

2.2 K近鄰算法

K近鄰算法又稱KNN算法,是常用的機器學習算法之一。KNN算法的基本思想為:KNN算法訓練樣本集中的訓練樣本;KNN算法對需要判斷的新樣本和訓練樣本集的訓練樣本進行比較;KNN算法選取和新樣本特征值距離最近的K個鄰居;KNN算法根據距離最近K個鄰居的標簽來判斷新樣本的標簽[12]。

使用KNN算法對提取到的降維特征值進行訓練,并使用訓練好的模型對新產生的系統調用序列進行檢測是否為異常操作。

3 實驗

本文使用新南威爾士大學澳大利亞國防學院公布的ADFA-LD數據集對提出的基于K近鄰算法的主機異常行為檢測方法進行如下2方面的實驗:驗證提出方法的降維效果;驗證提出方法在檢測異常操作的效果。

3.1 ADFA-LD數據集

本實驗數據集為ADFA-LD數據集,該數據集是新南威爾士大學澳大利亞國防學院公布的一套基于Linux系統的主機級入侵檢測系統數據集合,通常被廣泛用于各種入侵檢測產品的測試。ADFA-LD數據集中的每個文件獨立記錄了一段時間內的系統調用順序,每個調用都用數字標號。并且標注了該文件記錄的系統調用是否為異常操作[13]。

3.2 實驗方法

實驗流程如圖2所示,首先實驗采用N-Gram算法和TF-IDF算法提取ADFA-LD數據集中各系統調用序列的特征值;接著采用PCA算法對得到的特征矩陣進行降維處理;然后實驗隨機劃分60%的樣本作為訓練集,40%的樣本作為測試集[14],并且在劃分出來的訓練集上使用KNN算法訓練檢測模型;最后,實驗使用訓練好的檢測模型對測試集中的數據進行異常操作檢測,驗證檢測效果。

圖2 實驗流程

為了評估入侵檢測模型并比較其性能,通常使用召回率、精度、綜合評價指標和準確性等指標[15]。本次實驗使用了召回率、精度、綜合評價指標和準確性4個指標來評估提出的異常行為檢測方法的性能。召回率衡量的是異常操作檢測系統的查全率,是檢測系統檢測出真正存在的異常操作數與真實異常操作數的比率。精度衡量的是檢索系統的查準率,是檢測系統檢測出真正存在的異常操作數與檢測出所有異常操作數的比率。綜合評價指標可以更綜合地評估檢測系統,是精度和召回率加權調和平均。準確率是衡量在所有的檢測樣本中,有多少行為被準確評估了,包括正常行為和異常行為。

3.3 實驗結果

3.3.1 降維效果

本文所提出的方法,在特征提取階段采用了PCA算法進行降維處理。實驗的核心比較點在于,對比了采用此方法降維后的樣本空間與未進行降維處理的樣本空間的維度差異。如表1所示,當N-Gram的取值在2~6的整數范圍內變動時,原本高達1000維的樣本列數分別被有效降低至128維、177維、191維、191維和176維。這一結果顯示,本方法在降維方面展現出了顯著效果。

表1 PCA降維前后對比 單位:維

3.3.2 性能比較

如圖3所示,分別從召回率、精度、綜合評價指標和準確性4個指標展示了基于K近鄰算法與基于決策樹算法和樸素貝葉斯算法對于主機異常檢測的性能,其中N-Gram取值為2~6的整數。通過實驗可以得出以下結論。

(1)除了N-Gram取值為4時,K近鄰算法的召回率都高于另外2種算法;當N-Gram取值為4時,K近鄰算法的召回率和決策樹算法一致為86.2745098%;決策樹算法的召回率高于樸素貝葉斯算法。

(2)K近鄰算法的精度都高于另外2種算法;當N-Gram取值為6時,K近鄰算法的精度略高于決策樹算法,分別為83.6363636%和83.5403727%;決策樹算法的精度都高于樸素貝葉斯算法。

(3)K近鄰算法的綜合評價指標都高于另外2種算法;決策樹算法的精度都高于樸素貝葉斯算法。

(4)K近鄰算法的準確性都高于另外2種算法;

決策樹算法的準確性都高于樸素貝葉斯算法。

(5)通過4個指標的綜合評估,K近鄰算法優于決策樹算法,決策樹算法優于樸素貝葉斯算法。

4 結語

在深入研究相關文獻的基礎上,本文提出了一種基于K近鄰算法的主機異常檢測方法。在采用了ADFA-LD數據集的實驗中,證明了該方法構建的模型在性能上優于使用決策樹算法和貝葉斯算法構建的模型。與現有的主機異常檢測方法相比,本文提出的方法具有以下優勢:首先,它使用N-Gram算法和TF-IDF算法提取特征,這充分考慮了系統調用序列的順序。其次,它通過采用PCA算法對特征向量進行了有效地降維處理,從而降低了計算復雜性。此外,K近鄰算法的運用考慮了特征值之間的關系,增強了檢測模型的準確性。最后,實驗建立了高效的主機異常檢測模型,能夠準確判斷主機是否存在異常操作。綜上所述,本文提出的基于K近鄰算法的主機異常檢測方法在特征提取、降維處理、算法選擇和模型構建等多個方面均展現出顯著優勢。這一創新性的解決方案,將為主機安全領域提供有力支持,有助于更準確、高效地檢測主機異常操作。

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 日韩性网站| 国产成人精品亚洲日本对白优播| 91麻豆精品视频| 99无码中文字幕视频| 亚洲人视频在线观看| 国产精品私拍在线爆乳| 高潮爽到爆的喷水女主播视频| 亚洲国产天堂在线观看| 亚洲精品无码久久毛片波多野吉| 97se亚洲综合在线| 国产爽妇精品| 国产本道久久一区二区三区| 2020极品精品国产| 人人看人人鲁狠狠高清| 久久久受www免费人成| 国产精品美人久久久久久AV| 国产迷奸在线看| 国产青青操| 国产精品尹人在线观看| 国产欧美综合在线观看第七页| 人妻精品久久无码区| 久热这里只有精品6| 亚洲欧美日本国产综合在线| 亚洲国产精品久久久久秋霞影院| 国产9191精品免费观看| 亚洲国产日韩视频观看| 自拍亚洲欧美精品| 久久综合五月| 国产区在线看| 国产69精品久久久久孕妇大杂乱 | 中文字幕天无码久久精品视频免费 | 国产97视频在线| 鲁鲁鲁爽爽爽在线视频观看| 欧美国产菊爆免费观看 | 成人综合网址| 久久一色本道亚洲| 在线视频97| 亚洲国产精品日韩专区AV| 国产成人高清在线精品| 伊人精品视频免费在线| 国产精品三级av及在线观看| 无码国产偷倩在线播放老年人| 福利在线一区| 精品国产网| 国产精女同一区二区三区久| 国产第一页亚洲| 欧美视频免费一区二区三区| 丁香婷婷综合激情| 国产亚洲美日韩AV中文字幕无码成人 | 日韩一区二区三免费高清| 亚洲日本在线免费观看| 久久大香伊蕉在人线观看热2| 午夜一区二区三区| 久久人妻系列无码一区| 国产成人精品2021欧美日韩 | yjizz视频最新网站在线| 日韩国产精品无码一区二区三区| 性色一区| 亚洲欧美h| 国产18页| 91香蕉国产亚洲一二三区| 亚洲日本韩在线观看| 69综合网| 91精品啪在线观看国产91| 97se亚洲综合在线| 久久午夜夜伦鲁鲁片无码免费| 欧洲熟妇精品视频| 99在线视频精品| 一级全黄毛片| 午夜视频在线观看免费网站| 亚洲男人在线天堂| 日韩欧美中文| 国产你懂得| 中文字幕亚洲专区第19页| 亚洲电影天堂在线国语对白| 国产欧美中文字幕| 亚洲第一区在线| 99re经典视频在线| 青青草原国产免费av观看| 国产女人在线观看| 婷婷六月在线| 中文纯内无码H|