999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進K-means聚類算法的網絡異常數據挖掘與分類方法

2024-10-01 00:00:00賀萌
無線互聯科技 2024年18期

摘要:為了解決網絡異常數據挖掘過程中漏報率、誤報率較高的問題,文章提出一種基于改進K-means聚類算法的網絡異常數據挖掘與分類方法。文章通過構建并行化頻繁項集挖掘環境加速數據處理,利用局部離群點檢測剔除異常值,同時引入K-means聚類對數據的最大最小距離展開計算,融合隸屬度函數與密度峰值優化算法,改進聚類初始中心選擇及簇邊界調整,從而提高異常識別準確性和分類效率。通過實驗結果證明,該方法能夠明顯改善聚類效果與性能。

關鍵詞:K-means聚類算法;網絡異常;數據挖掘;數據分類;離群點檢測

中圖分類號:TP309 文獻標志碼:A

0 引言

在當前互聯網環境下,數據量的急劇增長使得網絡異常數據的識別與分析成為維護網絡安全性和保障系統穩定性的關鍵。這些異常數據通常來源于網絡攻擊、系統故障、用戶誤操作等,它們對于網絡安全、系統穩定性和用戶體驗都具有重要影響。異常數據的存在會對用戶體驗構成嚴重威脅。在此之前,已有諸多學者針對網絡異常數據挖掘展開了研究,其中,周一帆[1]提出了基于關聯規則改進的方法,該方法主要依賴專家經驗和先驗知識,但在復雜多變的網絡環境下,其規則往往難以全面覆蓋,一定程度上降低了判斷的準確性;段磊等[2]提出了基于抗差估計與改進間隙統計算法(Gap Statistic Algorithm,GSA)的配網異常數據聚類檢測方法,該方法通過對歷史數據的分析,建立數據統計模型,但其面對非線性和高維數據時的效果仍有待提升。針對以上問題,本文基于改進K-means聚類算法提出一種網絡異常數據挖掘與分類方法,旨在更有效地識別和分析網絡異常數據,以應對當前網絡安全領域面臨的挑戰。

1 并行化頻繁項集挖掘環境設計

本研究針對復雜網絡中的異常數據,需要對其進行多次掃描,降低計算負荷,采用Spark計算架構進行優化挖掘。

首先,筆者在變數儲存區構建頻繁項目集,通過掃描數據集合生成頻繁單項集[3],采用廣播變量策略,將頻繁項集緩存至各節點內存,從而減少網絡傳輸開銷。

其次,輸出頻繁項集k+1。在循環迭代的過程中,為了高效地計算節點k+1的項集及其編碼,實驗采用并行化策略,以加速計算過程[4]。完成剪枝操作后,根據預設支持度閾值進行篩選,獲取符合要求的頻繁k+1項集。

最后,實驗為了保持廣播變量中頻繁項集的最新狀態,將頻繁k+1項集更新到廣播變量中,以替換原有的頻繁k項集。某個項集在所有數據記錄中出現的頻率可以通過下述公式計算得出:

其中,Support(X)表示支持度,即項集X在所有數據記錄中出現的頻率;count(X)表示項集X在數據集D中出現的次數;|D|表示數據集D的大小。

關于迭代的終止條件,設定一個明確的準則:在迭代期間,不能再生成深度頻繁項目集,滿足支撐條件,迭代將終止。這意味著算法將不再繼續生成更高階的頻繁項集,從而節省計算資源和時間[5]。通過這一策略,能夠有效地控制迭代過程,確保算法在最短的時間內找到所有滿足條件的頻繁項集。

通過上述論述,在處理優化頻繁項集的過程中,采用了一種高效的編碼策略,這種策略顯著降低了計算機存儲空間的占用[6]。通過利用Spark計算框架的并行處理能力,對頻繁項集的計算進行了有效的并行化,這不僅加快了關聯規則挖掘的速度,還提高了整體計算的效率。通過優化算法流程和數據結構,顯著降低了挖掘強關聯規則所需的內存開銷和時間復雜度[7]。這些改進為后續的K-means算法在網絡異常數據聚類中的應用提供了強有力的支持,使其在處理大規模數據集時更加高效和準確。

2 網絡數據局部離群點檢測

網絡數據樣本中那些與其他數據顯著不同的點就是離群點,需要預先識別并剔除。這是為了避免將這些離群點錯誤地選作初始聚類中心,從而影響聚類的準確性和效率。該實驗基于可變網格策略對網絡數據的局部離群點展開檢測。

實驗過程中通過計算每個網格單元中高頻數據點數量,定義數據點數量為Ne,其中e的取值范圍是從1到l的整數。接著,算法會比較每個網格單元的數據點數量與預設的密度閾值。如果一個網格單元的數據點數量超過了密度閾值,那么該網格中的數據點就被認為是異常的或離群的。這個過程會持續進行,直到所有的高頻數據都被計算了離群因子,所有異常數據的結果都被記錄下來。離群因子的計算公式可表示為:

其中,LOF(xi)表示離群因子;k表示鄰域集;Nk(xi)表示樣本局部可達密度均值;xfi表示近鄰樣本;lrdk(xi)表示局部可達密度。計算結果剔除異常數據點后還需繼續迭代運行,以進一步檢測并識別潛在的其他異常數據點[8]。

3 基于K-means聚類算法的數據最大最小距離計算

為了將數據樣本點劃分為不同的聚類,文章引入基于歐氏距離的最近鄰原則,對數據最大最小距離進行計算。執行步驟如下:

從全部的數據樣本點中選取一個點,作為第一個聚類中心的初始點,計算該聚類中心與數據集中所有其他數據點之間的歐氏距離,計算方法如式(3)所示:

其中,d(xa,xb)表示空間中2個樣本的歐氏距離;xa表示樣本a;xb表示樣本b;dak表示樣本a到樣本k的距離;dbk表示樣本b到樣本k的距離;m表示空間維度。選擇一個數據樣本點xi作為初始的聚類中心,按照公式(3)計算所有剩余樣本點與xi的歐氏距離,記錄距離值。

4 基于改進K-means聚類算法的網絡異常數據挖掘與分類

在完成數據最大最小距離計算后,筆者對網絡異常數據展開挖掘與分類。為此,文章提出基于網格的離群點檢測方法,通過比對數據點與所在網格特征來識別和剔除離群點。再利用極大極小準則確定K-means聚類的初始中心和簇數K,確保聚類的合理性[9]。實驗執行K-means算法對網絡異常數據進行分類,通過迭代將數據劃分為K個簇,每簇代表一種異常類型。最終獲得網絡異常數據的分類結果,為后續的異常處理和分析提供了基礎。在挖掘和分類的過程中,通過求解網絡用戶數據到中心點的距離,實現對用戶數據的分類。其依據為:

其中,h1,2表示2個網絡數據之間的距離;c表示特征值。基于所得數據點與核心參照點間的距離,評估網絡數據集異常狀態,大距離指示數據點偏離正常行為模式,異常程度高;小距離則表明數據點接近正常行為,異常程度低。此評估方法通過量化距離,客觀判定網絡行為的異常性,能夠為網絡監控與異常檢測提供精準依據。

由于在實際的分類過程中,多個相似的數據點難以嚴格地被劃分到同一個類別中,卻有可能以不同的隸屬度被劃分到其他類別,這就會造成分類結果準確度的降低。為了解決這一問題,筆者對文章所應用的K-means算法進行改進,引入隸屬度函數概念,以優化聚類結果,提升異常數據識別的準確性。定義一個隸屬度函數來衡量數據點對于不同簇的歸屬程度,該函數能夠確保數據點以不同的隸屬度被分配到不同的簇中,從而提高分類的靈活性。對于數據點xi和簇中心cj,定義其隸屬度uij為:

其中,d(xi,cj)表示數據點xi與簇中心cj之間的距離;m表示一個大于1的模糊系數,經過一系列處理步驟,最終得到一個主導聚類以及多個相對分散的聚類。將主導聚類視為核心參照點,接下來,計算數據集中各個數據點與這個核心參照點之間的距離。基于這些距離值,能夠評估當前網絡用于控制隸屬度的模糊程度。

實驗僅靠隸屬度函數仍難以完全解決邊界點分配的問題,因此進一步引入密度峰值概念。密度峰值高的點更有可能成為簇的中心,而密度低的點則更可能是噪聲或邊界點。定義數據點xi的局部密度ρi為:

其中,φ(x)表示示性函數,當x<0時,φ(x)=1,否則φ(x)=0;dij表示數據點xi和xj之間的距離;dc表示一個截斷距離,用于確定鄰域的大小。局部密度高的點會被優先選為簇的中心,而局部密度低的點則被標記為噪聲或邊界點。

在上述對于網絡異常數據挖掘與分類過程中,基于局部密度選擇初始簇中心,以改進現有的K-means算法。數據點迭代過程中,除更新簇中心外,還引入隸屬度概念來優化邊界劃分為異常和非異常2個類別。這一劃分有助于更準確地識別出網絡中的異常行為,采取相應的措施進行處理。對于隸屬度與局部密度均低的數據點,視為噪聲或邊界點并移除;而高隸屬度低局部密度的點,則視為新簇中心候選,嘗試重分配。

5 對比實驗

5.1 實驗準備

為了驗證文章方法在實際應用中的有效性和優勢性,設置對比實驗,對比文章方法與文獻[1]和文獻[2]方法的挖掘性能。實現對文章方法應用有效性和優勢性的驗證。在實驗室中完成此次實驗,實驗室中有6臺計算機通過交換機連接,其CPU為Pentium 4 1.8 GHz、總線為DDR SDRAM、時鐘頻率為133 MHz、帶寬為2133、網絡適配器為Realtek 8139—series PCI NIC。本次實驗所采用的實驗數據包括2類來源,一類為實驗室聯網計算機使用的攻擊工具模擬網絡攻擊而生成的人為制造異常數據;另一類為DARPA測試數據集。

5.2 聚類中心選取效果對比分析

對文章方法本身聚類中心選取效果進行實驗對比分析,得到實驗結果如圖1所示。

從圖1可知,通過該研究提出的方法,采用不同實驗確定聚類中心數量分別為5個、3個和2個。其中,圖1a和圖1b均出現了多個聚類中心集中排列的現象,說明這2種方法在聚類過程中陷入了局部最優。而圖1c得到的聚類效果中聚類中心均勻分布,沒有出現聚集性的聚類中心,可以獲得正確聚類中心,能夠為后續異常數據挖掘提供保障。

5.3 異常數據挖掘性能對比分析

結合3種方法的挖掘結果進行對比。筆者通過對DARPA測試數據集中5組數據的挖掘漏報B值和誤報H值進行記錄,其中,B值通過漏報事件數量與異常事件總數量之比得出;H值通過誤報事件數量與事件總數量之比得出。得到的實驗結果如表1所示。

筆者在深入剖析表1中的數據時發現,文章方法的漏報B值能夠穩定地維持在3.00%~4.00%,誤報H值限制在0.50%~1.50%的狹窄范圍內,說明在系統或網絡中存在大量數據流動的情況下,文章方法能夠精準區分正常行為與異常行為,能夠避免因誤報而導致的資源浪費和不必要的干預。

6 結語

本文提出的基于K-means聚類算法的網絡異常數據挖掘方法,在理論和實踐上均取得了一定的成果。本文提出的方法在無須先驗知識的情況下,能夠自動確定聚類個數,有效降低對初始聚類中心選擇的敏感性,實現對噪聲和異常值的有效處理。實驗結果表明,該方法在網絡異常數據挖掘中具有較高的準確性和效率,能夠為網絡安全、系統穩定性和用戶體驗提供有力支持。

參考文獻

[1]周一帆.基于關聯規則改進的網絡異常數據挖掘方法[J].湖南郵電職業技術學院學報,2024(1):41-44.

[2]段磊,楊超,朱衡,等.基于抗差估計與改進GSA數據挖掘的配網異常數據聚類檢測方法[J].電力科學與工程,2023(12):41-50.

[3]于楚凡,郭大亮,張秋霞,等.基于大數據挖掘的發電系統異常數據識別系統設計[J].電子設計工程,2022(6):131-135.

[4]劉堯.基于數據挖掘的地鐵車輛車門狀態異常信號自動檢測研究[J].自動化技術與應用,2024(4):78-81,146.

[5]孫立吉,邢偉,郝立波,等.EM分類法在區域地球化學數據挖掘中的應用:以湖南省洞口地區1∶20萬水系沉積物Pb異常識別為例[J].科學技術與工程,2023(23):9820-9827.

[6]高楊.大環境數據挖掘的網絡異常數據快速采集在環境保護管理系統中的應用[J].環境工程,2023(1):348.

[7]趙明明,司紅星,劉潮.基于數據挖掘與關聯分析的工控設備異常運行狀態自動化檢測方法分析[J].信息安全與通信保密,2022(4):2-10.

[8]楊婧,石云輝,盧啟芳.基于數據挖掘的電量異常數據智能識別方法研究[J].自動化儀表,2023(11):64-68.

[9]王宏杰,徐勝超.人工蜂群聯合入侵雜草優化的云平臺異常行為數據挖掘[J].現代電子技術,2023(20):86-90.

Network anomaly data mining and classification method based on improved

K-means clustering algorithm

Abstract: In order to solve the problem of high false positive rate and false positive rate in the process of network abnormal data mining, this paper proposes a method of network abnormal data mining and classification based on improved K-means clustering algorithm. A parallel frequent itemset mining environment is constructed to accelerate data processing,EGeYXR/u8pmPpZLWSgtLzMy0m/H0OQYnVaW7+caZ60o= and local outlier detection is used to eliminate outliers. K-means clustering was introduced to calculate the maximum and minimum distance of the data, and membership function and density peak optimization algorithm were integrated to improve the initial center selection and cluster boundary adjustment of the cluster, so as to improve the accuracy of anomaly recognition and classification efficiency. The experimental results show that the clustering effect and performance of the proposed method are obviously improved.

Key words: K-means clustering algorithm; network anomaly; data mining; data classification; outlier detection

主站蜘蛛池模板: 永久免费精品视频| 91精品国产一区| 国产香蕉国产精品偷在线观看| 99视频精品全国免费品| 欧美亚洲一区二区三区导航| 99久久精品久久久久久婷婷| 亚洲一级色| 在线观看国产精美视频| 欧美在线视频a| 欧美中文一区| 国产美女主播一级成人毛片| 欧美成人手机在线视频| 国产精品视频久| 欧美日本在线观看| 免费在线a视频| 19国产精品麻豆免费观看| 欧美激情视频二区三区| 亚洲天堂网在线视频| 极品私人尤物在线精品首页| 亚洲视频无码| 亚洲大学生视频在线播放| 亚洲精品少妇熟女| 1024国产在线| 久久久久国产一级毛片高清板| 日韩av手机在线| 日韩天堂在线观看| 欧美精品影院| 超碰精品无码一区二区| 亚洲h视频在线| 欧洲欧美人成免费全部视频| 亚洲制服中文字幕一区二区 | 天堂在线www网亚洲| 91精品啪在线观看国产91| 国产精品视频猛进猛出| 色网站免费在线观看| 97免费在线观看视频| 91网在线| 国模极品一区二区三区| 国产爽妇精品| 91小视频在线播放| 婷婷亚洲天堂| 日韩黄色大片免费看| …亚洲 欧洲 另类 春色| 亚洲,国产,日韩,综合一区| 大香伊人久久| 久久久久久久久久国产精品| 人与鲁专区| 久久精品国产亚洲麻豆| 无码啪啪精品天堂浪潮av| 成人午夜福利视频| 无码精品一区二区久久久| 国产乱人免费视频| 婷婷开心中文字幕| 亚洲中文字幕av无码区| 欧美日韩北条麻妃一区二区| 91精品网站| 亚洲欧美日韩高清综合678| 国产精品无码制服丝袜| 日韩国产 在线| 亚洲婷婷丁香| 91福利片| 高h视频在线| 全免费a级毛片免费看不卡| 欧美成人看片一区二区三区| 国产成人精品一区二区三在线观看| 亚洲无码A视频在线| 国产免费羞羞视频| 久久夜色撩人精品国产| 高潮爽到爆的喷水女主播视频| 国产97视频在线观看| 亚洲v日韩v欧美在线观看| 久久久久国产一区二区| 国产呦精品一区二区三区下载| 99热这里只有精品2| 欧美www在线观看| 免费人成网站在线观看欧美| 毛片网站观看| 国产网友愉拍精品| 日韩av高清无码一区二区三区| 精品久久久久成人码免费动漫| 免费人成视网站在线不卡| 国产成人综合亚洲网址|