鄭繼剛 張靜梅



摘 要:遠程主機的用戶未授權訪問攻擊是網絡攻擊類型之一,該攻擊類型出現在KDDCup數據集中,運用Weka對特征屬性進行分析,挖掘結果顯示不同屬性特征間的聯系。
關鍵詞:Weka; 數據挖掘; 特征屬性; 關聯分析
文章編號:2095-2163(2019)04-0290-03 中圖分類號:TP311 文獻標志碼:A
0 引 言
數據挖掘也稱數據庫中知識發現(knowledge discovery in database,KDD)[1],從提出到現在一直得到了研究和應用領域的廣泛關注。是目前重要研究課題之一。其從大量原始數據中挖掘出隱含的、有用的、尚未發現的信息和知識,幫助決策者尋找數據間潛在的有用知識。
遠程主機用戶未授權訪問攻擊(Remote to Local,R2L),攻擊是基于數據包負載的,數據包頭部沒有明顯的頻繁模式,單個數據包和正常連接區別不大,若采用傳統檢測方法很難提高檢測率[2]。
本文采用數據挖掘Weka平臺的關聯規則算法[3],依據KDDCUP99數據集的“KDDCUP.data_10_percent”子集[4],挖掘出數據集中R2L攻擊隱含的用戶行為特征或規律,以指導入侵檢測系統依據規則庫對用戶行為進行檢測,根據檢測結果采取不同的應對措施。
1 R2L數據預處理
“KDDCUP.data_10_percent”子集中共有1 126條R2L攻擊類型記錄,每條記錄有41個固定的特征屬性和最后一個攻擊類型標識。下載的數據集是xls格式的excel工作表,另存為CSV文件類型,在Weka“Exploer”模塊中,打開該CSV文件另存為ARFF文件類型,可視化結果如圖1所示。
2 關聯分析
在Explorer 模塊的關聯規則(Associate)標簽下,可以實現對數據集的關聯分析操作,這里提供了Apriori、FilteredAssociator、GeneralizedSequentialPatterns、HotSpot、PredictiveApriori、Tertius等多種關聯分析算法,本文選擇Apriori算法對實驗數據集進行了關聯分析[5]。
每條攻擊記錄共有42個特征屬性。除第2、3、4、42個屬性是離散型外,其余38個屬性均為數值型,如圖2所示。
借助Weka的“Filter樹”,在“weka.filters.unsupervised.attribute.Discretize”中,設置attributeIndices屬性為“1,5-41”,“bins”改成“3”,即設置為3段離散化值。勾選記錄值完全相同的protocol_type、land、wrong_fragment、num_outbound_cmds、is_host_login等5個屬性,2 s時間內與當前連接的流量特征、具有相同目標主機前100個連接。即第23~41個屬性,并“Remove”以刪除剩余18個屬性。設置參數為“Apriori–N 20–T 0 –C 0.9–D 0.1 –U 1.0 –M 0.5 –S -1.0 –C -1”,前20條挖掘結果見表1。
根據挖掘結果,從中可以獲取隱含在R2L攻擊類型中不同屬性特征間的聯系:被迫妥協出現的次數num_compromised<13,超級用戶root訪問的數量num_root<18,shell提示符的數量num_shells<1,不執行“su”命令su_attempted,登錄失敗的次數,num_failed_logins<2,執行文件創建的數量num_file_creations<7。這些挖掘規則的置信度均為100%,如果降低置信度進行挖掘,會有更多的聯系出現。
3 結束語
Weka是一個開源的數據挖掘軟件,使用戶能夠很容易地將其應用于所要挖掘的數據集,挖掘出知識點。本文借助著名的開源數據挖掘軟件Weka3.6.2版本,對KDDCUP99數據集的“KDDCUP.data_10_percent”子集中R2L攻擊類型進行了關聯分析,實現了Weka在網絡入侵檢測數據集中的應用。對數據格式的轉換、數據類型的轉換有了完整的認識,挖掘出特征屬性及行為之間的關聯關系,提高了檢測的效率和準確率。
參考文獻
[1]HAN Jiawei, KAMBER M. 數據挖掘概念與技術[M]. 2版. 范明, 孟小峰,譯. 北京:機械工業出版社,2007.
[2] 全亮亮. 基于數據挖掘算法的入侵檢測研究[D]. 武漢:武漢科技大學,2013.
[3] WITTEN I H, FRANK E. 數據挖掘實用機器學習技術[M]. 董 琳,譯. 北京:機械工業出版社,2006.
[4] NEWMAN D. Welcome to the UCI knowledge discovery in databases archive[EB/OL]. [2005-09-09].
[5] 孫元軍,鄭新奇,常偉倩. 基于Weka的城市建設用地結構特征挖掘研究[J]. 計算機工程與應用,2008,44(27):231-235.