摘要:針對一個從模擬局域網中獲取的數據集,設計并實現了一種基于決策樹的連接類型預測工具;在一般決策樹歸納算法的基礎上,根據訓練數據集的統計特征進行了預處理、改進和優化;對訓練所得分類模型的準確率進行了評估,并通過實驗考察了訓練數據集大小和屬性選擇度量對結果的影響;也考慮了輸入的測試數據存在的一些異常情況及解決辦法。
關鍵詞:決策樹;分類;增益;入侵檢測
引言
分類(data classmcaIion)是數據挖掘中對大量數據進行分析的一種常用手段。數據分類分兩步:第一步,建立模型,描述預定的數據類集或概念集;第二步,使用模型進行分類。
數據分類中的基本技術包括決策樹歸納、貝葉斯分類和貝葉斯網絡、神經網絡等,其他分類方法還有k一最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊邏輯技術等。對分類方法進行比較和評估的標準有預測的準確率、速度、強壯性、可伸縮性和可解釋性等。