摘要:目前基于Rough集的離散化算法很難做到高效率和高識別率兼顧,針對粗糙集給出了基于逐級均值聚類的信息熵的離散化算法。首先使用改進的逐級均值聚類算法分別對單個屬性的候選斷點按其信息熵值進行聚類分析,生成新的規模更小的候選斷點集,然后用基于信息熵的離散化算法完成斷點的選取并對連續值屬性進行離散化。實驗結果表明,該方法在識別率相當的情況下比傳統的離散化方法的時間代價更低。
關鍵詞:粗糙集;離散化;連續值屬性;逐級均值聚類;信息熵
中圖分類號:TP18;TP301.6 文獻標志碼:A 文章編號:1001-3695(2010)09-3368-04