山西大學 計算機與信息技術學院 計算智能與中文信息處理教育部重點實驗室,太原 030006
山西大學 計算機與信息技術學院 計算智能與中文信息處理教育部重點實驗室,太原 030006
粗糙集理論是一種處理不精確、不確定與不完全數據的數學工具[1-2],其主要思想是:在保持信息系統分類能力不變的前提下,經過屬性約簡導出分類或決策規則。目前,粗糙集理論已經被廣泛地應用于數據挖掘、機器學習、模式識別、故障診斷等領域[3-5]。
特征選擇是指在不改變原始特征空間性質的前提下,從原始特征空間中選擇一部分重要的特征,組成一個新的低維特征空間的過程。屬性約簡是在保持原始數據的屬性區分能力不變的前提下,選擇具有最小屬性(特征)數量的屬性子集的過程,是一種特定背景下的特征選擇方法。屬性約簡是粗糙集理論中的核心內容之一。
目前,研究者已經提出了許多屬性約簡方法[6-8]。Skowron[6]提出了區分矩陣屬性約簡方法,該方法可以得到信息系統的所有約簡,但是這種算法的復雜度過高(已經被證明為NP-Hard問題)。為了提高約簡算法的效率,許多學者應用啟發式的搜索策略求解屬性約簡,從而有效地降低約簡算法的耗時。Hu和Cercone[7]將相對正域引入到屬性約簡中,提出了一種啟發式屬性約簡算法。王國胤等[8-9]將Shannon信息熵用于屬性子集評價,提出相應的啟發式屬性約簡,該方法的停止條件也是利用Shannon條件熵。梁吉業等[10-14]將互補熵引入粗糙集理論用于度量信息系統的不確定性,并提出利用互補熵評價屬性子集的屬性約簡算法。……