摘要:結合模糊關系的理論,對粗糙集理論的屬性約簡算法進行研究,提出了一個新的屬性約簡算法,并給出了一個應用實例。
關鍵詞:粗糙集; 模糊集; 屬性約簡算法
中圖分類號:TP311文獻標志碼:A
文章編號:1001-3695(2007)11-0093-03
波蘭數學家Z. Pawlak[1]于1982年提出的粗糙集理論是一種新的處理不精確、不完全與不相容的數學方法,能有效地處理各種不完備信息,并從中發現隱含知識,揭示潛在的規律。粗糙集以不可分辨關系為基礎,研究不同類中對象組成的集合之間的關系。屬性約簡是粗糙集理論的核心問題和重要課題之一。
隨著數據挖掘(data mining,DM)和知識發現(knowledge discovery in database,KDD)的概念在1989年被提出,隨之出現了新一代的技術和工具用于DM和KDD領域。在DM和KDD的諸多方法中,粗糙集理論與方法是復雜系統中一種較為有效的方法。因為它與概率方法、模糊集方法和證據理論方法等其他處理不確定性問題理論最顯著的區別是它無須提供問題所需處理的數據集合之外的任何先驗信息,所以它對數據的不確定性描述和處理一般來說是比較客觀的。
信息系統約簡主要是使信息量減少,將一些無關或多余的信息丟棄,而不影響其原有的功能。目前粗糙集應用的有效算法的研究主要集中在信息系統屬性約簡和用以規則提取的值約簡方面。屬性約簡是指在保持信息系統分類或決策能力不變的條件下,刪除冗余屬性,用以得出正確的、簡潔的規則。求解最小屬性約簡是NPhard
問題[2]。不過在實際應用中,得出相對屬性約簡就可以了。
研究人員已經提出很多屬性約簡算法[2~7]。其中,不論是基于約簡后屬性數最少還是約簡后規則最簡,都沒有考慮到數據領域知識的特殊性和用戶要求的靈活性。正如前
面所說粗糙集不依賴任何先驗信息比較客觀一樣,本文結合模糊關系讓它具有一定的領域知識,讓本文屬性約簡算法具有更實際的決策需要和用戶要求。實驗證明,用戶可以根據專家領域知識調整閾值,得到用戶滿意的屬性約簡結果。
5結束語
本文在粗糙集和模糊集理論的基礎上提出一種處理粗糙數據的屬性約簡算法,探討了基于粗糙集屬性約簡算法在決策領域的應用,對數據挖掘和決策分析都是一個有益的嘗試。由于其中引入了模糊關系和模糊集中的復合矩陣運算,用戶可以根據決策的需要和領域知識更改閾值,得到用戶滿意的屬性結果。通過在家庭用車的應用實例驗證了改進算法的可行性、有效性。在粗糙集中如何更好地離散化數據和與其他的軟計算方法結合使用等方面,有待進一步研究。
參考文獻:
[1]PAWLAK Z. Rough sets[J]. International Journal of Computer and Information Science, 1982,11(5):341-356.
[2]WONG S K M, ZIARKO W. On optional decision rules in decision tables [J]. Bulletin of Polish Academy of Sciences, 1985,33(11/12):693-696.
[3]DU Weifeng, LI Haiming. Another kind of fuzzy rough sets[C]//Proc of IEEE International Conference on Granular Computing. 2005:145148.
[4]苗奪謙. Rough Set理論中連續屬性的離散化方法[J]. 自動化學報, 2001,27(3):296-302.
[5]常犁云, 王國胤, 吳渝. 一種基于Rough Set 理論的屬性約減及規則提取方法[J]. 軟件學報,1999,10(11):12061211.
[6]代建華,李元香. 粗集中屬性約簡的一種啟發式遺傳算法[J]. 西安交通大學學報,2002,36(12):12861290.
[7]張文修,吳偉志,梁吉業,等.粗糙集理論與方法[M]. 北京:科學出版社, 2001.
[8]胡寶清. 模糊理論基礎[M].武漢:武漢大學出版社,2004.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”