摘要:根據分層遞階約簡算法,提出了一種直接在不完備信息系統上進行數據挖掘的方法。該方法首先將信息系統中由所有屬性構成的單層知識表示轉變成由部分屬性所構成的多層知識表示,即由完備屬性和不完備屬性表示;然后建立了兩個不同層次的子系統,并推導出各個子系統的規則集;最后,將該方法應用于心臟病診斷系統的研究。仿真結果證明,該方法具有較強的實用性和有效性,并能提高知識約簡的速度。
關鍵詞:不完備信息系統;粗糙集;數據挖掘;分層遞階約簡
中圖分類號:TP274文獻標志碼:A
文章編號:1001-3695(2008)01-0090-03
0引言
粗糙集理論作為一種新的處理不確定性知識的數學工具,越來越受到眾多學者的廣泛關注。粗糙集理論的主要思想是在保持分類能力不變的前提下,通過知識約簡,導出所要研究問題的決策或分類規則[1]。將粗糙集理論與神經網絡、模糊理論、專家系統、遺傳算法和證據理論結合,可廣泛應用于模式識別、機器學習、知識獲取、數據挖掘、決策分析和決策支持等領域。數據挖掘是知識發現的一個環節。它是在某種約束條件下,應用數據分析和數據發現算法,從數據中獲取某些特定模式,目的在于從大量數據中發現那些令人感興趣的規則。在實際問題中不完備信息廣泛存在。經典的粗糙集理論只能處理完備的信息系統,而對不完備信息系統進行知識約簡時,要先經過預處理使其完備化,然后再進行約簡。這樣,可能會使原始數據和經過數據挖掘而獲得的知識存在不同程度的失真,甚至可能使原有數據系統不可挖掘[2]。文獻[3]中提出了一種分層遞階約簡算法,并證明了在信息系統的信息熵、平均知識粒度和平均知識層次保持不變的情況下,由該算法所得到的分層遞階約簡可使單層次和單粒度上問題的求解轉變為多種層次和多種粒度上問題的求解。本文提出一種基于粗糙集理論的不完備信息系統的數據挖掘方法。
1不完備信息系統
下面對網絡進行測試,測試樣本為25組。首層網絡識別出20組樣本,將剩下的5組樣本輸入次層網絡,有2組樣本得到識別,所以整個系統的誤判率為12%。從表1可以看出,本方法比將不完整的數據完備化處理后再進行數據挖掘的方法,在決策精度上得到了提高。本方法不但提高了系統的決策精度,而且減小了網絡規模加快了網絡的收斂速度。
5結束語
由于數據采集過程受實時性、難易程度及成本等因素的限制,在現實生活中,不完備信息系統廣泛存在。傳統的處理不完備信息系統的方法,不同程度地使挖掘到的知識失真于原始數據。為此,本文提出了直接在不完備信息系統上進行數據挖掘的方法。該方法從實際應用出發,遵循分層遞階的原則,先在完備屬性層上進行數據挖掘。如果得到的結論不滿意, 就進一步在不完備屬性層上進行挖掘;這樣可用較小的代價在較淺層次上得到問題的求解。在知識推理過程中,將粗糙集和模糊神經網絡相結合,增強了系統的泛化和容錯能力,從而提高了決策精度。
參考文獻:
[1]PAWLAK Z.Rough sets[J].Communications of ACM,1995,38(11): 89-95.
[2]胡旺,馮偉森,李志蜀,等.基于粗糙集理論不完備信息系統的數據挖掘[J].四川大學學報,2004,41(4):744 748.
[3]喬斌,李玉榕,蔣靜坪.粗糙集理論的分層遞階約簡算法及其信息理論基礎[J].控制理論與應用,2004,21(2):195 199.
[4]張文修,吳偉業,梁吉業,等.粗糙集理論與方法[M].北京:科學出版社,2001.
[5]侯利娟,王國胤,聶能,等.粗糙集理論中的離散化問題[J].計算機科學,2000,27(12):89-94.
[6]李雄飛,李軍.數據挖掘與知識發現[M].北京:高等教育出版社. 2003.
[7]DUNTSCH I,GEDIGA G.Uncertainty measures of rough set prediction[J].Artificial Intelligence,1998,106(1): 109 137.
[8]OHM A.ROSETTAtechnical reference manual[D].[S.l.]:Norwegian University of Science and Technology,1999.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”