[摘要] 數據是大多數企業核心業務處理的中心內容,各種外部來源使系統內數據大量增加?,F實中,信息系統的屬性約簡對于緩解大規模數據集為企業帶來的管理和決策壓力,具有一定的實際意義。
[關鍵詞] 數據挖掘 粗糙集 屬性約簡
一、相關基礎知識
隨著社會進入網絡信息化、經濟一體化的時代,任何企業與部門的發展都與復雜的知識信息密切相關。盡管傳統的數據庫管理技術提供了比較完善的存取和查詢功能,但面對“豐富的數據與貧乏的知識”的現象,企業已不可能固守已有的知識與管理規則,而急需能有效應對大規模數據的方法。為了有效解決知識獲取這一瓶頸問題,研究人員提出了知識發現(KDD)的概念。作為知識發現過程的一個重要步驟,數據挖掘(DM)能發掘數據間潛在的模式,找出企業經營者可能忽視的知識金塊,能夠為企業做出前瞻性的、基于知識的決策參考意見。
在數據挖掘的諸多方法中,粗糙集理論支持數據挖掘系統的多個步驟,由于其能得到符合人們經驗的易理解的知識形式,而且較適合在企業管理決策中應用,因此20多年來,在處理復雜系統方面得到了廣泛的應用并迅速發展起來。粗糙集理論是一種新的處理含糊性和不確定性問題的數學工具,與以往解決知識的含糊性的理論和方法相比,它不需除問題所需處理的數據集合之外的任何先驗信息,而僅以對觀測數據的分類能力為基礎,解決不精確性數據的分析和處理。
定義1:近似空間(Approximate Space)AS=(U, R)是一個二元有序組,U為對象的非空有限集合,稱為論域(Universe);R為U上的一個等價關系族集。設,且P≠Q,則∩P稱為P上的不可區分關系(Indiscernibility Relation),記為ind(P),且有。
定義2:對知識庫K=(U,R),若,R為等價關系,則X的R下近似集和R上近似集分別為和
。
定義3:四元組S=(U,A,V,f )是一個知識表達系統(信息系統),其中U為論域,是對象的非空有限集;A為屬性集,是屬性的非空有限集;,對任意屬性a∈A,Va看作其值域;f:U×A→V是一個信息函數。通常也用S=(U,A)來代替S=(U,A,V,f)。若A由條件屬性集合C和決策屬性集合D組成,并且C和D滿足則將,稱為決策系統。
定義4:令R為一族等價關系,R∈R,如果ind(R)=ind(R-{R}),則稱R為R中不必要的;否則稱R為R中必要的。若每一個R∈R都是R中必要的,則稱R為獨立的;否則稱R為依賴的。設,如果Q是獨立的,且ind(P)=ind(Q),則稱Q為P的一個約簡。P中所有必要關系組成的集合稱為P的核,記作core(P)。
定義5:令S=(U,A,V,f)且|U|=n,則S的區分矩陣M是一個n×n矩陣,其任一元素為。如果對任意屬性a∈A,指定一個布爾變量“a”,且當,指定布爾函數為當,則取布爾常量1。則(布爾)區分函數Δ可定義為:
二、信息系統的約簡
粗糙集理論中的一個核心內容就是研究屬性約簡,屬性約簡能夠簡化分類的標準,使人們更加深入地認識分類的實質。通常,信息系統S中的所有屬性并不是同等重要的,通過屬性約簡可以找到一個較小的屬性集BA,使得可以使用A描述的對象集合必然可用B描述,從而剔除冗余屬性。
獲取信息系統屬性約簡的方法很多,可以利用基本算法或近似算法。基本算法首先要構造區分矩陣,然后以區分矩陣為基礎得出區分函數,此后應用吸收律進行簡化,使其成為析取范式,此時每個主蘊含式為原系統的一個約簡。
例:設有某企業的信息系統S=(U,A),其中U={x1,x2,x3,x4,x5,x6}代表對象集,A={a,b,c,d}代表屬性集,數據庫見表1,利用基本算法求解系統約簡:
首先構造信息系統的區分矩陣(如表2示),然后給出區分函數:
△=(b∨c∨d)·b·(a∨b∨c∨d)·(a∨d)·(a∨c∨d)·(a∨b∨c)·(a∨b∨d)=ab∨bd。可見{a, b}和{b, d}是約簡,即在保持系統分類能力不變的情況下,系統屬性數由4降為2。如果處理企業的決策系統,則還需研究條件屬性與決策屬性的關系。即在對系統進行約簡后,尚需根據具體情況從約簡后的數據庫中提取滿足一定支持度和置信度的規則,以達到為企業提供決策知識幫助的目的。
三、結論
利用有效的約簡方法可以簡化企業信息系統,緩解企業在信息管理、決策分析上的壓力。實際上,面對海量高維的數據規模,高效的屬性約簡算法對于知識的提取更為有效。本文給企業用戶提供了一個智能化處理信息系統的思路,具有一定的實際意義。
參考文獻:
[1]史忠植:知識發現[M].北京:清華大學出版社,2002.
[2]張文修:粗糙集理論與方法[M].北京:科學出版社,2001. 1-27
[3]PAWLAK Z. Rough sets[J]. Internetional Journal of Computer and Information Sciences, 1982(11),pp:341-356
[4]Skowron A, Rauszer C. The discernibility matrices and functions in information systems, Intelligent Decision Support[M].Handbook of Application and Advances of the Rough Sets Theory, 1992, pp:331-362
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。