[摘 要] 利用差別矩陣的差別元素的重要度的思想給出了信息系統屬性的重要度,然后利用該重要度給出了信息系統中屬性的權重,再由屬性的權重給出了將信息系統轉化成決策機構表的方法。在此基礎上,利用正區域的大小作為屬性選擇標準,給出決策樹的生成算法。將該算法運用到產品銷售預測過程中,獲取了一些較合理的簡潔規則。
[關鍵詞] 決策樹;粗糙集;決策表;正區域
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2009 . 21 . 007
[中圖分類號]TP18 [文獻標識碼]A[文章編號]1673 - 0194(2009)21 - 0025 - 04
1引 言
自從Quinlan[1,2]介紹了ID3算法以來,學者圍繞該算法進行了十分廣泛的研究。ID3算法的核心是在決策樹中各級節點上選擇屬性,用信息增益作為屬性選擇標準,使得生成的決策樹平均深度較小,提高分類速度和準確率。但是ID3算法本身也存在很多不足。由波蘭學者Z.Pawlak教授提出的粗糙集模型[3-5]是分析不完整、不精確信息系統的有力工具。近年來,該模型在機器學習、數據挖掘、人工神經網絡等多個領域得到了廣泛的應用。 一些學者將粗糙集理論引入決策樹,提出了基于粗糙集的決策樹生成算法[6,7]。在基于粗糙集的決策樹生成算法中,通常用粗糙邊界的大小或正區域的大小作為屬性選擇標準,利用ID3算法的思想遞歸生成決策樹。由于基于粗糙集的決策樹生成算法具有理解直觀、計算簡單等優點,引起許多學者的關注。
在實際的數據中,有許多數據表中沒有決策屬性,但又要求我們從這些數據中挖掘出帶有決策屬性的決策規則,利用基于粗糙集的決策樹生成算法生成更簡潔的規則。在此基礎上,設計了一個基于粗糙集的決策規則算法,并將該算法運用到房地產信息中,獲取一些較合理的簡潔規則。
2屬性的權重定義
為了分析相關工作,我們先引入如下的基本概念。
定義1[3]一個信息系統定義為:S = (U,C,V,f),其中U = {x1,x2,…,xn}是論域;C為條件屬性集; f:U × C → V 是信息函數,其中V = ∪Va,a∈C,Va表示屬性a的值域。 每一個屬性子集P?哿C決定了一個二元不可區分關系IND(P):
IND(P) = {(x,y)∈U × U|?坌a∈P,f(x,a) = f(y,a)}
關系IND(P)構成了U 的一個劃分,用U/IND(P)表示,簡記為U/P = {P1,P2,…,Pk},U/P中的任何元素Pi = [x]P = {y|?坌a∈P,f(x,a) = f(y,a)}稱為等價類。
定義2[3]一個決策表定義為:S = (U,C,D,V,f),其中U = {x1,x2,…,xn}是論域;C為條件屬性集; D為決策屬性集; f:U × (C∪D)→V是信息函數,其中F = C∪D,V = ∪Va,a∈F,Va 表示屬性a的值域。
若在決策表中去掉決策屬性,則決策表就變成了信息系統。即信息系統與決策表的差別是否有決策屬性。
定義3[3] 在決策表S = (U,C,D,V,f)中,對?坌A?哿C,設U/A = {A1,A2,…,Am}表示由條件屬性集 A對論域U的劃分,?坌X?哿U,記A*(X) = ∪{Aj|Aj?哿X},則稱A*(X)為X在U上關于A的下近似集。
定義4[3] 在決策表S = (U,C,D,V,f)中,對?坌A?哿C,設U/A = {A1,A2,…,Am}表示由條件屬性集 A對論域U的劃分,U/D = {D1,D2,…,Dh}表示決策屬性集D對論域U的劃分,稱POSA(D) = A*(Di)為條件屬性集A在論域U關于決策屬性D的正區域,簡稱為正區域。
定義5 在信息系統定義為:S = (U,C,V,f),?坌a∈C,設U/{a} = {A1,A2,…,Am},定義屬性a的重要度為:Sig({a}) = 。
在基于HU差別矩陣中,|Ai||U - Ai|表示屬性{a}在差別矩陣中產生的差別元素的總數。通常用屬性{a}產生的差別元素的總數大小作為 度量信息,即若屬性{a}產生的差別元素的總數越大,則認為屬性{a}越重要。在此,我們借用這一度量來度量信息系統中屬性的重要度。
定義6 在信息系統定義為:S = (U,C,V,f),?坌ci∈C,定義:W({ci}) =
為屬性ci在信息系統中的權重。
決策屬性類的確定
對于給定的信息系統S = (U,C,V,f), 由定義6給出了該信息系統中各屬性的權重,現用如下的方法計算每一對象的決策類D(x),?坌x∈U,定義:
D′(x) = f(x,ci) × W({ci})
則D(x)的值為D′(x)的值按四舍五入得到的整數值。
3規則獲取算法
下面給出基于正區域的決策樹生成算法。
基于正區域的決策樹生成算法:
POSDT(U,C,D)
輸入:訓練實例集U,條件屬性集C,決策屬性集D
輸出:一棵決策樹
(1)生成一個節點N;
(2)若U在決策屬性上取值完全相同,則用該決策屬性值來標記節點N并返回;
(3)若C為空,則用占訓練實例集中大多數的決策屬性取值的值來標記節點N并返回;
有的記錄被不正確地分類,所以這里會出現這種情況;
(4)R為 POS{a}(D)所對應的條件屬性;記U/{R} = {U1,U2,…,Uk},令Ui(i = 1,2,…,k)對應的相應條件屬性值為ui;
(5)返回一棵樹,根節點標記為R,弧標記為u1, u2,…,um,弧對應的子樹分別為
POSDT(U1,C-{R},D,), POSDT(U2,C-{R},D), … ,POSDT(Um,C-{R},D);
(6)在同一條件屬性分出的葉子節點中,若有決策屬性取值相同的葉子,合并這些葉子,并用各弧標記的析取來標記新葉子的弧。
4實 例
從表4中我們得到了10條規則,且規則較文獻[8]中獲取的規則簡單。本文提取的規則覆蓋了18個實例,而文獻[8]中的規則只覆蓋了14個實例。從獲取的規則來看,用本文提出的方法更為合理。
5結 論
首先分析了文獻[8]中用SPSS軟件對信息系統的對象進行聚類的不足,針對這些不足,我們從信息系統的本身數據出發,利用HU差別矩陣屬性約簡的思想,定義了信息系統中屬性的重要度,然后給出了信息系統中屬性的權重定義。利用該權重給出了一個將信息系統轉化成決策表的方法。由于直接從決策表獲取的規則可能不夠簡潔,故我們利用基于正區域的決策樹生成算法構造決策樹,并由決策樹得到簡潔的規則。最后將該算法用于房地產的有關數據中,獲取一些較合理的簡潔規則。
主要參考文獻
[1] Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986(1):81-106.
[2] Quinlan J R. Simplifying Decision Trees[J]. International Journal of Man-Machine Studies, 1987, 27(3):221-234.
[3] Pawlak Z. Rough Sets[J]. International Journal of Computer and Information Sciences, 1982(11):341-356.
[4] 王國胤.Rough集理論與知識獲取[M].西安:西安交通大學出版社,2001.
[5] 張文修,吳偉志,等.粗糙集理論與方法[M].北京:科學出版社, 2003.
[6] Pawlak Z. Rough Set Approach to Multi-Attribute Decision Analysis [J]. European Journal of Operational Research, 1994, 72(3):443-459.
[7] Jin Mao Wei. Rough Set Based Approach to Selection of Node [J]. International Journal of Computational Cognition,2003,1(2):25-40.
[8] 劉盾,胡培,蔣朝哲.一種基于聚類分析的粗糙集決策方法[J]. 統計與決策,2007,27(1): 42-44.
Rough Set Decision Method and Its Application in Prediction of Property Consumption
YANG Hua-bang
(City Construction Comprehensive Development Company of Hedong District Linyi City,Linyi,Shandong276034)
Abstract: By applying idea of importance of inferential element of differential matrix, the concept of importance of information system attribute is proposed, and the weight of attribute in information system is also gained by using the importance of information system attribute, as well as the method of transferring information system into policy-making organ table according to the weight of attribute is produced. Therefore, by utilizing the size of positive region as attribute selective criterion, the decision tree algorithm is given, and it is applied in forecasting of property consumption so as to obtain reasonable succinct rules.
Keywords: Rough Set; Decision Tree; Weight;Decision Table; Positive Region
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文