張 萌,孫秉珍,楚曉麗
西安電子科技大學 經(jīng)濟管理學院,西安 710071
分類決策問題是機器學習和數(shù)據(jù)挖掘領域的研究熱點。傳統(tǒng)的分類決策模型多為“非此即彼”的二支決策,通過從訓練數(shù)據(jù)和歷史經(jīng)驗中提取出決策模型,將樣本分為正樣和負樣,繼而做出接受或者拒絕決策。在現(xiàn)實生活中決策信息往往不完備,傳統(tǒng)的二支決策會導致信息不充分的樣本難以被正確劃分,造成較大的誤分類率和誤分類代價。針對這個問題,三支決策通過引入延遲決策,將決策信息不充分的樣本劃分到邊界域中,降低決策代價,提高了決策的準確性。
三支決策是Yao等[1]在概率粗糙集和決策粗糙集的基礎上根據(jù)實際決策情況提出的決策理論。三支決策通過引入分類損失函數(shù),基于貝葉斯最優(yōu)損失代價計算閾值(α,β)。假設給定對象x屬于某個類X的條件概率為P(X|x),將P(X|x)大于或等于α的對象劃分為X的正域,做出接受決策;將P(X|x)小于或等于β的對象劃分為X的負域,做出拒絕決策;當P(X|x)介于α和β之間時,對象被劃分到X的邊界域,做出延遲決策。在決策過程中,將有把握的且信息全面的對象直接給予拒絕或者接受的判斷,而對信息不充分且無法做出立刻判斷的對象延遲其決策,待信息充分時再對其做出決策,從而避免了錯誤拒絕和錯誤接受決策帶來的損失。三支決策在實際生活中應用廣泛,例如在醫(yī)療診斷過程中,當患者的臨床病癥信息表現(xiàn)充分或者完全沒有病癥信息時,醫(yī)生可以立馬對患者做出接受治療或不需治療的決策;而當患者臨床病癥信息表現(xiàn)不充分,不能完全確診患病,醫(yī)生對其進一步觀察待有更明顯的癥狀時再做出判斷。三支決策自提出以來,由于其語義符合實際和決策過程的優(yōu)越性,成為國內(nèi)外學者研究熱點。目前,關于三支決策的理論研究獲得了一定的進展。劉久兵等[2]提出確定直覺模糊三支群決策模型概率閾值的方法,解決了閾值難以確定的問題;胡峰等[3]提出基于三支決策的主動學習方法,通過對正域、負域和邊界域中的無標簽樣本進行分別打標處理,解決樣本無標簽的問題;方宇等[4]提出了代價敏感學習的序貫三支決策模型,并對決策結果代價和決策過程代價的平衡問題給出了兩個優(yōu)化方向;Qian等[5]提出了基于多個不同閾值的廣義多粒度序貫三支決策模型,解決了傳統(tǒng)序貫三支決策無法適應多視圖多閾值粒度結構的情況,從定量角度構建了五種多粒度序列三向決策模型,討論了這些多粒序貫三向決策的對應關系和不確定性測度。這些三支決策理論研究廣泛應用于圖像處理[6-8]、醫(yī)療診斷[9-10]、評估管理[11-13]、物流動態(tài)調(diào)控[14]、文本分類和文本情感分析[15-16]中。其中,Savchenko[8]將基于序貫三支決策和粒計算的算法運用到圖像識別,提高了圖像識別的速度。Maldonado等[13]將三支決策模型運用到信用評分管理,對于無法立刻進行評估的客戶進入第二階段進行再決策,并對智利7 000多個小型企業(yè)的信用申請進行分析研究。董新雁等[14]將物流任務轉化成決策信息表,基于三支決策理論,建立虛擬物流任務動態(tài)調(diào)控模型,并驗證其有效性和合理性。張剛強等[15]運用序貫三支決策對中文評論進行情感分析,通過將粒度細化提高分類效果。
三支決策建立在決策粗糙集模型上,且傳統(tǒng)的粗糙集模型[17]只能處理離散型數(shù)據(jù),很難對具有符號型、連續(xù)型數(shù)值的混合信息系統(tǒng)進行處理。對于連續(xù)型數(shù)據(jù)則需離散化,而將連續(xù)值轉換為離散值會造成大量信息的丟失,導致分類精度不高。在現(xiàn)實應用中,信息系統(tǒng)中存在多種類型的數(shù)據(jù)是很普遍的,例如在醫(yī)療檢查結果中,性別和血型為符號型數(shù)據(jù),而血壓和血糖等指標為連續(xù)型數(shù)據(jù)。因此本文在混合信息系統(tǒng)的基礎上引入鄰域關系,建立了基于鄰域關系的決策粗糙集模型,同時處理具有連續(xù)值和離散值的混合信息系統(tǒng),降低了數(shù)據(jù)處理過程中信息的丟失,保留數(shù)據(jù)的真實性。然而現(xiàn)有的基于決策粗糙集模型三支決策分類方法,由于邊界域的存在,使得在算法在分類過程中將一些模糊的、根據(jù)現(xiàn)有信息不能立即做出決策的對象劃分到邊界域中,造成邊界域中大量數(shù)據(jù)的冗余。當對邊界域中的數(shù)據(jù)進一步分類時,由于數(shù)據(jù)信息不完備,無法進行準確劃分,會造成很大的代價損失,降低分類的準確性[18]。例如在醫(yī)療診斷中,邊界域中存在大量冗余數(shù)據(jù)會延遲患者的治療時間,給患者帶來巨大的代價和成本損失。已有三支決策模型對邊界域數(shù)據(jù)處理的研究還較少。其中對邊界域數(shù)據(jù)處理多是基于對象之間距離和相似度來確定數(shù)據(jù)的最終分類[19]。這種方式?jīng)]有考慮到分類問題的代價敏感性,分類效果與采用的距離公式和特征點的選取有關,在分類數(shù)據(jù)特征不明顯的情況下,分類效果欠佳,且不利于實際應用中的規(guī)則獲取。針對上述問題,本文提出了基于鄰域決策粗糙集的二階段多次迭代分類方法,在基于鄰域決策粗糙集三支分類的結果上,多次迭代將測試集中的正域數(shù)據(jù)加入到訓練集中形成新的訓練集,測試集中的負域和邊界域形成新的測試集[20]。在多次迭代過程中,訓練集中的數(shù)據(jù)特征更加明顯,分類效果更加明顯,分類精度有所提高。
痛風是由于人體內(nèi)嘌呤的物質(zhì)代謝發(fā)生紊亂,尿酸鹽結晶沉積在關節(jié)腔引起炎性反應,出現(xiàn)關節(jié)紅腫熱痛。痛風性關節(jié)炎只是痛風危害的一種癥狀表現(xiàn),更重要的是對腎臟的危害,由此誘發(fā)冠心病、動脈硬化、高脂血癥、高血壓病和糖尿病等[21]。目前,我國高尿酸血癥患者人數(shù)已經(jīng)達到1.7 億,其中痛風患者超過8 000 萬人。痛風患病率在1%~3%之間,且呈持續(xù)上升的趨勢。國內(nèi)外調(diào)查結果顯示,目前醫(yī)生對痛風病的認識不足,診斷不規(guī)范。隨著互聯(lián)網(wǎng)快速普及和數(shù)據(jù)的海量增長,在醫(yī)療方面通過運用數(shù)據(jù)挖掘等技術,可以提高醫(yī)療行業(yè)生產(chǎn)力,提高醫(yī)療資源利用率。比如通過數(shù)據(jù)分析對醫(yī)療救治流程優(yōu)化,提高診斷效率和救治質(zhì)量,降低病人的診斷成本和身體損害;在公共衛(wèi)生方面,通過大數(shù)據(jù)分析對流感、病毒等疾病進行預測,為預防和決策提供支持,降低人民的損失,節(jié)約醫(yī)療資源。傳統(tǒng)的痛風診斷是由專家進行診斷,對于痛風的成因研究和相關指標分析多用數(shù)理統(tǒng)計方式,將其與數(shù)據(jù)挖掘技術和理論結合的研究甚少。本文把三支決策思想和數(shù)據(jù)挖掘技術引入痛風診斷決策問題,嘗試給痛風臨床診斷決策提供較為客觀的診療方法和參考。
本文根據(jù)現(xiàn)有問題特點,提出基于鄰域的決策粗糙集模型,將鄰域關系引入到?jīng)Q策粗糙集模型中處理混合信息系統(tǒng),并提出了基于鄰域決策粗糙集多迭代的分類方法處理邊界域中的冗余數(shù)據(jù),最終得到基于代價敏感三支分類結果。該模型一方面解決了傳統(tǒng)粗糙集模型無法處理連續(xù)值屬性,對噪音數(shù)據(jù)敏感的不足;另一方面,通過引入代價矩陣建立鄰域決策粗糙集模型并對數(shù)據(jù)多次迭代處理,得到較高的分類準確率和較低的分類代價。最后將該模型應用到痛風診斷中,驗證了其有效性和合理性。這對診斷痛風患者和分析指標之間潛在關系有著極高的優(yōu)越性。
給定一個決策信息表S=<U,A=C∪D,V,f> ,其中U是非空樣本集,稱為論域,A是有限非空屬性集,C是條件屬性集,D是決策屬性集。Va表示屬性a的值域,f表示一個信息函數(shù),f:U×A→V。
定義1 對于B?A,xi∈U,xi在子空間B上的鄰域定義為:

其中,Δ表示距離,f(xi,ak)表示樣本xi在屬性ak上的取值[22-24]。

當p=1 時,Δ表示曼哈頓距離;當p=2 時,Δ表示歐式距離;p=∞時,Δ表示切比雪夫距離。
對于離散型數(shù)據(jù),當xi、xj在屬性ak上取值相同時:

當xi、xj在屬性ak上取值不同時:

定義2 給定(U,N),N是U上的一個鄰域關系,對于任意X?U,定義X關于N的上近似和下近似如下:

其中正域,負域和邊界域分別如下:

在DTRS(Decision Theoretic Rough Set)模型中,給定數(shù)據(jù)對象x,狀態(tài)集表示x可能的狀態(tài)集,對象x屬于等價類X的可能性描述為P(X|[x]),R={aP,aB,aN}表示對象x可能的三種決策行為:接受、延遲、拒絕。aP、aB、aN分別表將一個對象劃分到正區(qū)域POS(X) ,負區(qū)域NEG(X) ,邊界區(qū)域BND(X)中。P(x|[X])表示當對象x屬于等價關系[X]的概率,λPP、λBP、λNP分別表示當x屬于等價關系[X]時,采取aP、aB、aN的代價。同理λPN、λBN、λNN分別表示當x不屬于等價關系[X]時,采取aP、aB、aN的代價。
根據(jù)對象x的條件概率和代價,可以計算出當對象x做出不同的決策付出的代價如下:

根據(jù)貝葉斯最小風險原則,可以得到如下規(guī)則:
(1)如果C(aN|[x])<C(aB|[x]),C(aN|[x])<C(aP|[x]),則x∈NEG(X)。
(2)如果C(aB|[x])<C(aN|[x]),C(aB|[x])<C(aP|[x]),則x∈BND(X)。
(3)如果C(aP|[x])<C(aB|[x]),C(aP|[x])<C(aN|[x]),則x∈POS(X)。
在日常生活中,往往做出錯誤決策的代價要大于做出正確決策的代價,由語義信-息可得λPP≤λBP≤λNP,λNN≤λBN≤λPN,P(X|[x])+P(X|[x])=1 ,決策規(guī)則可以簡化為:
(1)如果P(X|[x])≥γ,P(X|[x])≥α,則x∈POS(X)。
(2)如果P(X|[x])≥γ,P(X|[x])≤β,則x∈NEG(X)。
(3)如果P(X|[x])≥β,P(X|[x])≤α,則x∈BND(X)。其中α、β、γ根據(jù)已知的代價函數(shù)計算如下:

由上述決策規(guī)則(1)易得α >β,考慮代價滿足以下條件:

可以得到 0 ≤β <γ <α≤1,決策規(guī)則可簡化為:
(1)如果P(X|[x])≥α,則x∈POS(X)。
(2)如果P(X|[x])≤β,則x∈NEG(X)。
(3)如果β <P(X|[x])< α,則x∈BND(X)。
由于λPP、λNN表示分類正確的代價,故一般設λPP=λNN=0。

令P(X|[x])= p,可以計算出在整個決策信息表中,決策代價如下:

定義3 給定 (U,N),X?U,定義x關于子空間B?A在N上的上近似和下近似如下:
傳統(tǒng)成本管理過程中,成本信息量較大、部門溝通不及時、項目費用控制不到位等都是其主要的管理問題所在。在BIM項目成本信息管理中,工程管理人員借助基礎平臺層、數(shù)據(jù)資源層、業(yè)務支撐層、成本應用層和用戶管理層五個層面的應用,有效的確保了成本管理的規(guī)范化:

對于子集X?U,X相對于B?C的正域、負域、邊界域定義如下:

則決策D關于B?C的正域、負域、邊界域定義如下:

同理也可以得到如下規(guī)則:
(1)如果p(X|δB(xi))≥α那么xi∈POS(D)。
(2)如果p(X|δB(xi))≤β那么xi∈NEG(D)。
(3)如果β≤p(X|δB(xi))≤α那么xi∈BND(D)。
為了定量的計算分類能力,定義D關于B?C的分類質(zhì)量如下:

定義4 給定有限集合B?C,若滿足則稱B是一個獨立屬性子集,如果對則稱B為C的一個屬性約簡。
在鄰域決策粗糙集系統(tǒng)中,?B?C,?a∈C,定義屬性a相對于子集B的屬性重要程度為:

上式也等價于:

基于上述內(nèi)容,本文給出了基于鄰域決策粗糙集屬性重要度的啟發(fā)式屬性約簡算法Algorithm1[25]。

在 Algorithm1 中,設循環(huán)次數(shù)為m,計算的時間復雜度為O(|U|),計算兩個屬性重要性的時間為O(1),查找屬性重要性最大的對象這個步驟中,集合中最多有個對象,故時間復雜度為O(|C|),因此該算法的時間復雜度為在該算法中沒有額外的空間開銷,故空間復雜度為O(|U|)。
在該三支分類方法(Multi-iterative Neighborhood Decision Theoretic Rough Set,MNDTRS)中,采用二階段多循環(huán)的方式對邊界域的數(shù)據(jù)進行處理,既充分考慮了分類問題的代價敏感性,又使分類結果更具特征。本文將數(shù)據(jù)集分為訓練集和測試集兩部分:第一階段在測試集上運用訓練集上訓練好的基于鄰域決策粗糙集的三支分類器(NDTRS)將測試集中的數(shù)據(jù)分為正域、負域和邊界域三類。在第二階段運用Algorithm2,將測試集中標記為正域的數(shù)據(jù)加入到訓練集中形成新的訓練集,測試集中標記為負域和邊界域的數(shù)據(jù)形成新的測試集。接著多次迭代運用基于鄰域決策粗糙集的三支分類方法。在每次迭代中,將測試集中的正域數(shù)據(jù)加入到訓練集中,擴展了原始訓練集,重構了訓練集中的數(shù)據(jù),使得測試集中負域和邊界域的對象不斷減少,多次迭代直到測試集的負域和邊界域不再改變(或者測試集的正域為空)[26]。具體算法內(nèi)容見Algorithm2。

現(xiàn)在簡要討論該算法的時間復雜度,用N1代表訓練集中數(shù)據(jù)的數(shù)目,N2代表測試集中數(shù)據(jù)的數(shù)目,假定在Algorithm2上運行了k次,其中k為常數(shù)。在訓練集上鄰域三支分類器的時間復雜度為O(N1),則該算法的時間復雜度為O(k×(N1+N2));該算法空間沒有額外開銷故其空間復雜度為O(N1+N2)。顯然該算法的時間復雜度和空間復雜度開銷較小,符合算法設計的原則。
本文建模所采用的痛風數(shù)據(jù)共5 616 條數(shù)據(jù),其中女性數(shù)據(jù)3 137條,男性數(shù)據(jù)2 479條,每條數(shù)據(jù)對應28個屬性,其中血脂指標TC、TG、HDL-C、LDL-C;血糖指標GLU;腎功指標Urea、Cr;肝功指標ALT、AST、AST/ALT、GGT、ALP、TBIL、DBIL、IBIL、TP、ALB、GLB、PA、ALB/GLB、TBA、LDH、LAP、eGFR、non-HDL-C、ADA;尿酸UA 和性別SEX。當血脂中的某項指標異常時表現(xiàn)為該功能異常,其他功能亦是如此。這些屬性值中性別指標是邏輯值(離散值),其余指標都為連續(xù)值。其中各指標的正常范圍如表1所示,單位為μmol/L。

表1 痛風數(shù)據(jù)各指標標準范圍
在醫(yī)學上,痛風是單鈉尿酸鹽(MSU)沉積所致的高尿酸血癥關節(jié)炎,痛風發(fā)作的比率與尿酸水平有關。在臨床上,女性尿酸在360 μmol/L 以下為正常值,360~480 μmol/L則需要臨床干預,在540 μmol/L以上發(fā)展成為痛風的幾率很高;男性尿酸在420 μmol/L以下為正常值,420~480 μmol/L 則需要臨床干預,在540 μmol/L 以上發(fā)展成為痛風的幾率很高。由于男性和女性尿酸值標準范圍不同,在日常對痛風分析中把男性和女性進行分別處理,而在該模型中根據(jù)高尿酸與痛風發(fā)作的高相關性,將尿酸作為決策屬性D,其他指標值作為條件屬性C,將痛風診斷信息轉化為決策信息表。一方面可以直接探討尿酸與其他指標的相關性而避免對性別進行分類討論;另一方面根據(jù)決策屬性D可以將其轉化為監(jiān)督學習,巧妙地運用鄰域三支決策模型對其進行分類和獲取相關規(guī)則,既能夠考慮痛風診斷基于代價敏感的特征,又避免數(shù)據(jù)特征不明顯時聚類分析效果不佳。
在實驗前進行數(shù)據(jù)預處理,將一些屬性缺失值較多的樣本剔除,將少量缺失值用平均值替換,將尿酸值根據(jù)性別范圍轉化為{0,1,2},其中0 代表正常,1 代表需臨床再診斷(即為痛風低風險),2代表高概率發(fā)展為痛風(即為痛風高風險),符合三支決策的語義。其中標記為0的數(shù)據(jù)有4 072條,標記為1的數(shù)據(jù)有1 039條,標記為2的數(shù)據(jù)有235條,刪除未標記數(shù)據(jù),共5 616條數(shù)據(jù)。
根據(jù)實際意義,在該模型中,對于求診者來說,將痛風患者診斷為正常的代價很大,會延誤患者進行及時治療,造成更嚴重的后果。對分類代價賦值,令λBP=5,λBN=10,λNP=10,λPN=20。其中取鄰域閾值δ=0.1,距離函數(shù)采用歐式距離。在上述實驗準備的基礎上,運用Algorithm1對數(shù)據(jù)進行屬性約簡,得到屬性約簡集合R。接著運用Algorithm2,得到最終分類結果。
通過運用Algorithm1,計算屬性重要性,得到屬性重要性排序(Cr,HDL-C,GLU,TG,TF,TC,AST,non-HDL-C,TBA,ALT,eGFR,ALP,AST/ALT,IBIL,GGT,ALB,ALB/GLB,LDL-C,LAP,PA,Urea,TBIL,TP,GLB,DBIL,ADA,LDH),如圖1 所示,并得到約簡集R={Cr,HDL-C,GLU,TG,TC,TF,AST,non-HDL-C,TBA,ALT,eGFR,ALP,AST/ALT,IBIL,GGT},共15 個屬性。圖1顯示Cr的屬性重要度為0.405 2,遠高于其他指標,故可以推斷Cr 可能是影響痛風發(fā)作的重要指標。在屬性約簡集中,腎功的指標有Cr,血脂的指標有HDL-C 和TG,血糖的指標有GLU,肝功的指標有TF、AST、non-HDL-C、TBA、ALT、eGFR、ALP、AST/ALT、IBIL和GGT。通過該屬性約簡算法,分別得到了腎功、肝功、血脂和血糖的代表性指標,符合屬性約簡的本質(zhì)。

圖1 各指標屬性重要度柱形圖
在Algorithm2中運用多次迭代的方法進行分類,為了說明在迭代過程中,正域、負域、邊界域中樣本數(shù)量的變化,圖2記錄了在多次迭代過程中正域、負域、邊界域中樣本數(shù)量占所有樣本數(shù)量的百分比。通過觀察圖2可知,隨著迭代次數(shù)的增加,邊界域中的樣本所占比例不斷減小,正域和負域中的樣本所占比例不斷增大,并最終達到一個穩(wěn)定值。每次迭代過程形成新的訓練集和測試集,使得訓練集中的數(shù)據(jù)特征更加明顯,訓練得到的模型更加準確,提高了分類器的分類能力。

圖2 隨迭代次數(shù)增加各區(qū)域數(shù)據(jù)所占比例

圖3 不同分類算法的誤分類代價
本文分別采用LR、RF、SVM與MNDTRS對痛風數(shù)據(jù)進行分類,得到四種分類算法的誤分類代價(圖3)和混淆矩陣(圖4)。通過觀察圖表,MNDTRS算法在5 616條數(shù)據(jù)中誤分類的數(shù)據(jù)只有49 條,分類準確率達到99%;SVM、RF 和LR 算法中誤分類的數(shù)據(jù)數(shù)目分別為91、189、928 條,分類準確率分別為99%、98%、93%,且MNDTRS的誤分類代價低于其他算法。通過痛風數(shù)據(jù)分類實驗驗證了MNDTRS 算法的有效性和優(yōu)越性,且算法能夠得到較高的準確率和較低的分類代價。SVM和RF算法在分類過程中也有較好的性能,而LR算法在分類過程中相較于本文涉及的算法,分類能力較差。
本文在數(shù)據(jù)標準化的基礎上,根據(jù)分類結果得到不同屬性在痛風高風險、低風險、正常時的平均值,如圖5所示。根據(jù)該圖顯示可知,AST/ALT、eGFR、HDL-C 這三個屬性隨著痛風疾病的嚴重性均值下降;IBIL、TBA屬性對痛風疾病的敏感性不高;Cr、GLU、TG、TF、TC、AST、non-HDL-C、ALT、UA、ALP、GGT這些屬性的值隨患痛風疾病風險的嚴重性均值上升。圖6 為各屬性之間的相關矩陣圖,從圖中可以看出尿酸(UA)與AST/ALT、eGFR、HDL-C 相關系數(shù)為負值,尿酸(UA)與IBIL、TBA 的相關系數(shù)接近0,尿酸(UA)與Cr、GLU、TG、TF、TC、AST、ALT、ALP、GGT、non-HDL-C 相關系數(shù)為正值,這與上述結論相吻合。在圖6中發(fā)現(xiàn)Cr屬性的均值隨患痛風疾病風險的嚴重性增幅較大,并且在相關矩陣圖中尿酸(UA)與Cr的相關性比較高,達到0.54,而Cr 是腎功能的重要指標,故痛風疾病的發(fā)作與腎功指標有著極大的相關性。
通過分類結果,獲取到分類規(guī)則,并做出規(guī)則樹圖,如圖7 所示。從圖中觀察到腎功指標(Cr)在規(guī)則樹的多個規(guī)則中出現(xiàn),且規(guī)則樹中Cr 指標作為判斷是否患痛風的首要因素。例如規(guī)則R8 和R10 中,當Cr 指標值高時,有患痛風的風險,這也驗證了上述Cr高屬性重要度和Cr 與尿酸(UA)高相關性。另外腎功、肝功、血脂的指標呈相互制約相互影響的關系。例如當腎功指標(Cr)較高時,而血脂指標(TG、TC)和肝功指標(ALT、GGT 等)較低或在正常范圍內(nèi),則痛風發(fā)作幾率較小,反之亦然。如規(guī)則R6中,當Cr>73.5而TG ≤1.125時表現(xiàn)為正常;在規(guī)則R5中,當Cr ≤ 73.5,TG>1.385,eGRF>120 時表現(xiàn)為痛風高風險。而當腎功指標(Cr)、血脂指標(TG、TC)和肝功指標(ALT、GGT 等)都較高時,痛風發(fā)作的概率很大。例如在規(guī)則R11 中,Cr>73.5,TG>1.825,TC>6.475 時有患痛風的風險。血糖指標(GLU)沒有在規(guī)則樹中出現(xiàn),故推斷痛風發(fā)作與血糖指標相關性不高。實際中表明痛風發(fā)作常常伴隨著腎功能指標異常,腎功能異常時會導致尿酸清除率降低而沉積在血液中,從而使尿酸水平升高。這也驗證了該算法的有效性,通過大數(shù)據(jù)分析建立痛風診斷模型顛覆了以往根據(jù)數(shù)理統(tǒng)計的建模的思維,更能精準有效地進行知識挖掘和知識發(fā)現(xiàn)。

圖4 不同分類算法的混淆矩陣

圖5 各指標在不同分類下的均值

圖6 相關矩陣圖

圖7 規(guī)則樹
本文將基于鄰域決策粗糙集代價敏感三支分類方法運用到痛風診斷模型的建立中,得到有效的分類結果,并通過分類結果提取分類規(guī)則,挖掘痛風發(fā)作潛在的影響因素,對痛風疾病的研究提供知識支持。通過與其他分類算法相比,證明了該算法具有較高的準確性和較低的分類代價。在該模型建立過程中將尿酸指標作為決策屬性,而在臨床過程中,確診是否患有痛風,還看關節(jié)是否發(fā)生變形以及關節(jié)損壞程度。在之后的研究過程中,可以對關節(jié)損壞程度加以考慮,根據(jù)專家經(jīng)驗對致病程度給予權重,進行痛風診斷模型的建立。