李慶國,康 蘊,余 斌
(1.湖南大學 數學學院,湖南 長沙 410082; 2.湖南師范大學 信息科學與工程學院,湖南 長沙 410006)
粗糙集(rough set)理論[1-2]是一種理想的處理復雜不確定問題的數學工具。在知識表示上,它通過數據集合的近似來描述對象之間的不確定關系;在知識發現上,它在保持分類能力不變的前提下,通過屬性約簡導出概念的分類或決策規則。它被廣泛應用于模式識別、不確定性分析、數據挖掘、知識發現和決策等領域。粗糙集模型也是一種典型的粒計算理論模型[3],經典的Pawlak粗糙集理論是利用等價類來描述“粒度”,用等價關系所誘導的劃分來描述粒度空間。從二元關系來看,基于等價關系的Pawlak粗糙集模型太過嚴格;從粒度空間來看,Pawlak粗糙集模型刻畫的粒度空間太過寬松,所以經典的Pawlak粗糙集遠不能滿足實際應用的需求。因此,學者們基于這兩個方面進行改進,提出了一些極具代表意義的拓展的粗糙集模型:模糊粗糙集、粗糙模糊集、概率粗糙集、鄰域粗糙集、覆蓋粗糙集以及各種多粒度粗糙集等,對復雜的數據系統進行屬性約簡和決策[4-6]。基于粗糙集理論在處理復雜數據系統上的優勢,學者們提出結合粗糙集及其拓展模型對復雜系統進行預處理,降低數據維度,再結合機器學習進行預測。如,結合粗糙集理論及其拓展模型構建的社交鏈接的預測模型[7]、太陽活動預測模型[8]、痛風預測[9-10]、零件制造過程質量預測[11]等。另外,Zhao等和Lei等基于粗糙集進行屬性約簡,再分別結合模糊Bandelet神經網絡和深度學習對葉輪壽命和建筑能耗進行預測[12-13];Halder等通過構造粗糙模糊分類器對微陣列基因表達數據進行癌癥預測[14];Albuquerque等基于粗糙集分類對熱帶河流水質進行大規模預測[15]。此外,還有直接結合機器學習理論的技術來處理預測問題[16-18]。然而,現有的基于粗糙集理論的預測分析模型存在以下兩個方面的局限:
1) 現有的預測分析模型預測的結果缺乏語義信息,存在可解釋性不足的局限性,致使進一步決策管理時會產生不信任預測結果的情況。
2) 粗糙集及其拓展模型是從對象的角度來構建,粗糙集中的二元關系度量的是對象之間的相關性,在進行預測時忽略了屬性之間的相關性對預測結果的影響,這將導致預測分析模型對多屬性系統的預測可能失效。
因此,為了突破現有預測分析模型可解釋性不足的局限性,本文試圖另辟蹊徑,深度融合粗糙集理論,對當前的數據進行強化處理,挖掘數據系統中屬性之間的相關性對決策的影響,構建一種全新的具有可解釋性的預測分析方法來保障后續的決策管理。
現實情況中,對于多屬性系統,屬性之間會存在某種關系,這種關系可以反饋到對象上,進而影響決策。因此,本文通過分析屬性之間的相關性,構造基于屬性的模糊相似度,進一步分析屬性之間相關性對對象的影響,進而構建粗糙模糊集模型。基于屬性的模糊相似度的定義如下:
Sγ(a,b)=
γ∈[0,0.5)
(1)
其中:U為論域;f(x,a)表示對象x在屬性a下的模糊隸屬度。然后,基于模糊相似關系進行粒度刻畫,其定義為
(2)

(3)
在粗糙集理論中,粗糙集上、下近似將論域U劃分為3個區域,即正域、負域和邊界域。正域是粗糙集的下近似集,正域和邊界域共同構成上近似集。從粗糙決策的角度來看,正域表示接受決策,負域表示拒絕決策,邊界域表示延遲決策。只有屬于下近似集才可接受的決策被認為是悲觀決策,而只要屬于上近似集就接受的決策被認為是樂觀決策。因此,本文將悲觀決策認為是從所有強相關性的屬性(入圍方案)中選擇值(收益)最小的保險決策;樂觀決策認為是從所有強相關性的屬性(入圍方案)中選擇值(收益)最大的冒險決策。基于這個角度,可以從所有弱相關性的屬性(否決方案)中選擇值(收益)最小的決策來定義粗糙模糊集的負域。即
(4)
從粗糙模糊集對數據處理的角度來分析,其下近似和負域可以強化數據之間的區分性,有利于處理互斥類問題,可以用來構建具有可解釋性的趨勢預測分析模型。
本文構建的面向屬性的粗糙模糊集模型有以下幾方面的優勢:①從模型構建的角度上考慮了屬性之間的相關性,有益于對象的預測分析;②模型本身進行數據處理時能夠強化原始數據區分性;③模型對論域的劃分是基于各類決策角度的傾向性,能為預測分析提供可解釋性。因此,本文將結合面向屬性的粗糙模糊集來構建一種具有可解釋性的趨勢預測分析模型。
模型構建思路如下:將多屬性系統看作是一個模糊系統,每個對象是一個模糊集。將粗糙模糊集下近似(悲觀決策方案)和負域(否決方案)作為可解釋趨勢預測的目標函數。為預測某個備選對象的發展趨勢,首先,通過訓練集訓練模糊相似關系,通過聚類方法獲得具有強相關性的屬性集來刻畫粒度結構,再計算備選對象的粗糙模糊下近似和負域;然后,根據相似度或距離等評估方法來計算備選對象與粗糙模糊下近似和粗糙模糊集負域之間的相似度(或者距離);最后,再對相似度或者距離進行評估,進而實現趨勢預測的目的,獲得可解釋性的預測結果。
實現該模型的具體步驟如下:
1) 對數據集進行歸一化預處理。
2) 構建訓練集和測試集。
3) 基于訓練集,從屬性的角度計算數據集的模糊相似關系,然后,基于某一水平刻畫粒度結構。
4) 計算測試集的粗糙模糊集上近似、下近似和負域。
5) 評估測試集中各個備選對象與粗糙模糊下近似和粗糙模糊集負域之間的相似度(或者距離)。
6) 根據步驟5)計算的結果進行趨勢預測。若與粗糙模糊下近似集更相似或接近,則認為趨向于悲觀決策方案所在類(保守類所代表的具有可解釋性的類別);若與粗糙模糊負域更相似或接近,則認為趨向于否決方案所在類(淘汰類所代表的具有可解釋性的類別)。
7) 輸出預測結果。
上述是本文提出的可解釋性預測分析模型的框架,該框架可對步驟3)~步驟6)進行拓展和優化。即步驟3)中,屬性之間的相關性度量,可以采用其他二元關系進行度量;步驟4)和步驟5)中,可以構建其他類型的粗糙集模型,并借助上近似(樂觀決策)和下近似(悲觀決策)進行可預測模型的構建;步驟6)中,除了直接根據評估值進行判定外,還可以加入超參數,實現3類及以上的可解釋性預測分析。
綜上,本文提出的可解釋性預測分析方法的框架具有可擴展性和廣泛的適用性,對不同的預測分析問題如分類或聚類問題,均可處理。
為了驗證本文提出的可解釋性預測分析模型的可行性和有效性,本文將該模型應用于二分聚類的預測分析中。為了便于實驗區分和識別,將本文提出的模型命名為ARFC模型,并與現有聚類模型進行實驗對比研究,實驗相關設置如下:
1) 選用UCI 數據庫(https:∥archive.ics.uci.edu/ml/datasets)中的5個數據集進行實驗,數據集的描述如表1所示。實驗之前需對數據集采用min-max標準化方法進行處理。
2) 采用ARFC模型進行實驗的過程中,將數據集按7∶3的比例劃分訓練集和測試集;且ARFC模型采用余弦距離對備選對象與粗糙模糊下近似和粗糙模糊集負域之間的距離進行評估,以實現可解釋性的二分聚類預測。
3) ARFC模型為了獲得最優粒度結構下的預測結果,需要對模型中的參數γ和δ進行遍歷。
4) 選用了6種聚類算法進行了實驗對比研究,分別為:Kmeans++,KFCM,AHC-average,GMM-EM,Apclusterk,Spectral cluster。
5) 采用了聚類有效性指標對各種聚類算法進行性能評估。其中外部指標5個:ACC (標簽預測精度),NMI (normalized mutual information),ARI (adjusted Rand index),F值(F-measure),Rand指數 (Rand index)。內部指標5個:KL (krzanowski-lai),Ha (hartigan),Hom(homogeneity),Sep (separation),Wtertra(weighted inter-to intra-cluster ratio)。所有指標中,除KL、Ha兩個指標的值越小,表示聚類性能越好,其余指標值越大,則表示聚類性能越好。
表2為各個數據集下,采用ARFC模型進行聚類預測時,對模型中的參數γ和δ進行遍歷后獲得的最優粒度結構。
表3~表12是各個數據集在不同聚類算法下獲得的聚類有效性評價指標的結果,其中,AFRC模型的結果是基于最優粒度結構獲得的。圖1~圖10是與表3~表12相對應的網狀圖,圖形越接近五邊形(圖形面積越大)代表聚類效果越好。其中,由于KL、Ha兩個內部指標的值越小,表示聚類性能越好,為了便于比較,圖6~圖10中的KL和Ha兩個指標是對表8~表12中的KL和Ha兩個指標中的數據進行了反比例處理而構圖的。

表1 數據集的詳細描述Tab. 1 Detailed description of data set

表2 AFRC模型在各數據集下的最優粒度結構Tab.2 Optimal granularity structure of AFRC model under each datasets

表3 各聚類算法下Cardoor的外部指標結果Tab.3 External index results of Cardoor under various clustering algorithms

表4 各聚類算法下VeteranLungCancer的外部指標結果Tab.4 External index results of VeteranLungCancer under various clustering algorithms

表5 各聚類算法下Wisconsin的外部指標結果Tab.5 External index results of Wisconsin under various clustering algorithms

表6 各聚類算法下Ionosphere的外部指標結果Tab.6 External index results of Ionosphere under various clustering algorithms

表7 各聚類算法下Sonar的外部指標結果Tab.7 External index results of Sonar under various clustering algorithms

表8 各聚類算法下Cardoor的內部指標結果Tab.8 Internal index results of Cardoor under various clustering algorithms

表9 各聚類算法下VeteranLungCancer的內部指標結果Tab.9 Internal index results of VeteranLungCancer under various clustering algorithms

表10 各聚類算法下Wisconsin的內部指標結果Tab.10 Internal index results of Wisconsin under various clustering algorithms

表11 各聚類算法下Ionosphere的內部指標結果Tab.11 Internal index results of Ionosphere under various clustering algorithms

表12 各聚類算法下Sonar的內部指標結果Tab.12 Internal index results of Sonar under various clustering algorithms

圖1 Cardoor的外部指標網狀圖Fig.1 External indicator network of Cardoor

圖2 VeteranLungCancer的外部指標網狀圖Fig.2 External indicator network of VeteranLungCancer

圖3 Wisconsin的外部指標網狀圖Fig.3 External indicator network of Wisconsin

圖4 Ionosphere的外部指標網狀圖Fig.4 External indicator network of Ionosphere

圖5 Sonar外部指標網狀圖Fig.5 External indicator network of Sonar

圖6 Cardoor的內部指標網狀圖Fig.6 Internal indicator network of Cardoor

圖7 VeteranLungCancer的內部指標網狀圖Fig.7 Internal indicator network of VeteranLungCancer

圖8 Wisconsin的內部指標網狀圖Fig.8 Internal indicator network of Wisconsin

圖9 Ionosphere的內部指標網狀圖Fig.9 Internal indicator network of Ionosphere

圖10 Sonar的內部指標網狀圖Fig.10 Internal indicator network of Sonar
聚類外部有效性指標結果可以看出,本文提出的預測分析模型具有明顯的優勢。從內部有效性指標結果來看,數據結果整體往KL和Ha兩個指標偏,反映出本文提出的模型與其他模型存在本質上的差異性,這是由于本文模型深度融合了粗糙集理論進行預測分析。換個角度來說,在一定程度上表明本文提出的預測模型具有一定的創新性。其創新性主要體現在以下兩個方面:
1)基于屬性之間的相關性對預測分析的影響,本文從對象的角度來度量屬性之間的相關性,進而構建了屬性間模糊相似關系;
2)從屬性的角度構建粗糙模糊集模型對數據進行強化處理,進一步從粗糙決策的角度,構建了具有可解釋性的目標預測函數,進而實現可解釋性預測。
本文提出了一種全新的、具備可解釋性的預測分析模型。該模型深度融合了粗糙集理論,從屬性的角度構建了粗糙模糊集模型來強化原始數據區分性,再基于粗糙決策的角度設計具有可解釋性的目標函數,進而評估預測對象與目標函數,來實現可解釋性預測分析的目的。本文的研究為預測分析理論與方法提供了創新性的思路和方向。從模型構建的框架來看,該模型具有廣泛的適用性,可以進一步拓展和改進不同領域可解釋性預測分析問題的處理,對研究復雜系統的預測分析和決策管理具有重大意義。