摘要:針對現有粗糙集屬性約簡方法中存在的連續數據處理時的信息丟失、粒化策略引入不一致信息、參數尋優困難等問題,提出一種適用于連續型數據、基于類別可區分度的非單調性啟發式屬性約簡算法。首先以各樣本的標簽為依據對論域進行劃分,同一標簽的樣本組合成一個簇,定義每個簇的類間可區分度和類內可區分度;其次,以最大化類間可區分度、最小化類內可區分度為約簡原則,定義了一種新的屬性重要性判別準則以確定最優約簡集,從而提高后續分類器的分類性能。在十一個UCI數據集上與其他六種屬性約簡算法進行對比實驗。結果表明,與六種算法相比,所提算法獲得的約簡集平均維度減小了1.16,平均分類精度提高了3.42%,其表現出更好的約簡性能。
關鍵詞:屬性約簡; 粗糙集; 可區分度; 分類性能; 連續型數據
中圖分類號:TP18文獻標志碼:A
文章編號:1001-3695(2022)04-009-1013-06
doi:10.19734/j.issn.1001-3695.2021.09.0370
Research on continuous space attribute reduction algorithm based on discrimination
Zhang Min, Zhu Qibing, Huang Min
(Key Laboratory of Advanced Process Control for Light Industry of Ministry of Education, College of Internet of Things, Jiangnan University, Wuxi Jiangsu 214122, China)
Abstract: Aiming at the problems of information loss in continuous data processing, inconsistent information introduced by granulation strategies, and difficulty in parameter optimization in the existing rough set attribute reduction methods, this paper proposed a non-monotonic heuristic attribute reduction algorithm based on category discrimination which was suitable for continuous data. Firstly, it divided the universe according to the label of each sample, and combined the samples of the same label into a cluster, and defined the inter-class discrimination and intra-class discrimination of each cluster. Secondly, it defined a new attribute importance criterion to determine the optimal reduction set, so as to improve the classification performance of subsequent classifiers. The proposed algorithm was compared with other 6 attribute reduction algorithms on the 11 UCI datasets. The results show that compared with the 6 algorithms, the average dimension of the reduction sets obtained by the proposed algorithm is reduced by 1.16, and the average classification accuracy is improved by 3.42%, showing better reduction performance.
Key words:attribute reduction; rough set; discrimination; classification performance; continuous data
0引言
隨著信息技術的高速發展,維度災難現象日益加劇,而屬性約簡是解決該問題的一類重要方法。粗糙集理論作為一種處理不準確和不確定信息的數學工具,因其不需要數據本身以外的任何先驗知識,在屬性約簡中得到了廣泛的應用。經典的Pawlak粗糙集[1]定義在等價類基礎上,從而保證了粒度計算的進行,但這種方式只適合處理離散型變量。為將粗糙集理論引入至對連續型數據的處理中,學者們提出了以下的解決方法:a)對數據進行離散化處理[2~5];'b)對粗糙集模型進行改進,提出了鄰域粗糙集[6]、覆蓋粗糙集[7]、模糊粗糙集[8]等模型。然而,這兩類方法的本質相同,它們都是通過一定的粒化策略逼近原始數據信息[9],?;^程不可避免地會造成部分有用信息的丟失。與此同時,上述方法采取無監督機制對屬性進行?;次纯紤]樣本的標簽信息),容易產生不同標簽樣本被劃分進同一粒度的現象,從而導致約簡后的屬性難以保證后續分類器的分類精度。針對此問題,Liu等人[10]提出了一種基于監督鄰域關系的雙半徑機制,與無監督的信息?;煌?,該機制下樣本的?;粌H考慮了條件屬性的相似性,還考慮了各樣本的標簽值;Jiang等人[11]為了提高鄰域關系的識別性能,定義了類內半徑和類間半徑的概念,在此基礎上定義了一種基于監督鄰域的屬性約簡算法;駱公志等人[12]為了彌補多粒度決策粗糙集刻畫不確定性知識能力的不足,在多粒度決策粗糙集中引入類內閾值和類間閾值的概念,提出了基于監督機制的多粒度決策粗糙集模型等。實驗證明,這些基于監督機制的?;呗栽谝欢ǔ潭壬咸岣吡朔诸愋阅?。然而,上述所有算法都需要設置相應的參數,如其中所涉及的連續型數據離散化時的區間數量或寬度、鄰域粗糙集模型中的鄰域半徑、模糊粗糙集模型中的隸屬度、概率粗糙集模型中的變精度閾值等,參數的選取往往會對約簡產生很大的影響,因此需要通過一定的方法進行參數的優化,這不僅大大增加了算法的復雜度,而且具有一定的主觀性。
為解決上述涉及的三個問題,本文以連續型數據為研究對象,以類間和類內的可區分度為屬性重要性的判斷標準,提出了一種基于監督機制的啟發式屬性約簡算法。該算法不僅克服了傳統離散化方法和信息粒化時帶來的信息丟失問題,還可以無須在算法中設置任何可調參數的前提下,充分保留原始數據信息,刪去冗余和干擾數據,提高分類性能。
1鄰域粗糙集模型
設〈U,C∪D〉是一個決策信息系統,其中論域U={x1,x2,…,xn}是一組非空有限樣本集,C∪D為屬性集,用于構成特征向量以表征論域中的每個樣本,其中C為由連續型數據構成的條件屬性集,D為決策屬性集。
定義1[6]給定任意xi∈U和BC,定義樣本xi在條件屬性子集B上的鄰域為
δB(xi)={xj∈U|ΔB(xi,xj)≤δ}(1)
其中:δ為鄰域半徑;Δ為距離函數。
定義2[6]給定X={X1,X2,…,Xr}∈U/D,x∈U,BC和鄰域關系N,定義D在N上關于B的上下近似分別為
N(D)=∪ri=1NB(Xi),N(D)=∪ri=1NB(Xi)(2)
其中:
NB(Xi)={x|δB(x)∩Xi≠,x∈U}
NB(Xi)={x|δB(x)Xi,x∈U}(3)
定義3[6]D關于B的下近似通常又稱為正域,表示為POSB(D),通過正域可定義D關于B的鄰域依賴度為
γB(D)=|POSB(D)||n|(4)
2基于可區分度的屬性約簡算法
粗糙集與其拓展集屬性約簡算法都是通過選取合適的特征評估函數以度量約簡前后條件屬性與決策屬性之間關系的變化,并以此作為評估任意候選屬性集逼近全部屬性能力的指標。當原始數據本身的分類性能較差時,這種基于逼近全部屬性能力的評估指標將難以保證或提高后續分類器的分類性能。
考慮到在實際應用中,大量的屬性約簡方法最終都是由后續的分類性能評估其優劣,而所有分類任務的最終目的都是找到一個可以在最大程度上將不同類別的樣本區分開的介質(如直線、平面、超平面等),因此,本文充分利用數據本身的分布信息,直接從提高分類性能的角度出發,分別定義了類內可區分度和類間可區分度的概念,并以最小化類內可區分度、最大化類間可區分度為約簡原則確定最優的約簡集,從而獲得最大化數據可分性的屬性子集。
2.1類間可區分度
類間可區分度是通過計算不同類別樣本之間的距離以反映異類樣本(標簽不同的樣本)之間的可區分性,其計算思路為:首先以各樣本的標簽為依據將論域劃分為一系列簇,在所有簇中任選兩個簇,并在每個簇中任選一個樣本進行組合,計算出所有符合這種二元組關系的異類樣本之間的距離總和,再除以距離的計算次數從而得到所有簇的類間距離平均值。類間距離越大,則類間的可區分度越大。
定義4給定決策信息系統〈U,C∪D〉,U/D={D1,D2,…,Dr},BC,兩個任意給定的決策類Di、Dj關于條件屬性子集B的類間可區分度定義為
Inter DB(Di,Dj)=∑|Di|k=1SB(Dik,Dj)|Di|(5)
其中:|Di|表示決策類Di中樣本的個數(下同);SB(Dik,Dj)表示第i個決策類的第k個樣本Dik與決策類Dj(j≠i)關于B的類間距離平均值,其表達式為
SB(y,Dm)=∑|Dm|n=1ΔB(y,Dmn)|Dm|(6)
其中:ΔB(·)函數為關于屬性子集B的距離度量函數。在模式識別中,有三種典型距離度量,即曼哈頓距離、歐氏距離和切比雪夫距離,它們可以由閔可夫斯基距離統一表示,其p值分別對應為1、2、∞。對于M維的屬性子集B,樣本xi和xj的閔可夫斯基距離可表示為
ΔB(xi,xj)=(∑Mk=1|xki-xkj|p)1p(7)
本文選取常用的歐氏距離和曼哈頓距離作為距離度量函數,歐氏距離表示的是兩個空間點之間的直線距離,曼哈頓距離是所有維度距離絕對值的總和。
定義5給定決策信息系統〈U,C∪D〉,U/D={D1,D2,…,Dr},BC,定義整個決策屬性D關于條件屬性子集B的類間區分度為
Inter(B,D)=∑r-1i=1∑rjgt;1Inter DB(Di,Dj)Cr2=2×∑r-1i=1∑rjgt;1Inter DB(Di,Dj)r×(r-1)
(8)
Inter(B,D)越大,則屬性子集B對決策屬性D中不同類別樣本的區分能力越強。
2.2類內可區分度
類內可區分度是通過計算同一類別樣本的方差,以反映同類樣本(標簽相同的樣本)之間的可區分性,其計算思路為:首先在所有簇中任選一個簇,計算該簇對應樣本的方差值,并以此方法計算出所有簇的類內方差平均值。類內方差越小,則各簇內部的聚合程度越高,類內的可區分度越小。
定義6給定決策信息系統〈U,C∪D〉,U/D={D1,D2,…,Dr},BC,定義樣本關于屬性b∈B的類內可區分度為
var(b)=∑rk=1(∑|Dk|m=1(Dbkm-Dbk)2|Dk|)(9)
其中:Dbkm表示第k個決策類的第m個樣本在屬性b上的取值;Dbk表示決策類Dk中所有樣本在屬性b上所有數值的平均值。
定義7給定決策信息系統〈U,C∪D〉,U/D={D1,D2,…,Dr},BC,定義樣本關于條件屬性子集B的類內可區分度為
VarS(B)=∑|B|b=1var(b)|B|(10)
VarS(B)越小,則屬性子集B中同類樣本的聚集程度越大,從而有利于提高后續分類器的分類性能。
3基于可區分度的屬性重要度
根據模式識別理論,一個好的特征屬性集應有較小的類內可區分度和較大的類間可區分度,從而保證不同類別的可區分性。為此,本文定義了一個基于可區分度的屬性重要性度量函數,用于評價各屬性對決策分類性能的影響。
定義8給定決策信息系統〈U,C∪D〉,BC,定義a∈C-B相對于B關于D的屬性重要度為
SIG(a,B,D)=Inter(B∪a,D)Inter(B,D)-VarS(B∪a)VarS(B)(11)
特別地,當B=時,SIG(a,B,D)=Inter(a,D)-VarS(a)。
由定義8可知,屬性重要度SIG(a,B,D)表示在已有條件屬性集B的基礎上,增加屬性a對決策屬性D分類性能的改善程度。SIG(a,B,D)越大,a對D越重要。根據式(11)可知,選擇一個重要的條件屬性應該保證增加該屬性后,樣本集的類間可區分度增加,而類內可區分度減小。與常用的差值法不同,此處的重要度函數采用了比值法。比值法可以更好地反映屬性添加前后的變化,這是因為每個屬性對應的樣本分布不同,如果只是簡單地將類間區分度減去類內區分度,則容易因為兩者數值相抵而出現屬性的誤選,且由于兩者的計算結果數量級相差較大,若采用差值法則需要額外添加合適的補償系數。比值法可以很好地解決這些問題,它以屬性添加前后區分度函數的比值作為判斷標準,可以在無須添加額外參數的情況下有效解決數量級不同的問題,也更易于捕捉到約簡過程中樣本分布的變化。
由于類間可區分度與類內可區分度的計算都依賴樣本的標簽信息,所以是一種監督機制,與傳統的無監督粒化方法相比能夠避免在約簡過程中引入不一致信息,從而提高分類性能。
由于屬性重要度函數是否具有單調性決定了屬性約簡的定義構造與算法設計,所以接下來將對可區分度函數的性質進行簡單推導。
性質1類間可區分度函數具有單調性。
證明設屬性子集ABC,則有
Inter(B,D)-Inter(A,D)=2×∑r-1i=1∑rjgt;iInter DB(Di,Dj)r×(r-1)-
2×∑r-1i=1∑rjgt;iInter DA(Di,Dj)r×(r-1)=
2r×(r-1)×∑r-1i=1∑rjgt;i(Inter DB(Di,Dj)-Inter DA(Di,Dj))
由于系數2/(r×(r-1))為大于0的常數,不影響算式的正負,所以只需判斷∑r-1i=1∑rjgt;i(Inter DB(Di,Dj)-Inter DA(Di,Dj))的正負即可。又因為
Inter DB(Di,Dj)-Inter DA(Di,Dj)=∑|Di|k=1SB(Dik,Dj)|Di|-
∑|Di|k=1SA(Dik,Dj)|Di|=1|Di|∑|Di|k=1(SB(Dik,Dj)-SA(Dik,Dj))=1|Di|1|Dj|×
∑|Di|k=1∑|Dj|n=1(ΔB(Dik,Djn)-ΔA(Dik,Djn))
由于AB,根據距離度量的定義,上式恒成立,即Inter(B,D)gt;Inter(A,D)。
性質2類內可區分度函數不滿足單調性。
證明設屬性子集ABC,則有VarS(B)-VarS(A)=1|B|∑|B|b=1var(b)-1|A|∑|A|a=1var(a),其中var(b)=∑rk=1(∑|Dk|m=1(Dbkm-Dbk)2|Dk|),var(a)=∑rk=1(∑|Dk|m=1(Dakm-Dak)2|Dk|)。因為AB,所以對于a=b,可得var(a)=var(b);對于c∈B-A,var(c)≥0。故得∑|B|b=1var(b)-∑|A|a=1var(a)=∑c=b-avar(c)≥0。所以有∑|B|b=1var(b)≥∑|A|a=1var(a)。又因為|B|gt;|A|0lt;1|B|lt;1|A|,所以可知VarS(B)與VarS(A)的大小關系無法確定。
性質3屬性重要度函數不滿足單調性。
證明由于類間可區分度函數滿足單調性,但是類內可區分度函數不滿足單調性,所以由兩者的代數運算得到的屬性重要度函數也具有非單調性。
4基于可區分度的前向啟發式屬性約簡算法
目前,粗糙集屬性約簡算法中常用的評估函數有依賴度、信息熵等,它們都滿足單調性原則,而文獻[13]指出基于這種單調性評估函數的屬性約簡算法存在一定的缺陷,例如當原始數據集的分類性能較差時,對應的基于單調性的評估函數度量值也相對較低。已有相關研究[13~15]表明,采用具有非單調性評價函數的屬性約簡算法可以獲得更好的分類性能。因此,本文所提的滿足非單調性的屬性約簡算法具有一定的理論依據。
為選出分類性能最好的屬性集,本文借鑒文獻[13]中的基于非單調評價函數的算法設計原則,以可區分度度量函數為屬性重要度的評價標準,以啟發式算法為搜索策略,提出一種基于可區分度的啟發式屬性約簡算法(DISAR)。算法的思路為:首先初始化約簡集為空集,對于約簡集以外的任一屬性,計算其添加至約簡集后類間與類內可區分度的變化大小,并將屬性重要度最大的屬性加到約簡集中,以此規則依次執行直至算法終止。具體過程如下。
算法1基于可區分度的啟發式屬性約簡算法(DISAR)
輸入:決策表〈U,C∪D〉。
輸出:約簡集red。
a) 初始化red=
b) while C-red≠
c) for a∈C-red
d) if red=
e) SIG(a,red,D)=Inter(a,D)-VarS(a)
f) else
g) SIG(a,red,D)=Inter(red∪a,D)Inter(red,D)-VarS(red∪a)VarS(red)
h) 選擇屬性ak,使得SIG(ak,red,D)=max(SIG(a,red,D))
i) ifSIG(ak,red,D)gt;0
j) red=red∪ak
k) else
l) break
由于基于可區分度的屬性重要度函數具有非單調性,DISAR算法的終止條件為SIG(ak,red,D)≤0,此時在當前約簡集中加入任何屬性都不能提高約簡性能。與具有單調性的屬性約簡算法相比,本文算法并不需要選取閾值參數用于控制算法的收斂程度,只需在算法約簡至最大屬性重要度≤0時終止算法,從而避免了閾值參數的選取問題??紤]到實際應用中算法1的終止條件過于嚴苛,由此選擇的約簡屬性集可能存在過擬合問題。為解決這一問題,本文采用事后修剪策略[14],其思路為:首先將由DISAR算法計算得到的約簡結果視為一系列相互嵌套的約簡屬性增鏈,再利用SVM等分類器對該約簡增鏈進行一一檢驗,最后以最高精度所對應的約簡增鏈為最終約簡集。由于該步驟并不影響算法的進行,所以不需要反復調試最佳分類,具有一定的客觀性、魯棒性和可操作性。
在時間復雜度上,由于本文的距離度量函數同時考慮了歐氏距離和曼哈頓距離這兩種度量方法,所以需要分別討論時間復雜度。本文算法的計算時間主要消耗在樣本距離的計算上,設論域U的樣本數為n,條件屬性總數為|C|,當采用歐氏距離時,由于每增加一個屬性就需要重新計算一次樣本距離,且算法在最壞情況下需要遍歷每一個屬性,所以類間區分度的計算復雜度為O(|C|n log(n)),類內區分度的計算復雜度為O(n log(n)),從而可知總體的時間復雜度為O(|C|n log(n));當采用曼哈頓距離時,類間與類內區分度都只需計算一次單屬性下樣本間的距離,因此總體的時間復雜度為O(n log(n))。由此可知,就時間效率而言,本文算法采用曼哈頓距離函數要遠優于采用歐氏距離函數。
5實驗分析
為了測試DISAR算法的性能,從UCI機器學習數據庫(http://archive.ics.uci.edu)中選取十一個數據集,如表1所示。
所有數據集均為連續型數據,為了消除屬性量綱的影響,采用最大—最小標準化方法對數據進行歸一化處理。將DISAR算法與如下六個具有一定代表性的屬性約簡算法在屬性數量和分類精度這兩方面進行比較,對比算法分別為基于鄰域依賴度的屬性約簡算法(NRS)[6]、基于鄰域變精度粗糙集的屬性約簡算法(NFARNRS)[6]、基于相似性的屬性約簡算法(SIMR)[2]、基于高斯核逼近的模糊粗糙集屬性約簡算法(FSGKA)[15]、基于鄰域組合測度的屬性約簡算法(NCMAR)[16]、基于鄰域組合熵的屬性約簡算法(ARNCE)[17]。
在參與比較的六種算法中,算法1、2、5、6都需要設置鄰域半徑值,此處參考文獻[18]中的結論,將鄰域半徑統一設置為標準差的三分之一;算法2中的變精度參數β取值為0.5~0.95,步長為0.05;由于算法3只能處理離散型的數據集,所以在進行屬性約簡之前需要對數據集進行離散化處理,此處使用的是原文采用的WEKA軟件中的等頻離散化方法。
通過SVM、CART和KNN這三種分類器分別對由不同算法計算得到的約簡集進行十次十折交叉分類精度計算,取其平均值作為最終的精度值。由于不同分類器的分類精度最高時的約簡集并不一定相同,所以算法1~6均選取分類精度最高時的約簡集作為最終的屬性約簡結果。對于樣本數據而言,過多的特征不僅會占用大量存儲空間,還會對計算造成嚴重負擔。因此,在實際的約簡過程中,不僅要考慮約簡的分類精度大小,同時還要考慮所得約簡的規模大小。表2~4為各算法在不同分類器下的分類精度,并對最高精度值加粗表示,其中DISAR2為采用歐氏距離函數的DISAR算法,DISAR1為采用曼哈頓距離函數的DISAR算法,算法“××+SVM/KNN/CART”表示算法采用SVM/KNN/CART分類器得到的約簡集。表5、6為各算法的約簡集大小,并用“√”標記出屬性數量的最小值。
觀察表2~6可以發現:
a)總體而言,DISAR1算法在分類精度、約簡規模、計算復雜度這三個方面均優于DISAR2算法,因此在實際應用中更推薦采用基于曼哈頓距離的DISAR算法。事實上,歐氏距離函數的一個弱點是,如果某一輸入屬性有一個相對較大的范圍,那么它可以覆蓋其他屬性。本文的數據經過歸一化處理后數值均處于[0,1]內,當個別數據較小時,在計算樣本間的歐氏距離時相當于減小了這部分數據的權重,從而導致各維度下權值分配不均;而曼哈頓距離則可以相對公平地計算所有維度上各自的距離。以上從理論上分析了DISAR2算法相比于DISAR1算法分類性能相對較差的原因。
b)本文所提DISAR1和DISAR2算法在十一個數據集和三種分類器上所得約簡集的平均維度為4.70(即(5.27+4.45+5.36+4.45+4.55+4.09)/6=4.70,計算方法下同),與六種對比算法所得約簡集的平均維度(5.86)相比減小了1.16;DISAR1和DISAR2算法的平均分類精度為85.36%,與六種對比算法所得約簡集的平均分類精度(81.94%)相比增加了3.42%。由此可知,本文算法具有較為理想的分類精度和緊湊性。從約簡結果中還可以發現,NFARNRS算法的分類效果較好,僅次于本文所提的DISAR算法,該算法在三種分類器上的平均精度值分別取得了第2(SVM)、第2(KNN)和第3(CART)的成績,約簡集規模的平均值為5.18。然而,NFARNRS算法不僅需要確定鄰域半徑值,還存在一個可變參數—變精度β,因此該算法與本文所提的DISAR算法相比,計算更復雜且主觀性較大、魯棒性較差。而對于現有的β參數自適應選取方法[19],不僅計算復雜,也與粗糙集約簡無須任何預處理的初衷相悖,因此本文選用研究人員普遍使用的網格尋優法來確定β值,雖然計算量較大,但是原理簡單且容易操作;SIMR算法的分類性能在整體上相對不理想,這是因為該算法在屬性約簡之前需要對數值型屬性進行離散化處理,這一步驟不僅加大了算法的復雜度, 還會引起部分信息的丟失,并且在該算法中還需調整權重系數λ用于調節屬性重要度的大小,這些因素都可能導致分類精度的下降。
此外,為揭示DISAR算法所選屬性特征的信息變化,分別記錄各數據集在各屬性增鏈上的精度值,并繪制相應的折線圖,如圖1所示。圖1包含了特征維數較大的九個數據集,其中,橫坐標對應屬性增鏈中包含的屬性數量,縱坐標對應各分類器下的分類精度(%),SVM1/KNN1/CART1對應DISAR1算法在SVM/KNN/CART分類器上的精度,SVM2/KNN2/CART2對應DISAR2算法在SVM/KNN/CART分類器上的精度。
從圖1中可以發現,對于大部分數據集來說,在屬性個數逐個增加的過程中,屬性增鏈在不同分類器上的分類精度都逐漸增大,當達到一定峰值后或趨于穩定或逐漸減小,少數呈振蕩式衰減,這主要是由于各數據集的數據分布與特征維度不同且不同的分類器對約簡集的選取偏好不同所導致;同時可以觀察到,屬性增鏈在三種分類器上分類精度的變化趨勢在整體上基本一致,這也可以反映分類器分類能力的可靠性。
為了更直觀地反映約簡前后數據的分布情況,本文將高維數據降維以繪制散點分布圖,分別計算出各樣本到其所屬類別中心的距離并以此作為該樣本的橫坐標值,同理計算各樣本到其他類別中心的平均距離并作為縱坐標值,繪制出所有樣本的二維散點圖,結果如圖2所示。其中約簡數據1表示DISAR1算法所得結果,約簡數據2表示DISAR2算法所得結果。
筆者所希望的是樣本能集中分布于平分線y=x的左上角部分,此時類間距離要遠大于類內距離,分類性能較為理想。由圖2可以發現,在這十一類數據集上,各約簡數據的分布相對于原始數據的分布均有一定程度的左移,尤其在iris和binning_data數據集上這一變化更為明顯,從而驗證了本文的DISAR算法可以選出易于分類的屬性子集這一優勢。
6結束語
本文提出了一種基于監督機制的屬性約簡啟發式算法,它以類內和類間的可區分度作為屬性重要度的評價標準,定量描述了約簡過程中屬性添加前后分類性能的變化;由于無須在算法中設置任何可調參數,所得約簡更客觀可靠。在實驗仿真部分,以十一個UCI數據集為研究對象,通過與六種算法進行對比分析,可以發現:本文的DISAR2和DISAR1算法在三種分類器上的屬性數量平均值為4.70,遠小于其余六種算法所得約簡集的屬性數量平均值5.86,顯著降低了數據的特征維數;同時,DISAR2和DISAR1算法的平均分類精度為85.36%,明顯高于其余六種算法的平均分類精度81.94%,顯著提高了樣本分類的識別準確率。由此可知,本文算法具有較好的分類性能,但是,本文算法主要是針對連續型數據集進行研究,如何將本文算法引入到不完備數據集以及混合型數據集的屬性約簡是仍需解決的問題。
參考文獻:
[1]Pawlak Z. Rough sets[J].International Journal of Computer amp; Information Sciences,1982,11(5):341-356.
[2]Jia Xiuyi, Rao Ya, Shang Lin, et al. Similarity-based attribute reduction in rough set theory: a clustering perspective[J].International Journal of Machine Learning and Cybernetics,2020,11:1047-1060.
[3]徐曉濱,張明,文成林,等.基于信度區間的故障特征約簡方法[J].控制與決策,2019,34(4):767-774.(Xu Xiaobin, Zhang Ming, Wen Chenglin, et al. Fault feature reduction based on belief interval[J].Control and Decision,2019,34(4):767-774.)
[4]Teng Shuhua, Lu Ming, Yang A F, et al. Efficient attribute reduction from the viewpoint of discernibility[J].Information Sciences,2016,326(1):297-314.
[5]徐東,王鑫,孟宇龍,等.一種基于森林優化的粗糙集離散化算法[J].西北工業大學學報,2020,38(2):434-441.(Xu Dong, Wang Xin, Meng Yulong, et al. A discretization algorithm based on forest optimization network and variable[J].Journal of Northwestern Polytechnical University,2020,38(2):434-441.)
[6]Hu Qinghua, Yu Daren, Liu Jinfu, et al. Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences,2008,178(18):3577-3594.
[7]Yao Yiyu, Yao Bingxue. Covering based rough set approximations[J].Information Sciences,2012,200(1):91-107.
[8]Sheeja T K, Kuriakose A S. A novel feature selection method using fuzzy rough sets[J].Computers in Industry,2018,97(5):111-116.
[9]胡清華,于達仁,謝宗霞.基于鄰域粒化和粗糙逼近的數值屬性約簡[J].軟件學報,2008,19(3):640-649.(Hu Qinghua, Yu Daren, Xie Zongxia. Numerical attribute reduction based on neighborhood granulation and rough[J].Journal of Software,2008,19(3):640-649.)
[10]Liu Keyu, Yang Xibei, Yu Hualong, et al. Supervised information granulation strategy for attribute reduction[J].International Journal of Machine Learning and Cybernetics,2020,11:2149-2163.
[11]Jiang Zehua, Liu Keyu, Yang Xibei, et al. Accelerator for supervised neighborhood based attribute reduction[J].International Journal of Approximate Reasoning,2020,119:122-150.
[12]駱公志,梅燾.監督機制多粒度決策粗糙集模型及應用[J].計算機工程與應用,2020,56(18):214-220.(Luo Gongzhi, Mei Tao. Multi-granulation decision-theoretic rough set method based on supervisory mechanism and its application[J].Computer Engineering and Applications,2020,56(18):214-220.)
[13]Li Huaxiong, Zhou Xianzhong, Zhao Jiabao, et al. Non-monotonic attribute reduction in decision-theoretic rough sets[J].Fundamenta Informaticae,2013,126(4):415-432.
[14]Su Zhigang, Wang Peihong. Minimizing neighborhood evidential decision error for feature evaluation and selection based on evidence theory[J].Expert Systems with Applications,2012,39(1):527-540.
[15]Hu Qinghua, Zhang Lei, Chen Degang, et al. Gaussian kernel based fuzzy rough sets: model, uncertainty measures and applications[J].International Journal of Approximate Reasoning,2010,51:453-471.
[16]何松華,康嬋娟,魯敏,等.基于鄰域組合測度的屬性約簡方法[J].控制與決策,2016,31(7):1225-1230.(He Songhua, Kang Chanjuan, Lu Min, et al. Attribute reduction method based on neighborhood combination measure[J].Control and Decision,2016,31(7):1225-1230.)
[17]王光瓊.基于鄰域組合熵的屬性約簡算法[J].計算機應用與軟件,2018,35(12):269-273.(Wang Guangqiong. Attribute reduction algorithm based on neighborhood combination entropy[J].Computer Applications and Software,2018,35(12):269-273.)
[18]安若銘,索明亮.鄰域粗糙集在屬性約簡及權重計算中的應用[J].計算機工程與應用,2016,52(7):160-165.(An Ruoming, Suo Mingliang. Application of attributes reduction and weights calculation through neighborhood rough set[J].Computer Engineering and Applications,2016,52(7):160-165.)
[19]趙越嶺,王建輝,顧樹生.基于變精度粗糙集閾值的選?。跩].控制與決策,2007,22(1):78-80.(Zhao Yueling, Wang Jianhui, Gu Shusheng. Choice of threshold value based on variable precision rough sets[J].Control and Decision,2007,22(1):78-80.)
[20]姚晟,徐風,吳照玉,等.基于鄰域粗糙互信息熵的非單調性屬性約簡[J].控制與決策,2019,34(2):353-361.(Yao Sheng, Xu Feng, Wu Zhaoyu, et al. Non-monotonic attribute reduction based on neighborhood rough mutual information entropy[J].Control and Decision,2019,34(2):353-361.)
[21]陳帥,張賢勇,唐玲玉.鄰域互補信息度量及其啟發式屬性約簡[J].數據采集與處理, 2020,35(4):630-641.(Chen Shuai, Zhang Xianyong, Tang Lingyu. Neighborhood complementary information measures and heuristic attribute reduction[J].Journal of Data Acquisition and Processing,2020,35(4):630-641.)
收稿日期:2021-09-23;
修回日期:2021-11-09
基金項目:國家自然科學基金資助項目(61772240)
作者簡介:張敏(1997-),女,江蘇鹽城人,碩士研究生,主要研究方向為機器學習與數據挖掘;朱啟兵(1973-),男(通信作者),安徽合肥人,教授,博導,碩導,博士,主要研究方向為模式識別與智能系統、深度學習(zhuqib@163.com);黃敏(1974-),遼寧鐵嶺人,教授,博導,碩導,博士,主要研究方向為食品品質檢測、光譜成像技術分析.