















摘要 針對大部分基于模糊鄰域信息系統(tǒng)的特征選擇方法,在選入特征時只是單調(diào)的按照特征順序進行特征交互的問題,以及大多數(shù)特征度量函數(shù)僅從代數(shù)觀或信息觀的視角構造度量函數(shù)的缺陷,提出了一種基于模糊鄰域動態(tài)特征交互的特征選擇方法。首先,引入模糊鄰域互信息計算特征相關度,并根據(jù)特征相關度將特征順序重組。其次,分析特征動態(tài)交互的過程,通過模糊鄰域互信息以及模糊鄰域條件互信息,按照特征排序依次計算特征之間的冗余及動態(tài)交互程度。最后,為改善大多數(shù)特征度量函數(shù)構造視角單一的缺陷,提出一種多視角下的依賴模糊鄰域混合互信息度量函數(shù)。在8個公共數(shù)據(jù)集上與現(xiàn)有的7種屬性約簡算法進行對比實驗,實驗結果表明,該算法消除了冗余特征,同時提高了數(shù)據(jù)分類的準確度。
關鍵詞 特征選擇;模糊鄰域粗糙集;動態(tài)特征交互;互信息;條件互信息
中圖分類號:TP181" DOI:10.16152/j.cnki.xdxbzr.2025-02-009
Feature selection method for dynamic featureinteraction in fuzzy neighborhood system
XU Jiucheng1,2, NIU Wulin1,2, DUAN Jianghao1,2, ZHANG Shan1,2,BAI Qing1,2
(1.College of Computer and Information Engineering, Henan Normal University, Xinxiang 453007, China;
2.Engineering Lab of Intelligence Business amp; Internet of Things, Henan Province, Xinxiang 453007, China)
Abstract In order to solve the problem that most feature selection methods based on fuzzy neighborhood information system only monotonically interact with features according to the order of features when selecting features, and that most feature measurement functions only construct metric functions from the perspective of algebraic view or information view, a feature selection method based on dynamic feature interaction in fuzzy neighborhood is proposed. Firstly, fuzzy neighborhood mutual information is introduced to calculate the feature correlation degree and reorganize the feature order according to the feature correlation degree. Secondly, the process of dynamic interaction between features is analyzed, and the degree of redundancy and dynamic interaction between features is calculated according to the order of features through fuzzy neighborhood mutual information and fuzzy neighborhood conditional mutual information. Finally, in order to improve the defect of single perspective in the construction of most feature metric functions, a hybrid mutual information metric function relying on fuzzy neighborhoods from multiple perspectives is proposed. Experimental results show that the proposed algorithm eliminates redundant features and improves the accuracy of data classification while comparing with seven existing feature reduction algorithms on eight public datasets.
Keywords feature selection; fuzzy neighborhood rough set; dynamic feature interaction; mutual information; conditional mutual information
在大數(shù)據(jù)時代,數(shù)據(jù)不斷產(chǎn)生并隨著通訊技術的發(fā)展快速傳播,涵蓋了決策分析、認知建模、醫(yī)療診斷、軍事建設和過程控制等各個領域。然而,在實際應用中,真正有用的數(shù)據(jù)僅占到一小部分,大量冗余信息對數(shù)據(jù)的分類造成了顯著的影響。因此,如何從所有特征屬性中挖掘出最優(yōu)的特征約簡子集被認為是各種學習任務中值得研究的課題[1-2]。
粗糙集自提出以來,便在數(shù)據(jù)挖掘中備受關注。作為一種經(jīng)典的知識發(fā)現(xiàn)方法,粗糙集理論可直接對數(shù)據(jù)所包含的信息進行推理[3]。然而,傳統(tǒng)粗糙集難以直接處理數(shù)值型數(shù)據(jù),經(jīng)離散化處理的數(shù)據(jù)又可能會丟失一部分信息。模糊鄰域粗糙集能夠有效解決這一問題,并在特征選擇方面憑借其理論優(yōu)勢顯示出較強的特征度量能力[4-5]。近年來,學者們致力于提高模糊及鄰域粗糙集模型在特征選擇中的分類性能與泛化能力[6-7]。Shi等利用廣義模糊鄰域信息系統(tǒng),提出了3種多粒度可變精度模糊鄰域粗糙集模型[8]。Hu等通過研究模糊信息粒的關系和結構,提出了基于包含度的模糊粗糙集模型,定義了適用于混合型數(shù)據(jù)的特征重要度度量[9]。Wang從數(shù)學的角度提出了一種基于三角范數(shù)和模糊隱含的模糊粗糙集模型[10]。楊潔等從多粒度視角,構建出一種代價敏感的模糊鄰域粗糙集多粒度近似模型[11]。
然而,大多數(shù)特征選擇方法忽略了特征間因相互依賴而產(chǎn)生的相互作用,從而導致一些重要信息的丟失[12-13]。鑒于此,特征選擇過程中特征的交互性逐漸引起了研究者的關注[14]。Hagar等對組合測試的研究表明,大約90%的軟件故障是由參數(shù)之間的相互作用觸發(fā)的[15]。Wang等考慮了特征之間的相互作用,有效地選擇了具有相互作用的特征[16]。Zhou等將特征交互與流結合,提出了一種基于特征交互的流特征選擇方法[17]。在生物學研究中,生理和病理過程的變化往往受到分子間相互作用的影響,因此,在許多疾病的診斷、治療和預防中,辨識交互特征具有關鍵性的意義[18]。
現(xiàn)有的大多數(shù)特征交互算法在進行特征交互的過程中僅僅是根據(jù)特征的先后順序進行交互,影響最終約簡結果的準確性,且大多數(shù)基于模糊鄰域信息系統(tǒng)下的特征度量函數(shù)構造視角單一,得出的度量函數(shù)大多僅從信息觀或代數(shù)觀的一個方面出發(fā),不能完全度量特征的不確定性。針對以上問題,本文提出了一種基于模糊鄰域動態(tài)特征交互的特征選擇算法(a feature selection algorithm based on fuzzy neighborhood dynamic feature interaction, FNDFI)。該算法首先根據(jù)特征相關度對特征順序進行重組。其次,通過整合代數(shù)觀和信息觀,在特征相關性、冗余性和動態(tài)交互性的基礎上提出多視角依賴模糊鄰域混合互信息度量,為不確定性度量提供了一個新的思路和方法。最后,在8個公共數(shù)據(jù)集上與現(xiàn)有的7種屬性約簡算法進行對比實驗,實驗分析表明所提算法的可行性和有效性。本文的主要貢獻包括3個方面:
1) 在模糊鄰域信息系統(tǒng)中考慮動態(tài)特征交互問題,可更好地處理現(xiàn)實生活中大量存在的模糊數(shù)據(jù);
2) 優(yōu)化了特征交互的過程,在選入條件特征前,先根據(jù)條件特征對決策類的相關性從大到小依次排序,之后再依次進入冗余和動態(tài)特征交互分析,避免了傳統(tǒng)特征交互條件特征單調(diào)性選入的問題;
3) 在模糊鄰域信息系統(tǒng)中引入信息觀和代數(shù)觀并綜合特征相關性、冗余性及動態(tài)交互性度量,提出基于模糊鄰域信息系統(tǒng)下的多視角依賴模糊鄰域混合互信息度量。
1 相關工作
1.1 模糊鄰域粗糙集
給定一個模糊鄰域信息系統(tǒng)FNDS=〈U,C,D,V,δ〉,U={x1,x2,…,xn}是一個非空有限的樣本空間。C={c1,c2,…,cm}是樣本集的條件特征集,D是樣本的決策特征集。V為全體特征的值域,δ為模糊鄰域半徑,用于設置閾值篩選樣本間的模糊相似關系,δ∈(0,1)。U/D={D1,D2,…,Dl}表示D將U劃分為l個等價類。
定義1[19] 給定一個FNDS,c1∈C,由c1導出模糊二元關系Rc1。當Rc1同時滿足自反性和對稱性時,稱Rc1為模糊相似關系。x,y∈U,由高斯核函數(shù)計算的模糊相似關系Rc1表示為
Rc1(x,y)=exp[JB((]-[SX(]‖x-y‖2[]λ[SX)][JB))](1)
i)自反性:Rc1(x,x)=1, xU。
ii)對稱性:Rc1(x,y)=Rc1(y,x),x,y∈U。
定義2[19] 給定一個FNDS,設模糊鄰域半徑參數(shù)為δ, δ∈(0,1)。x,y∈U,樣本x和樣本y關于特征c1的模糊鄰域相似矩陣為[x]δc1 (y),則x關于c1的參數(shù)化模糊鄰域粒表示為
εδc1 (x)=[x]δc1 (y)=
[JB({]Rc1(x,y),Rc1(x,y)≥δ;
0, Rc1(x,y)lt;δ。[JB)]" [JY](2)
定義3[19] 給定一個FNDS, c1∈C,U/D={D1,D2,…,Dl},i=1,2,…,l,那么Di關于c1的模糊鄰域上下近似分別表示為
Rδc1(Di)={xi|εδc1 (xi)∩Di≠,x∈U}" [JY](3)
Rδc1(Di)={xi|εδc1 (xi)Di,x∈U}" [JY](4)
定義4[20] 給定一個FNDS, c1∈C,U/D={D1,D2,…,Dl},i=1,2,…,l,則D關于c1的正域和依賴度分別表示為
POSδc1 (D)=∑[DD(]l[]i=1[DD)]Rδc1(Di)" [JY](5)
γc1(D)=[SX(]|POSδc1 (D)|[]|U|[SX)]" [JY](6)
1.2 模糊鄰域互信息
互信息作為信息熵的拓展是一種有效的度量方法,可用來衡量變量之間的相互依賴程度,將其用于特征選擇中可以從信息觀的角度有效度量特征對于決策類的不確定性[20]。本節(jié)基于模糊鄰域粒給出模糊鄰域互信息的定義和定理。
定義5[20] 給定一個FNDS, c1∈C,εc1(xi)為樣本xi由c1誘導的模糊鄰域粒,關于c1的模糊鄰域熵表示為
FNER(c1)=-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(]|εc1(xi)|[]|U|[SX)]" [JY](7)
定義6[20] 給定一個FNDS, c1,c2∈C,εc1(xi)和εc2(xi)分別為樣本xi由c1和c2誘導的模糊鄰域粒,c1和c2之間的模糊鄰域聯(lián)合熵、模糊鄰域條件熵和模糊鄰域互信息分別表示為
FNER(c1,c2)="-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(][JB(|]εc1(xi)∩εc2(xi)[JB)|][]|U|[SX)]" [JY](8)
FNER(c1|c2)="-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(][JB(|]εc1(xi)∩εc2(xi)[JB)|][]|εc2(xi)|[SX)]" [JY](9)
FNER(c1;c2)="-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(]|εc1(xi)|·|εc2(xi)|[]|U|·[JB(|]εc1(xi)∩εc2(xi)[JB)|][SX)] [JY](10)
定理1[20] 在模糊鄰域信息系統(tǒng)FNDS中,c1,c2∈C,存在以下關系。
1) FNER(c1;c2)=FNER(c2;c1);
2) FNER(c1;c2)=FNER(c1)-FNER(c1|c2);
3) FNER(c1;c2)=FNER(c1)+FNER(c2)-FNER(c1,c2)。
2 基于動態(tài)特征交互下的特征選擇
2.1 相關性度量
定義7[20] 給定一個FNDS,設模糊鄰域半徑為δ,RedC為已選特征集,cj ∈C-Red為候選特征,cj與決策類D間的相關性表示為
FNE(cj;D)=-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(]|εcj(xi)|·|εD(xi)|[]|U|·[JB(|]εcj(xi)∩εD(xi)[JB)|][SX)]" [JY](11)
FNE(cj;D)表示cj對D相關性的大小,因此,應找到與D相關性最大的cj,該策略稱為最大相關性準則。
max FNE(cj;D), cj∈C-Red。
2.2 冗余性度量
雖然上述方法已選擇與類別相關的特征,但仍要考慮候選特征與已選特征之間的冗余,本節(jié)利用模糊鄰域互信息衡量候選特征和已選特征之間的冗余度。
定義8[20] 給定一個FNDS,設模糊鄰域半徑為δ,RedC為已選特征集,cs∈Red,cj∈C-Red為候選特征,cj與cs之間的冗余性表示為
FNE(cj;cs)=-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(]|εcj(xi)|·|εcs(xi)|[]|U|·[JB(|]εcj(xi)∩εcs(xi)[JB)|][SX)]" [JY](12)
在cj與cs的特征交互中,為除去C-Red中的冗余特征,應遵循最小冗余準則
min FNE(cj;cs),cj∈C-Red,cs∈Red。
2.3 動態(tài)特征交互
特征選擇方法通常致力于在保留分類信息的前提下,選擇與類別相關度最高或冗余度最低的特征子集。然而,特征之間普遍存在的相互作用卻被忽略,這使得大部分特征選擇方法很難獲得最優(yōu)的結果。鑒于此,本小節(jié)重點探討特征間的動態(tài)交互作用,并尋找適當?shù)亩攘糠绞健?/p>
特征交互在信息論的角度下可表示為在已知某個特征的情況下增加一個新特征,分析原特征對分類所貢獻的信息量變化。模糊鄰域條件互信息提供了一個有效的方法來衡量這些情況。事實上,在使用模糊鄰域條件互信息來衡量特征選擇的過程中,候選特征與決策類之間的相關性和已選特征與決策類之間的相關性都是動態(tài)變化的,即隨著候選特征的不斷選入,已選特征和候選特征對于分類所貢獻的信息量都會不斷變化,這是由于特征之間的相互作用引起的[21]。
因此,本文采用模糊鄰域條件互信息來度量候選特征與決策類之間的動態(tài)相關性,并分析了這種相關性隨時間變化可能出現(xiàn)的幾種情況。
定義9 給定一個FNDS,Red為已選特征集合,cs∈Red,cj ∈C-Red為候選特征。在已知已選特征cs的條件下,當前候選特征cj與決策類D的模糊鄰域條件互信息表示為
FNCMI(cj;D|cs)=-[SX(]1[]|U|[SX)]·
∑[DD(]|U|[]i=1[DD)]log2
[SX(][JB(|]εcj(xi)∩εD(xi)[JB)|]·[JB(|]εcs(xi)∩εD(xi)[JB)|][]|εcs(xi)|·[JB(|]εcj(xi)∩εcs(xi)∩εD(xi)[JB)|][SX)][JY](13)
定理2 FNCMI(cj;D|cs)=FNE(cj,D)+FNE(D,cs)-FNE(cj,D,cs)-FNE(cs)
證明 FNE(cj,D)+FNE(D,cs)-
FNE(cj,D,cs)-FNE(cs)=
-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(][JB(|]εcj∪D(xi)[JB)|][]|U|[SX)]-
[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(][JB(|]εD∪cs(xi)[JB)|][]|U|[SX)]+
[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(][JB(|]εcj∪D∪cs(xi)[JB)|][]|U|[SX)]+
[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[SX(]|εcs(xi)|[]|U|[SX)]=
-[SX(]1[]|U|[SX)]∑[DD(]|U|[]i=1[DD)]log2[JBlt;2(][SX(][JB(|]εcj∪D(xi)[JB)|][]|U|[SX)]·[SX(][JB(|]εD∪cs(xi)[JB)|][]|U|[SX)]·
[SX(]|U|[][JB(|]εcj∪D∪cs(xi)[JB)|][SX)]·[SX(]|U|[]|εcs(xi)|[SX)][JBgt;2)]=-[SX(]1[]|U|[SX)]·
∑[DD(]|U|[]i=1[DD)]log2[SX(][JB(|]εcj(xi)∩εD(xi)[JB)|]·[JB(|]εcs(xi)∩εD(xi)[JB)|][]|εcs(xi)|·[JB(|]εcj(xi)∩εcs(xi)∩εD(xi)[JB)|][SX)]
下面舉例說明在模糊鄰域信息系統(tǒng)中特征動態(tài)交互的過程。
例1 表1給定一數(shù)據(jù)經(jīng)歸一化后的模糊鄰域信息系統(tǒng)FNDS=〈U,C,D,V,δ〉,U={x1,x2,x3,x4,x5,x6},C={c1,c2,c3,c4,c5}。設δ=0.8。根據(jù)定義7可得出條件特征與決策類之間的相關性。
在表2中,第1列給出了每個特征相對于決策類D的相關性大小。由第1列的數(shù)據(jù)可知c2對于決策類D的相關性最大,所以將c2添加到所選特征集合,并將其他特征按照相關性的大小從大到小排列。第2列表示c2在已選的基礎上同其他候選特征與決策類D的模糊鄰域條件互信息,其表示當給定c2時,不同候選特征與D之間的相關性。可以從第1列和第2列看出,當給定已選特征時,一些候選特征對D的相關性會增大或減小。
同樣,表2中第3列表示在給定不同候選特征的情況下,所選特征對D之間的相關性大小。第3列數(shù)據(jù)顯示,隨著候選特征的不斷選入,候選特征和已選特征對于D的相關性也時刻在發(fā)生變化,因此有必要考慮特征之間的動態(tài)交互。
本文將這種動態(tài)變化大致分為3種情況:cj與cs互補,cj與cs相互獨立及cj與cs相互抑制。
2.3.1 cj與cs互補
cj 與cs對于D的模糊鄰域條件互信息大于cj 與cs對于D的模糊鄰域互信息。
i) FNCMI(cj;D|cs)gt;FNE(cj;D);
ii)FNCMI(cs;D|cj)gt;FNE(cs;D)。
i) 表示cs的出現(xiàn)增加了cj對于D的相關性。ii)也意味著cj的出現(xiàn)增加了cs對于D的相關性。這兩種情況說明cj與cs是互補的,也就是說,它們的組合可以為D提供更多的分類信息。
2.3.2 cj與cs相互獨立
cj與cs對于D的模糊鄰域條件互信息等于cj 與cs對于D的模糊鄰域互信息。
i) FNCMI(cj;D|cs)=FNE(cj;D);
ii)FNCMI(cs;D|cj)=FNE(cs;D)。
i) 的出現(xiàn)表明cs的出現(xiàn)不會影響cj對于D的相關性。
ii)意味著cj的出現(xiàn)不會影響cs對于D的相關性。這兩種情況意味著cj和cs是彼此獨立的,它們的組合不影響彼此相對于D的相關性。
2.3.3 cj與cs相互抑制
cj 與cs對于D的模糊鄰域條件互信息小于cj 與cs對于D的模糊鄰域互信息。
i) FNCMI(cj;D|cs)lt;FNE(cj;D);
ii)FNCMI(cs;D|cj)lt;FNE(cs;D)。
i)表示cs的出現(xiàn)降低了cj對于D的相關性。ii)意味著cj的出現(xiàn)同樣降低了cs對于D的相關性。這兩種情況說明cj與cs的組合抑制了它們相對于D的相關性。也就是說,它們的組合降低了各自為D提供的信息量。
2.3.4 動態(tài)交互性度量
基于cj與cs互補、相互獨立以及相互抑制3種情況,將FNCMI(cj;D|cs)與FNCMI(cs;D|cj)相加,構建一種基于模糊鄰域條件互信息的動態(tài)特征交互性度量(a dynamic feature interaction measure based on fuzzy neighborhood conditional mutual information, DFIM)。
定義10 設cj和cs分別表示為候選特征和已選特征,Red為已選特征子集,cs∈Red,D為決策特征,DFIM表示為
DFIM(cj)=∑[DD(X]cs∈Red[DD)]|FNCMI(cj;D|cs)+
FNCMI(cs;D|cj)|[JY](14)
對于DFIM來說,應選擇與cs具有最大動態(tài)交互的cj,也就是找到與cs最大互補的cj。因此,為找到與D交互性最大的候選特征,提出最大交互性準則為
max DFIM(cj),cj∈C-Red。
2.4 多視角下依賴模糊鄰域混合互信息
定義11綜合上述特征的相關性、冗余性和動態(tài)交互性給出多視角下的依賴模糊鄰域混合互信息度量函數(shù)(fuzzy neighborhoods hybrid mutual information metric function relies on multiple perspectives, FNHMIMP)
FNHMIMP(cj)=γcj(D)(FNE(cj;D)-
[SX(]1[]|Red|[SX)]∑[DD(X]cs∈Red[DD)]FNE(cj;cs)+[SX(]1[]|Red|[SX)] DFIM(cj))[JY](15)
FNHMIMP度量函數(shù)使用模糊鄰域互信息來評估候選特征與決策類之間的相關性以及候選特征與已選特征之間的冗余。同時,采用模糊鄰域條件互信息來度量候選特征與已選特征之間的動態(tài)交互作用。最后,將它們計算后的結果與特征依賴度結合,從代數(shù)觀和信息觀下衡量特征對分類的貢獻。其目的是使最終選擇的特征子集最具有代表性,并實現(xiàn)相關性、冗余性和動態(tài)交互性的權衡。
3 算法研究
為消除評價函數(shù)構造視角單一對特征子集精度的影響,并考慮特征之間的非單調(diào)動態(tài)相互作用,本節(jié)提出了一種基于模糊鄰域動態(tài)特征交互的特征選擇算法,算法描述如下。
輸入:模糊鄰域信息系統(tǒng)FNDS,模糊鄰域半徑δ,所選特征個數(shù)k。
輸出:特征約簡子集Redbest
1 計算C下每個特征的相對模糊相似關系RC(x,y)
2 初始化:Red=,Redbest=,C1=
3 for each cj∈C do
4 計算FNE(cj;D)
5 end for
6 根據(jù)每個特征對決策類相關性的大小依次將各個特征加入C1
7 將與決策類具有最大相關性的cj加入Red
8 C1=C1-{cj}
9 for each cj∈C1 do
10 for each cs∈Red do
11 計算FNE(cj;cs)
12 end for
13 for each cs∈Red do
14 計算DFIM(cj)
15 end for
16 計算FNHMIMP(cj)
17 選取FNHMIMP(cj)最大的cj進入Red
18 更新C1
19 end for
20 取Red中前k個特征加入Redbest
進一步分析FNDFI算法的時間復雜度,設m和n分別表示樣本數(shù)和特征維數(shù)。計算所有特征集合下模糊相似關系的時間復雜度為O(nm2)。對于每個特征,在第一個循環(huán)中,計算特征和決策類之間相關性的時間復雜度為O(n)。在下一個雙for循環(huán)中,時間復雜度為O(n3)。通常樣本的數(shù)量大于特征的數(shù)量,因此算法FNDFI的時間復雜度為O(nm2)。
4 實驗結果與分析
為驗證所提算法的有效性,本節(jié)選取8個公共數(shù)據(jù)集進行實驗,包括4個低維數(shù)據(jù)集(UCI)和4個高維數(shù)據(jù)集(cancer program dataset)。所有實驗數(shù)據(jù)集的詳細信息見表3。實驗在MATLAB2016b環(huán)境下進行,使用KNN(K-Nearest Neighbor)和CART(classification and regression tree)兩種分類器,分類器均采用默認參數(shù)值設置。針對這8個數(shù)據(jù)集在FNDFI算法上的實驗結果,分析了約簡特征在KNN和CART下的特征約簡子集個數(shù)與分類精度。實驗結果采用了十折交叉驗證來進行誤差估計,將數(shù)據(jù)集分成10份,其中9份輪流作為訓練數(shù)據(jù),剩余的1份作為測試數(shù)據(jù)。
4.1 Fisher Score用于高維數(shù)據(jù)預處理
面對高維數(shù)據(jù)時,許多特征選擇算法在時間上的開銷是巨大的,這影響了算法在實際問題中的應用。假設一個模糊鄰域信息系統(tǒng)FNDS=〈U,C,D,V,δ〉中有m個樣本和n個特征,并且最大相關子集中有t1個特征,約簡子集中有t2個已選特征。在高維數(shù)據(jù)中nm和n t1 t2。因此,對于高維數(shù)據(jù),F(xiàn)NDFI算法的時間復雜度為O(nm2)。引入Fisher Score方法后,F(xiàn)NDS中的特征減少到l個。Fisher Score方法的時間復雜度為O(n),引入Fisher Score的FNDFI算法的時間復雜度為O(lm2+n)。由于nl,故在引入Fisher Score方法后,大大地降低了FNDFI對于高維數(shù)據(jù)的時間開銷。
采用Fisher Score方法選擇重要度最高的前l(fā)個特征來構建候選特征子集,然后利用FNDFI算法對候選特征子集做進一步處理,計算10個不同維度候選特征子集通過十折交叉驗證所獲取的在KNN和CART下的精度來為表3中4個高維數(shù)據(jù)集選擇合適的候選特征子集。圖1給出4個高維數(shù)據(jù)集候選特征的維度與平均分類精度之間的變化趨勢。根據(jù)每個數(shù)據(jù)集的特點找到最高精度下的特征維數(shù)。
對于高維數(shù)據(jù)集Colon,分類精度在100維時達到最高;對于高維數(shù)據(jù)集Prostate,分類精度在50維時達到最高;類似地,數(shù)據(jù)集Leukemia和Breast的最佳精度維數(shù)分別為150維和200維。
4.2 模糊鄰域參數(shù)的選擇
特征約簡子集的分類精度和大小是作為評價算法優(yōu)劣的兩個重要指標,本節(jié)將探究不同模糊鄰域參數(shù)值對實驗結果的影響,并在KNN和CART兩個分類器下找到最佳參數(shù)。
FNDFI算法中有兩個參數(shù)δ和k。參數(shù)δ為模糊鄰域半徑,用于調(diào)整模糊鄰域的大小,k用于控制約簡子集的特征數(shù)量。為有效涵蓋不同數(shù)據(jù)集的最佳模糊鄰域,同時避免因參數(shù)設置過小導致模糊鄰域粒的約束過于嚴格,在實驗中將δ的值設置為0.45到0.95,步長為0.05。為充分探究約簡子集的特征數(shù)量對實驗結果的影響,在低維數(shù)據(jù)集Wine、Heart、Wdbc和Sonar中k分別設置為13、13、30和30。在其余4個高維數(shù)據(jù)集中k設置為50。
圖2呈現(xiàn)了FNDFI算法在KNN分類器中4個低維數(shù)據(jù)集和4個高維數(shù)據(jù)集的分類精度隨參數(shù)的變化趨勢。CART分類器實驗效果與該分類器實驗結果大致相同。圖2中x軸表示所選特征數(shù)量k,y軸表示模糊鄰域半徑δ,z軸表示分類精度。
FNDFI算法在大多數(shù)數(shù)據(jù)集上的平均分類精度在初始階段隨著k的增加而逐漸提高,然后保持平緩或略有下降。在Wine、Heart和Breast數(shù)據(jù)集中其平均分類精度變化趨勢一直符合先增加然后保持平穩(wěn)。但對于Wdbc數(shù)據(jù)集,當選到第6個特征時,分類性能已經(jīng)達到比較高的狀態(tài),表明此時的特征子集已經(jīng)為分類提供了足夠多的信息,當再選取其他特征時,這些特征與已選特征存在冗余,因此分類性能呈現(xiàn)出下降趨勢。在數(shù)據(jù)集Prostate以及Sonar中,明顯看出δ的變化對分類的效果有著很大的影響。例如在數(shù)據(jù)集Prostate中當δgt;0.8時,比其在其他δ下的平均分類精度高很多。然而對于一些數(shù)據(jù)集,例如Colon和Leukemia,參數(shù)δ對于平均分類精度的影響相對較小。
表4為8個數(shù)據(jù)集在兩個分類器下選擇的最優(yōu)模糊鄰域半徑值和最優(yōu)特征約簡子集大小的組合。
4.3 FNDFI算法在低維數(shù)據(jù)集上的結果
為了驗證算法FNDFI在處理低維數(shù)據(jù)時的效果,在實驗中選擇4個低維數(shù)據(jù)集(Wine、Wdbc、Sonar和Heart)作為實驗對象,分別分析FNDFI算法在KNN分類器和CART分類器下的實驗結果,與FNRDCI[20]、DMRA[22]、FSNTDJE[23]、IFPR[24]、PDJE-AR[25]、FRFS[26]和MIFS[27]7種算法進行比較。表5給出了8種算法特征約簡子集的大小,表6和表7分別給出了8種算法在KNN分類器和CART分類器下的分類精度,其中ODFN和ODCA分別為在分類器下原始數(shù)據(jù)的特征約簡子集大小和分類精度。
從表5可以看出,算法FNDFI的平均特征約簡子集大小為8.7,較其余算法比為最優(yōu)。在數(shù)據(jù)集Wbdc和Heart上,算法FNDFI的特征約簡子集最少,分別為6.8和8.3。雖然算法PDJE-AR和FNRDCI在數(shù)據(jù)集Wine和Sonar上的特征約簡子集優(yōu)于算法FNDFI,但平均分類精度均小于算法FNDFI。從表6和表7可以看出,算法FNDFI在KNN和CART分類器下的平均分類精度均最高,分別為90.80%和86.90%。在KNN分類器下高于其他算法2%~7.7%,在CART分類器下的平均分類精度高于其他算法1.3%~8.1%。
為更直觀地展示FNDFI算法的有效性,繪制了8種算法在4個低維數(shù)據(jù)集下的盒形圖。從圖3和圖4可以看出,算法FNDFI在兩個分類器上的平均分類精度(中位數(shù))表現(xiàn)最佳,其上下四分位數(shù)也顯示出較高的分類性能。算法FNRDCI雖然在兩種分類器下的分類精度也較高,但就箱體而言FNRDCI算法對比于FNDFI算法箱體較長,表示FNRDCI算法在實際應用中分類精度不穩(wěn)定。綜上所述,F(xiàn)NDFI算法在平均特征約簡子集最小和平均分類精度最高的情況下還表現(xiàn)出了較強的穩(wěn)定性。
4.4 FNDFI算法在高維數(shù)據(jù)集上的結果
為了驗證算法FNDFI在處理高維數(shù)據(jù)時的有效性,選取了4個高維數(shù)據(jù)集(Colon、Leukemia、Breast和Prostate)作為實驗對象。分析算法FNDFI在KNN分類器和CART分類器下的實驗結果,并與FNRDCI、FSNTDJE、IFPR、PDJE-AR和MIFS這5種算法進行比較。表8給出了6種算法的特征約簡子集的大小,表9和表10分別給出了6種算法在KNN分類器和CART分類器下的分類精度,其中ODFN和ODCA分別為在分類器下原始數(shù)據(jù)的特征約簡子集數(shù)量和分類精度。
從表8中可以看出,算法FNDFI的平均特征約簡子集大小為8.5,與其余算法比為最優(yōu),6個算法在平均所選特征數(shù)量上相差較小。雖然算法IFPR在Colon和Leukemia兩個數(shù)據(jù)集上平均特征約簡子集較小,但從表9和表10可看出,IFPR算法在兩個分類器下的分類精度明顯低于算法FNDFI。在KNN和CART兩種分類器下算法FNDFI的平均分類精度分別為90.24%和88.20%,在KNN分類器下高于其他算法2.3%~16.2%,在CART分類器下的平均分類精度高其他算法0.8%~13.9%。
為更直觀地展示FNDFI算法的有效性,繪制了6種算法在4個高維數(shù)據(jù)集下的盒形圖。圖5和圖6展示了6種算法在KNN和CART分類器上的分類精度盒形圖對比,從中看出算法FNDFI在兩個分類器的平均分類精度(中位數(shù))表現(xiàn)最佳,其上下四分位數(shù)也表現(xiàn)出較高的分類性能,相比之下,算法FSNTDJE和IFPR算法整體表現(xiàn)較差,雖然算法FNRDCI在KNN下的箱體較短但其中位數(shù)偏離箱體中間位置且整體低于算法FNDFI。綜上所述,針對4個高維數(shù)據(jù),算法FNDFI在有效減少冗余特征的同時提高了數(shù)據(jù)的分類精度。
5 結語
針對大部分基于模糊鄰域信息系統(tǒng)的特征選擇方法,在選入特征時只是單調(diào)的依次按照特征順序進行特征交互的問題和構建的度量函數(shù)視角單一的缺陷,本文提出一種基于模糊鄰域動態(tài)特征交互的特征選擇算法。首先,基于模糊鄰域互信息得到各特征對決策類相關性的大小,并根據(jù)相關性的大小將各特征從大到小排序;其次,根據(jù)特征的排序依次分析各特征之間的冗余以及動態(tài)交互程度;然后,將3種不同的基于模糊鄰域互信息和模糊鄰域條件互信息下的度量與依賴度相結合,從代數(shù)觀和信息觀兩種視角下提出多視角下的依賴模糊鄰域混合互信息度量函數(shù);最后,通過實驗來驗證所提算法的有效性。盡管算法FNDFI在大部分數(shù)據(jù)集上實現(xiàn)了較高的分類準確率,但其采用窮舉法尋找最佳模糊鄰域半徑的效率不高。因此,未來的研究將聚焦于開發(fā)自動確定最優(yōu)模糊鄰域半徑的動態(tài)特征交互選擇算法。
參考文獻
[1] AN S, HU Q H, WANG C Z,et al. Data reduction basedon NN-kNN measure for NN classification and regression[J]. International Journal of Machine Learning and Cybernetics, 2022,13(3): 765-781.
[2] WAN J H, CHEN H M, YUAN Z, et al. A novel hybrid feature selection method considering feature interaction in neighborhood rough set[J]. Knowledge-Based Systems, 2021, 227(6):107167.
[3] 冉虹,候婷,賀龍雨,等. 基于模糊鄰域系統(tǒng)的模糊粗糙集模型[J]. 計算機科學, 2022,49(S2):330-334.
RAN H, HOU T, HE L Y, et al.Fuzzy rough set model based on fuzzy neighborhood system[J]. Computer Science, 2022, 49(S2): 330-334.
[4] 龐婧,姚炳學,李令強. 基于模糊鄰域系的α-粗糙集及其應用[J]. 模糊系統(tǒng)與數(shù)學, 2022,36(5):158-165.
PANG J, YAO B X, LI L Q. α-rough set based on fuzzy neighborhood system and its application[J]. Fuzzy Systems and Mathematics, 2022, 36(5): 158-165.
[5] YUAN Z, CHEN H M, XIE P,et al. Attribute reduction methods in fuzzy rough set theory: An overview,comparative experiments,and new directions[J]. Applied Soft Computing, 2021, 107: 107353.
[6] AKRAM M, ALI G, ALCANTUD J C,et al. Parameter reductions in N-soft sets and their applications in decision-making[J]. Expert Systems, 2021, 38(1): e12601.
[7] ZHANG C, LI D Y, LIANG J Y. Multi-granularity three-way decisions with adjustable hesitant fuzzy linguistic multigranulation decision-theoretic rough sets over two universes[J]. Information Sciences, 2020, 507: 665-683.
[8] SHI Z Q, XIE S R, LI L Q. Generalized fuzzy neighborhood system-based multigranulation variable precision fuzzy rough sets with double TOPSIS method to MADM[J]. Information Sciences: An International Journal, 2023, 643: 119251.
[9] HU Q H, XIE Z X, YU D R. Hybrid attribute reduction based on a novel fuzzy-rough model and information granulation[J]. Pattern Recognition, 2007, 40(12): 3509-3521.
[10]WANG Z H. Fundamental properties of fuzzy rough sets based on triangular norms and fuzzy implications: The properties characterized by fuzzy neighborhood and fuzzy topology[J]. Complex & Intelligent Systems, 2024, 10(1): 1103-1114.
[11]楊潔,匡俊成,王國胤,等. 代價敏感的多粒度鄰域粗糙模糊集的近似表示[J]. 計算機科學,2023,50(5):137-145.
YANG J, KUANG J C, WANG G Y, et al.Approximate representation of a cost-sensitive, multi-granularity neighborhood rough fuzzy set[J]. Computer Science, 2023, 50(5): 137-145.
[12]DUCANGE P, FAZZOLARI M, MARCELLONI F. An overview of recent distributed algorithms for learning fuzzy models in Big Data classification[J]. Journal of Big Data, 2020, 7(1): 1-29.
[13]WANG D,NIE F P, HUANG H. Feature selection via global redundancy minimization[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(10): 2743-2755.
[14]TANG X C, DAI Y S, XIANG Y P. Feature selection based on feature interactions with application to text categorization[J]. Expert Systems with Applications, 2019,120: 207-216.
[15]HAGAR J D, WISSINK T L, KUHN D R,et al. Introducing combinatorial testing in a large organization[J]. IEEE International Conference on Software Testing, 2015, 48(4): 64-72.
[16]WANG W J, GUO M, HAN T T,et al. A novel feature selection method considering feature interaction in neighborhood rough set[J]. Intelligent Data Analysis, 2023, 27(2): 345-359.
[17]ZHOU P, LIP P, ZHAO S,et al. Feature interaction for streaming feature selection[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(10): 4691-4702.
[18]LIN X H, LI C, REN W J, et al. A new feature selection method based on symmetrical uncertainty and interaction gain[J]. Computational Biology and Chemistry, 2019, 83: 107149.
[19]孫敏杰. 基于模糊鄰域熵的特征基因選擇方法研究[D].廣州:廣州大學, 2023:7-11.
[20]XU J C, MENG X R, QU K L,et al. Feature selection using relative dependency complement mutual information in fitting fuzzy rough set model[J]. Applied Intelligence, 2023, 53(15): 18239-18262.
[21]MA X, XU H, JU C H. Class-specific feature selection via maximal dynamic correlation change and minimal redundancy[J]. Expert Systems with Applications, 2023, 229: 120455.
[22]CHEN D G, ZHANG L, ZHAO S Y, et al. A novel algorithm for finding reducts with fuzzy rough sets[J]. IEEE Transactions on Fuzzy Systems, 2012, 20(2): 385-389.
[23]SUN L, WANG L Y, QIAN Y H,et al. Feature selection using Lebesgue and entropy measures for incomplete neighborhood decision systems[J]. Knowledge-Based Systems, 2019,186: 104942.
[24]TAN A H, WU W Z, QIAN Y H,et al. Intuitionistic fuzzy rough set-based granular structures and attribute subset selection[J]. IEEE Transactions on Fuzzy Systems, 2019, 27(3): 527-539.
[25]SUN L, WANG L Y, DING W P,et al. Neighborhood multi-granulation rough sets-based attribute reduction using Lebesgue and entropy measures in incomplete neighborhood decision systems[J]. Knowledge-Based Systems, 2020,192: 105373.
[26]JENSEN R, SHEN Q. New approaches to fuzzy-rough feature selection[J]. IEEE Transactions on Fuzzy Systems, 2009,17(4): 824-838.
[27]XU J C, QU K L, MENG X R,et al. Feature selection based on multiview entropy measures in multiperspective rough set[J]. International Journal of Intelligent Systems, 2022, 37(10): 7200-7234.
(編 輯 張 歡)
基金項目:國家自然科學基金(61976082,62076089,62002103)
第一作者:徐久成,男,博士,教授,從事粒計算、數(shù)據(jù)挖掘和生物信息學研究,xjc@htu.edu.cn。