中圖分類號:TP391 文獻標志碼:A 文章編號:1671-6841(2025)06-0016-08
Abstract: In order to solve the problem of redundant information in afecting the clustering effect of three-way Gaussan mixture models in high-dimensional datasets,the theory of granular ballneighborhood rough sets was integrated into the model,and a three-way Gaussian mixture clustering model based on granular ball neighborhood rough sets was proposed. Firstly, k -means clustering was used to generate a set of granular balls that meet the purity requirements,and atribute reduction was performed with the invariant constraint of the positive region produced by the granular balls to extract key atributes. Secondly, the three-way Gaussan mixture model was used to cluster the reduced data,dividing the objects into the core region or the boundary region of the clusters. Comparative experimental results on 7 UCI public datasets demonstrated that the proposed model not only inherited the superior clustering performance of the three-way Gaussian mixture model with higher accuracy,silhouette coeffcient,and lower Davies-Bouldin index,but also provided a more accurate depiction of the cluster boundaries. Furthermore,as a result of reducing atributes in high-dimensional space,the proposed model achieved lower time complexity.
Key Words:high-dimensional data;three-way Gaussan mixture model; clustering;granular ball neighborhood rough set;positive region;attribute reduction
0 引言
高斯混合模型(Gaussian mixture model,GMM)的實質是通過多個高斯函數的加權平均和來刻畫樣本數據的分布。使用GMM進行聚類時,將數據視作若干高斯分布的加權組合,每個高斯分布均為一個類簇,選擇所屬概率最大的類簇作為對數據的劃分結果。Huang等]針對GMM需要事先確定聚類數目的問題,將探路者算法與高斯混合聚類相結合,根據數據集自動確定最優聚類數目。Wang等2針對GMM聚類算法中需要更多的迭代次數和通信開銷的問題,提出了基于遷移學習的分布式聚類GMM,利用遷移分布式GMM聚類框架提升聚類性能,加速聚類收斂。Zhang等3針對GMM無法有效解決數據缺失的問題,提出由GMM聚類的結果填充缺失的數據,然后將插補數據用于GMM聚類。程宏兵等4提出了基于GMM和自適應簇數的文本聚類算法,自適應文本聚類數量并獲得其分布,實現海量文本的精確聚類。陳佳琪等[5]從估計給定數據集的未知概率密度函數入手,建立了核密度估計與GMM之間的關聯,提出了基于統計感知策略的GMM求解方法。
針對隸屬關系不明確會導致GMM聚類存在較大的誤判風險的問題,萬仁霞等將三支決策思想融入GMM中,提出一種基于三支決策的高斯混合聚類模 型(three-way Gaussian mixture model,T-GMM),有效減小誤判代價。然而,GMM和T-GMM在高維空間中進行聚類時,數據的稀疏性會干擾算法的聚類過程,從而影響聚類結果的準確性,降低算法的聚類質量。
屬性約簡是高維數據處理的一種重要手段,基于粗糙集理論的屬性約簡方法已經形成較為完備的理論體系[7-0]。粗糙集理論(rough set,RS)[1]是由波蘭數學家Pawlak于1982年所提出的一種處理不確定性知識的數學工具。模糊粗糙集[2]是粗糙集的一種模糊推廣,依賴先驗知識去設定隸屬函數。鄰域粗糙集(neighborhood rough set,NRS)[13]則可以不依賴隸屬函數和先驗知識就能進行屬性約簡。在使用NRS進行屬性約簡時,當多個屬性具有相同的重要程度時,Jia等[14通過比較屬性的信息熵進行屬性約簡,并對約簡后的數據集進行光譜聚類,使最終的聚類結果更接近真實類簇,從而獲得更高的聚類精度。
雖然NRS相比其他粗糙集具有諸多優點,但其需要通過網格搜索的方式對半徑參數尋優,造成大量的時間消耗。粒球鄰域粗糙集(granularballneighborhoodroughset,GBNRS)[i5]不僅沿襲了NRS不依賴隸屬函數和先驗知識的優點,同時能夠依據數據分布,自適應地生成合適的粒結構[16]。為提高三支高斯混合聚類模型在高維空間的聚類質量,本文將GBNRS約簡技術引入聚類過程,提出了基于GBNRS的三支高斯混合聚類。所提算法可有效消除冗余屬性,提高三支高斯混合聚類在高維空間中的聚類質量,并且能夠更準確地刻畫類簇的邊界信息。
1相關理論
1. 1 粒球鄰域粗糙集
定義1[17] U?Re 為數據集, U0?U 。 GB 為
)上生成的以
為中心、 r 為半徑的粒球,

r=*max{dist(ud,Q)|ud∈GB},

其中: ud(d=1,2,…,m) 為粒球中的樣本點; ?m 為粒球中樣本點的個數; dist(ud,Q) 為 ud 到
的距離; Y(GB) 為粒球整體的類標簽,是 GB 中出現次數最多的類標簽; H(GB) 表示粒球的純度,是 GB 中所有與粒球具有相同標簽的樣本的占比。
定義2[15] 給定實數空間上的非空有限集合(204號 U={u1,u2,…,un} ,在 U 上生成的粒球集定義為GBs={GB1,GB2,…,GBs} 。對于 ui∈GBt ,定義ui(i=1,2,…,n) 的 r -鄰域為
其中: Qι,rι 分別為第 χt 個粒球的球心和半徑, t=1 2,…,s?( 。
根據定義2可以看出, ui 的 r -鄰域就是與其同屬一個粒球中的數據點所構成的集合。
定義3[15] 給定鄰域決策信息系統 ?U,C,D? ,決策屬性集D將U劃分為N個等價類:X,,X,,
XN 。 c 為條件屬性集,對于 ?B?C ,決策屬性集 D 相對于屬性集 B 的生成下近似定義為

式中,
其中: mι 表示第 χt 個粒球中樣本的數量。
D 的生成正域定義為

定義 4[15] 給定鄰域決策信息系統 ?U,C,D? ,對于 B?C ,若 B 是 c 的相對約簡,則 B 滿足:
GPOSB(D)=GPOSc(D)

粗糙集通常在保持正域不變的條件下進行屬性約簡,與之同理,在定義4中GBNRS通過保持粒球的生成正域不變來進行約簡。
1. 2 三支聚類
Yu[18] 將三支決策思想引人數據的聚類分析中,提出了三支聚類的算法框架。對于每個類簇,三支聚類將論域 U 劃分為核心域 Co 、邊界域 Fr 和瑣碎域 Tr 。核心域中的對象肯定屬于該簇,邊界域中的對象可能屬于也可能不屬于該簇,瑣碎域中的對象肯定不屬于該簇[19]。三支聚類中的每個類通過核心域和邊界域的二元組來表示,即 Z={Co,Fr} 。對于每個數據對象 ui ,聚類決策規則為
若 P(Zj∣ui)≥α ,則 ui∈Co(j) ; 若 βj∣ui)lt;α ,則 ui∈Fr(j) 。 式中,

其中: λPP、λBP、λNP 分別表示當對象屬于第 j 類時,將其劃分到該類核心域、邊界域和瑣碎域的損失代價; λPN?λBN?λNN 分別表示當對象不屬于第 j 類時,將其劃分到該類核心域、邊界域和瑣碎域的損失代價[20] 。
由決策規則可以得到三支聚類結果,CS={(Co(1),Fr(1)),…,(Co(K),Fr(K))}, (2號其中: K 為類簇個數。
1.3 高斯混合聚類[21]
高斯混合分布 PΦM(Φu) 由 K 個混合成分組合而成,每個混合成分對應一個高斯分布 P(u∣μj,Σj) ,每個高斯分布均為一個類簇。 pj 表示第 j 個高斯混
合成分的先驗概率,則 PΦM(Φu) 可表示為

其中:
為均值向量; Σ 為協方差矩陣。
令隨機變量 zi∈{1,2,…,K} 表示生成樣本 ui 的高斯混合成分,根據貝葉斯定理可以得出樣本 ui 由第 j 個高斯混合成分生成的后驗概率,

Li=argmaxωij,
其中: Li 為樣本 ui 的最大后驗概率,其所屬類簇即為對 ui 的劃分結果。當存在多個近似的后驗概率時,GMM對樣本做出誤判的風險增大。
2基于粒球鄰域粗糙集的三支高斯混合聚類算法
相較于NRS使用固定的鄰域半徑,GBNRS通過適應不同粒球的尺寸來擬合數據分布,提供了更高的靈活性,并能實現更精確的聚類結果。本文提出了基于粒球鄰域粗糙集的三支高斯混合聚類(three-way Gaussian mixture clustering model based ongranular ball neighborhood rough set),簡 稱為 GBT-GMM算法。該算法的主要目的是在高維空間進行高斯混合聚類時,為了降低數據稀疏性的影響,通過使用GBNRS對數據進行屬性約簡處理。
2.1 粒球集生成
粒球集生成在本文算法中具有重要意義,其主要思想為:對于數據對象集 U={u1,u2,…,un} ,將U 視作初始大粒球,根據式(1)~(3)計算粒球的純度 H ,若 H 低于純度閾值 θ ,則使用 k -means聚類算法將 U 分成 k 個新粒球;計算每個新粒球的純度,若存在新粒球的純度低于閾值 θ ,繼續使用 k -means聚類算法分割新粒球為 k 個更小的粒球,直至每個粒球的純度不低于閾值 θ 。本文中 k 取值為2。
2.2 GBT-GMM算法
GBT-GMM算法具體步驟如下。
輸入:樣本集 U ,屬性集" ,粒球純度閾值 θ ,最大迭代次數 I ,收斂閾值 ε ,決策參數 
輸出:約簡后屬性集
,類簇劃分結果。
Step1初始化
為 A ,高斯混合分布模型參數Θ={(pj,μj,Σj)|j=1,2,…,K} 。
Step2在 U 上生成粒球集,然后從粒球集中去掉只包含一個對象的粒球,以剩下的粒球數為聚類簇數,粒球的中心為初始質心,對剔除離群點的數據集進行 k -means聚類,獲得新粒球集。
Step 3去掉純度低于閾值 θ 的粒球,生成正域由純度不低于 θ 的粒球的中心組成。
Step 4如果從屬性集
中去掉屬性 av 后,以生成正域中的粒球中心為初始質心,再次使用 k means聚類獲得新粒球集。若所有粒球的純度都不低于閾值,表示生成正域不變,應刪除屬性
2,…,e) .
。從 U 中刪除相應屬性數據后,返回Step2重新生成粒球集,并在經歷Step4時選擇一個新屬性。
Step5如果Step4中存在純度低于 θ 的粒球,則保留屬性 av 。從 A 中選擇一個新屬性,回到 Step4,直至所有屬性檢查完畢,輸出約簡后的屬性集。
Step6對約簡后的數據集,根據(5)式計算 ui 由各混合成分生成的后驗概率 ωij ,更新參數 pj′,μj′ 和Σ'。
Step7更新
為 Θ′={(pj′,μj′,Σj′) (2
,回到 Step 6,當達到最大迭代次數 I 或者下限平均增益小于收斂閾值 ε 時停止更新,根據(5)式計算對象 ui 屬于各類簇的后驗概率 ωij
Step8根據(4)式計算決策閾值 α 和 β ,根據(6)式計算對象 ui(i=1,2,…,n) 的最大后驗概率Li,Li 對應第 j 個高斯混合成分。若 α?L?i ,將 ui 劃分到 Co(j) ;若 βilt;α ,將 ui 劃分到 Fr(j) ;若Li?β ,將 ui 劃分到 Tr(j) 。
Step9輸出劃分結果,CS={(Co(1),Fr(1)),…,(Co(K),Fr(K))} 。
在Step2中實現粒球集生成時,利用 k -means算法對不滿足純度閾值要求的粒球進行分割,將每個類簇都視為一個子球。因為聚類后各類簇中的數據具有更高的相似性,所以相較于分割前,分割后的子球具有更高的純度。對子球的純度繼續進行考察,若滿足純度要求,則停止分割,否則使用 k -means算法繼續分割,直至每個粒球的純度都不低于純度閾值。通過Step 4~Step 7 對數據進行屬性約簡,并為聚類決策提供后驗概率的計算依據,即在粒球集的基礎上,對約簡后的數據集計算對象由每個混合成分生成的后驗概率。最后,將最大的后驗概率與決策閾值 α 和 β 進行比較,從而將對象劃分到類簇的核心域或邊界域。在Step6中,使用如下公式更新參數:

3 實驗與結果分析
3.1實驗數據與實驗環境
實驗采用Python3.11.2語言編寫,處理器為Intel(R)Core(TM)i7-9700(3.00GHz),存儲器為16.0GB,Windows10操作系統,集成開發環境為PyCharm 。實驗使用的7個數據集均來自UCI數據庫,相關信息見表1。
表1實驗數據集信息
Table1Experimentaldatasetinformation

3.2 實驗結果分析
實驗依據3種指標(準確率、戴維森堡丁指數和輪廓系數)對聚類效果進行評價。
1)準確率 (Acc)[22] 的計算公式為

其中: nTI 表示實際為正,被檢測為正的樣本數; nNN 表示實際為負,被檢測為負的樣本數; nTN 表示實際為正,被檢測為負的樣本數; nNT 表示實際為負,被檢測為正的樣本數。 Acc 值越高,聚類效果越好。
2)戴維森堡丁指數(DBI)[23]的計算公式為

其中: f 表示類中的所有樣本數據到聚類中心 σo 的平均距離;
表示類 j 與類 q 之間的歐氏距離。 DBI 值越低,聚類效果越好。
3)輪廓系數 (SC)[24] 的計算公式為


其中: Si 為單個樣本 ui 的輪廓系數; gi 為樣本 ui 到所屬簇中其他樣本的平均距離; M(ui-Zj) 表示樣本 ui 到類簇 Zj 中所有樣本的平均距離; wi 為樣本ui 到距離最近的其他簇中所有樣本的平均距離。sc 值越大,聚類效果越好。
在實驗過程中設定 λPP=0,λNN=0,λNP=18 λPN=8,λBP=9,λBN=4 ,根據式(4)計算得到閾值參數為 α=0.615,β=0.308 。最大迭代次數 I 設定為100,收斂閾值 ε 設定為 0.001[6] ,純度閾值設定為1。圖1~圖7分別給出了7個數據集上GMM[21] ) T-GMM[6] 與GBT-GMM算法的聚類結果,圖中 x,y 為二維笛卡爾坐標系的坐標軸, Co(i) 為類簇 i 的核心域, Fr(i) 為類簇 i 的邊界域,黑色倒三角為類簇中心。
圖1wdbc數據集上不同算法的聚類結果 Figure1Clusteringresultsof different algorithmson wdbcdataset

從圖1~圖7可以直觀地看出,GBT-GMM在高維空間中對類簇的劃分更加接近原始數據的真實分布。為了進一步驗證GBT-GMM的聚類質量,對GBT-GMM、T-GMM和GMM在選定的評價指標下進行實驗對比,結果見表2。可以看出,GBT-GMM在這7個數據集上相比其他算法具有更高的SC值和更低的DBI值。同時,除了wine和autism兩個數據集,GBT-GMM在其他5個數據集上還具有更高的Acc值。表明在這些數據集上,GBT-GMM的聚類效果總體上優于兩種對比算法。在autism數據集上,雖然GBT-GMM的Acc指標略遜于T-GMM,但差值非常小,通常屬于正常的誤差波動,對聚類效果的影響有限,但GBT-GMM在SC和DBI值上優勢明顯。對于wine數據集,GBT-GMM在Acc值上略低于對比算法,由圖6可見,類簇之間重疊部分較小,分布較為均勻,很難進一步提升準確率。
圖2housevote數據集上不同算法的聚類結果 Figure2Clusteringresults ofdifferentalgorithmson housevotedataset

圖3tcga數據集上不同算法的聚類結果 Figure 3Clustering results of different algorithms on tcgadataset

圖4wpbc數據集上不同算法的聚類結果Figure 4 Clustering results of different algorithms onwpbc dataset

圖5lansat數據集上不同算法的聚類結果Figure 5Clustering results of different algorithms onlansatdataset

GBT-GMM具有良好的聚類性能,其屬性約簡策略起到了重要作用。表3中展示了GBT-GMM對7個實驗數據集的屬性約簡結果。可以看出,約簡后7個數據集的屬性數均顯著減少,達到了去除不相關或冗余屬性的目的,減少了計算處理的消耗。屬性約簡后,避免了過多無關信息的干擾,模型聚類效果得到提升,進一步驗證了屬性約簡的有效性。
圖6wine數據集上不同算法的聚類結果Figure 6Clustering results of different algorithms onwinedataset

圖7autism數據集上不同算法的聚類結果Figure7Clustering results of different algorithmsonautismdataset

GMM和T-GMM算法的時間復雜度均為O(neK) ,其中 n 為樣本點的數量, e 為數據維度, K 為混合成分的數量。使用GBNRS約簡的時間復雜度為 O(n) [15],設約簡后數據維度為 e′ ,則GBT-GMM算法的總體時間復雜度為 O(ne′K) 。由于e′
綜上所述,本文提出的GBT-GMM在實驗數據集上具有較好的聚類效果,達到了其對高維空間數據屬性約簡的目的。
表2不同算法的評價指標對比
Table2Comparisonofevaluationindicatorsof

注:黑體表示最優值。
表3屬性約簡結果
Table 3 Resultsofattributereduction

4結語
本文在三支高斯混合聚類的基礎上,結合GBNRS理論來提升算法在高維空間的聚類質量。所提出的GBT-GMM繼承了T-GMM優越的聚類性能,實現了對高維數據的屬性約簡效果。實驗結果表明,本文算法相較于對比算法,整體上具有更高的Acc和SC值以及更低的DBI值,能夠有效消除冗余屬性對高維聚類的負面影響,保留數據集的關鍵信息,使類簇之間更加緊湊,對類簇邊界部分的刻畫也更加準確。由于GMM使用EM算法來估計參數,在未來的工作中,將針對EM算法本身存在的缺陷進行優化,以進一步提高GBT-GMM的聚類效果,并在相關領域進行應用研究。
參考文獻:
[1] HUANGHJ,LIAO ZP,WEI X X,et al.Combined Gaussian mixture model and pathfinder algorithm for data clustering[J].Entropy,2023,25(6):946.
[2] WANG R R,HAN S Y,ZHOU J,et al. Transferlearning-based Gaussian mixture model for distributed clustering[J].IEEE transactions on cybernetics,2023, 53(11): 7058-7070.
[3]ZHANGY,LI MM,WANG SW,et al. Gaussian mixture model clustering with incomplete data[J].ACM transactions on multimedia computing,communications, and applications,2021,17(1):1-14.
[4] 程宏兵,王本安,陳友榮,等.基于高斯混合模型和 自適應簇數的文本聚類[J].浙江工業大學學報, 2023,51(6):602-609. CHENGHB,WANGBA,CHEN YR,et al.Text clustering based on Gaussian mixture model and selfadaptive number of clusters[J]. Journal of Zhejiang university of technology,2023,51(6):602-609.
[5]陳佳琪,何玉林,黃哲學,等.基于統計感知策略的 高斯混合模型求解方法[J].數據采集與處理,2023, 38(3): 525-538. CHEN JQ,HE Y L,HUANG Z X,et al. Solution method of Gaussian mixture model with statistical aware strategy[J]. Journal of data acquisition and processing,2023, 38(3): 525-538.
[6] 萬仁霞,王大慶,苗奪謙.基于三支決策的高斯混合 聚類研究[J].重慶郵電大學學報(自然科學版), 2021,33(5):806-815. WAN RX,WANG D Q,MIAO D Q. Gaussian mixture clustering based on three-way decision[J]. Journal of Chongqing university of posts and telecommunications (natural science edition),2021,33(5):806-815.
[7]徐曄,許晴媛,李進金.基于集覆蓋理論的覆蓋信息 系統屬性約簡方法[J].鄭州大學學報(理學版), 2024,56(1) : 60-67. XU Y,XUQ Y,LI JJ. Atribute reduction method for covering information system based on set covering theory [J].Journal of Zhengzhou university (natural science edition),2024,56(1) : 60-67.
[8]XU JC,YUAN M,MA Y Y.Feature selection using self-information and entropy-based uncertainty measure for fuzzy neighborhood rough set[J].Complex amp; intelligent systems,2022,8(1):287-305.
[9]HE JL,QU L D,WANG Z H,et al. Atribute reduction in an incomplete categorical decision information system based on fuzzy rough sets[J]. Artificial intellgence review,2022,55(7):5313-5348.
[10]季雨瑄,葉軍,楊震宇,等.結合分辨矩陣改進的鄰 域粗糙集屬性約簡算法[J].山東大學學報(工學 版),2022,52(4):99-109. JI Y X,YEJ,YANG Z Y,et al. An improved neighbor hood rough set attribute reduction algorithm combined with resolution matrix[J]. Journal of Shandong university (engineering science),2022,52(4):99-109.
[11]PAWLAK Z.Rough sets[J]. International journal of computeramp; information sciences,1982,11(5) :341-356.
[12]DUBOIS D, PRADE H. Rough fuzzy sets and fuzzy rough sets[J].International journal of general systems,1990, 17(2/3):191-209.
[13]HU Q H. Numerical attribute reduction based on neighborhood granulation and rough approximation[J]. Journal of software,2008,19(3): 640-649.
[14] JIA H J, DING S F, MA H,et al. Spectral clustering with neighborhood attribute reduction based on information entropy[J]. Journal of computers,2014,9(6): 1316- 1324.
[15] XIA S Y, ZHANG H,LI W H,et al. GBNRS: a novel rough set algorithm for fast adaptive atribute reduction in classification[J]. IEEE transactions on knowledge and data engineering,2022,34(3):1231-1242.
[16]巴婧,陳妍,楊習貝.快速求解粒球粗糙集約簡的屬 性劃分方法[J].南京理工大學學報(自然科學版), 2021,45(4):394-400. BA J,CHEN Y, YANG X B. Atribute partition strategy for quick searching reducts based on granular ball rough sets[J]. Journal of Nanjing university of science and technology,2021,45(4):394-400.
[17]XIA SY,LIUYS,DING X,et al.Granular ball computing classifiers for efficient,scalable and robust learning[J]. Information sciences,2019,483:136-152.
[18]YU H.A framework of three-way cluster analysis[C]// Proceedings of the International Joint Conference on Rough Sets. Cham:Springer International Publishing, 2017:300-312.
[19]康凱,胡軍.基于三支聚類的協同過濾推薦方法[J]. 鄭州大學學報(理學版),2022,54(3):22-27. KANG K,HU J. Collaborative filtering recommendation method based on three-way clustering[J]. Journal of Zhengzhou university(natural science edition),2022, 54(3) : 22-27.
[20]方蓮娣,張燕平,陳潔,等.基于三支決策的非重疊 社團劃分[J].智能系統學報,2017,12(3):293- 300. FANG L D, ZHANG Y P,CHEN J, et al. Three-way decision based on non-overlapping community division [J]. CAAI transactions on intelligent systems,2017, 12(3):293-300.
[21]何明,馮博琴,馬兆豐,等.一種基于高斯混合模型 的無監督粗糙聚類方法[J].哈爾濱工業大學學報, 2006,38(2):256-259,322. HE M,FENG B Q,MA Z F,et al. An unsupervised rough clustering method based on Gaussian mixture model [J].Journal of Harbin institute of technology,2006, 38(2):256-259, 322.
[22]AHMED M, SERAJR, ISLAM S M S. The k -means algorithm: a comprehensive survey and performance evaluation[J].Electronics,2020,9(8): 1295.
[23]羅舒文,萬仁霞,苗奪謙.基于簇中心預選策略的三 支決策密度峰值聚類算法[J].山西大學學報(自然 科學版),2024,47(1):30-39. LUO SW,WAN RX,MIAO DQ. Three-way decisionbased density peak clustering algorithm with clustering centerspreselection[J]. Journal of Shanxi university (natural science edition),2024,47(1):30-39.
[24]LAYTON R,WATTERS P,DAZELEY R. Evaluating authorship distance methods using the positive Silhouette coefficient[J]. Natural language engineering,2013, 19(4): 517-535.