基于類簇合并的無參數密度峰值聚類算法

2024-09-20 00:00:00劉天嬌王勝景袁永生

現代電子技術 2024年8期

摘要：密度峰值聚類算法（DPC）通過決策圖直觀地找到類簇中心進而完成聚類，是一種簡單高效的聚類算法。然而，DPC算法的截斷距離和類簇中心都是人為確定的，受主觀影響較大，具有不確定性。針對上述問題，提出一種基于類簇合并的無參數密度峰值聚類算法（NDPCCM）。首先根據樣本點兩兩之間的相似度的分布特征將其分為類內相似度和類間相似度兩種類型，并利用類內相似度自動確定截斷相似度，避免了人為設置參數；接著根據簇中心權值的下降趨勢自動選擇初始類簇中心，得到初始類簇；最后通過合并初始類簇對初步聚類結果進行優化，提高了聚類的準確性。在人工數據集和UCI真實數據集上，將所提算法與DPC、DBSCAN、K?means算法進行對比實驗。結果表明所提算法無需輸入參數就能夠自動得到類簇，且聚類性能優于其他算法。

關鍵詞：聚類分析；密度峰值聚類算法；初始類簇；類簇合并；相似度；聚類性能

中圖分類號： TN929.5?34； TP181" " " " " " " " "文獻標識碼： A" " " " " " " " " " "文章編號： 1004?373X（2024）08?0001?08

Nonparametric density peak clustering algorithm based on clusters merging

LIU Tianjiao， WANG Shengjing， YUAN Yongsheng

（College of Mathematics， Hohai University， Nanjing 211100， China）

Abstract： The density peak clustering algorithm （DPC） is a simple and efficient clustering algorithm that can intuitively find the cluster centers by a decision graph and complete clustering. However， the cutoff distance and cluster centers of the DPC algorithm are both determined artificially and subject to significant subjective influence， resulting in uncertainty. To address the above issues， a nonparametric density peak clustering algorithm based on clusters merging （NDPCCM） is proposed. Based on the distribution characteristics of pairwise similarities among sample points， they are divided into intra?class similarity and inter?class similarity， and the cutoff similarity is determined automatically by means of intra?class similarity to avoid manually setting parameters. Based on the decreasing trend of the cluster center weights， the initial cluster centers are selected automatically to obtain the initial clusters. The initial clustering results are optimized by merging the initial clusters， which can improve the accuracy of clustering. The comparative experiments were conducted between the proposed algorithm and" DPC， DBSCAN， and K?means algorithms on both artificial and UCI real datasets. The results show that the proposed algorithm does not require input parameters and can automatically obtain clusters， with better clustering performance than other algorithms.

Keywords： cluster analysis; density peak clustering algorithm; initial cluster; cluster merging; similarity; clustering performance

0" 引" 言

聚類分析是一種重要的無監督學習方法，在生物信息學、模式識別、圖像處理等領域有著廣泛的應用[1?4]。密度峰值聚類（Density Peak Clustering， DPC）算法是2014年由A. Rodriguez等人提出的一種密度聚類算法[5]。該算法能夠實現任意形狀數據集的聚類，根據決策圖直觀產生類簇中心，從而確定簇的數量，并具有高效的樣本點分配策略。相較于傳統的聚類算法，該算法使用簡單、參數少且在許多數據集上表現良好，因而受到了廣泛關注。然而，DPC算法的截斷距離依靠主觀經驗選取，類簇中心根據決策圖人工選擇，這些主觀性因素給最終的聚類結果帶來了不確定性。

針對DPC算法自身存在的一些局限性，一部分學者從局部密度的衡量方面展開了相關研究。Du M J等人將K近鄰的思想引入到局部密度的計算中，優化了樣本局部密度的度量，取得了較好的性能[6]。但是該算法需要輸入參數，并且仍然需要人工選擇類簇中心。R. Mehmood等人通過熱擴散方法使用核密度估計來計算樣本點的密度，同時考慮了截斷距離的選擇和核密度估計的邊界修正，獲得了更精確的類簇，具有魯棒性和有效性，但是仍需要人工參與來選擇簇的數目[7]。Liu R等人使用共享近鄰信息定義樣本之間的相似度，基于該相似度重新定義局部密度，并提出兩步分配策略來分配非聚類中心，避免了一步分配策略帶來的連帶錯誤，但是類簇中心的選取仍然具有人為主觀性[8]。丁世飛等人利用基于塊的不相似性度量計算樣本之間的相似度，再根據樣本的K近鄰重新定義局部密度，可以更高效地處理復雜數據[9]，但是引入了新的參數K。章曼等人使用非參數核密度估計方法估計樣本局部密度，并計算自適應可達距離來對非中心點進行分配，提高了DPC算法的聚類效果，但是引入了參數半徑調節系數[10]。位雅等人利用樣本自然最近鄰域內的樣本信息來計算樣本局部密度以及相對密度，對選出的聚類中心計算其聚類距離，根據聚類距離分配剩余點，能有效地處理密度不均勻數據集的聚類問題。但是該算法聚類效果依賴于距離調節系數，并且仍需要人工選取類簇中心[11]。

另有部分學者從類簇中心的自適應選取方面進行了相關研究。R. F. Bie等人利用模糊規則自適應地進行聚類中心的選擇，接著基于截斷距離將部分類簇合并得到最終類簇。該算法對于靜態數據具有有效性和穩健性，但是存在截斷距離的合理選取問題[12]。Liang Z等人基于分治策略和密度可達概念，遞歸地找到正確的類簇數量，但是仍然需要輸入參數截斷距離[13]。馬春來等人將簇中心權值按降序排列，選擇下降趨勢由急變緩的“拐點”之前的點作為類簇中心，自適應地完成聚類過程，但是仍需要根據主觀經驗確定截斷距離[14]。王萬良等人分別通過切比雪夫不等式和標準差確定歸一化后的密度和距離的閾值，以及簇中心權值的閾值，自動選取相關指標大于閾值的點作為簇中心，但是切比雪夫不等式中[ε]的選取會影響聚類效果[15]。徐童童等人使用共享近鄰定義樣本之間的相似度以及局部密度，對簇中心權值進行函數變換，然后根據決策函數自適應地選取潛在聚類中心，最后經過篩選自動得到最終聚類中心，但是引入了樣本近鄰數[16]。Ding S F等人使用分層加權自然鄰域集來計算局部密度，并提出一個子簇合并策略自適應地獲取最優類簇數，有效地消除了截斷距離對聚類結果的影響，但是層數參數是人工直接選取的[17]。

綜上所述，現有的改進方法中，存在參數或者類簇中心需要人工選擇的問題，算法無法完全自適應完成。為此，本文提出一種基于類簇合并的無參數密度峰值聚類算法（Nonparametric Density Peak Clustering Algorithm Based on Clusters Merging， NDPCCM）。NDPCCM算法首先根據樣本點兩兩之間相似度的分布特征自動確定截斷相似度，避免了人為設置參數影響聚類結果；其次，為了避免人工漏選類簇中心，根據簇中心權值的下降趨勢自動選取初始類簇中心，并完成分配得到初始類簇；最后，為防止一個類簇中的樣本點因選出多個類簇中心而被分為多個類簇，對初始聚類結果進行優化，將初始類簇合并得到最終類簇。

1" DPC算法及其缺陷分析

DPC算法基于兩個基本假設確定類簇中心：

1）類簇中心被局部密度更低的近鄰樣本點包圍；

2）類簇中心與局部密度更高的樣本點的距離相對較大。

設有數據集[X=x1，x2，…，xN]，其中[xi=xi1，xi2，…，xid，i=1，2，…，N]，表示一個樣本點，[N]為數據集樣本點總數，[d]為樣本點維數。對數據集中任意一個樣本點[xi]，DPC算法分別計算其局部密度[ρi]，以及與更高密度的最近點之間的距離[δi]。樣本點[xi]的局部密度[ρi]有兩種計算方法，一種使用截斷核計算，結果為離散值，公式如下：

[ρi=i≠jχdij-dc] （1）

式中：[χx]是指示函數，當[xlt;0]時，[χx=1]；否則[χx=0]。另一種使用高斯核計算，結果為連續值，公式為：

[ρi=i≠jexp-dijdc2] （2）

式中：[dij]為樣本點[xi]和[xj]之間的歐氏距離；[dc]為截斷距離參數，一般取所有樣本點兩兩之間的距離值升序排列的1%～2%處的值[8]。

通過計算樣本點[xi]與其他局部密度更高的點之間的最小距離得到[δi]：

[δi=minj：ρjgt;ρidij] （3）

對于密度最高的點，一般取[δi=maxjdij]。

接著，DPC算法以[ρi]為橫坐標，[δi]為縱坐標繪制決策圖，根據決策圖直觀地選取[ρi]和[δi]值較大的樣本點作為類簇中心；或者定義簇中心權值為[γi=ρi×δi]，選取[γ]值較大的樣本點作為類簇中心。最后，將非類簇中心樣本點分配到距離其最近的密度更高點所屬類簇。

DPC算法不需要預先確定類簇個數，在許多數據集上聚類效果良好，但是截斷距離的確定帶有主觀經驗，影響類簇中心的準確選擇。若截斷距離較大，則可能選取到少于真實個數的類簇中心；若截斷距離較小，則可能選取到多于真實個數的類簇中心。并且類簇中心的選取不是自適應的，而是根據決策圖人工選取的，可能會造成聚類中心的誤選。

圖1所示為DPC算法在Aggregation數據集上的決策圖和簇中心權值降序排列圖。Aggregation數據集共有7個類別，可以看出，在沒有任何先驗信息的情況下，僅通過決策圖難以準確地選出7個類簇中心，可能會漏選或者多選，從而影響聚類效果。

2" 基于類簇合并的無參數密度峰值聚類算法（NDPCCM）

DPC算法的截斷距離值直接影響樣本局部密度的度量，類簇中心的選擇直接影響最終的聚類結果，而截斷距離和類簇中心的選擇均受主觀影響較大，導致算法的魯棒性較差。

針對上述問題，NDPCCM算法首先根據樣本點的類內相似度自動確定截斷相似度，并計算每個樣本點的簇中心權值；其次根據簇中心權值的斜率變化自動選擇初始類簇中心，得到初步聚類結果；最后，合并初始類簇得到更準確的聚類結果。

2.1" 截斷相似度的自動選取

樣本點之間的相似度可以根據兩個樣本是否屬于同一類別分為類內相似度和類間相似度兩種類型。類內相似度值較大，而類間相似度值較小。因此可以根據相似度的分布特征將其分為兩類，并利用類內相似度來定義截斷相似度，以實現截斷相似度的自動選取。

NDPCCM算法首先對樣本點之間的歐氏距離進行函數變換，得到樣本點之間的相似度；其次使用K?means算法將所有樣本點兩兩之間的相似度分為類內相似度和類間相似度兩種類型，定義截斷相似度為類內相似度的均值；最后使用截斷相似度計算樣本點的局部密度、相對相似度以及簇中心權值，具體如下：

1）對于數據集[X]，定義樣本點[xi]和[xj]之間的相似度[18]為：

[sij=11+d2ij] （4）

式中[dij=k=1dxik-xjk2]為樣本點[xi]和[xj]之間的歐氏距離。樣本點[xi]和[xj]之間的距離越小，相似度則越大。公式（4）運用函數變換將距離值[dij]映射到區間[（0，1]]上。

2）使用K?means聚類算法將所有相似度值分為兩類，其中均值較大的為類內相似度集合，記為[Sintra]。

定義1：截斷相似度。將類內相似度的均值作為截斷相似度[sc]，即：

[sc=1Sintrasij∈Sintrasij] （5）

式中[Sintra]表示集合[Sintra]中元素的個數。

3）利用截斷相似度計算樣本點[xi]的局部密度[ρi]，公式如下：

[ρi=j≠iexpsijsc] （6）

該式表明，當樣本點[xi]周圍與其相似度大于截斷相似度[sc]的點越多，局部密度則越大。

通過樣本點的局部密度和相似度計算樣本點的相對相似度，公式如下：

[δi=minsij，" i=argmaxmρmmaxρjgt;ρisij，" i≠argmaxmρm] " "（7）

式（7）即樣本點與局部密度更高的樣本點之間的最大相似度。當樣本點局部密度最大時，其相對相似度為該樣本點與其他樣本點之間的最小相似度。

4）計算樣本點的簇中心權值。根據DPC算法關于類簇中心的假設，在NDPCCM算法中，具有較高的局部密度[ρ]和較小的相對相似度[δ]的樣本點更有可能被選為類簇中心。

首先，為了和局部密度保持一致，利用對數函數對相對相似度進行函數變換，公式如下：

[δ'i=-lg δi] （8）

由[δi]的定義可知，[δi∈0，1]，從而[δ'i∈0，+∞]，并且當[δi]越小時，[δ'i]越大。因此，[ρi]和[δ'i]都較大的樣本點是類簇中心的可能性更大。

其次，為了避免[ρ]和[δ']因量綱不同而對聚類結果產生影響，對[ρ]和[δ']進行歸一化處理，分別得到[ρ?i]和[δ?i]。最后定義樣本點的簇中心權值。

定義2：簇中心權值。計算樣本的簇中心權值的公式如下：

[γi=ρ?i·δ?i] （9）

根據前文的分析，類簇中心的[γ]值應該相對較大。

2.2" 自動選擇初始類簇中心

圖2是NDPCCM在Aggregation數據集上的樣本[γ]值分割示意圖，利用[γ]值的分段線性回歸，將樣本點分為初始類簇中心和非類簇中心兩類。其中空心圓點表示初始類簇中心的[γ]值；空心三角形表示非類簇中心的[γ]值；虛線是對初始類簇中心[γ]值的擬合直線；實線是對非類簇中心[γ]值的擬合直線。根據[γ]值的下降趨勢可以將其分為兩部分：左邊[γ]值較大，下降速度較快；右邊[γ]值較小，下降速度較慢。前后兩側[γ]值下降趨勢具有明顯差異的分界點稱為變點，記為[γt]。因此，NDPCCM算法使用分段線性回歸分析尋找變點，自動選擇初始類簇中心，避免人工選擇類簇中心帶來的不確定性。

NDPCCM算法首先將[γ]值降序排列得到序列[γ1gt;γ2gt;…gt;γk-1gt;γkgt;γk+1gt;…gt;γN]。依次將每一點[γk（2≤k≤N-1）]作為分界點，得到兩個[γ]值序列，即[γ1，γ2，…，γk]和[γk+1，γk+2，…，γN]。

其次，取這兩個序列為因變量，對應的自變量分別取[0，1，2，…，k-1]和[k，k+1，…，N-1]，分別進行一元線性回歸分析，得到兩個[γ]值預測序列，即[γ1，γ2，…，γk]和[γ'k+1，γ'k+2，…，γ'N]。

最后計算誤差平方和[Ek=i=1kγi-γi2+i=k+1Nγ'i-γi2]，于是變點[γt]可以由下式得到：

[t=argmin2≤k≤N-1Ek] （10）

將變點及其之前的點選出作為初始類簇中心。得到初始類簇中心后，根據DPC算法的分配策略，將非類簇中心點分配給與其相似度最大的密度更高點所屬類簇，得到初始類簇[P=P1，P2，…，Pt]。

2.3" 初始類簇合并

樣本密度不均勻可能會導致同一類簇中出現多個密度峰，進而影響聚類結果。圖3是NDPCCM算法在Aggregation數據集上獲取的初始類簇，相同數字代表一類。部分原本屬于同一類簇的樣本點被劃分成了幾類。因此需要對初始類簇進行合并，優化初始聚類結果，以提高聚類的準確性。

NDPCCM算法將所有的樣本點分為邊界點和核心點兩類，若兩個初始類簇之間相似度較大且相似度最大的兩個樣本點都是核心點，則將這兩個初始類簇合并。

首先，NDPCCM算法根據樣本點鄰居數的多少將其分為核心點和邊界點兩類。固定一個相似度半徑[r]，對于每一個樣本點，周圍與其相似度大于等于[r]的樣本點則被稱為該樣本點的鄰居。顯然，邊界點的鄰居數較少，而核心點的鄰居數較多。因此可以使用K?means算法將樣本鄰居數降序排列截成兩段，截斷處即為臨界鄰居數。鄰居數小于該臨界值的樣本點是邊界點，集合記為[Xboundary]，反之則為核心點，集合記為[Xcore]。NDPCCM算法在Aggregation上聚類分析圖如圖4所示。

圖4a）所示為Aggregation數據集中邊界點示意圖，圖中一個數字代表一個初始類簇，加粗的為邊界點。其中，相似度半徑[r]取所有樣本點到其他樣本點的最大相似度的最小值。并且，為了避免離群點的影響，在計算[r]之前先去除樣本中的離群點。定義滿足如下條件的點[xi]為離群點[19]：

[ρ?ilt;μρ?-σρ?]

[δ?igt;μδ?+σδ?]

式中：[μ·]和[σ·]分別表示數據的均值和標準差。將離群點的集合記為[Xoutlier]，則[r=minxi∈X＼Xoutliermaxj≠isij]。

其次，對于初始類簇[Pi]和[Pj]，計算兩個類簇之間的最大相似度，判斷是否需要合并。記兩個類簇之間相似度最大的樣本分別為[xmi]和[xmj]，即[smi，mj=maxsuvxu∈Pi，xv∈Pj]。若最大相似度大于相似度半徑[r]且[xmi]和[xmj]均為核心點，則將[Pi]和[Pj]合并，即若滿足式（11），則將這兩個初始類簇合并。

[smi，mjgt;r，" xmi∈Xcore，" xmj∈Xcore] （11）

重復進行上述步驟，直至任意兩個類簇都不滿足上述條件，得到最終類簇[C=C1，C2，…，Cnc]，其中[nc]表示最終類簇個數。圖4b）是Aggregation數據集初始類簇合并后的最終聚類結果，一個數字代表一類。可見，初始類簇正確地合并為一個類簇，初始聚類結果得到了優化。

2.4" NDPCCM算法的具體步驟

基于上述分析，NDPCCM算法的具體步驟如下：

輸入：數據集[X=x1，x2，…，xN]；

輸出：聚類結果[C=C1，C2，…，Cnc]。

1）根據式（4）計算樣本點之間的相似度[sij]，構造相似度矩陣[S=sij]；

2）將所有的相似度值降序排列，使用K?means聚類算法將所有的相似度值分為兩類，得到類內相似度集合[Sintra]；

3）根據式（5）～式（7）、式（9）計算截斷相似度[sc]、局部密度[ρi]、相對相似度[δ]和簇中心權值[γi]；

4）將簇中心權值[γi]降序排列，從左向右對每個點的左側和右側的[γi]值分別進行線性回歸分析，根據式（10）得到變點[γt]；

5）將變點及其之前的點選出得到初始類簇中心，并分配非類簇中心點，得到初始類簇[P=P1，P2，…，Pcp]；

6）對任意兩個初始類簇[Pi]和[Pj]，若滿足式（11），則將這兩個類簇合并，更新聚類結果；

7）重復步驟6），直至任意兩個類簇都不滿足式（11），得到最終類簇[C=C1，C2，…，Cnc]。

3" 實驗與結果分析

3.1" 數據集及實驗參數設置

為了驗證本文提出的NDPCCM算法的性能，在人工數據集和UCI真實數據集上將本文算法與DPC算法、DBSCAN算法以及K?means算法進行對比實驗。數據集詳細信息如表1和表2所示。實驗環境為Windows 11 64位操作系統，Intel[?] CoreTM i7?1360P CPU @ 2.20 GHz處理器，16.0 GB內存，使用Jupyter Notebook編程。

本文采用常用的調整蘭德指數（Adjusted Rand Index， ARI）[20]、調整互信息（Adjusted Mutual Information， AMI）[20]以及FM指數（Fowlkes and Mallows Index， FMI）[21]這3個外部評價指標來衡量實驗中所使用的聚類算法的聚類性能。ARI的取值范圍為[[-1，1]]，AMI的取值范圍為[[-1，1]]，FMI的取值范圍為[[0，1]]。3個指標的值越大，表示聚類效果越好。

本文的實驗參數設置為：NDPCCM算法無需設置參數；DPC算法的參數[p=2]；DBSCAN算法參數為鄰域半徑[（Eps）∈[0.1，1]]，以及最少樣本數[（MinPts）∈[2，20]]，采用網格搜索方法選取最優值作為最終的實驗結果；K?means算法的參數[k∈2，35]，通過輪廓系數選擇參數。

3.2" 實驗結果分析

表3給出了NDPCCM算法、DPC算法、DBSCAN算法以及K?means算法在6個人工數據集上的3個評價指標（ARI、AMI、FMI）的值以及參數設置，其中加粗字體表示性能最好的實驗結果。表4給出了NDPCCM算法、DPC算法、DBSCAN算法以及K?means算法在4個真實數據集上的3個評價指標（ARI、AMI、FMI）的值以及參數設置，其中加粗字體表示性能最好的實驗結果。

從表中的實驗結果可以看出，與其他算法相比，NDPCCM算法在除了Spiral和Breast之外的其他數據集上3個聚類指標都達到了最優。在Spiral數據集上，NDPCCM算法性能僅次于DPC算法；在Breast數據集上，NDPCCM算法AMI和FMI值都達到了最大，ARI值僅次于DBSCAN算法。

通過在人工數據集和UCI真實數據集上的對比實驗可以體現本文提出算法的優越性。DPC算法需要人為選擇參數和聚類中心；DBSCAN算法對參數敏感；K?means算法對于非凸數據的聚類效果較差，并且需要預先確定參數的范圍；而NDPCCM算法無需輸入參數，自動完成聚類，并且聚類性能更好。

4" 結" 語

本文針對DPC算法中截斷距離和聚類中心的人為選擇問題，對DPC算法進行改進，提出一種基于類簇合并的無參數密度峰值聚類算法（NDPCCM）。該算法首先根據類內相似度自動確定截斷相似度，并計算局部密度、相對相似度和簇中心權值；其次根據簇中心權值的下降趨勢自動選取初始類簇中心；最后對初始類簇進行優化，得到最終的聚類結果。NDPCCM算法無需輸入任何參數，并且整個聚類過程都是自動完成的。在人工數據集和UCI真實數據集上的實驗結果表明，NDPCCM算法取得了優于其他算法的聚類效果，性能穩定，適用于不同類型的數據集。但是在NDPCCM算法中，仍然利用歐氏距離度量相似度，在處理大量數據時，計算復雜度高；面對真實的高維數據集時，性能較差。因此，改進相似度度量和提升NDPCCM對真實復雜的數據集的聚類性能是下一步的研究重點。

注：本文通訊作者為袁永生。

參考文獻

[1] BHATTACHARJEE P， MITRA P. A survey of density based clustering algorithms [J]. Frontiers of computer science， 2021， 15（1）： 151308.

[2] SI Y Q， LIU P， LI P H， et al. Model?based clustering for RNA?seq data [J]. Bioinformatics， 2014， 30（2）： 197?205.

[3] DUCOURNAU A， BRETTO A， RITAL S， et al. A reductive approach to hypergraph clustering： an application to image segmentation [J]. Pattern recognition， 2012， 45（7）： 2788?2803.

[4] CHAUDHARY C， GOYAL P， TULI S， et al. A novel multi?modal clustering framework for images with diverse associ?ated text [J]. Multimedia tools and applications， 2019， 78（13）： 17623?17652.

[5] RODRIGYEZ A， LAIO A. Clustering by fast search and find of density peaks [J]. Science， 2014， 344（6191）： 1492?1496.

[6] DU M J， DING S F， JIA H J. Study on density peaks clus?tering based on K?nearest neighbors and principal component analysis [J]. Knowledge?based systems， 2016， 99： 135?145.

[7] MEHMOOD R， ZHANG G Z， BIE R， et al. Clustering by fast search and find of density peaks via heat diffusion [J]. Neurocomputing， 2016， 208：210?217.

[8] LIU R， WANG H， YU X M. Shared?nearest?neighbor?based clustering by fast search and find of density peaks [J]. Information sciences， 2018， 450： 200?226.

[9] 丁世飛，徐曉，王艷茹.基于不相似性度量優化的密度峰值聚類算法[J].軟件學報，2020，31（11）：3321?3333.

[10] 章曼，張正軍，馮俊淇，等.基于自適應可達距離的密度峰值聚類算法[J].計算機應用，2022，42（6）：1914?1921.

[11] 位雅，張正軍，何凱琳，等.基于相對密度的密度峰值聚類算法[J].計算機工程，2023，49（6）：53?61.

[12] BIE R F， MEHMOOD R， RUAN S S， et al. Adaptive fuzzy clustering by fast search and find of density peaks [J]. Personal and ubiquitous computing， 2016， 20（5）： 785?793.

[13] LIANG Z， CHEN P. Delta?density based clustering with a divide?and?conquer strategy： 3DC clustering [J]. Pattern recognition letters， 2016， 73： 52?59.

[14] 馬春來，單洪，馬濤.一種基于簇中心點自動選擇策略的密度峰值聚類算法[J].計算機科學，2016，43（7）：255?258.

[15] 王萬良，吳菲，呂闖.自動確定聚類中心的快速搜索和發現密度峰值的聚類算法[J].模式識別與人工智能，2019，32（11）：1032?1041.

[16] 徐童童，解濱，張喜梅，等.自適應聚類中心策略優化的密度峰值聚類算法[J].計算機工程與應用，2023，59（21）：91?101.

[17] DING S F， DU W， XU X， et al. An improved density peaks clustering algorithm based on natural neighbor with a merging strategy [J]. Information sciences， 2023， 624： 252?276.

[18] 吳潤秀，尹士豪，趙嘉，等.基于相對密度估計和多簇合并的密度峰值聚類算法[J].控制與決策，2023，38（4）：1047?1055.

[19] TONG W N， WANG Y P， LIU D L. An adaptive clustering algorithm based on local?density peaks for imbalanced data without parameters [J]. IEEE transactions on knowledge and data engineering， 2023， 35（4）： 3419?3432.

[20] VINH N X， EPPS J， BAILEY J. Information theoretic measures for clusterings comparison： variants， properties， normalization and correction for chance [J]. The journal of machine learning research， 2010， 11： 2837?2854.

[21] FOWLKES E B， MALLOWS C L. A method for comparing two hierarchical clusterings [J]. Journal of the American statistical association， 1983， 78（383）： 553?569.

作者簡介：劉天嬌（1998—），女，江蘇南通人，碩士研究生，研究方向為統計學習、應用統計。

王勝景（1999—），女，河南駐馬店人，碩士研究生，研究方向為統計學習、應用統計。

袁永生（1964—），男，江蘇南通人，博士，教授，主要研究方向為數理統計、應用統計。

現代電子技術2024年8期

現代電子技術的其它文章: 基于人工智能的雷達設備虛擬維修訓練仿真模型; 基于加權評分量化方式的機載數據存儲設備設計; 運載火箭測量系統綜合化設計與實現; 基于小波時頻圖和ResNet18的焊接狀態監測方法研究; 基于視頻時空特征提取分類的動作分析評估模型; 基于L(2+1)D的養殖魚類攝食狀態下活躍程度識別方法