許朝陽,林耀海,張 萍
1.莆田學(xué)院 信息工程學(xué)院,福建 莆田 351100
2.福建農(nóng)林大學(xué) 計算機與信息學(xué)院,福州 350002
近年,密度峰值聚類方法(Density Peaks Clustering,DPC)[1]得到了廣泛的研究和應(yīng)用,例如,在電力消費行為的聚類[2],文本聚類[3],無監(jiān)督的聲學(xué)單詞發(fā)現(xiàn)計算[4],批處理建模和在線監(jiān)測[5],醫(yī)療數(shù)據(jù)[6],城市出租車熱點區(qū)域發(fā)現(xiàn)[7],異常值檢測[8]和超光譜段選擇[9]等領(lǐng)域。密度峰值聚類方法以它不需要迭代、不需要太多參數(shù)等優(yōu)點,備受歡迎。
學(xué)者們也對密度峰值聚類方法本身做了一些改進,以適應(yīng)應(yīng)用領(lǐng)域中的新情況,包括在聚類中心的判斷,截斷距離dc的選擇,密度計算方法的修改等。如Ma等在文獻[10]中設(shè)定,并按照從大到小排列,取前m個最大值作為聚類中心,Mehmood等提出了一種模糊CFSFDP方法[11],用于有效地自適應(yīng)地選擇聚類中心;Wang和Xu[12]引入了一種基于熵的截斷距離dc的選擇方法;Wang等[13]使用多變量的核密度估計方法自動選擇截斷距離dc。Mehmood等[14],基于熱方程,使用另一個非參數(shù)密度估計器進行密度估計;Yan等[15]提出了基于點與其第k個最近鄰點之間的距離(稱為半徑)來估計每個點的局部密度。Du等[16]在高維數(shù)據(jù)點情況下使用PCA降維,然后在降維后的空間中使用KNN計算每個點的密度。高詩瑩等[17]通過計算數(shù)據(jù)樣本中的密度比,以避免低密度的類在決策圖上被遺漏,從而提高聚類準確率。李建勛等[18]充分利用屬性數(shù)據(jù)提高聚類質(zhì)量。
密度峰值聚類方法基于這樣的假設(shè):聚類中心被鄰近地區(qū)密度較低的鄰居所圍繞,并且與具有更高局部密度的任何點具有相對較大的距離。……