戚后林,顧 磊
(南京郵電大學 計算機學院,江蘇 南京 210003)
基于密度與最小距離的K-means算法初始中心方法
戚后林,顧 磊
(南京郵電大學 計算機學院,江蘇 南京 210003)
為了克服在傳統K-means聚類算法過程中因初始類簇中心的隨機性指定所帶來的聚類結果波動較大的缺陷,提出了一種基于密度與最小距離作為參數來確定初始類簇中心的算法。該算法根據一定的規則計算數據對象的密度參數,在計算完數據集中每條數據的單點密度之后,計算每個數據對象與較其密度大的其他數據對象的最小距離,以密度和最小距離作為參數,選取密度和最小距離同時較大的點作為K-means聚類過程的初始類簇中心。實驗結果表明,在類簇數目確定的情況下,應用該算法確定的初始K-means類簇中心,在標準的UCI數據集上能夠進行K-means聚類,且與隨機選擇類簇中心和其他使用密度作為參數的算法相比,基于改進后的初始中心方法的K-means聚類算法具有較高的準確率和更快的收斂速度。
K-means算法;類簇中心;密度;最小距離;迭代次數
近年來,隨著大數據的興起,如何從中總結出有價值的數據規律是一個重要任務。聚類作為一種數據分析法,在數據挖掘、圖像處理等方面都有重要應用。聚類算法包括基于劃分的方法、基于層次的方法、基于密度的方法、基于網格的方法和基于模型的方法。聚類分析的目的是數據集合應用不同的策略劃分成相似的類簇的過程,從而使同一個類簇具有較高的相似度,而不同的類簇之間盡可能不同?!?br>