程艷云,周 鵬
(南京郵電大學(xué) 自動化學(xué)院,江蘇 南京 210023)
動態(tài)分配聚類中心的改進(jìn)K均值聚類算法
程艷云,周 鵬
(南京郵電大學(xué) 自動化學(xué)院,江蘇 南京 210023)
K均值算法(KMEANS)是一種應(yīng)用廣泛的經(jīng)典聚類算法,但其有兩個缺陷,即對初始聚類中心敏感及需要人工確定聚類的個數(shù),因而聚類結(jié)果的準(zhǔn)確率較低。針對K均值聚類算法現(xiàn)存的兩個缺陷,為提高算法的精確性與穩(wěn)定性,以及改善聚類性能,提出了一種改進(jìn)的K均值算法。該算法通過定義的平均類間最大相似度指標(biāo)值來確定最佳的K值,將所有數(shù)據(jù)點(diǎn)中密度較高的點(diǎn)作為備選聚類中心,將備選點(diǎn)中密度最大的兩個點(diǎn)作為聚類中心進(jìn)行初步聚類計算并更新當(dāng)前聚類中心。當(dāng)計算得到的平均類間最大相似度現(xiàn)值小于前次計算值,則依據(jù)相對距離原則從備選點(diǎn)中動態(tài)選擇下一個聚類中心;否則,將當(dāng)前的聚類中心作為最佳初始聚類中心進(jìn)行K均值聚類計算。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法不僅能夠有效地提高聚類計算的精確性與穩(wěn)定性,而且還能縮短聚類計算時間,具有一定的技術(shù)優(yōu)勢和應(yīng)用前景。
KMEANS算法;動態(tài)聚類中心;相對距離;高密度點(diǎn)
聚類分析是數(shù)據(jù)挖掘領(lǐng)域的一個重要分支,是一種無監(jiān)督的學(xué)習(xí)方式。聚類分析的主要應(yīng)用領(lǐng)域有機(jī)器學(xué)習(xí)、模式識別、文本挖掘、圖像分割及模式分類等[1]。人們根據(jù)不同領(lǐng)域的需求研究出了不同的聚類方法。主要分為基于層次的、基于網(wǎng)格的、基于密度的、基于劃分的聚類算法[2]。……