謝志明,王 鵬,黃 焱
(1.汕尾職業(yè)技術(shù)學(xué)院 信息工程系,廣東 汕尾 516600;2.汕尾市創(chuàng)新工業(yè)設(shè)計研究院 云計算與數(shù)據(jù)中心工程設(shè)計研究所,廣東 汕尾 516600;3.西南民族大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,四川 成都 610041;4.淮陰師范學(xué)院 計算機科學(xué)與技術(shù)學(xué)院,江蘇 淮安 223300)
多維數(shù)據(jù)K-means譜聚類算法改進研究
謝志明1,2,王 鵬3,黃 焱4
(1.汕尾職業(yè)技術(shù)學(xué)院 信息工程系,廣東 汕尾 516600;2.汕尾市創(chuàng)新工業(yè)設(shè)計研究院 云計算與數(shù)據(jù)中心工程設(shè)計研究所,廣東 汕尾 516600;3.西南民族大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,四川 成都 610041;4.淮陰師范學(xué)院 計算機科學(xué)與技術(shù)學(xué)院,江蘇 淮安 223300)
針對傳統(tǒng)K-means算法不能自動確定初始聚類數(shù)目k和譜聚類算法對參數(shù)敏感的問題,提出了一種基于譜聚類的K-means(PK-means)算法。該算法在對k值選取時進行了創(chuàng)新改進,將計算所得的高密度數(shù)據(jù)點按規(guī)律排序,選擇密度點前96%的進行聚類,可以以較高的準(zhǔn)確率取得聚類數(shù)目k,同時采用了不受參數(shù)影響且穩(wěn)定性更高的基于譜聚類模糊的相似性度量方法,利用FCM算法求隸屬度矩陣確定數(shù)據(jù)點間的相似性。應(yīng)用PK-means算法、K均值算法與密度敏感的譜聚類算法(DSSC)進行了多維非線性數(shù)據(jù)處理的測試實驗。實驗結(jié)果表明,無論是對于低維數(shù)據(jù)集還是高維數(shù)據(jù)集,K-means算法的處理效率是最低的,DSSC算法稍好,而PK-means算法優(yōu)勢明顯,其相比傳統(tǒng)聚類算法具有更高的聚類精度和更強的魯棒性,且維數(shù)越高,聚類性能表現(xiàn)越突出。
K-means算法;譜聚類算法;聚類;FCM算法;隸屬度矩陣
聚類(Clustering)是一種將類似的對象通過物理或抽象對象集合的方式劃分成若干個簇或類的過程。……