李 根,王亞剛,周小偉,張鳳登
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
?
一種基于密度均值的譜聚類算法
李根,王亞剛,周小偉,張鳳登
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
傳統(tǒng)譜聚類算法在構(gòu)造相似度矩陣時(shí),高斯核函數(shù)參數(shù)選取的無規(guī)律性會(huì)對聚類結(jié)果造成嚴(yán)重影響。針對的這一缺陷,提出一種基于密度均值的譜聚類算法。與傳統(tǒng)算法不同,該算法選取樣本點(diǎn)到周圍K個(gè)樣本點(diǎn)的平均距離作為尺度參數(shù),并引入樣本點(diǎn)的密度信息,使得聚類結(jié)果更符合實(shí)際樣本的分布。同時(shí),由于相似矩陣能自適應(yīng)不同的局部密度,使得該算法對樣本的空間分布并不敏感。在不同類型數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了算法的有效性和較高的魯棒性。
譜聚類;平均密度;相似矩陣;多尺度
譜聚類是一種多尺度算法。近年來該算法在語音識別、圖像分割[1]和文本檢索中應(yīng)用廣泛,尤其是在大數(shù)據(jù)的分類上越發(fā)引起人們的重視。建立在譜圖理論上的譜聚類算法具有將非線性不可分的樣本點(diǎn)空間轉(zhuǎn)化為凸樣本分布的能力,相比于傳統(tǒng)的聚類算法(如K-means),其能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解[2]。
譜聚類算法具有比其他聚類算法更優(yōu)越的數(shù)據(jù)聚類性能,但由于其本身在構(gòu)造相似度矩陣時(shí)對尺度參數(shù)(核函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍)比較敏感,在處理多重尺度數(shù)據(jù)集時(shí)也存在結(jié)果不理想等問題。……