999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-Means的軟子空間聚類算法研究綜述*

2016-06-21 09:33:19李俊麗
艦船電子工程 2016年5期

李俊麗

(晉中學院信息技術與工程學院 晉中 030619)

?

基于K-Means的軟子空間聚類算法研究綜述*

李俊麗

(晉中學院信息技術與工程學院晉中030619)

摘要隨著數據挖掘技術的發展,聚類分析算法越來越多,由于分析高維數據有時會陷入所謂維災難,傳統的聚類算法在聚類高維數據時性能會降低很多。針對這種情況,提出了子空間聚類算法,極大地改善了這個問題。K-Means算法是一種應用很廣泛的聚類算法,與子空間聚類算法結合可以應用于高維數據聚類。介紹了三類基于K-Means的軟子空間聚類算法,并對每種算法進行了描述和分析,最后指出了進一步的研究方向。

關鍵詞K-Means算法; 軟子空間聚類; 高維數據聚類

Class NumberTP301

1引言

聚類分析[1~2]將數據劃分成有意義或有用的簇,是解決數據匯總問題的起點,在廣泛的領域扮演重要角色。這些領域包括心理學和其他社會科學、生物學、統計學、模式識別、信息檢索、機器學習和數據挖掘。在過去的幾十年中,將聚類的不同類型區分為:層次的(嵌套的)與劃分的(非嵌套的),互斥的、重疊的與模糊的,完全的與部分的等。 K-Means算法[3]是一種基于原型的、劃分的聚類技術,由于其算法思想比較簡單,聚類速度較快,且方便處理大量數據而得到了廣泛的應用。但是隨著數據發展的維數越來越高,K-Means聚類算法和其他傳統的算法一樣,在聚類高維數據時性能會降低很多。

在高維數據中,簇通常是嵌入在原始數據空間的子空間,且不同的簇可以嵌入到不同的子空間中,所以子空間聚類方法在高維數據聚類中是必需的。子空間聚類算法是從高維數據空間中發現隱藏在不同低維子空間中的簇類。很多文獻提出了許多子空間聚類算法來處理高維數據,旨在從子空間而不是整個數據空間發現簇類[4~5]。此類算法能有效減少數據冗余和不相關屬性對聚類過程的干擾,從而提高在高維數據集上的聚類結果。將K均值聚類算法與子空間聚類相結合能夠更好地應用在高維數據聚類中,從而克服了傳統聚類技術的不足之處。

2K-Means算法與軟子空間聚類

2.1K-Means算法

K-Means算法具有很長的歷史,但是仍然是當前研究的重要課題。最早的K-Means算法由MacQueen提出。K-Means算法是一個經典的聚類算法,其算法基本思想:首先,從原始目標數據集合中,隨機選擇k個數據點作為初始的k個簇的中心,其中k是用戶指定的參數,即所期望的簇的個數。然后,計算其他非中心的數據點到k個簇中心的距離,根據其與中心的距離,選取距離最近的簇類,然后把該數據點分配到這個簇中,不斷重復這個過程。最后當所有的點都被劃到一個簇后,重新更新簇中心點,直到簇不發生變化為止。

K-Means算法的基本步驟如下:

輸入:簇的個數k以及數據集合D

輸出:滿足條件的k個簇

step1. 從數據集D中隨機選擇k個點作為初始簇中心;

step2. repeat;

step3. 計算每個點與各個中心點的距離,把對象指派到最近的簇中心,形成K個簇;

step4. 重新計算每個簇的均值,作為新的簇中心;

step5. until簇中心不再發生變化為止。

K-Means算法需要事先確定k的大小以及初始聚類中心,而且只能發現超球狀的簇,對初始中心非常敏感。對K-Means算法的改進主要從確定k的大小以及k個初始中心的選擇等方面進行。

Bradley和Fayyad以某種方式處理了K-Means算法的初始化問題[6],Anderberg[7]、Jain和Dubes[8]的書詳細地介紹了K-Means算法和它的一些變形。

2.2軟子空間聚類

軟子空間聚類算法是通過對各個數據簇類中的單個特征加權,獲得每個數據特征的重要性,從而發現大權重的特征所在的子空間[9~11]。相比較于硬子空間聚類算法來說,由于對數據的處理有更好的靈活性與適應性,人們對軟子空間聚類算法的關注越來越多。

為了更好地獲得每個簇類所在的最佳子空間,人們將K-Means聚類算法與軟子空間聚類算法相結合,采用了經典的K-Means型算法的結構,并且在其基礎之上增加了一個迭代的步驟來計算加權公式,從而得出每個簇類及其相關聯的維度的權重集合,然后更新權值向量。

3基于K-Means的軟子空間聚類算法

3.1模糊加權軟子空間聚類算法

2004年,E.Y. Chan等通過引入模糊權重指數和模糊加權指數,提出了模糊加權軟子空間聚類算法[12],其目標函數定義如下:

JAWA =∑Ci=1∑Nj=1uij∑Dk=1wτikd(xjk,vik)

(1)

subject to

利用Lagrange乘子優化方法最小化公式得到算法模糊隸屬度和特征加權系數的迭代公式。這是提出的第一個模糊加權軟子空間聚類算法。根據公式可以看出,若某個維度的距離為零時,上式就會失去意義。因此,2005年Jing L等給出了FWKM(Feature Weighting K-Means)算法[13],算法中提出了一個估算參數σ的公式,該算法在以上目標函數中加了一個取值足夠小的估算參數σ,通過給維度的距離增加一個大于 0 的參數σ,避免了當距離為零時,計算中出現的不便。后來, Gan G等又提出了FSC( A fuzzy subspace algorithm for clustering high dimensional data),給出了另一個模糊加權軟子空間聚類算法[14],該算法發現在子空間聚類中,每個維度的原始數據與每個簇以不同權重相關聯。而且密度越高,分配到該維度的權重越大。也就是說,所有維度的原始數據與每個簇相關聯,但他們關聯的程度不同。此算法增加了設置參數,用來控制在計算距離中的關鍵程度。

模糊加權軟子空間聚類算法運用模糊優化技術對目標函數優化,對于不同的數據集,根據需要對模糊指數的取值進行調整。因此,相比較于經典加權算法,模糊加權算法具有很好的適應性。

3.2熵加權軟子空間聚類

熵加權軟子空間聚類算法是通過將信息熵概念引入到軟子空間聚類算法中,在一定程度上由信息熵控制聚類中的各權向量[15]。2006年,Carlotta Domeniconi等提出LAC(Locally adaptive metrics for clustering high dimensional data)算法[16],此算法在各個簇中給每個特征分配一個權值,使用一個迭代算法來最小化其目標函數,通過用一個固定的常量取代最大平均距離證明了算法的收斂性。2007年Jing L等提出EWSC(entropy weighting Subspace Clustering)算法[17],此算法是熵加權軟子空間聚類算法的典型代表,其目標函數定義如下:

JEWSC= ∑Nj=1∑Ci=1umij∑Dk=1wik(xjk-vik)2

(2)

subject to

此算法擴展了K-Means聚類過程,在聚類過程中增加了一個額外的步驟,自動計算每個簇類的所有維度的權重。在大多數的軟子空間聚類方法中,只考慮了類內信息,很少有算法考慮到軟子空間聚類的類間信息。因此,2010年Deng ZH等提出 ESSC(Enhanced soft subspace clustering)算法[18],與其它軟子空間聚類算法相比,該算法在聚類過程中采用了類內和類間兩種信息,對于高維數據可以得到更好的聚類結果。

現有的子空間聚類算法僅對特征子空間進行聚類,沒有考慮特征組權重的問題,在聚類高維數據時沒有使用特征組的信息,以下介紹特征組加權,在加權子空間聚類的基礎上,融入更多的特征組信息對改進現有的算法是很有意義的。

3.3特征組加權軟子空間聚類

如果軟子空間聚類在特征子空間上直接進行,特征組差異往往被忽略,而且特征子空間權重對噪聲和缺失值比較敏感。此外,對于特征較少的特征組,特征較多的特征組將獲得更多的權重。為了解決這個問題,X.Chen等引入了給特征組分配權值的概念,進而提出了一種新的子空間聚類算法稱為FGKM算法[19]。此算法將相關特征聚集為特征組,在子空間同時進行特征組和單個特征的聚類,特征組加權減少了權重對噪聲和缺失值的敏感性,通過引入特征組加權,能夠消除特征組中的總體差異引起的不平衡現象。

這種算法中,高維數據基于它們的自然特性被分為特征組。算法給出一個新的優化模型定義優化過程。其目標函數定義如下:

JFGKM =∑kl=1{∑ni=1∑Tt=1∑j∈Gtui,lwl,tvl,jd(xi,j,zl,j)

(3)

subject to

該算法通過在子空間中對特征組和單個特征進行加權,自動計算出兩種類型的子空間熵。但是,FGKM算法的缺點是要求在聚類之前就確定特征組信息,而且在聚類過程中要作為輸入給出。在大多數情況下,我們無法確定一個高維數據集特征組的信息。因此,G. Gan等在FGKM算法的基礎上提出了AFGKM軟子空間聚類算法[20],此算法能夠在聚類迭代過程中自動確定特征組信息,通過加入特征組自動選擇功能從而擴展了FGKM算法,AFGKM算法會產生比FGkM算法更準確的聚類結果。

4基于K-Means的軟子空間聚類進一步研究方向

基于K-Means的軟子空間聚類算法的共同特點是:首先定義目標函數,利用一些優化方法求出最小化的解;其次,經過推導得出權值向量的迭代計算公式;最后,目標函數是否有效決定了聚類結果的好壞。基于K-Means的算法都具有較好的擴展性,在計算高維數據時,具有較好的適用性。但是,其也繼承了K-Means 算法的缺點,為了進一步提高算法的穩定性,選擇適當的初始簇中心是其關鍵步驟。

因而進一步的研究工作歸納如下:

1) 對于高維數據而言,目前尚缺乏有效的初始簇中心選擇的方法,選擇初始簇中心的方法不同,聚類結果反差會很大。

2) 現有的算法在定義加權方式時都引入了一些難以確定的參數,需要用戶提供專門的領域知識來設置它們的輸入參數,而且不同簇使用了相同的參數,這樣對于不同結構的簇,參數不能自動調節,致使算法的適用性降低了很多,算法對于不同聚類問題的泛化能力也降低了很多。

3) 現有的軟子空間聚類算法大多數是不完備的,沒有考慮到子空間的優化問題,而只是過多關心數據集劃分的優化問題。

4) 現有的軟子空間聚類算法都是基于批處理技術的聚類算法不能很好地應用于高維數據流。

5) 以上提到的算法還存在很多需要改進的地方,如參數設置的合理性,算法效率的提高等等。

5結語

軟子空間聚類算法受到越來越多的關注,文中首先介紹了傳統的K-Means聚類算法,然后在此基礎上結合子空間聚類算法給出了幾種基于K-Means的軟子空間聚類算法,通過對每種算法進行了綜述和分析,指出了一些不足之處,最后確定了進一步研究的方向,對以后的子空間聚類的研究有一定指導意義。

參 考 文 獻

[1] Jiawei Han, Micheline Kamber.數據挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2006.

[2] D.Hand, H.Mannila, P.Smyth.數據挖掘原理[M].張銀奎,廖麗,宋俊,等譯.北京:機械工業出版社,2003.

[3] J.MacQueen. Some methods for classification and analysis of multivariate observations[C]//Proc. of the 5th Berkeley Symp. On Mathematical Statistics and Classification, pages 345-375.World Scientific, Singapore, January,1996.

[4] L. Parsons, E. Haque, H. Liu, Subspace clustering for high dimensional data: a review[J]. ACM SIGKDD Explorations Newsletter,2004,6(1):90-105.

[5] H. Kriegel, P. Kroger, A. Zimek, Clustering high-dimensional data: a survey on subspace clustering, pattern based clustering, and correlation clustering[J]. ACM Transactions on Knowledge Discovery from Data,2009,3(1):1-58.

[6] P.S.Bradley and U.M.Fayyad. Refining Initial Points for K-Means Clustering[C]//Proc. of the 15th Intl. Conf. on Machine Learning, pages 91-99, Madison, WI, July 1998. Morgan Kaufmann Publishers Inc.

[7] M. R. Anderberg. Cluster Analysis for Applications[M]. New York: Academic Press, New York,1973.

[8] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. Prentice Hall Advanced Reference Series[M]. New York: Prentice Hall,1988.

[9] C. Bouveyron, S. Girard, C. Schmid, High dimensional data clustering[J]. Computational Statistics & Data Analysis,2007,52(1):502-519.

[10] C.-Y. Tsai, C.-C. Chiu, Developing a feature weight self-adjustment mechanism for a k-means clustering algorithm[J]. Computational Statistics & Data Analysis,2008,52(10):4658-4672.

[11] G. Milligan, A validation study of a variable weighting algorithm for cluster analysis[J]. Journal of Classification,1989,6(1):53-71.

[12] E.Y. Chan, W.K. Ching, M.K. Ng, and J.Z. Huang, An Optimization Algorithm for Clustering Using Weighted Dissimilarity Measures[J], Pattern Recognition,2004,37(5):943-952.

[13] L. Jing, M.K. Ng, J. Xu, J.Z. Huang, Subspace Clustering of Text Documents with Feature Weighting k-Means Algorithm[C]//Proc. Ninth Pacific-Asia Conf. Knowledge Discovery and Data Mining,2005:802-812.

[14] G.J. Gan, J.H. Wu, A convergence theorem for the fuzzy subspace clustering (FSC) algorithm[J]. Pattern Recognition,2008,41:1939-1947.

[15] H. Cheng, K.A. Hua, K. Vu, Constrained locally weighted clustering[C]//Proceedings of the VLDB Endowment, vol. 1, Auckland, New Zealand,2008:90-101.

[16] C. Domeniconi, D. Gunopulos, S. Ma, B. Yan, M. Al-Razgan, and D. Papadopoulos, Locally Adaptive Metrics for Clustering High Dimensional Data[J]. Data Mining and Knowledge Discovery,2007,14:63-97.

[17] L.P. Jing, M.K. Ng, Z.X. Huang, An Entropy Weighting k-Means Algorithm for Subspace Clustering of High-Dimensional Sparse Data[J], IEEE Trans. on Knowledge & Data Eng,2007,19(8):1026-1041.

[18] Z.H. Deng, K.S. Choi, F.L. Chung and S.T. Wang, Enhanced soft subspace clustering integrating within-cluster and between-cluster information[J], Pattern Recognition,2010,43:767-781.

[19] X. Chen, Y. Ye, X. Xu, J.Z. Huang. A feature group weighting method for subspace clustering of high-dimensional data[J]. Pattern Recognition,2012,45(1):434-446.

[20] Guojun Gan, Michael Kwok-Po Ng. Subspace clustering with automatic feature grouping[J]. Pattern Recognition,2015,48:3703-3713.

Summary of Soft Subspace Clustering Algorithm Based on K-Means

LI Junli

( School of Information Technology and Engineering, Jinzhong College, Jinzhong030619)

AbstractWith the development of data mining, clustering algorithm is becoming more and more. The difficulties associated with analyzing high-dimensional data are sometimes referred to as the curse of dimensionality. So the performance of traditional clustering algorithm in high-dimensional data clustering will reduce a lot. For this situation, subspace clustering algorithm greatly improves the problem . K-Means algorithm is a widely used clustering algorithm. Combined with subspace clustering algorithm it can be applied to high-dimensional data clustering. This paper introduces three kinds of soft subspace clustering algorithm based on K-Means, then each algorithm is summarized and analyzed. Finally it points out the future research direction.

Key WordsK-Means algorithm, soft subspace clustering, high-dimensional data clustering

* 收稿日期:2015年11月7日,修回日期:2015年12月23日

作者簡介:李俊麗,女,講師,碩士,研究方向:數據挖掘。

中圖分類號TP301

DOI:10.3969/j.issn.1672-9730.2016.05.011

主站蜘蛛池模板: 一级看片免费视频| 亚洲欧美成人综合| 高潮毛片免费观看| 国产情侣一区二区三区| 片在线无码观看| 9啪在线视频| 国产成人精品第一区二区| 精品国产自在在线在线观看| 欧美成一级| 久久久国产精品免费视频| 成人国产精品2021| 综合久久五月天| 91蜜芽尤物福利在线观看| 久久久久亚洲Av片无码观看| 国产特一级毛片| 欧美在线综合视频| 久久久久无码精品国产免费| 成人午夜网址| 成人免费网站在线观看| 久久久久亚洲AV成人人电影软件| 亚洲成a人片7777| 国产呦视频免费视频在线观看| 亚洲av片在线免费观看| 91久久精品国产| 中文字幕亚洲精品2页| 亚洲AⅤ永久无码精品毛片| 91区国产福利在线观看午夜| 无码日韩精品91超碰| 大香网伊人久久综合网2020| 老汉色老汉首页a亚洲| 久久精品视频亚洲| 国产在线自乱拍播放| 国产精品白浆无码流出在线看| 在线一级毛片| 2020国产免费久久精品99| 国产青青操| 人妖无码第一页| 亚洲欧美日韩中文字幕一区二区三区| 婷婷午夜天| 久久一本日韩精品中文字幕屁孩| 国产精品亚洲片在线va| 人妻丰满熟妇av五码区| 日本精品一在线观看视频| 九九热视频在线免费观看| 2022国产91精品久久久久久| 韩日无码在线不卡| 精品亚洲麻豆1区2区3区| 国内精品九九久久久精品| 亚洲欧美日韩视频一区| 亚洲精品波多野结衣| 一区二区三区精品视频在线观看| 国产精品私拍99pans大尺度 | 丁香婷婷综合激情| 亚洲人在线| 偷拍久久网| 欧美国产中文| 丰满少妇αⅴ无码区| 色精品视频| 欧美不卡在线视频| 欧洲亚洲一区| 无码啪啪精品天堂浪潮av| 中文字幕无码制服中字| 久久中文电影| 日韩在线中文| 国产又色又爽又黄| 国产精品成人AⅤ在线一二三四| 国产拍揄自揄精品视频网站| 国产精品亚洲一区二区在线观看| 在线观看精品国产入口| 不卡视频国产| 伊人狠狠丁香婷婷综合色| 日韩a在线观看免费观看| 亚洲 成人国产| 在线观看国产精品日本不卡网| 色欲不卡无码一区二区| 色噜噜狠狠狠综合曰曰曰| 一级成人a做片免费| 色欲不卡无码一区二区| 亚洲无码日韩一区| 高清色本在线www| 激情综合图区| 毛片a级毛片免费观看免下载|