999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于密度峰值與密度聚類的集成算法

2019-08-01 01:57:38王治和黃夢瑩杜輝秦紅武
計(jì)算機(jī)應(yīng)用 2019年2期

王治和 黃夢瑩 杜輝 秦紅武

摘 要:針對快速搜索和發(fā)現(xiàn)密度峰值聚類(CFSFDP)算法需人工在決策圖上選擇聚類中心的問題,提出一種基于密度峰值和密度聚類的集成算法。首先,借鑒CFSFDP思想,將局部密度最大的數(shù)據(jù)作為第一個(gè)中心;接著,從該中心點(diǎn)出發(fā)采用一種利用Warshall算法求解密度相連改進(jìn)的基于密度的噪聲應(yīng)用空間聚類(DBSCAN)算法進(jìn)行聚類,得到第一個(gè)簇;最后,在尚未被劃分的數(shù)據(jù)中找出最大局部密度的數(shù)據(jù),將它作為下一個(gè)簇的中心后再次采用上述算法進(jìn)行聚類,直到所有數(shù)據(jù)被聚類或有部分?jǐn)?shù)據(jù)被視為噪聲。所提算法既解決了CFSFDP選擇中心需人工干預(yù)的問題,又優(yōu)化了DBSCAN算法,即每次迭代都是從當(dāng)前最好的點(diǎn)(局部密度最大的點(diǎn))出發(fā)尋找簇。通過可視化數(shù)據(jù)集和非可視化數(shù)據(jù)集與經(jīng)典算法(CFSFDP、DBSCAN、模糊C均值(FCM)算法和K均值(K-means)算法)的對比實(shí)驗(yàn)結(jié)果表明,所提算法聚類效果更好,準(zhǔn)確率更高,優(yōu)于對比算法。

關(guān)鍵詞:密度峰值;密度聚類;Warshall算法;決策圖;聚類中心

中圖分類號(hào): TP301.6

文獻(xiàn)標(biāo)志碼:A

Abstract: In order to solve the problem that Clustering by Fast Search and Find of Density Peaks (CFSFDP) needs to manually select the center on the decision graph, an Integrated Algorithm Based on Density Peaks and Density-based Clustering (IABDPDC) was proposed. Firstly, learning from the principle of CFSFDP, the data with the largest local density was selected as the first center. Then, from the first center, Density-Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm improved by Warshall algorithm was used to cluster to obtain the first category. Finally, from the data that has not been clustered, the maximum local density data was found out as the center of the next category and was clustered again by the above algorithm, until all the data was clustered or some data was considered as noise. The proposed algorithm not only solves the problem of manual center selection in CFSFDP, but also optimizes the DBSCAN algorithm, in which, every iteration starts from the current best point (the point with the largest local density). By comparing with the classical algorithms (such as CFSFDP, DBSCAN, fuzzy C-means (FCM) and K-means) on visual datasets and non-visualized datasets, the experimental results show that the proposed algorithm has better clustering effect with higher accuracy.

Key words: density peak; density-based clustering; Warshall algorithm; decision graph; cluster center

0 引言

聚類分析試圖將相似的元素劃分為一類、不相似的元素劃分在不同類,廣泛應(yīng)用于天文學(xué)、生物信息學(xué)、文獻(xiàn)計(jì)量學(xué)和模式識(shí)別[1-4]等領(lǐng)域。聚類分析是數(shù)據(jù)挖掘的重要模塊之一,其算法主要有基于劃分的算法、基于圖論的算法、基于密度的算法等。在基于劃分的算法中,最具代表性的是K-means[5]和K-medoids[6],所劃分的類是數(shù)據(jù)到中心距離更小的那些數(shù)據(jù)的集合。這類算法都是先設(shè)定中心,然后通過計(jì)算目標(biāo)函數(shù)和數(shù)據(jù)間距離以及不斷優(yōu)化中心,直到最適合的中心被找到[7];但是,這種聚類算法只是把數(shù)據(jù)分配給距離它更近的中心,只適應(yīng)于凸數(shù)據(jù)。謝娟英等[8]提出了一種基于密度峰值初始化中心的K-medoids算法,能自動(dòng)確定類的個(gè)數(shù)。在基于圖論的算法中,多路譜聚類算法[9]要求對數(shù)據(jù)建立相似度矩陣和拉普拉斯矩陣,計(jì)算特征值和特征向量,然后利用K-means算法進(jìn)行聚類;但是該算法的時(shí)間復(fù)雜度和空間復(fù)雜度都比較高,還需要進(jìn)一步的改進(jìn)。周林等[10]利用采樣算法降低了譜聚類算法的計(jì)算復(fù)雜度,利用Nystrm采樣算法只計(jì)算隨機(jī)采樣數(shù)據(jù)點(diǎn)之間以及隨機(jī)采樣數(shù)據(jù)點(diǎn)與剩余數(shù)據(jù)點(diǎn)之間的相似度矩陣。在基于密度的聚類算法中,基于密度的噪聲應(yīng)用空間聚類(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)算法[11]通過建立數(shù)據(jù)的密度相連實(shí)現(xiàn)聚類,這種方法能發(fā)現(xiàn)任意形狀的簇,但是對閾值Eps(掃描半徑)和MinPts(最小包含點(diǎn)數(shù))的依賴較大。Chen等[12]針對聚類中心測量困難和參數(shù)依賴性大的問題提出了一種新的聚類中心快速確定的聚類算法。戴陽陽等[13]提出了初始點(diǎn)優(yōu)化與參數(shù)自適應(yīng)的DBSCAN算法,解決了閾值對密度不均勻數(shù)據(jù)聚類影響的問題。快速搜索和發(fā)現(xiàn)密度峰值聚類(Clustering by Fast Search and Find of Density Peaks, CFSFDP)算法[14]是基于局部密度和相對距離的算法,利用決策圖人工識(shí)別中心進(jìn)行聚類,運(yùn)算效率高,但并不是所有的數(shù)據(jù)集都能通過決策圖準(zhǔn)確地找到中心并進(jìn)行聚類。因此,利用CFSFDP算法尋找中心的方法不斷地被學(xué)者們研究,提出了各種各樣的方法。比如,文獻(xiàn)[15]提出了一種自動(dòng)確定中心的CFSFDP算法,是基于基尼指數(shù)的自適應(yīng)截?cái)嗑嚯x和自動(dòng)獲取聚類中心的方法,避免了決策圖人工選擇中心帶來的誤差。馬春來等[16]提出了一種自動(dòng)選擇中心的密度峰值算法,根據(jù)中心權(quán)值的變化趨勢選擇“拐點(diǎn)”,以“拐點(diǎn)”之前的一組數(shù)據(jù)作為中心,避免了決策圖人工找中心的誤差。周世波等[17]提出了一種基于決策圖和相對密度的聚類算法,實(shí)現(xiàn)了快速尋找聚類中心并確定有效的類數(shù)。謝國偉等[18]提出了一種非參數(shù)核估計(jì)的CFSFDP算法,用非參數(shù)核估計(jì)的方法計(jì)算數(shù)據(jù)的局部密度并選擇潛在中心進(jìn)行歸類,最后對相鄰類合并得到聚類結(jié)果。

通過上述研究,本文針對CFSFDP需要人工從決策圖上選擇中心的問題,提出了一種基于CFSFDP和DBSCAN的集成算法(Integrated Algorithm Based on Density Peaks and Density-based Clustering, IABDPDC)。在找到中心之后,對數(shù)據(jù)集的聚類設(shè)計(jì)了一種利用傳遞閉包的Warshall算法[19]求解密度相連的密度聚類,以便每次聚類都是從最優(yōu)點(diǎn)出發(fā),而不是從傳統(tǒng)密度聚類的核心點(diǎn)出發(fā)。IABDPDC既解決了CFSFDP在確定中心時(shí)需人工在決策圖上選擇的問題,又優(yōu)化了DBSCAN算法。

1 相關(guān)工作

CFSFDP算法和DBSCAN算法都需要計(jì)算數(shù)據(jù)的局部密度,其中:CFSFDP算法是一種快速、高效的聚類算法,但決策圖需人工選擇中心;DBSCAN算法相比K-means算法,能對非凸數(shù)據(jù)聚類,但算法效率不高。Warshall算法則是一種計(jì)算相似關(guān)系的算法,本文擬利用Warshall算法實(shí)現(xiàn)DBSCAN算法的密度相連,以優(yōu)化DBSCAN算法。

1.1 CFSFDP算法

1.2 DBSCAN算法

DBSCAN算法是一種基于密度聚類的典型算法,可以實(shí)現(xiàn)對任意數(shù)據(jù)的聚類并識(shí)別噪聲,在Eps鄰域、核心點(diǎn)、直接密度可達(dá)、密度可達(dá)的基礎(chǔ)上,建立密度相連[20],通過實(shí)現(xiàn)最大密度相連的集合對數(shù)據(jù)集進(jìn)行聚類。DBSCAN算法需要識(shí)別數(shù)據(jù)集的噪聲點(diǎn)、邊界點(diǎn)和核心點(diǎn),然后進(jìn)行聚類。識(shí)別噪聲點(diǎn)之后,將所有在核心點(diǎn)Eps鄰域內(nèi)的數(shù)據(jù)與該核心點(diǎn)劃分為一簇,并對簇中未建立Eps鄰域的核心點(diǎn)建立Eps鄰域,建立最大密度相連集合,實(shí)現(xiàn)對簇的劃分。

DBSCAN算法中的密度相連也是一種數(shù)據(jù)間的傳遞關(guān)系,為使其密度相連過程更加簡單,設(shè)計(jì)一種改進(jìn)的DBSCAN算法,即用Warshall算法求解傳遞閉包的過程代替DBSCAN算法的求解最大密度相連的過程。基于Warshall的DBSCAN算法在利用局部密度最大的數(shù)據(jù)是中心的想法找到中心后,再從中心點(diǎn)出發(fā)查找所有和中心點(diǎn)同一類的數(shù)據(jù)進(jìn)行聚類,不需要識(shí)別數(shù)據(jù)集的噪聲點(diǎn)、邊界點(diǎn)和核心點(diǎn),降低了程序的復(fù)雜性。

1.3 Warshall算法

Warshall[19]于1962年提出了求關(guān)系傳遞閉包的算法,并將它命名為Warshall算法,因其使復(fù)雜的二元關(guān)系的傳遞變得簡單化而被人廣泛學(xué)習(xí)和應(yīng)用。該算法通過分析數(shù)據(jù)間的相似關(guān)系,求出相似關(guān)系的傳遞閉包。Warshall算法如下:

CFSFDP算法確定δi和ρi值都較大的數(shù)據(jù)i需要人工在決策圖(如圖1)上選擇,第一個(gè)中心就是最大局部密度的數(shù)據(jù),它在決策圖的最右上方,第二或其他的中心為決策圖中δi和ρi值相對都較大的數(shù)據(jù),也分布在決策圖的右上方,但應(yīng)該選擇右上方的哪些數(shù)據(jù)作為中心是不好解決的問題。例如圖1,最右上方的數(shù)據(jù)1的局部密度是最大的,將它作為第一個(gè)中心,數(shù)據(jù)2、3、4的δi和ρi值相差不大,選擇哪個(gè)數(shù)據(jù)作為下一個(gè)中心是很難抉擇的問題。盡管有時(shí)通過計(jì)算γi=δiρi選擇γi值較大的數(shù)據(jù)作為中心,但選取多少個(gè)γi較大的數(shù)據(jù)點(diǎn)作為中心是不容易確定的。基于CFSFDP與DBSCAN的集成算法,可以準(zhǔn)確地找出類簇的中心,避免了中心選擇不當(dāng)造成的聚類錯(cuò)誤。

從上述尋找到的中心(最好的點(diǎn))出發(fā)利用密度聚類算法進(jìn)行聚類,然而,傳統(tǒng)的密度聚類無法從最好的點(diǎn)出發(fā)聚類,而是需要找數(shù)據(jù)的核心點(diǎn)、直接密度可達(dá)點(diǎn)、密度可達(dá)點(diǎn),進(jìn)而找出數(shù)據(jù)的最大密度相連對數(shù)據(jù)進(jìn)行聚類,聚類過程比較復(fù)雜,給程序造成了負(fù)擔(dān)。利用Warshall算法求解DBSCAN算法的最大密度相連,從聚類中心出發(fā)利用Warshall算法找出所有和該點(diǎn)相連的數(shù)據(jù)并將它們劃分為同一類降低了算法的復(fù)雜性。

3 實(shí)驗(yàn)結(jié)果與分析

IABDPDC通過C語言編寫,用Matlab工具顯示實(shí)驗(yàn)結(jié)果。通過對可視化數(shù)據(jù)集和非可視化數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),從而評估和分析所提算法,對比算法包括: CFSFDP、DBSCAN、FCM和K-means算法。其中:CFSFDP算法是一種快速搜索查詢的利用決策圖確定中心的算法;DBSCAN算法是基于密度的典型聚類算法;FCM算法[21]是一種基于拉普拉斯矩陣的聚類算法;K-means是一種只適應(yīng)于凸數(shù)據(jù)的聚類算法;IABDPDC則是一種基于密度分析的聚類算法,不僅可以自動(dòng)確定中心,且利用Warshall算法建立矩陣實(shí)現(xiàn)了對任意形狀數(shù)據(jù)的聚類。

4 結(jié)語

針對CFSFDP算法確定中心需要人工在決策圖上選擇的問題,提出了一種集成算法,將CFSFDP的思想(局部密度最大的數(shù)據(jù)是中心)和DBSCAN算法結(jié)合為一種新的算法IABDPDC。為降低算法的復(fù)雜性,還將DBSCAN算法求密度相連的過程設(shè)計(jì)為利用二元關(guān)系傳遞閉包的Warshall算法來求解。IABDPDC每次從未被聚類的數(shù)據(jù)出發(fā)將局部密度最大的數(shù)據(jù)作為中心,利用改進(jìn)的DBSCAN算法從最優(yōu)點(diǎn)出發(fā)進(jìn)行聚類,既解決了CFSFDP算法選擇中心需人工干預(yù)的問題,又優(yōu)化了DBSCAN算法。實(shí)驗(yàn)對比與分析表明,IABDPDC能得到較好的聚類結(jié)果,但部分聚類結(jié)果仍受到閾值的影響,下一步將研究自適應(yīng)的聚類算法,減少閾值對聚類結(jié)果的影響,使算法的聚類結(jié)果達(dá)到最優(yōu)。

參考文獻(xiàn):

[1] HE H, TAN Y. Automatic pattern recognition of ECG signals using entropy-based adaptive dimensionality reduction and clustering [J]. Applied Soft Computing,2017, 55: 238-252

[2] PENG C, KANG Z, XU F, et al. Image projection ridge regression for subspace clustering [J]. IEEE Signal Processing Letters, 2017, 24(7): 991-995.

[3] R?THLISBERGER V, ZISCHG A P, KEILER M. Identifying spatial cluster of flood exposure to support decision making in risk management [J]. Science of the Total Environment, 2017, 598: 593-603.

[4] SUZUKI S, KAKUTA M, ISHIDA T, et al. Faster sequence homology searches by clustering subsequences [J].Bioinformatics, 2015, 31(8): 1183-1190.

[5] MACQUEEN J B. Some methods for classification and analysis of multivariate observations [C]// Proceedings of the 1967 5th Berkeley Symposium on Mathematical Statistics and Probability. Berlin: Springer, 1967: 281-297.

[6] KAUFMAN L. ROUSSEEUW P J. Finding groups in data: an introduction to cluster analysis [M]. New York: John Wiley & Sons, 1990: 74.

[7] HOPPNER F, KLAWONN F, KRUSE R, et al. Fuzzy cluster analysis-methods for classification [J]. Journal of the Operational Research Society, 1998, 51(6):769-770.

[8] 謝娟英,屈亞楠.密度峰值優(yōu)化初始中心的K-medoids聚類算法[J].計(jì)算機(jī)科學(xué)與探索,2016,10(2):230-247.(XIE J Y, QU Y N. K-medoids clustering algorithms with optimized initial seeds by density peaks [J]. Journal of Frontiers of Computer Science and Technology, 2016, 10(2):230-247.)

[9] NG A Y, JORDAN M I, WEISS Y. On spectral clustering: analysis and an algorithm [C]// NIPS01Proceedings of the 2001 International Conference on Neural Information Processing Systems: Natural and Synthetic. Cambridge, MA: MIT Press, 2001:849-856.

[10] 周林,平西建,徐森,等.基于譜聚類的聚類集成算法[J].自動(dòng)化學(xué)報(bào),2012,38(8):1335-1342. (ZHOU L, PING X J, XU S, et al. Cluster ensemble based on spectral clustering[J]. Acta Automatica Sinica, 2012, 38(8):1335-1342.)

[11] ESTER M, KRIEGEL H-P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]// KDD96: Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. Menlo Park, CA: AAAI Press, 1996:226-231.

[12] CHEN J, LIN X, ZHENG H, et al. A novel cluster center fast determination clustering algorithm [J]. Applied Soft Computing, 2017, 57: 539-555.

[13] 戴陽陽,李朝鋒,徐華,等.初始點(diǎn)優(yōu)化與參數(shù)自適應(yīng)的密度聚類算法[J].計(jì)算機(jī)工程,2016,42(1):203-209. (DAI Y Y, LI C F, XU H, et al. Density spatial clustering algorithm with initial point optimization and parameter self-adaption [J]. Computer Engineering, 2016, 42(1): 203-209.)

[14] RODRIGUEZ A, LAIO A. Clustering by fast search and find of density peaks [J]. Science, 2014, 344(6191):1492.

[15] 王洋,張桂珠.自動(dòng)確定聚類中心的密度峰值算法[J].計(jì)算機(jī)工程與應(yīng)用,2017,2018, 54(8):137-141. (WANG Y, ZHANG G Z. Automatically determine density of cluster center of peak algorithm [J]. Computer Engineering and Applications, 2017, 2018, 54(8): 137-141.)

[16] 馬春來,單洪,馬濤.一種基于簇中心點(diǎn)自動(dòng)選擇策略的密度峰值聚類算法[J].計(jì)算機(jī)科學(xué),2016,43(7):255-258. (MA C L, SHAN H, MA T. Improved density peaks based clustering algorithm with strategy choosing cluster center automatically [J]. Computer Science, 2016, 43(7): 255-258.)

[17] 周世波,徐維祥.一種基于相對密度和決策圖的聚類算法[J].控制與決策,2018,33(11):1921-1930. (ZHOU S B, XU W X. A novel clustering algorithm based on relative density and decision graph [J]. Control and Decision, 2018, 33(11): 1921-1930.)

[18] 謝國偉,錢雪忠,周世兵.基于非參數(shù)核密度估計(jì)的密度峰值聚類算法[J/OL].計(jì)算機(jī)應(yīng)用研究,2018 [2018-04-06]. http://www.arocmag.com/article/02-2018-10-018.html. (XIE G W, QIAN X Z, ZHOU S B. Density peak clustering algorithm based on non-parametric kernel density estimation [J]. Application Research of Computers, 2018 [2018-04-06]. http://www.arocmag.com/article/02-2018-10-018.html.)

[19] WARSHALL S. A theorem on Boolean matrices [J]. Journal of the ACM, 1962, 9(1):11-12.

[20] 劉淑芬,孟冬雪,王曉燕.基于網(wǎng)格單元的DBSCAN算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2014,44(4):1135-1139. (LIU S F, MENG D X, WANG X Y. DBSCAN algorithm based on grid cell[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44(4):1135-1139.)

[21] PAL N R, BEZDEK J C. On cluster validity for the fuzzy c-means model [J]. IEEE Transactions on Fuzzy Systems, 1995, 3(3): 370-379.

[22] PAPADIMITRIOU C H, STEIGLITZ K. Combinatorial optimization: algorithms and complexity [M]. Upper Saddle River, NJ: Prentice-Hall, 1982.https://dl.acm.org/citation.cfm?id=31027與原稿完全不同IEEE Transactions on Acoustics Speech & Signal Processing, 1982, 32(6):1258-1259.

主站蜘蛛池模板: 精品久久人人爽人人玩人人妻| 色哟哟精品无码网站在线播放视频| 在线人成精品免费视频| 国产成人精品三级| 米奇精品一区二区三区| 久久青草免费91观看| 成年人免费国产视频| 免费人成视网站在线不卡| 色久综合在线| 欧美国产在线看| 欧美一区二区精品久久久| 国产尤物在线播放| 国产中文在线亚洲精品官网| 在线观看的黄网| 国产一区二区三区在线观看视频 | 午夜性刺激在线观看免费| AV天堂资源福利在线观看| 久久久久88色偷偷| 无码久看视频| 国产91精品调教在线播放| 天天视频在线91频| 呦女亚洲一区精品| 国产一级毛片高清完整视频版| 亚洲视频二| 国产成人综合网在线观看| 国产精品免费久久久久影院无码| 成人在线观看一区| 青草视频久久| 色播五月婷婷| 伊人久久婷婷五月综合97色| 欧洲一区二区三区无码| 国产理论最新国产精品视频| 精品成人免费自拍视频| 久久一级电影| 亚洲综合专区| 日韩成人在线一区二区| 亚洲人精品亚洲人成在线| 亚洲福利片无码最新在线播放| 亚洲精选高清无码| 欧美激情综合一区二区| 国产成人综合久久精品尤物| 97se亚洲| 久草视频精品| 9丨情侣偷在线精品国产| 欧美性久久久久| 国产精品美乳| 91久久国产综合精品女同我| 成人日韩视频| 精品福利视频网| 亚洲无码91视频| 中文字幕在线欧美| 色妞永久免费视频| 欧美伦理一区| 国产在线视频福利资源站| 在线精品自拍| 日韩欧美国产三级| 久久中文字幕不卡一二区| 欧美激情第一欧美在线| 91在线精品麻豆欧美在线| 鲁鲁鲁爽爽爽在线视频观看 | 亚洲AV无码久久天堂| 国产欧美视频一区二区三区| 欧美另类图片视频无弹跳第一页 | 青青草原国产av福利网站| 国产成人久久综合777777麻豆| 欧美 亚洲 日韩 国产| 久久综合色视频| 国产精品自在线天天看片| 久久综合亚洲鲁鲁九月天| 无码一区二区三区视频在线播放| 无码中文字幕乱码免费2| 久久香蕉国产线| 中文字幕欧美日韩高清| 中文字幕欧美成人免费| 国产亚洲精久久久久久无码AV| 91麻豆久久久| 欧美成人精品一级在线观看| 亚洲色大成网站www国产| 91久久精品国产| 自拍中文字幕| 人妻中文字幕无码久久一区| 欧美日韩国产在线播放|