999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于網(wǎng)格密度的自適應(yīng)聚類分析算法

2007-12-31 00:00:00葛君偉

摘要:在結(jié)合基于密度和基于網(wǎng)格的聚類算法優(yōu)點(diǎn)的基礎(chǔ)上,提出一種新的聚類算法。該算法能夠在海量、高緯數(shù)據(jù)下發(fā)現(xiàn)任意形狀的聚類并對(duì)噪聲數(shù)據(jù)不敏感,具有較低的時(shí)間和空間復(fù)雜性及較高的識(shí)別率。通過實(shí)驗(yàn)對(duì)該算法進(jìn)行了性能比較和測(cè)試,顯示了它在各方面的優(yōu)越性。

關(guān)鍵詞:聚類; 密度; 網(wǎng)格; 連通性

中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2007)08-0056-02

聚類分析[1]是數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)非常活躍的研究課題,已被廣泛應(yīng)用于許多領(lǐng)域。聚類能夠在潛在的數(shù)據(jù)中發(fā)現(xiàn)令人感興趣的數(shù)據(jù)分布模式。它將數(shù)據(jù)對(duì)象的集合分組為多個(gè)類或簇;同一個(gè)簇中的對(duì)象彼此相似,而與其他簇中的對(duì)象相異。通過聚類,能夠識(shí)別出稀疏的或稠密的區(qū)域,從而發(fā)現(xiàn)全局分布模式以及數(shù)據(jù)屬性之間有趣的相互關(guān)系。

對(duì)于大規(guī)模、高維數(shù)據(jù)庫來說,其數(shù)據(jù)空間中數(shù)據(jù)的分布是不均勻的,已有的聚類算法大多不能有效地處理海量、高維數(shù)據(jù)。因此,本文結(jié)合密度算法和網(wǎng)格算法各自的優(yōu)點(diǎn)提出了一種新算法。該算法將數(shù)據(jù)空間劃分成固定大小的網(wǎng)格單元,根據(jù)網(wǎng)格密度的相似性及網(wǎng)格的連通性進(jìn)行快速有效的聚類;同時(shí)該算法也適合于空間區(qū)域查詢,在增加或刪除數(shù)據(jù)時(shí)只需要考慮這個(gè)增加或刪除的數(shù)據(jù)所影響到的相應(yīng)網(wǎng)格,并根據(jù)該網(wǎng)格與相鄰網(wǎng)格的關(guān)系來進(jìn)行聚類,具有良好的伸縮性。

1相關(guān)研究 

1.1基于密度的算法

M. Ester和M. Ankerst等人提出了基于密度的聚類算法[2,3],該算法將具有足夠高密度的區(qū)域劃分為簇,并可以在帶有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。該算法采用一個(gè)密度閾值來控制簇的增長(zhǎng),但是這個(gè)參數(shù)值的設(shè)置需由用戶來決定,設(shè)置的細(xì)微不同可能導(dǎo)致差別很大的聚類結(jié)果。真實(shí)的高緯數(shù)據(jù)集合經(jīng)常分布不均,全局密度參數(shù)不能反映出其內(nèi)在的聚類結(jié)構(gòu)。

1.2基于網(wǎng)格的算法

A. Rakesh等人提出了基于網(wǎng)格的聚類算法[4],它對(duì)于大型數(shù)據(jù)庫中的高緯數(shù)據(jù)的聚類非常有效。該算法采用一個(gè)統(tǒng)一的網(wǎng)格大小來劃分問題空間,每個(gè)網(wǎng)格保存了落在其內(nèi)部的數(shù)據(jù)統(tǒng)計(jì)信息,然后在網(wǎng)格上進(jìn)行聚類操作。由于網(wǎng)格的數(shù)量遠(yuǎn)小于數(shù)據(jù)點(diǎn)的數(shù)量,其運(yùn)行時(shí)間很快。網(wǎng)格的大小決定了聚類效果,精細(xì)的網(wǎng)格可能導(dǎo)致網(wǎng)格數(shù)量的急劇增加,有時(shí)甚至超過了數(shù)據(jù)點(diǎn)的數(shù)量,這將導(dǎo)致計(jì)算時(shí)間的增加;粗糙的網(wǎng)格導(dǎo)致了聚類質(zhì)量的下降,有時(shí)甚至不能找出不同的聚類。

2基于網(wǎng)格密度的自適應(yīng)聚類算法

通過前面的分析可知,基于密度的算法能夠較好地發(fā)現(xiàn)任意形狀的聚類結(jié)果,而基于網(wǎng)格的算法則能夠較好地發(fā)現(xiàn)最高緯的子空間。綜合這兩種聚類算法的優(yōu)點(diǎn)提出了一種新的聚類算法。該算法不需要用戶指定密度閾值,具有良好的自適應(yīng)性。算法也適合于進(jìn)行動(dòng)態(tài)聚類,當(dāng)增加或刪除數(shù)據(jù)時(shí),算法不用重新聚類,只需要考慮這個(gè)增加或刪除的數(shù)據(jù)所影響到的那部分網(wǎng)格單元并進(jìn)行處理即可。

定義8類。根據(jù)連通性,網(wǎng)格單元所能達(dá)到的最大單元集合稱為一個(gè)類。

2.2 算法實(shí)現(xiàn)

由于網(wǎng)格單元在本算法中起著關(guān)鍵性作用,先說明一下其數(shù)據(jù)結(jié)構(gòu)。每個(gè)網(wǎng)格單元包含四個(gè)方面的信息:該網(wǎng)格單元在n維空間中的位置、網(wǎng)格單元的密度、落入該網(wǎng)格單元中的點(diǎn)集、參考點(diǎn)的坐標(biāo)。為簡(jiǎn)單起見,以二維空間為例來說明一下網(wǎng)格單元的存儲(chǔ)信息,如圖3所示。

本算法分為以下三個(gè)步驟:

a)將n維空間數(shù)據(jù)對(duì)象劃分成Nn個(gè)網(wǎng)格單元,N為每一緯上劃分的區(qū)間數(shù);然后統(tǒng)計(jì)落入每個(gè)單元中點(diǎn)的個(gè)數(shù)并得出相應(yīng)的參考點(diǎn)。

b)將這些網(wǎng)格單元按密度降序排列,以最大密度的單元為中心,分別向四個(gè)方向展開。設(shè)中心單元的密度為m,那么密度在[m/2,m]范圍內(nèi)的所有連通單元都可以劃為一類;接著對(duì)其邊界單元進(jìn)行分析處理。如果其屬于該類,則去除邊界噪聲;如果不屬于該類,就忽略掉。對(duì)于剩下的網(wǎng)格單元,也依照這個(gè)方法進(jìn)行下一個(gè)聚類,直到所有網(wǎng)格單元都處理完為止。這一步驟的實(shí)現(xiàn)偽代碼如下:

3實(shí)驗(yàn)結(jié)果及分析

4結(jié)束語

本文提出的算法是一種基于空間單元網(wǎng)格密度的聚類算法。該算法只需對(duì)數(shù)據(jù)集進(jìn)行一次掃描,得到每個(gè)網(wǎng)格單元的信息;再通過對(duì)這些網(wǎng)格單元進(jìn)行處理得到最終的聚類結(jié)果。由于生成的網(wǎng)格單元數(shù)遠(yuǎn)小于數(shù)據(jù)點(diǎn)數(shù),算法的時(shí)間復(fù)雜度是線性的,效率很高。試驗(yàn)結(jié)果證明該方法能夠準(zhǔn)確有效地完成聚類任務(wù),可應(yīng)用于圖像分析、空間數(shù)據(jù)聚類、商業(yè)數(shù)據(jù)聚類等多個(gè)領(lǐng)域的數(shù)據(jù)挖掘。

參考文獻(xiàn):

[1]韓家煒,坎伯.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,等譯.北京:機(jī)械工業(yè)出版社,2001:223-262.

[2]ESTER M,KRIEGEL H P, SANDER J, et al. A densitybased algorithm for discovering clusters in large spatial databases[C]//Proc of Int Conf Knowledge Discovery and Data Mining. Newport Beach, CA:[s.n.],1997:1015.

[3]ANKERST M, BREUNIG M M, KRIEGEL H P, et al. OPTICS: ordering points to identify the clustering structure[C]//Proc of ACM SIGMOD Int’l Conf Management of Data. Philadelphia, PA:[s.n.],1999:49-60.

[4]RAKESH A,JOHANNERS G,DIMITRIOS G, et al. Automatic subspace clustering of high dimensional data for data mining applications[C]//Proc of ACM SIGMOD Int’l Conf on Management of Data. Minneapolis: ACM Press,1994:94105.

[5]BECKMANN N, KRIEGEL H, SCHNEIDER R, et al. The R*tree: an efficient and robust access method for points and rectangles[C]//Proc of ACM SIGMOD Int’l Conf on Management of Data.Atlantic City,NJ:[s.n.],1990:322-331.

注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

主站蜘蛛池模板: 91精品国产91久无码网站| 欧美中文字幕在线二区| 国产精品亚洲欧美日韩久久| 国产一级α片| 国产AV无码专区亚洲A∨毛片| 92精品国产自产在线观看| 亚洲国产综合精品一区| 免费人成在线观看成人片| 国产免费观看av大片的网站| 在线观看精品国产入口| 青青青视频蜜桃一区二区| 久久久久人妻精品一区三寸蜜桃| 国产极品美女在线观看| 国产a网站| 国产福利一区二区在线观看| 亚洲人网站| 国产成人精品一区二区不卡| 五月天久久综合| 亚洲中文字幕日产无码2021| 午夜视频日本| 青青青伊人色综合久久| 欧美三級片黃色三級片黃色1| 国产啪在线| 国产呦视频免费视频在线观看| 国产亚洲一区二区三区在线| 日日噜噜夜夜狠狠视频| 无码人妻热线精品视频| 亚洲日本一本dvd高清| 国产综合欧美| 尤物成AV人片在线观看| 国产欧美精品专区一区二区| 毛片网站在线播放| 日本精品αv中文字幕| 亚洲人成高清| 免费看久久精品99| 免费激情网站| 国产男人天堂| 国产精品片在线观看手机版| 日韩高清欧美| 久久综合色天堂av| 老司机精品一区在线视频| 国产亚洲欧美在线人成aaaa| 日本在线免费网站| 婷婷六月综合网| 久久久久亚洲av成人网人人软件| 国产美女免费| 成人午夜精品一级毛片| 国产二级毛片| 国产成人无码Av在线播放无广告| 最新国产麻豆aⅴ精品无| 狠狠色噜噜狠狠狠狠奇米777| 久热中文字幕在线观看| 亚洲一区无码在线| 久热中文字幕在线观看| 中文字幕永久在线观看| 中文字幕在线看视频一区二区三区| 日本黄网在线观看| 日韩av无码DVD| 毛片视频网| 香蕉视频在线观看www| 人妖无码第一页| 日韩人妻少妇一区二区| 国产一级一级毛片永久| 2021国产在线视频| 青青草久久伊人| 一区二区三区高清视频国产女人| 国模私拍一区二区三区| 高清无码一本到东京热| 日韩欧美国产另类| 亚洲激情区| 一级毛片在线播放免费观看| 欧美日韩国产成人高清视频| 欧美高清国产| 91九色视频网| 日本精品一在线观看视频| 国内精品视频在线| 国产精品一区二区不卡的视频| 亚洲天堂成人在线观看| 亚洲中文字幕无码爆乳| 国产毛片不卡| 国产久草视频| 国产91透明丝袜美腿在线|