999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網格密度的K—均值算法簇中心點識別的研究

2019-01-15 12:39:42劉利康
西部論叢 2019年1期

劉利康

摘 要:傳統的K-均值聚類算法只能通過人工參數設定K值和初始簇中心點,而人工方式選擇的K值和初始簇中心點往往有較大偏差,直接導致錯誤的分簇結果.基于上述問題,本文提出了一種基于網格和密度的K值與最佳初始簇類中心自動識別的方法。經理論和實驗證明,該方法在很大程度提高了聚類結果的質量和算法的效率。

關鍵詞:K-均值 網格聚類 簇中心點 密度峰值

一、引言

K-均值算法是目前聚類分析算法中應用歷史較久、范圍較廣泛的一種。傳統的K-均值以平方誤差準則較好的實現了空間聚類,對處理大規模數據集有較大優勢。但K-均值太依賴于K值、初始簇中心點的設定。由于大多數情況下,聚類數K和簇的大致中心位置無法事先確定,因此需要通過優化算法對聚類數K和最佳初始簇中心點進行估計。但對于如何確定K和各個簇中心的位置范圍,目前尚無明確的理論指導,本文則針對此問題展開討論。

本文結合K-均值算法和網格、密度算法的優點,提出一種新的K-均值算法中K值和最優初始簇中心點自動識別的方法。經過理論和實驗分析驗證了該方法可以通過計算分析自動給出K值和較佳的初始簇中心點,很大程度改善了K-均值需要人工設置參數的問題,有效提高了聚類精度和效率。

二、典型基于劃分方法—K-均值算法

k-均值算法由J.B.MacQueen于1967年提出[4],是經典聚類算法之一。近幾十年來被廣泛應用于生物統計、圖像處理、信息檢索、客戶分類等各領域。針對該算法的完善、改進和擴展,人們做了大量的長時間研究工作。

設待分析數據集合D的屬性數為d,數據對象數量為N,以歐式距離作為數據對象的差異程度的度量,則D可看作d維歐式空間Rd中的數據點集。設每個數據點為Xi,則D= {Xi,i=1,2,...,N}。

k-均值算法以k為參數,其核心思想是將N個數據點分為k個簇,使得每個簇中的數據點到該簇中心點的平方和最小,算法的流程如下:

1.從N個數據點中任意選取k個作為初始的簇類中心點;

2.分別計算每個數據點到各簇中心點的距離,以最近鄰原則,將該數據點分配到距離最近的簇中;

3.所有數據點分配完畢后,重新計算k個聚類的中心位置;

4.與前一次計算所得的k個聚類中心點的位置比較,若中心點位置變化的程度小于某閥值(即準則函數收斂),那么算法結束;否則轉步驟2繼續執行。

k-均值算法的優點包括:執行效率高、伸縮性強、設計思路簡單明了等。但同樣k-均值算法也存在著一定缺點,主要有:

1.算法擅長處理球狀簇的數據集,對于任意形狀的數據往往效果較差;

2.算法的k值需要人工指定,而這個k值是很難估計的。很多情況下,我們事先并不知道數據集應該分為幾類;

3.算法的初始簇中心點是隨機選取的,選取點不同,結果也可能不同,這種依賴性導致聚類結果的不穩定。且k-均值算法常采用誤差平方和準則函數作為聚類準則函數,導致結果容易陷入局部最優,難以獲取全局最優解;

4.算法需要不斷計算調整后的新的簇中心位置,然后不斷對數據點的分簇進行調整,因此在數據量大時,時間開銷非常大;

5.對噪聲點和孤立點敏感。

本文針對k-均值的k值和初始簇中心點的依賴性問題,提出一種通過網格化方法自動確定k值和選取最佳初始簇中心點的新思路,在此基礎上給出了改進的K-均值算法。

三、利用網格的貢獻值進行網格劃分

為便于空間定位和網格統計量的計算,改進的算法先對數據作歸一化,然后采用均勻劃分方法。設每一維上劃分長度相同的P個區間,則劃分產生Pd個網格。那么P值該取多大呢?這里引入網格貢獻值的概念來獲取最佳的網格劃分。

我們將網格看做盒子,網格中的數據點看作盒子中的小球,則最均勻的狀態是一個盒子裝一個球,這時數據集沒有簇產生,聚類沒有意義。但該狀態是小概率事件,現實中幾乎不可能出現。實際上數據分布往往是不均的,一個盒子可能裝好幾個球,也可能是空的。

我們在盒子和球的數量一一對應的條件下考察二者的關系。一個盒子是空的意味著另一個盒子多一個球,空盒子越多說明另外有盒子裝得越滿,分布越不均勻,聚類越容易,因此對聚類的貢獻越大。另外換個角度看,盒子裝得越滿,說明空盒子變的更多,有球的盒子之間的空盒子越多,空隙越大,聚類變容易,對聚類的貢獻也越大。

自然的引入單元網格貢獻值的概念,用C表示。容易想到將包含數據點數為1(基數為1)的單元網格貢獻值設0。因為均勻狀態的單元網格基數全部為1,對形成密度差沒有任何貢獻。直觀上看,一個盒子一個球是常態,正常情況應該就是這樣,談不上貢獻。把球從一個盒子拿到另一個盒子的運動為改變常態做了“功”,這里稱為“貢獻”。使狀態偏離常態越遠,“貢獻”就越大。

描述貢獻值最簡單的方式將貢獻值函數設置為線性函數C=|n-1|,將空盒子的貢獻值設為1,基數為1的盒子設為0,基數大于1的盒子設為n-1。為更符合貢獻值的變化曲線,一般采用Sigmoid核函數的變化形式進行描述:

稱基數為n的網格為n-網格,則n-網格的貢獻值為S(|n-1|)。這里將1-網格稱為臨界網格,易知當網格劃分和臨界網格確定后,全部網格的貢獻值總和越大,簇之間的空隙越大,類別特征越明顯。

我們稱基數大于臨界網格的網格為稠密網格,基數小于或等于臨界網格則稱為稀疏網格。臨界網格也可選擇基數為2,3,…,n的網格擔當,實踐證明,在數據量較大的時候,基數在1到4之間選擇常得到聚類效果佳的劃分。文中我們設臨界網格為1-網格,即網格數盡量與數據點數一致。令hd=N,則每一維劃分數P=[h],這里為提高聚類效率,讓P向下取整。

確定P值之后,將每維劃分成P個小區間,由于數據已歸一化,于是每維的取值范圍為[0,1],為保證每個數據點落到唯一的網格中,設第1個劃分區間為閉區間,其他情況下為左開右閉區間,…,。然后遍歷數據點集,將數據點依次放入所屬的網格中,并統計網格基數。遍歷完成后,將稠密網格按基數降序排序生成稠密網格降序列表G。

主站蜘蛛池模板: 久久精品人妻中文系列| 亚洲人成网站18禁动漫无码| 九色视频最新网址 | 99re视频在线| 日韩在线欧美在线| 在线中文字幕日韩| 99热这里只有免费国产精品| 狠狠色成人综合首页| 国产成人精品男人的天堂下载| 红杏AV在线无码| 欧美国产菊爆免费观看| 91精品国产自产在线老师啪l| 日本黄色a视频| 欧美亚洲中文精品三区| 亚洲国产精品一区二区第一页免| 国产99视频精品免费视频7| 无码精油按摩潮喷在线播放| 欧美第二区| 三级欧美在线| 高清大学生毛片一级| 国产丝袜无码精品| 少妇露出福利视频| 亚洲精品无码AV电影在线播放| 国产簧片免费在线播放| 青青网在线国产| 亚洲AV无码乱码在线观看代蜜桃 | 真实国产精品vr专区| 欧美日韩免费观看| 92精品国产自产在线观看| 久久精品国产亚洲麻豆| 亚洲成人在线免费| JIZZ亚洲国产| 国产成人精品在线1区| 这里只有精品国产| 亚洲无码A视频在线| 无码精品国产dvd在线观看9久| 婷婷六月综合网| 婷婷亚洲视频| 国产视频欧美| 亚洲欧美精品一中文字幕| 亚洲精品中文字幕无乱码| 啪啪啪亚洲无码| 91麻豆国产在线| 欧美午夜小视频| www.狠狠| 国产网站黄| 永久在线播放| 一本色道久久88| 91视频青青草| 亚洲视频欧美不卡| 91色爱欧美精品www| 第一页亚洲| 国产精品99r8在线观看| 国产乱视频网站| 9啪在线视频| 97在线视频免费观看| 最新国语自产精品视频在| 久久国产精品影院| 成人福利在线免费观看| 国产精品视频导航| 激情综合网址| 91尤物国产尤物福利在线| 欧美成人日韩| 青青青亚洲精品国产| 久久青草视频| 国产精品制服| 国产超碰在线观看| 看你懂的巨臀中文字幕一区二区| 国产成人综合日韩精品无码首页| 青草91视频免费观看| 精品国产欧美精品v| 久久久受www免费人成| 欧美黄色a| 久久先锋资源| 71pao成人国产永久免费视频| 欧美色视频日本| 亚洲精品日产精品乱码不卡| 亚洲国内精品自在自线官| 国产精品刺激对白在线| 幺女国产一级毛片| 2022国产91精品久久久久久| 国产成人久视频免费|