999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的選取K-means初始聚類中心算法

2021-08-06 08:26:08張嘉龍
現代計算機 2021年18期
關鍵詞:實驗

張嘉龍

(華南農業大學數學與信息學院,廣州510642)

0 引言

機器學習是目前非常熱門的一門學科,它包含多種快捷實用的算法,給人們帶來了極大的便利,其中包含的聚類算法是一種無監督的學習算法,K-means算法則是最常用的聚類算法之一。

K-means算法目前廣泛應用[1-4]于聚類劃分,是一種經典的聚類算法,但由于該算法選取初始聚類中心的隨機性,經常出現數據聚類不穩定的結果,且結果容易陷入局部最優。因此,研究一種具有穩定聚類效果和有較高準確率以及低迭代次數的聚類算法具有重要意義。

針對傳統的K-means聚類算法的初始聚類中心選取問題,本文借鑒文獻[5-7]所提出的相異度及相異度矩陣的概念,通過建立相異度矩陣,并計算總體平均相異度以及行平均相異度,同時構造集合S,通過類似Dijkstra算法的思想,隨相異度增長趨勢不斷遴選合適的樣本點進入集合S,最終通過對S內對應樣本點的屬性求平均得到K-means算法的初始聚類中心,隨后在數據集中刪除集合S內包含的樣本點,利用得到的新數據集重新執行算法,最終可以得到K個初始聚類中心,隨之采用K-means算法得到聚類結果。實驗表明,相比于傳統聚類算法,新的算法擁有穩定的聚類效果,且有較高的聚類準確率和較少的迭代次數,同時對比于文獻[8]和文獻[9]的算法所得結果,新算法在保持聚類結果準確率不變的情況下,迭代次數大幅下降。

1 新的初始聚類中心選擇算法

1.1 算法相關概念

定義7:集合S={c1,c2,…,cn},表示遴選的第ci個樣本點的下標集合,i∈{1,2,…,n},其中ci為小于n的任意正整數,且集合中任意兩個元素之間互不相等,記RS為S中已選樣本點所對應的相異度矩陣的行組成的矩陣。

1.2 算法思想

設需要聚類的類別數為K,本文算法通過計算樣本點間的相異度,然后根據相異度建立相異度矩陣。同時,為了得到最密集的一群樣本點,首先計算相異度矩陣中每一行的平均值,并選取平均值最小的一行,將該行對應的樣本點作為起點,尋找離該樣本點最近的另外一個樣本點,即尋找相異度矩陣中該行非對角線上元素(對角線為該樣本點本身的相異度)的最小值,將該最小值對應的樣本點與最初的一個樣本點所對應的下標加入集合S。

然后借鑒Dijkstra算法的思想,再尋找離集合S中對應樣本點距離之和最近的下一個樣本點,同時為了讓集合S中的最終樣本點數量取得合適的值,該樣本點需與集合S中對應的任一樣本點的相異度不能超過總體平均相異度。按如上方法不斷遴選樣本點,最后得到飽和的集合S,將S中對應的所有樣本點的屬性取平均,該平均值即作為第一個初始聚類中心。

隨之將集合S內對應的樣本點從數據集X中刪除,得到新的數據集,根據新的數據集重新建立相異度矩陣,按相同的方法得到剩余的初始聚類中心,直到初始聚類中心個數達到K,然后采用K-means算法得到聚類結果。

1.3 算法步驟

遴選K個初始聚類中心的方法步驟:

(1)已選初始聚類中心個數記為num,num初始化為0;

(2)根據樣本集X建立相異度矩陣R,同時構造空集S;

(3)根據R計算總體平均相異度Mean_r以及各行平均相異度,找到行最小平均相異度MMR,并記錄其所在的行row;

(4)將R中對角線上的元素賦值為無窮;

(5)在Rrow中找到最小值rrowj,將下標row和j加入集合S,同時將R中的rrowj和rjrow兩個元素賦值為無窮,根據R和S建立矩陣RS;

(6)對RS中的每列,若該列任一元素的值均小于Mean_r,則對該列進行求和,若任一列中的任意一個值均不小于Mean_r或者S中的元素個數等于n,進入(7),否則,在所有進行求和的列當中找到和最小的列k,將k加入集合S,同時將R中的rxk和rkx均賦值為無窮,其中x∈S,根據R和S重建矩陣RS,重新執行(6);

(7)計算集合S中所有對應樣本點屬性的平均值,將該平均值作為下一個初始聚類中心,同時令num=num+1,若此時num==K,結束遴選算法,否則進入(8);

(8)將集合S中所對應的所有樣本點從數據集X中刪除,重新執行(2)。

根據以上方法步驟,可以得到K個初始聚類中心,然后調用K-means算法,得到聚類結果。

1.4 K-means算法思想

首先選取K個初始聚類中心(本文采用上述算法得到的初始聚類中心),計算每個樣本點到每個聚類中心的距離,將樣本點分到距離最近的聚類中心,形成K個簇。在每個簇當中,計算該簇中所有樣本點的平均值,以該值作為新的聚類中心,重新計算樣本點到新的聚類中心的距離并重新分配,直到新的初始聚類中心位置不再變化或變化小于某個閾值時停止算法,最終得到分類最佳的K類樣本點。

2 實驗結果

本文采用UCI數據集中的三種數據集進行實驗,分別為Iris、Wine、Seeds,其對應的屬性描述如表1所示。同時將新算法得到的實驗結果與傳統K-means算法、文獻[8]算法以及文獻[9]的算法得到的結果進行比較。

表1 數據集描述

由于K-means算法的不穩定性,本文實驗中將對其運行五次得到的結果取平均,以此與其他算法得到的結果進行比較。

運用不同的算法進行實驗,得到的實驗結果如表2-表4所示。

表2 Iris數據集實驗結果對比

表3 Wine數據集實驗結果對比

表4 Seeds數據集實驗結果對比

由表2-表4可以看出,相比于傳統的K-means算法,本文算法能夠得到穩定的聚類結果,同時在迭代次數上有明顯的下降,且準確率也較高,在Iris數據集中,迭代次數平均下降2.6次,準確率平均提高12.93%。在Wine數據集中,迭代次數平均下降3.6次,準確率提高2.47%。而在Seeds數據集中,平均迭代次數下降最多,為6次,且準確率也提升了0.28%。

而對比于文獻[8]和文獻[9]的算法,本文算法在保持準確率的情況下,迭代次數有較大的下降,特別是在Iris數據集和Seeds數據集上,對于Iris數據集,由原來的7次和8次下降到3次,而對于Seeds數據集,由原來的8次和12次下降到2次,下降的程度較大。

3 結語

本文針對傳統K-means算法聚類不穩定的缺陷,提出了一種新的算法,通過建立相異度矩陣,利用MM R和R E得到K個初始聚類中心。實驗結果表明,新的算法具有穩定的聚類效果,且有較高的分類準確率,同時迭代次數有明顯的下降。

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 精品人妻无码区在线视频| 国产一级一级毛片永久| 亚洲日本精品一区二区| 亚洲日本中文综合在线| 91麻豆精品视频| 亚洲一区免费看| 中文字幕久久亚洲一区| 久久99蜜桃精品久久久久小说| 国产日韩欧美在线播放| 亚洲综合在线网| 欧美一区二区自偷自拍视频| 欧美成人一级| 欧美色99| 精品自窥自偷在线看| 欧美啪啪一区| 91久久国产综合精品| 免费欧美一级| 欧美成人综合视频| 中文字幕无线码一区| 欧美性色综合网| 国产伦精品一区二区三区视频优播 | 久久国产亚洲偷自| 国产精品青青| 人妻无码AⅤ中文字| 国产迷奸在线看| 亚洲无码精彩视频在线观看| 国产成人亚洲欧美激情| 99久久人妻精品免费二区| 亚洲国产成人麻豆精品| 99er精品视频| 国产精品久久久久鬼色| 精品国产一区二区三区在线观看 | 中文字幕乱码二三区免费| 日韩中文无码av超清| 2020最新国产精品视频| 亚洲国产在一区二区三区| 国产日韩丝袜一二三区| 在线观看免费人成视频色快速| 九九热视频在线免费观看| 久久综合一个色综合网| 中文字幕人成乱码熟女免费| 国产99免费视频| 亚洲第七页| 亚洲另类第一页| 国产在线无码av完整版在线观看| 国产高清国内精品福利| 亚洲国产精品一区二区第一页免 | 国产精品成人一区二区| 香蕉久久国产超碰青草| 97精品伊人久久大香线蕉| 国产精品香蕉在线观看不卡| 亚洲久悠悠色悠在线播放| 亚洲精品日产AⅤ| 九九久久精品国产av片囯产区| 国产精品林美惠子在线观看| 免费在线国产一区二区三区精品| 亚洲制服丝袜第一页| 日本午夜精品一本在线观看| 亚洲专区一区二区在线观看| 亚洲第一区在线| 亚洲91在线精品| 国产h视频免费观看| 国产SUV精品一区二区6| 久热re国产手机在线观看| 最新日本中文字幕| 亚洲香蕉在线| 午夜一区二区三区| 毛片在线播放a| 91精品国产自产在线老师啪l| 波多野结衣视频一区二区| 在线观看亚洲国产| 久久精品无码国产一区二区三区| 手机精品福利在线观看| 噜噜噜久久| 国产极品美女在线观看| 久久精品人妻中文系列| 久久国产精品影院| 1769国产精品免费视频| 久久久久无码精品| 久久夜夜视频| 国产一级片网址| 日本国产精品一区久久久|