999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的K-Modes聚類算法

2019-07-08 03:41:08賈彬梁毅蘇航
軟件導刊 2019年6期

賈彬 梁毅 蘇航

摘 要:為了改善傳統K-Modes聚類算法相異度度量公式弱化了類內相似性,忽略了屬性間差異,以及單一屬性值的Modes忽視了某一屬性可能存在多屬性值組合,且算法受初始中心點影響很大的缺點,基于多屬性值Modes的相異度度量方法提出MAV-K-Modes算法,并采用一種基于預聚類的初始中心選取方法。使用UCI數據集進行實驗,結果表明,MAV-K-Modes算法相比于傳統K-Modes算法,其正確率、類精度和召回率都有明顯提升,且MAV-K-Modes算法適合于并行化改造。

關鍵詞:聚類算法;相異度度量;初始中心點;多屬性值Modes;K-Modes

DOI:10. 11907/rjdk. 182651

中圖分類號:TP312

文獻標識碼:A文章編號:1672-7800(2019)006-0060-05

Abstract:The dissimilarity measure method of traditional K-Modes clustering algorithm suffers from some shortcomings, such as weakening the similarity within a class, ignoring the difference between attributes, and the Modes with single attribute value neglects that a property may have multiple attribute value combinations, and the algorithm is greatly affected by the initial center points. A MAV-K-Modes algorithm is proposed based on the dissimilarity measure method of multi-attribute value Modes, and an initial center selection method based on pre-clustering is adopted. The results of experiments using UCI datasets show that the MAV-K-Modes algorithm has a significant improvement in accuracy rate, precision rate and recall rate compared with the traditional K-Modes algorithms, and the MAV-K-Modes algorithm is suitable for parallel transformation.

Key Words: clustering algorithm; dissimilarity measure; initial center points; multi-attribute value Modes; K-Modes

0 引言

近年來隨著互聯網的快速發展,信息量以前所未有的速度迅猛增長。聚類算法[1]作為一種有效的數據挖掘工具,其應用十分廣泛,目前已成為國內外學者的研究熱點。聚類算法的核心是將一個數據集劃分成幾個子集,并使同一子集中的元素盡可能相似,且不同子集中的元素盡可能相異。聚類算法用來訓練的樣本標記信息是未知的,因而也被稱作無監督學習方法[2],需要通過學習探究數據內在性質及規律。

基于劃分的K-Means算法[3]是一種用于處理大數據集的有效且應用廣泛的聚類算法,但該算法只能處理數值型數據,而大多數實際數據集不僅包括數值型數據,還包括大量分類屬性數據(Categorical Data)。Huang[4]提出一種K-Modes算法,對K-Means算法進行拓展,使其可以處理分類屬性數據。算法采用簡單0-1匹配機制度量兩數據點在某一屬性下的距離,目標函數定義為所有數據點與所屬聚類中心Modes相異度量總和。該相異度度量方法弱化了類中相似性,也忽略了屬性之間權重的差異性。傳統算法在聚類過程中使用基于頻度的方法修正聚類中心Modes在每個屬性中的取值,但每個屬性只保留最高頻率屬性值的聚類中心Modes,會造成其它較高頻率的重要屬性值丟失,導致準確率降低。K-Modes算法受初始中心點選取的影響也很大,容易使目標函數陷入局部最優,導致整體聚類效果下降。

針對傳統K-Modes算法的不足,很多學者都提出了改進方法。針對相異度度量公式問題,Ng[5]、Goodall[6]、趙亮[7]、DinoIenco[8]提出新的類內屬性距離計算公式,但只強化了類內相似性,而未考慮屬性間的差異性;HongJia[9]、Ahamad[10]、Hsu[11-12]、李仁侃[13]、Jayabal[14]提出的方法只考慮了不同屬性的權重計算;石雋鋒[15]定義一種基于期望熵的新目標函數;黃苑華[16]提出基于結構相似性的方法,但計算代價較大,且不易于進行數據并行處理;梁吉業、白亮[17]在提出基于粗糙集的相異度量方法的同時,也考慮了類內相似性與屬性權重的差異,但當屬性具有很多值時,粗糙隸屬度的計算量很大。針對初始選點問題,Huang[4]提出將最頻繁的屬性值均勻分配到初始Modes中;Sun[18]將Bradley的迭代初始點優化算法應用到算法中;Cao[19]結合距離和密度提出一種初始中心選擇方法。但這些選點方法只適用于單屬性值Modes的初始化。

由于以上改進方法均未考慮聚類中心Modes每個屬性只能取單屬性值的問題,且K-Modes算法受初始中心點選取影響很大,容易陷入局部最優,導致整體聚類效果下降,因此本文提出一種MAV-K-Modes算法。使用基于多屬性值Modes的相異度度量方法,可有效防止重要屬性值丟失,并強化同一屬性內屬性值的相似性,突出不同屬性的差異性,使相異度度量更加準確。新的多屬性值Modes相異度度量方法使用信息熵[20]計算屬性權重,以強化屬性間的差異,而新的類內屬性距離計算公式強化了類內相似性。同時,針對多屬性值聚類中心Modes提出一種基于預聚類的初始選點方法,通過統計分析預聚類結果,得到各類的多屬性值聚類中心Modes作為初始中心點,以減少局部最優情況的發生。實驗結果表明,MAV-K-Modes算法在正確率、類精度和召回率方面相比傳統算法都有較大提升,因而有效提升了聚類效果,且該算法可滿足數據并行要求,經過并行化改造后可大幅提升算法執行效率。

主站蜘蛛池模板: 国产精品所毛片视频| A级毛片高清免费视频就| 亚洲国产黄色| 欧美中文字幕第一页线路一| 99热这里只有精品在线观看| 国产视频一区二区在线观看| 国产99视频在线| 国产亚洲精品资源在线26u| 国产又粗又爽视频| 国产网站在线看| 网友自拍视频精品区| 熟妇人妻无乱码中文字幕真矢织江 | 国产成人高清在线精品| 91亚洲视频下载| 美美女高清毛片视频免费观看| www.99在线观看| 一级爆乳无码av| 国产精品免费p区| 永久免费av网站可以直接看的| 亚洲AⅤ无码日韩AV无码网站| 亚洲无码高清一区二区| 国产免费看久久久| 国产成人亚洲精品蜜芽影院| 色综合狠狠操| julia中文字幕久久亚洲| 人人看人人鲁狠狠高清| 青青青草国产| 久久久亚洲色| a毛片基地免费大全| 热久久这里是精品6免费观看| 亚洲精品视频免费看| 最新亚洲人成无码网站欣赏网| 精品无码国产自产野外拍在线| 国产精品v欧美| 久久久久中文字幕精品视频| 国产H片无码不卡在线视频| 欧美综合激情| 98精品全国免费观看视频| 亚洲国产日韩视频观看| 2021国产精品自产拍在线观看 | 一本大道无码日韩精品影视| 狠狠做深爱婷婷久久一区| 亚洲AV无码久久精品色欲| 久久99精品久久久久久不卡| 看你懂的巨臀中文字幕一区二区| 亚洲全网成人资源在线观看| 18禁高潮出水呻吟娇喘蜜芽| 国产日本一线在线观看免费| 很黄的网站在线观看| 97色伦色在线综合视频| 日韩久草视频| 一本久道久久综合多人| 国产成年女人特黄特色大片免费| 本亚洲精品网站| 三上悠亚精品二区在线观看| 国产69精品久久久久妇女| 精品人妻无码中字系列| 试看120秒男女啪啪免费| 97狠狠操| 国产亚洲欧美另类一区二区| 国产第八页| 无码高潮喷水在线观看| 999精品视频在线| 免费观看国产小粉嫩喷水| 欧美福利在线| 91系列在线观看| 久久99精品久久久久纯品| 国产精品亚洲一区二区在线观看| 亚洲熟女中文字幕男人总站| 97一区二区在线播放| 欧美一区二区福利视频| 国产精品亚洲一区二区三区在线观看| 国产精品刺激对白在线| 国产欧美视频一区二区三区| 国产成人精品亚洲77美色| 国产免费精彩视频| 国产免费自拍视频| 色综合久久88| 亚洲AV无码不卡无码| 夜精品a一区二区三区| 欧美激情网址| 亚洲欧美自拍视频|