王競哲
【摘要】 數(shù)據(jù)挖掘是完成數(shù)據(jù)分析的關(guān)鍵,在數(shù)據(jù)挖掘中常用的一種方法就是聚類分析,在具體的分類中可遵循一定的原則和規(guī)律將重要數(shù)據(jù)實施分類,從而通過分析發(fā)現(xiàn)其應(yīng)用價值。本文主要探討的是模糊聚類分析在數(shù)據(jù)挖掘中的相關(guān)運用問題,在具體的分析中首先分析了常用的聚類算法,其次就模糊聚類分析相關(guān)內(nèi)容展開分析,最后重點總結(jié)了模糊聚類分析在數(shù)據(jù)挖掘中的應(yīng)用。
【關(guān)鍵詞】 模糊聚類分析 數(shù)據(jù)挖掘 數(shù)據(jù)處理 應(yīng)用分析
一、常用的聚類算法
聚類顧名思義就是將數(shù)據(jù)按照一定的規(guī)則進行分類整理,因此在數(shù)據(jù)分類中,不同的聚類方法有著不同的特點,常用的聚類算法主要有以下幾種:
1、按照層次為基礎(chǔ)的聚類。按照層次為基礎(chǔ)的數(shù)據(jù)分類主要是根據(jù)層次將主要數(shù)據(jù)進行聚類,在具體操作中可以從上向下進行分解,同時也可以從下向上進行合并,這也是基于層次聚類的操作方法。在實際應(yīng)用中要求假設(shè)數(shù)據(jù)是一次性給定的,屬于一種非增量算法,這種聚類方法在單連接、全連接以及平均連接技術(shù)的時間以及空間復雜程度為0(n2)。
2、以劃分為基礎(chǔ)的聚類。通常根據(jù)實際需要建立n個劃分,通過循環(huán)定位技術(shù)將研究數(shù)據(jù)從一個劃分向另外一個劃分移動,在移動中促進劃分質(zhì)量的改善。
3、以密度為基礎(chǔ)的聚類。這種聚類方法主要以密度為基礎(chǔ),主要依據(jù)就是研究數(shù)據(jù)周圍密度的不斷增長,在具體的應(yīng)用中有兩種操作方法,一種是基于密度分布函數(shù)的聚類,另外一種方法就是以高密度連接區(qū)域為基礎(chǔ)的聚類方法。
4、以網(wǎng)格為基礎(chǔ)的聚類。將研究多項根據(jù)實際要求劃分成若干個有限單位,形成網(wǎng)格機構(gòu),根據(jù)網(wǎng)格結(jié)構(gòu)實施數(shù)據(jù)聚類。
5、以模型為基礎(chǔ)的聚類。對于每種聚類建立相應(yīng)的模型,根據(jù)這種模型發(fā)現(xiàn)與之對應(yīng)的數(shù)據(jù)。當然以模型為基礎(chǔ)的聚類算法可能需要構(gòu)建反映數(shù)據(jù)空間分布的密度函數(shù),進而完成數(shù)據(jù)的定位。
二、模糊聚類分析概述
常言道“物以類聚,人以群分”,可見聚類問題的研究由來已久,而且伴隨著大數(shù)據(jù)時代的來臨,對于聚類分析的要求是越來越高。聚類分析需要掌握不同數(shù)據(jù)之間的相似性,但是早期的聚類算法大多采用的是硬劃分,也就是對于所研究的數(shù)據(jù)必須有明確的分類,如果不是這一類,那就是另外一類,忽視了數(shù)據(jù)本身具有的復雜性,在一定程度上忽視了數(shù)據(jù)的多變性,模糊理論的提出可有效地應(yīng)對數(shù)據(jù)的變化性和復雜性,在聚類分析上更加客觀真實[1]。
模糊聚類最早是由Ruspin提出的,在提出這一概念后研究了多種聚類方法,多種聚類方法具有一定的共同點,通過多種文獻的比較,一個合適的聚類應(yīng)該滿足重要的三個條件,主要是:(1)自反性,也就是在聚類中任何一個研究對象都需要和自己是同一類,數(shù)學定義可以表示為Iii=1;(2)對稱性,就是說a和b屬于同類,那么反過來,b和a也應(yīng)該術(shù)同類,數(shù)學表達為Iij=Iji;(3)傳遞性,就是說a和b屬于同類,b和c屬于同類,那么a和c也應(yīng)該是同類。
模糊聚類主要操作步驟為去頂分類對象,抽取因素數(shù)據(jù);建立模糊相似關(guān)系,主要是模糊相似矩陣,具體的可采用最大最小法,算數(shù)平均最小法、相關(guān)系數(shù)法等;最后是根據(jù)模糊相似矩陣完成數(shù)據(jù)分類。
三、模糊聚類分析在數(shù)據(jù)挖掘中的應(yīng)用分析
3.1模糊數(shù)據(jù)算法分析
模糊聚類算法在實際應(yīng)用中大多采用基于目標函數(shù)的方法,在具體的聚類中主要劃分標準為數(shù)據(jù)之間的相似性或者相異性函數(shù),實際上也就是一種轉(zhuǎn)化思想,將聚類問題最轉(zhuǎn)化為函數(shù)極值的優(yōu)化問題,當然經(jīng)過多年的研究,在目標函數(shù)聚類算法中較為完善的主要是FCM,這種算法是將聚類分析問題轉(zhuǎn)化為非線性規(guī)劃問題。不過在此基礎(chǔ)上已經(jīng)發(fā)展起來了快速模糊C—均值聚類算法,這種算法是將一層硬C-均值算法置于模糊C-均值聚類算法之前,這種聚類方法獲取的聚類信息更加豐富,相應(yīng)的在算法難度上也有所增加。這種算法面對現(xiàn)代大數(shù)據(jù)時代有明顯的優(yōu)勢。
3.2模糊聚類特點分析
模糊聚類分析相對于早期的聚類方法有著明顯的優(yōu)勢,具體的有以下幾點:(1)高效率,模糊聚類算法相對于K-中心點算法、K-平均值算法計算量相對減少,提高了時間效率。而且在處理中可以將數(shù)據(jù)形成相似矩陣,通過對相似矩陣的處理完成聚類,提高數(shù)據(jù)處理工作效率;(2)靈活性高,在聚類中可根據(jù)具體要去動態(tài)的設(shè)置λ值,從而得到不同的聚類結(jié)果,這種算法降低工作量的同時還能提高聚類的靈活性;(3)應(yīng)用范圍更廣,對于數(shù)據(jù)邊界清晰的,傳統(tǒng)方法以及模糊聚類都可應(yīng)用,但是對于大量數(shù)據(jù)分界不明顯的,則只有通過模糊算法才能取得滿意的聚類;(4)在應(yīng)用中可更好的找出孤立點;(5)有較強的伸縮性[2]。
四、結(jié)束語
模糊聚類的提出和應(yīng)用為解決大數(shù)據(jù)時代信息技術(shù)奠定了基礎(chǔ),這種聚類方法可以更方便快捷的從數(shù)據(jù)中尋找有重要價值的數(shù)據(jù),具有較高的時間操作性和便捷性,在未來的數(shù)據(jù)處理中將發(fā)揮重要的作用。
參 考 文 獻
[1]王穎潔.模糊聚類分析在數(shù)據(jù)挖掘中的應(yīng)用研究[J].大連大學學報,2011,03:1-4.
[2]李晶,楊玚.模糊聚類分析在數(shù)據(jù)挖掘中的應(yīng)用[J].漯河職業(yè)技術(shù)學院學報,2010,05:4-5.