張 雄,趙禮峰
(南京郵電大學(xué) 理學(xué)院,江蘇 南京 210023)
基于泛化能力的K-均值最佳聚類數(shù)確定方法
張 雄,趙禮峰
(南京郵電大學(xué) 理學(xué)院,江蘇 南京 210023)
針對K-均值聚類算法需要事先確定聚類數(shù),而人為設(shè)定聚類數(shù)存在極大主觀性的缺點,提出了一種基于泛化能力的最佳聚類數(shù)確定方法。該方法認(rèn)為:一個好的聚類結(jié)果,應(yīng)該對未知的樣本有著良好的泛化能力。其通過設(shè)計一種泛化能力指標(biāo)(GA)來評價得到的聚類模型對未知樣本的分類能力,泛化能力指標(biāo)的值越大,則聚類模型的效果越好,以泛化能力最優(yōu)的聚類模型所對應(yīng)的K值作為最佳聚類數(shù)。為了測試所提出方法的穩(wěn)定性和有效性,分別基于真實數(shù)據(jù)集Iris以及人造數(shù)據(jù)集對基于泛化能力的最佳聚類數(shù)確定方法進(jìn)行了實驗驗證,均能準(zhǔn)確找到數(shù)據(jù)集最佳聚類數(shù)。實驗結(jié)果表明,該方法能夠簡單、高效地獲得最佳聚類數(shù),且對數(shù)據(jù)集的聚類效果良好。
K-均值;最佳聚類數(shù);泛化能力;非監(jiān)督學(xué)習(xí)
聚類分析[1]也稱無教師學(xué)習(xí)或無指導(dǎo)學(xué)習(xí),它是在沒有訓(xùn)練目標(biāo)的情況下將樣本劃分為若干簇的方法,其目的是建立一種歸類方法,將一批樣本或變量,按照它們在特征上的疏密程度進(jìn)行分類,使得組內(nèi)樣品的相似度達(dá)到最大,而組間的差異也達(dá)到最大。到目前為止,還沒有一種具體的聚類算法可以適用于解釋各種不同類型數(shù)據(jù)組成的多樣化結(jié)構(gòu)數(shù)據(jù)集。聚類方法大致可分為以下幾種:劃分式聚類算法、層次聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法和基于模型的聚類算法[2]?!?br>