摘要:通過分析在電子商務(wù)環(huán)境下Web挖掘的現(xiàn)狀,考慮到Web數(shù)據(jù)的海量性和高維度性對抽取隱含的、事先未知的知識所帶來的復(fù)雜性和維數(shù)災(zāi),在普通K均值聚類、PSO聚類和K均值與PSO混合聚類算法的基礎(chǔ)上。提出了一種將主成分分析與PSO混合聚類算法相結(jié)合的模型來對Web服務(wù)器中的日志文件進(jìn)行聚類分析,將抽取的相關(guān)Web數(shù)據(jù)進(jìn)行主成分分析,分析結(jié)果作為PSO混合聚類算法的輸入數(shù)據(jù),這樣不僅減少了輸入變量的維數(shù),減少聚類的規(guī)模,而且保留了原始變量的主要信息,消除變量之間的多重共線性,為具有海量性、高維度性、異構(gòu)性等特點(diǎn)的Web數(shù)據(jù)聚類提供一種有效的模型方法。
關(guān)鍵詞:主成分分析;K均值聚類;粒子群優(yōu)化;混合粒子群聚類;Web聚類;維數(shù)災(zāi)
中圖分類號:TP303 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2010)09-3259-04