摘要:為了解決傳統(tǒng)聚類算法難以獲得較好的web用戶聚類結(jié)果、使用的指標(biāo)無法全面反映用戶行為特征的問題,提出一種基于粒度原理的web用戶聚類算法。首先對離散化數(shù)據(jù)給出稀疏相似度和初始等價(jià)關(guān)系的定義,進(jìn)行初次聚類;然后設(shè)計(jì)可變精度的二次聚類模型對初始聚類結(jié)果進(jìn)行修正;最后結(jié)合應(yīng)用領(lǐng)域定義一種新的聚類質(zhì)量評價(jià)模型。算法中面向web用戶引入多指標(biāo)體系,各種指標(biāo)既可獨(dú)立考核,也可靈活組合,并同時(shí)兼顧決策者對指標(biāo)的偏好。實(shí)驗(yàn)證明,該算法適用于web用戶的高維稀疏數(shù)據(jù),不依賴樣本的順序,具有更廣應(yīng)用性,可提供多粒度分析結(jié)果,得到的聚類結(jié)果能真實(shí)反映數(shù)據(jù)的特征。