摘 要:關于網頁聚類的研究已經提出多種基于文本—鏈接模型的聚類算法,其中應用最廣泛的便是MS模型。針對MS模型在效率和計算精度方面的不足,提出了改進的TLMS模型。新模型通過將詞聚成詞簇、鏈接向量聚成鏈接簇的方法將MS模型的詞空間和鏈接空間進行大幅的壓縮,并應用近鄰傳播算法替代傳統的Kmeans算法對網頁進行聚類。實驗證明,TLMS模型+近鄰傳播算法聚類精度高、執行效率好。
關鍵詞:文本—鏈接模型; MS模型; 相似度; 近鄰傳播聚類算法
中圖分類號:TP311
文獻標志碼:A文章編號:10013695(2010)04125504doi:10.3969/j.issn.10013695.2010.04.014