摘 要:針對K一均值算法在隨機選取初始類中心時存在不足、對噪聲和孤立點敏感、不適用于發現大小差別很大的類的問題,借鑒分子間的相互作用力模型,將文本模擬成數據場中的數據點,綜合考慮文本間的相似度和相異度,提出一個新的數據勢值計算公式。根據文本數據的勢,剔除孤立點、確定初始類中心。實驗結果證明,該算法可以提高收斂速度,消除噪聲和孤立點對聚類結果的影響,提高聚類的精度,適用于主題分布不均勻的文本集。
計算機應用研究2010年12期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網