鄧先均 楊雅茜 羅昭 陳旭東 沈小平
摘要:數據聚類是基于某種相似性度量在多維數據中識別自然分組或集群的過程。聚類是許多不同學科的基本過程。 因此,來自不同領域的研究人員正在積極研究聚類問題。文章首先對代表性的基于劃分的聚類方法進行了一個概述,在此基礎之上,針對網絡輿情熱點話題檢測,文章使用這幾個聚類算法進行對比試驗,進而分析出更適用于熱點話題檢測方面的算法。最后對文章的研究進行總結,歸納出本研究的局限性,并指出改進的方向。
關鍵詞:數據聚類;聚類算法;網絡輿情;熱點話題檢測
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2018)05-0146-04
1 引言
數據聚類是基于某種相似性度量在多維數據中識別自然分組或集群的過程,這是模式識別和機器學習中一個重要的處理過程[1]。此外,數據聚類也是人工智能的一個核心問題。聚類算法被使用在很多應用中,比如圖像分割、矢量和彩色圖像量化、數據挖掘、機器學習等領域[2-4]。數據聚類是無監督模式識別中的一個難題,因為數據中的群集可能具有不同的形狀和大小[5]。
熱點話題指的是在某個時間段內人們比較關注的話題,涉及民生、政治、經濟以及文化等方面[6]。熱點話題檢測的核心部分實質上是文本聚類的過程,對于不同的聚類算法對應不同程度的有效性[7]。文章首先對常用的基于劃分的聚類算法進行了一個概述,在此基礎上使用這些算法進行對比試驗,進而選擇出適合熱點話題檢測的算法?!?br>