蘇曉雨 吳 笛
(武警警官學院 四川·成都 610200)
互聯(lián)網(wǎng)心理是指展示多方向的定期行動,以影響某些領域的社會輿論導向。內(nèi)容聚焦于對新聞媒體的分析,研究新聞發(fā)布的模式,找出不同的熱門話題,以及在網(wǎng)絡上是否發(fā)生了任何類型的價值判斷。本文提出一種對網(wǎng)絡中大眾媒體新聞進行聚類的算法。在組成聚類后分析其參數(shù),以了解大眾媒體的新聞傳播過程,最終獲得相應的新聞主題分布。
本文采用的聚類算法庫分為:向量空間模型、k-means變化、生成算法、光譜算法、降維方法和基于短語的方法。向量空間模型是一種經(jīng)典的方法,在同質主題上顯示出更好的效果,并且需要知道聚類的數(shù)量。K-means算法及其擴展是歷史上最流行的分層和分區(qū)聚類的方法。上述算法缺點在于,在大型數(shù)據(jù)體上的有效性下降,并且依賴于隨機初始化。此外,易受到異常值和噪聲的影響,并且需要知道聚類的數(shù)量。生成算法對離群值也很敏感,這使得它們在異質數(shù)據(jù)上的效果較差,并且有集群數(shù)量作為輸入。當數(shù)據(jù)的向量模型可以被呈現(xiàn)為二叉圖時,頻譜聚類顯示出很高的準確性。這一組的優(yōu)點是它不需要聚類的數(shù)量,可以在處理過程中找到這個值。降維方法最初是為計算機視覺應用而開發(fā)的,已被有效地用于文檔聚類。其主要缺點是,它們依賴于隨機初始化,導致在同一數(shù)據(jù)上產(chǎn)生不同運行結果。然而,它們有高的性能,其中一些可以估計出集群的最佳數(shù)量。……