謝修娟 ,李香菊,莫凌飛
(1.東南大學成賢學院計算機工程系,江蘇 南京 210000;2.東南大學儀器科學與工程學院,江蘇 南京 210000)
隨著媒體技術的不斷進步和信息傳播渠道的日趨多元化,當今社會進入了“人人都是新聞傳播者”的自媒體時代。廣大網民參與言論的熱情高漲,特別是微博的興起,網民可以通過電腦、手機隨時隨地發表言論。新浪微博——Twitter[1]類的新興網絡應用,自2009年推出,截至目前,注冊用戶已超過5億,月活躍用戶數約為2億,用戶每日發博量突破1億條[2]。可見,微博上的輿論已成為網絡輿情中極具影響力的一種。如何從海量數據中快速有效地發現網民關注的熱門話題?從而引導政府相關部門及時捕捉微博中敏感的輿論信息,合理地控制負面輿論的擴散。目前,很多政府機關采用全人工或是半自動的監測統計方法,效率低,準確度也低[3,4]。因此,迫切需要一種更為有效的微博熱點話題發現方法。
K-means[5]是一種最為經典、使用最為廣泛的劃分聚類算法,經常被用于網絡輿情的聚類中。但是,其使用有一定的局限性[6 - 8]:(1)需要事先確定聚類數;(2)初始聚類中心的選擇方法不一,選取不當,往往導致最終聚類結果陷入局部最優。針對上述情況,研究者從不同角度提出一系列改進的K-means算法,文獻[9]利用文檔標題的稀疏相似度,確定K-means算法的初始聚類中心;文獻[10]提出用凝聚的層次算法干預K-means算法的隨機選取聚類中心的方式,保證最終的初始聚類中心更具有典型性;……