結合時序和語義的中文微博話題檢測與跟蹤方法

2016-10-11 05:06:57陳鐵明王小號龐衛巍江頡

網絡與信息安全學報 2016年5期

陳鐵明，王小號，龐衛巍，江頡

陳鐵明，王小號，龐衛巍，江頡

（浙江工業大學計算機科學與技術學院，浙江杭州 310023）

微博文本具有短小快捷、主題多變等特點，社交話題檢測與跟蹤研究面臨新的挑戰。結合微博的話題時序性和短文本語義相似度等特點，提出了基于微博聚類的話題檢測與跟蹤系統方法。首先，通過定義微博文本的時序頻繁詞集，給出面向熱點話題的特征詞選擇方法；然后，根據時序頻繁特征詞集，利用最大頻繁項集獲得微博初始聚類；針對初始簇間存在文本重疊情況，提出基于短文本擴展語義隸屬度的簇間重疊消減算法，獲得完全分離的初始簇；最后，根據簇語義相似度矩陣，給出凝聚式話題聚類方法。通過新浪微博完成實驗測試，表明所提方法可用于中文微博熱點話題檢測與跟蹤。

微博文本；頻繁詞集；特征選擇；聚類；話題檢測；時序；語義

1 引言

話題檢測與追蹤（TDT, topic detection and tracking）是指在沒有人工干預的情況下自動判別新聞數據流的主題，以應對日益嚴重的信息過載問題[1]，其主要任務是從媒體信息流中抽取并監控不同的新聞報道，在沒有話題先驗知識的前提下，檢測并組織出信息流中預先未知的話題[2]。話題檢測的研究自1996年由美國國防高級研究規劃署（DARPA）和國家標準技術局（NIST）聯合發起以來，已獲得了較廣泛的響應[3~5]，已有學者將Single-Pass[6]、增量-means[7]、層次聚類[8]、關鍵詞元統計[9]等不同類型的聚類算法應用到話題檢測中，并在一定程度上提高了話題檢測效果[10,11]。

由于微博文本具有短小快捷、主題多變等特點，以及其非結構化文本帶來的向量高維性和稀疏性等問題，傳統的新聞話題檢測研究也面臨著新的挑戰：1) 基于經典Bag of Words思想構造的文本表示模型VSM會導致“高維詛咒”問題，需要研究面向微博文本的新型特征選擇方法；2) 短文本的特性稀疏性，會導致傳統基于空間距離的相似度計算方法無法有效地衡量2個短文本之間的相似度，需要研究新的文本相似度計算方法；3) 傳統聚類算法通常需要預設初始簇或終止簇的數量，但這種先驗知識在文本聚類的話題識別中往往是未知的，若設置不合適的數量參數，則會導致不理想的聚類結果，因此，需要根據微博文本集的內部性質合理地設置話題初始簇和終止簇的數量。

本文圍繞中文微博社交話題檢測面臨的新問題，研究提出一種考慮頻繁特征詞時序特性和微博短文本語義相似度的聚類新方法，并設計實現基于聚類結果的微博話題檢測與跟蹤方法。

2 相關工作

2.1 微博話題檢測系統方法研究

微博作為一種新興網絡媒體，具有信息增長快、內容實時性強、用語隨意化等一系列特點，國外學者率先在微博話題檢測領域取得了初步的研究成果。文獻[12]將Twitter用戶視為網絡傳感節點，采用基于關鍵詞的貝葉斯決策方法設計開發了一套基于Twitter的實時地震監控原型系統，并取得了80%以上的檢測率；文獻[13]提出了一種在Twitter上收集、分組、排序和追蹤突發新聞的方法，將相似度較高的tweets歸為一組并視為一個新聞，再根據每組新聞話題所含詞匯之間的關聯度和流行度對這些新聞話題進行排序，最終得到爆炸性新聞；文獻[14]提出了基于社會關系評價和時序的Twitter熱點話題檢測方法，將tweets抽取為一系列詞語的集合，通過詞語的生命周期模型挖掘出突發詞語，通過用戶社會網絡關系挖掘特定用戶的影響力，并以此計算tweets的重要性，最后，通過創建基本話題表獲得熱點話題。隨著新浪微博等主流平臺的快速流行，國內學者也開始了面向中文微博話題檢測的研究工作。文獻[15]根據微博數據量大、信息破碎等特點，提出了基于隱主題模型的微博新聞話題檢測方法。

2.2 面向微博短文本的聚類算法研究

文本內容聚類仍然是微博話題檢測的核心，但微博短文本的特有屬性使傳統的聚類算法無法獲得較好的應用效果，因此，微博短文本聚類方法的研究至關重要。下面主要介紹有較大發展潛力的2個方向[16]。

1) 基于擴展語義信息

Gabrilovich等[17]發現借助諸如維基百科等外部資源可以擴充短文本的特征，提高短文本之間的相似度。Baghel等[18]通過引入WordNet將頻繁詞集轉換為頻繁概念集，然后，提出基于頻繁概念集的文本聚類算法。Zelikovitz等[19]通過創建潛在語義索引來挖掘詞語之間的語義關系，提高了短文本處理的效果。

2) 基于詞間共現或順序關系

Beil等[20]最早提出基于頻繁項集的聚類FTC（frequent term-based clustering）算法。FTC算法使用頻繁詞集來表示簇，采用貪婪式的啟發策略，頻繁詞集選擇的次序會影響最終的聚類結果。Li等[21]提出基于頻繁詞序列的文本聚類方法CFWS，算法通過挖掘頻繁詞序列構造初始簇，然后，使用-mismatch方法來合并初始簇并得到聚類結果。Fung等[22]則針對FTC算法的缺點，提出基于頻繁項集的層次聚類（FIHC, frequent itemset-based hierarchical clustering）算法。

由于微博短文本特性，若直接將FIHC算法應用到微博聚類，主要將面臨如下2個問題：① 普通的頻繁項集僅表明某些特征項的共現關系頻繁，無法保證共現關系可以代表文本集的隱含話題，影響話題簇的正確構造與劃分；②由于微博內容簡短、特征稀少，同一話題的某些微博可能語義相似但表述方式不同，從而被錯誤地劃分，最終影響聚類結果。

3 本文方法

3.1 方法框架

為解決微博短文本聚類所面臨的問題，本文采用FIHC算法[22]“先建簇后消重再凝聚”的思想，提出一種結合時序頻繁和語義聚類的新方法（TS-FIHC, time and semantics FIHC），聚類的主要過程如圖1所示。

話題通常具有時間屬性，微博的熱點話題更具有時序性，即在某個時間點上具有突發性，發展趨勢極度不平衡。因此，首先根據時間滑動窗口定義頻繁詞集的時序趨勢度，提出一種基于時序詞頻的微博文本特征選擇，并采用選擇的時序趨勢頻繁詞集劃分微博的初始話題簇；為了更精準地消除初始簇間的文本重疊，采用知網的中文語義相似度模型，根據最大語義隸屬度原則分離各個初始的話題簇；最后，通過定義簇間語義相似度矩陣，完成微博話題簇的凝聚式層次聚類，根據參考優化得到最終的話題簇，并實現話題檢測與跟蹤。

3.2 基于時序詞頻的微博文本特征選擇

微博文本有異于普通文本，它的時序特性表明所有的微博都是沿時間軸展開，具有先后順序，若對時間軸設置一個時間窗口，則可將所有的微博分散到不同的時間窗口中，得到基于時間滑動窗口的微博集合。因此，可從時序角度考慮微博詞匯的特征選擇。

定義1 趨勢基數。

將某個特征詞T在第個時間滑動窗口內的趨勢基數BT定義為該詞匯在之前連續的個時間滑動窗口內出現頻率的平均值（這里的定義為時間窗口參數，且當≤時，取?1）

定義2 趨勢增長率。

記某個特征詞T的趨勢基數為BT，在第個時間滑動窗口內出現的頻率為TF，定義T在第個時間滑動窗口內的趨勢增長率為

定義3 時序趨勢度。

特征詞的話題趨勢與它的趨勢增長率及趨勢基數成正比，因此定義微博話題頻繁詞集時序趨勢度的計算公式為

3.3 基于時序頻繁詞集的微博初始聚類

定義4 對文本集中某個項集，若項集在中出現的次數大于一個預設的比例，則稱是文本集上的頻繁項集，這個預設比例稱作最小支持度。

定義5 對文本集的某個趨勢詞集，若在中的支持度()≥，則稱趨勢詞集是文本集上的頻繁趨勢詞集，為全局最小支持度。

本文采用關聯分析中廣泛使用的頻繁集挖掘算法Apriori來計算挖掘頻繁趨勢詞集，執行如下步驟：1) 掃描文本集，利用詞頻趨勢度統計候選項集出現的次數，收集滿足最小支持度設定的項集，記為頻繁項集；2) 利用產生的頻繁-項集構造強關聯規則，利用頻繁-項集構造候選(+1)-項集，反復迭代直至候選(+1)-項集為空。

頻繁趨勢詞集可較好地描述微博中隱含的話題信息，本文利用頻繁趨勢詞集劃分構造初始簇，即將包含某頻繁趨勢詞集的微博都劃分為一個簇，得到基于頻繁趨勢詞集的初始簇。

定義6 若一個時序詞匯特征項集在初始簇所含的微博集中出現的比例超過一個預設的最小比例，就稱此時序特征項集是簇時序頻繁項集，這個預設的最小比例被記作簇最小支持度。

由于簇時序頻繁項集是指那些在聚類簇中出現頻率較高的核心詞匯，這些核心詞匯在一定層度上代表了這個聚類簇所描述話題的隱含語義，可以通過抽取各個初始簇的簇時序頻繁項集來代表這個初始簇的話題語義信息。

3.4 基于語義隸屬的簇間重疊消減算法

由于話題檢測的目標是將每條微博歸屬到一個話題簇中，因此還需要設計初始簇間重疊部分的消減算法，結合微博短文本的特點，將重疊的微博最終分配給最合適的初始簇。

定義7 若微博doc被分配到初始簇C中，則稱微博doc支持簇C。

定義8 記D和D是支持簇C和C的所有微博的集合，且D∩D≠，即簇C和C間存在共享的微博，則稱簇C和C存在簇間重疊。進一步地，記簇間重疊的微博集合為C，這里的={C,C}，^=D∩D。

定義9 微博話題語義隸屬度。

本文將微博doc對初始簇C的話題語義隸屬度函數定義為

基于微博語義隸屬度的初始簇重疊消減算法的具體描述如下。

2) 初始化一個二維數組向量:={,}

3) FOR eachfrom 1 to

8) add <doc,> to

9) ELSEIF≥ofdoc∈

10) update <doc,> to

11) ELSE

12) deletedocfromC

13) ENDIF

15) ENDFOR

16) ENDFOR

17) ENDFOR

該算法的復雜度為()，即僅需對所有重疊初始簇中的微博文本掃描一遍即可消減所有初始簇之間的重疊，最后，刪除初始簇分離后大小為0的空簇，就可得到非空的候選話題簇。

3.5 基于語義相似度的凝聚式話題聚類算法

通過初始簇間重疊消減可得到微博聚類話題檢測的候選話題簇，但有時這些話題簇都可歸屬于某一個大話題，因此，有必要再對候選話題簇進行凝聚式層次聚類，合并話題簇以縮減大話題數目，為用戶提供更聚焦的微博熱點話題。

為合并候選話題簇，首先需度量2個候選話題簇之間的相似性。由于候選話題簇由大量微博文本組成，為保證凝聚式層次聚類的效率，應避免讓候選話題簇中所有微博文本參與相似性度量的計算，因此，本文選擇候選話題簇中的主要頻繁特征詞集構成簇的特征向量，用該特征向量表示候選話題簇。

定義10 簇特征向量。

定義11 簇相似度矩陣。

表1 話題簇CTi和CTj的簇語義相似度矩陣

定義12 話題簇語義相似度。

為避免過多非關鍵特征詞對簇間語義相似度的噪音，僅選取相似度矩陣中語義相似度最大的組特征項對候選話題簇之間的相似度進行計算，記為，并將候選話題簇之間的語義相似度定義為

基于候選話題簇的語義相似度，采用表示2個簇合并時設定的簇語義相似度的最小閾值，表示話題簇凝聚后期望得到的最少簇數目，給出話題簇凝聚式層次聚類方法的操作步驟如下。

1) 抽取各個候選話題簇的特征向量，計算候選話題簇的語義相似度。

2) 構建候選話題簇的語義相似度矩陣，由簇相似度的定義可知，即該相似度矩陣為一個對稱矩陣。

5) 若簇間語義相似度矩陣的行數或列數小于等于預設的最小簇數目，執行6)；否則，聚類尚未結束，重新回到3)。

6) 凝聚式層次聚類結束，得到最終的話題聚類簇。

4 實驗結果與分析

4.1 數據采集及其預處理

由于目前尚沒有公開的中文微博話題檢測Benchmark語料集，本文自主采集了新浪微博數據展開實驗分析。鑒于話題具有群體屬性，聚焦了浙江工業大學微群里的9 015位新浪微博用戶，通過官方提供的Open API定向抓取分析了這些用戶在2012年7月20日至2012年8月30日期間發布的所有微博，總計495 026條。

盡管Open API抓取的微博是較完整的結構化數據，在數據分析前仍需對微博文本進行一系列的預處理，主要包括中文分詞及詞性標注、停用詞過濾、詞性選擇和特征選擇等步驟。本文采用中科院的ICTCLAS（institute of computing technology, chinese lexical analysis system）系統，通過分詞算法標注的詞性，選擇話題描述性較強的名詞、動詞或形容詞作為文本特征，直接降低文本詞匯特征的維度。

最后，在采用本文提出的微博話題檢測方法之前，還需進一步執行如3.2節所述的基于時序詞頻的微博特征詞匯選擇。

4.2 微博聚類實驗及其效果分析

為了評估聚類算法的效果與性能，本文對抓取的微博進行篩選和話題人工標注，得到手工標注的10個話題類別，總計13 356條微博，話題標注情況如表2所示。

表2 手工標注的10個話題類別分布情況

不失一般性，本文采用純度和值2個指標客觀評價聚類效果。一般來說，聚類結果的純度越大，聚類的效果越好；聚類結果的值越大，聚類的效果就越好。

1) 聚類算法的參數分析

簇最小支持度的大小直接影響初始簇在特征提取階段所得的簇特征數量，并進一步影響簇間重疊部分的微博對初始簇的話題語義隸屬度計算，最終影響初始簇間重疊的分離效果。

為了分析參數的選擇效果，首先將人工標注的10個類別的簇隨機分為2組，各含5個人工標注簇，分別記為“#PartI”和“#PartII”（隨機獲得10組不同的#PartI和#PartII）；選擇不同的簇最小支持度，不同對聚類結果平均值的影響如圖3所示。由測試結果知，當簇最小支持度取0.5~0.6時，可獲得較好的聚類效果。

在凝聚式層次聚類中，為候選話題簇間相似度的最小閾值，當所有的簇間相似度都小于時，話題合并終止；由實驗結果可知，當取0.6~0.7時可獲得最好的聚類效果，如圖4所示。

2) TS-FIHC與FIHC的效果比較

分別抽取人工標注話題中的2個、4個、6個、8個和10個標注話題共5組話題數據作為測試基準，比較本文提出的TS-FIHC算法和FIHC算法聚類的純度和值，結果分別如圖5和圖6所示。其中，TS-FIHC算法采用TS-FIHC-代表頻繁-項集(=1,2,3,4)。

由實驗結果可知，由于改進的TS-FIHC方法考慮了文本語義，使初始簇的分離和候選話題簇的合并更加合理，因而獲得了比FIHC更好的純度和-值。另一方面，所有TS-FIHC_1的聚類效果也優于TS-FIHC_，同時，TS-FIHC_1算法可避免對頻繁-項集的挖掘，大大降低了算法開銷。

為了進一步比較本文提出的TS-FIHC與FIHC在微博增量處理環境下的聚類效果，圖7給出了在處理10 000~100 000條不同微博數量時，2種聚類方法的值效果趨勢。分析結果表明，TS-FIHC隨著微博樣本數量的增加，聚類效果有明顯的增強，而FIHC則基本保持不變。

3) TS-FIHC與FIHC的性能比較

下面實驗分析TS-FIHC_較FIHC的性能優勢。繼續使用抽取人工標注話題中的2個、4個、6個、8個和10個標注話題共5組話題數據作為測試基準，分別計算TS-FIHC_和FIHC執行聚類算法的時間消耗（Intel Core i3, 3.2 GHz, 2 GB RAM），結果如圖8所示。由實驗結果知，與FIHC算法相比，TS-FIHC_1由于減少了初始簇的數目，具有明顯的性能提升。

為了進一步測試TS-FIHC聚類性能對微博樣本處理數量的擴展性，圖9給出了在處理10 000~ 100 000條不同微博文本時，TS-FIHC與各種聚類算法的性能擴展性比較。實驗結果表明，TS-FIHC具有較高的對樣本增量運算的適應性，適合大規模海量微博數據的分析。

4.3 基于聚類的微博話題檢測與跟蹤

為了評估聚類方法對微博熱點話題的檢測效果，本文手工標記了2012年8月15日的熱門話題作為參照對象，采用TS-FIHC方法檢測出話題簇，并抽取話題簇的描述特征。將最終聚類得到的Top-10話題簇與標注的熱門話題進行對比，其結果如表3所示。

表3 2012年8月15日的話題檢測評估

通過比較表3中標注話題和Top-10話題簇，可以看出，本文方法TS-FIHC有效檢測出指定時間段的微博熱點話題，并且從話題簇中抽取的簇特征基本上描述了話題簇的主要內容，使話題簇具有較好的可理解性。

下面進一步驗證話題跟蹤的效果。例如，圖10給出了2012年7月20日至2012年8月20日1個月期間，{倫敦奧運}、{周克華}、{釣魚島}3個熱門話題的發展趨勢，從關鍵的時間點可見，話題曲線的發展趨勢與社會事件的實際情況基本相符。

5 結束語

本文針對中文微博內容開展熱點話題檢測研究，將話題檢測問題歸結為短文本聚類問題，提出了一種系統的解決方案：1) 利用微博話題的時序特性，提出面向微博頻繁特征詞的話題趨勢性相關度量；2) 針對初始簇間的微博重疊問題，提出一種基于語義隸屬度劃分的初始簇重疊消減算法，克服微博短文本語義表達簡短及形式多樣化等引起的話題二義性問題；3) 通過定義初始簇間的語義相似度，給出一種面向微博話題的凝聚式層次聚類方法，可實現話題檢測與跟蹤；4) 通過真實的微博數據分析實驗，驗證本文方法的有效性。

由于微博熱點話題的獨特性，話題檢測仍面臨諸多問題值得進一步深究：1) 由于《知網》語義庫詞匯量有限，詞匯間的相似度不能隨話題的不同而動態變化，因此，可進一步挖掘統計微博詞匯的共現情況，研究基于詞匯共現狀況的動態語義相似度計算方法；2) 并非所有的微博都僅討論一個話題，有些微博可能將多個話題串聯，即一條微博可能同時屬于多個話題，因此，值得進一步研究一些軟聚類的方法來擴展微博話題檢測；3)通過聚類獲得的話題簇通常還隱含較多潛在信息，但這些隱含的信息不易被直接發現，因此，可進一步研究可視化方法來展現話題簇之間的相互聯系，直觀輔助話題檢測。

[1] ALLAN J. Topic detection and tracking: event-based information organization[M]. Kluwer Academic Publisher, 2002.

[2] NIST. The 2003 topic detection and tracking task definition and evaluation plan[EB/OL]. http://www.nist.gov/speech/tests.tdt/tdt2003/ evalplan.html.

[3] ALLAN J, CARBONELL J, DODINGTON G, et al. Topic detection and tracking pilot study: final report[C]//The Darpa Broadcast News Transcription and Understanding Workshop .c2000:194-218.

[4] WAYNE C. Multilingual topic detection and tracking: successful research enabled by corpora and evaluation[C]//The Language Resources and Evaluation Conference. c2000:1487-1494.

[5] 駱衛華, 于滿泉, 許洪波, 等. 基于多策略優化的分治多層聚類算法的話題發現研究[J]. 中文信息學報, 2006, 20(1): 29-36.

LUO W H, YU M Q, XU H B, et al. The study of topice detection based on algorithm of division and multilevel clustering with multistrategy optimization[J]. Journal of Chinese Information Processing, 2006, 20(1):29-36.

[6] 賈自艷, 何清, 張俊海, 等. 一種基于動態進化模型的事件探測和追蹤算法[J]. 計算機研究與發展, 2004, 41(7): 1273-1280.

JIA Z Y, HE Q, ZHANG J H, et al. A new event detection and tracking algorithm based on dynamic evolution model[J]. Journal of Computer Research and Development, 2004, 41(7):1273-1280.

[7] YAMRON J P, KNECHT S, MULBREGT P V. Dragon’s tracking and detection systems for the tdt2000 evaluation[C]//TopicThe Detection and Tracking Workshop. c2000: 75-80.

[8] DAI X Y, CHEN Q C, WANG X L, et al. Online topic detection and tracking of financial news based on hierarchical clustering[C]// 2010 International Conference on Machine Learning and Cybernetics. c2010: 3341-3346.

[9] 張闊,李涓子,吳剛, 等. 基于關鍵詞元的話題內事件檢測[J]. 計算機研究與發展, 2009, 46(2): 245-252.

ZHANG K, LI J Z, WU G, et al. Word committee based event identification[J]. Journal of Computer Research and Development, 2009, 46(2):245-252.

[10] 洪宇, 倉玉, 姚建民, 等. 話題跟蹤中靜態和動態話題模型的核捕捉衰減[J]. 軟件學報, 2012, 23(5):1100-1119

HONG Y, CANG Y, YAO J M, et al. Descending kernel track of static and dynamic topic models in topic tracking[J]. Journal of Software, 2012, 23(5):1100-1119.

[11] 張小明, 李舟軍, 巢文涵. 基于增量型聚類的自動話題檢測研究[J]. 軟件學報, 2012, 23(6): 1578-1587.

ZHANG X M, LI Z J, CHAO W H. Research of automatic topic detection based on incremental clustering[J]. Journal of Software, 2012, 23(6): 1578-1587.

[12] SAKAKI T, OKAZAKI M, MATSUO Y. Earthquake shakes twitter user: real-time event detection by social sensors[C]//The 19th International Conference on World Wide Web. c2010: 851-861.

[13] PHUVIPADAWAT S, MURATA T. Breaking news detection and tracking in twitter[C]//2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology(WI-IAT). c2010:120-123.

[14] CATALDI M, CARO L D, SCHIFANELLA C. Emerging topic detection on twitter based on temporal and social terms evaluation[C]//The 10th International Workshop on Multimedia Data Mining. c2010: 1-10.

[15] 路榮, 項亮, 劉明榮, 等. 基于隱主題分析和文本聚類的微博客新聞話題發現研究[J]. 模式識別與人工智能, 2012, 3: 382-387.

LU R, XIANG L, LIU M R, et al. Extracting news topics from microblogs based on hidden topics analysis and text clustering[J]. Pattern Recognition and Artificial Intelligence, 2012, 3:382-387.

[16] 王永恒. 海量短語信息挖掘技術的研究和實現[D]. 長沙: 國防科學技術大學. 2006.

WANG Y H. Research and implementation of information mining on massive short messages[D]. Changsha: National University of Defense Technology. 2006.

[17] GABRILOVICH E. Feature generation for textual information retrieval using world knowledge[J]. ACM SIGIR Forum, 2007, 41(2): 123.

[18] BAGHEL R, DHIR R. Text document clustering based on frequent concepts[C]//2010 1st International Conference on Parallel, Distributed and Grid Computing (PDGC). c2010: 366-371.

[19] ZELIKOVITZ S. Transductive LSI for short text classification problems[C]//The 17th International FLAIRS Conference. c2004.

[20] BEIL F, ESTER M, XU X. Frequent term-based text clustering[C]//The 8th ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. c2002: 436-442.

[21] LI Y J, CHUNG S M, HOLT J D. Text document clustering based on frequent word meaning sequences[C]//Data & Knowledge Engineering . c2008: 381-404.

[22] FUNG B C M, WANG K, ESTER M. Hierarchical document clustering using frequent itemsets[C]//The Siam International Conference on Data Mining, San Francisco. c2003.

[23] 許云, 樊孝忠, 張鋒. 基于《知網》的語義相似度計算[J]. 北京理工大學學報, 2005, 25(5): 411-414.

XU Y, FAN X Z, ZHANG F. Semantic relevancy computing based on hownet[J]. Transactions of Beijing Institute of Technology, 2005, 25(5):411-414.

Time series and semantics-based chinese microblog topic detection and tracking method

CHEN Tie-ming, WANG Xiao-hao, PANG Wei-wei, JIANG Jie

(College of Computer Science & Technology, Zhejiang University of Technology, Hangzhou 310023, China)

As a widely used tool in social networks, microblog is definitely with short document, quick broadcasting and topic changeable, which results in big challenging for social topic detection and tracking. A new systematic framework for micro-blog topic detection and tracking was proposed based on the microblog clustering using temporal trend and semantic similarity. Firstly, a feature words selection method for hot topics was presented by defining the temporal frequent words set. Secondly, an initially clustering was conducted depending on the selected temporal frequent words set. As far as the overlaps between initial clusters concerned, an effective overlap elimination algorithm was proposed, by introducing the extended short document semantic membership, to separate any possible overlapped initial clusters. Finally, an aggregated topic clustering method was employed using the cluster semantic similarity matrix. The experiments were at last done on some real-world dataset from Sina microblog. It show that the method for chinese microblog topic detection and tracking can obtain excellent performance and results.

microblog text, frequent words, feature selection, clustering, topic detection, time series, semantics

The National Natural Science Foundation of China (No.U1509214), The Natural Science Foundation of Zhejiang Province (No.LY16F020035)

TP301

10.11959/j.issn.2096-109x.2016.00048

2016-03-17；

2016-04-27。

陳鐵明，tmchen@zjut.edu.cn

國家自然科學基金資助項目（No.U1509214）；浙江省自然科學基金資助項目（No.LY16F020035）

陳鐵明（1978-），男，浙江諸暨人，博士，浙江工業大學教授，主要研究方向為網絡與信息安全。

王小號（1981-），男，浙江新昌人，浙江工業大學講師，主要研究方向為信息安全。

龐衛巍（1989-），男，浙江紹興人，浙江工業大學碩士生，主要研究方向為網絡安全與本文挖掘。

江頡（1972-），女，浙江平湖人，博士，浙江工業大學副教授，主要研究方向為網絡信息安全。