基于熱度聯合排序的微博熱點話題發現*

2016-05-25 07:58:58劉培玉侯秀艷朱振方蔡肖紅

計算機與生活 2016年4期

劉培玉，侯秀艷+，朱振方，劉　芳，蔡肖紅

1.山東師范大學信息科學與工程學院，濟南2500142.山東省分布式計算機軟件新技術重點實驗室，濟南2500143.山東交通學院信息科學與電氣工程學院，濟南250357

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0573-09

基于熱度聯合排序的微博熱點話題發現*

劉培玉1,2，侯秀艷1,2+，朱振方3，劉芳1,2，蔡肖紅1,2

1.山東師范大學信息科學與工程學院，濟南250014
2.山東省分布式計算機軟件新技術重點實驗室，濟南250014
3.山東交通學院信息科學與電氣工程學院，濟南250357

ISSN 1673-9418 CODEN JKYTA8

Journal of Frontiers of Computer Science and Technology

1673-9418/2016/10(04)-0573-09

E-mail: fcst@vip.163.com

http://www.ceaj.org

Tel: +86-10-89056056

* The National Natural Science Foundation of China under Grant No. 61373148 (國家自然科學基金); the National Social Science Foundation of China under Grant No. 12BXW040 (國家社科基金); the Outstanding Young Scientist Award Fund of Shandong Province under Grant No. BS2013DX033 (山東省優秀中青年科學家獎勵基金); the Natural Science Foundation of Shandong Province under Grant No. ZR2012FM038 (山東省自然科學基金); the Humanity and Social Science Foundation of the Ministry of Education of China under Grant No. 14YJC860042 (教育部人文社科基金); the Social Science Planning Project of Shandong Province under Grant No. 12BXWJ01 (山東省社科規劃項目).

Received 2015-08,Accepted 2015-10.

CNKI網絡優先出版: 2015-10-28, http://www.cnki.net/kcms/detail/11.5602.TP.20151028.1509.006.html

摘要：微博熱點話題發現對于輿情分析和觀點挖掘具有重要作用，提出了一種基于熱度聯合排序的微博熱點話題發現方法，并構建統一的模型框架將微博文本和熱點主題詞之間的各種關系進行了有機融合；考慮微博用戶的權威性以及主題詞的時間段相關特性，對微博文本和主題詞的熱度進行了聯合排序并互相增強；使用主題詞組合支持度作為閾值對熱度序列中的主題詞進行聚類以表征熱點話題。實驗表明，所提方法對于熱點主題詞的抽取以及熱點話題發現具有較高準確性，可以及時有效地發現特定時間段內的微博熱點話題。

關鍵詞：熱點話題；主題詞；微博文本；聯合排序；熱度序列

1　引言

隨著微博平臺的蓬勃發展，微博已成為人們互動交流、抒發情感、表達訴求的實時性工具，同時也是熱點話題產生和傳播的重要場所。微博熱點話題的發現有助于政府及時了解網絡輿情，以便正確疏導社情民意；有助于商家及時得到顧客反饋，以便調整市場策略。然而，微博數據呈現實時性、大規模性、短文本以及富含噪音數據等特性，為話題事件的分析和挖掘帶來了新的挑戰[1]。

近年來，國內外針對微博話題和事件的檢測開展了大量研究。Popescu等人[2]利用監督機器學習的方法發現Twitter中的熱點爭議事件。Becker等人[3]根據特定時段內話題被檢測到的次數，提出基于時序和社會關系評價的Twitter話題發現方法。另外，為了避免微博短文本，數據稀疏，用詞不規范，噪聲數據等因素的影響，許多研究構建用于話題發現的新穎模型。李勁等人[4]對潛在狄利克雷分配（latent Dirichlet allocation，LDA）話題模型進行擴展，建模微博之間的跟帖關系，挖掘特定領域的中文微博熱點話題。路榮等人[5]利用隱主題模型和文本聚類方法發現微博中的新聞話題，有效地解決了短文本的數據稀疏性問題。Ritter等人[6]提出一種方法抽取開放領域事件，并利用潛在變分模型來發現Twitter中的重要事件類別。Hong等人[7]利用稀疏編碼技術和統計話題模型構建了稀疏產生式模型，以此發現微博中的地理位置話題。也有學者認為熱點話題的產生會引起用戶情感的波動，從而將情感分析融入話題檢測。楊亮等人[8]提出情感分布語言模型（emotion distribution language model，ELM）來發現微博中的熱點事件。時達明[9]通過計算評論與話題的相關度，對相關的評論內容進行情感分析，并進行Blog熱點話題的發現。

微博文本和主題詞對于熱點話題發現的作用是相輔相成的。當一個熱點話題出現時，與該話題密切相關的熱點主題詞大量涌現，與該話題密切相關的微博也大量涌現，并且這些熱點主題詞在這些微博文本中占有比較大的權重。因此，從兩個方面判斷一條微博反映一個熱點話題的程度：第一，在特定時間段中，與該微博文本內容相似的微博數量多少；第二，在特定時間段中，該微博中包含熱點主題詞的數量多少。同樣從兩個方面判斷一個主題詞是不是熱點主題詞：第一，在特定時間段中，該主題詞與其他熱點主題詞的共現情況；第二，在特定時間段中，包含該主題詞的微博數量多少。其中特定時間段即為熱點話題發生和存在的階段。

因此，本文綜合考慮了微博文本特征和主題詞特征，挖掘特定時間段內的微博文本之間的基于特征向量的內容相似度關系、主題詞之間的共現關系以及主題詞在微博文本中的權重關系，構建統一的關系模型框架；同時將微博文本本身的權威性以及主題詞的時間段相關特性融合到該關系模型，運用聯合排序算法得出特定時間段內的微博文本熱度序列和主題詞熱度序列；基于主題詞的熱度序列及主題詞共現次數提出主題詞組合支持度，將其作為閾值對主題詞進行凝聚式層次聚類以表示熱點話題。

2　熱點主題詞提取

隨著熱點話題的發生，在特定的時間段內，主題詞會在數量龐大的微博文本中突然大量集中涌現。主題詞具有代表性、簡潔性、時效性、信息量大、相關詞語關聯度高等特點，能夠最大程度地以最小的信息量涵蓋熱點話題的主題和內涵[10]。通常用幾個相關主題詞就能夠表示一個熱點話題。

雖然依靠詞典可以快速地對傳統主題詞進行提取，但是對于隨熱點話題的發生而在短時間內層出不窮的新詞提取效果不佳，而這些新詞往往包含重要信息，很可能是當前的熱點。為了全面提取主題詞，通過對微博主題詞的特點進行研究發現，微博主題詞具有突然大量涌現，存續周期較短的特點，并且與某一特定時間段強相關，而在特點時間段之前或之后的時期里出現頻率不高甚至很低。鑒于此，參照文獻[11]中的領域相關性度量概念構建時間段相關性度量（TR）進行熱點主題詞的提取。如式（1）所示。

3　關系模型構建

本文建立圖Gww來描述Tn時間段內主題詞之間的關系，圖中的節點表示Vw中的主題詞。如果Tn時間段內主題詞wi和wj在同一條微博共同出現過，則wi和wj之間生成一條邊，邊的權重用式（4）計算。

其中，c(wi,wj)表示Tn時間段內同時包含主題詞wi和wj的微博文本數；c(wi)和c(wj)分別表示Tn時間段內wi和wj各自出現的微博數；N表示Tn時間段內的微博文本總數。

本文建立圖Gdw來描述Tn時間段內微博文本集合Vd和熱點主題詞集合Vw之間的關系，圖中的每個節點表示Vd中的一個微博文本或Vw中的一個主題詞。如果主題詞wj出現在微博文本di中，則在wj和di之間生成一條邊。邊的權重wei(di,wj)用主題詞wj在微博文本di中的權重來計算：

4　熱度聯合排序

如果一個微博文本能夠反映該時間段內的熱點話題，那么一定存在大量的與之內容相似的微博文本，而且這些文本中一定包含大量的能夠反映當前熱點話題的主題詞；如果一個主題詞是能夠反映當前熱點話題的主題詞之一，那么一定存在大量的與之共同出現能夠聯合反映熱點話題的主題詞，并且這些主題詞分布在熱點微博文本中。基于該理論可以看出，對于特定時間段內的熱點話題挖掘，微博文本和主題詞起著相輔相成的作用，利用微博文本和主題詞之間的相互依存關系可以更全面有效地發現熱點話題。

由此，參照文獻[13]用于抽取評價詞和評價對象的聯合排序算法，利用上面構建的3個矩陣，設計微博文本和主題詞的熱度聯合排序算法，對3個子圖所描述的各種關系進行擬合，將它們融合到統一的框架中使關系相互增強，并且在該框架中融入微博文本權威性和主題詞時間段相關特性，最終產生微博文本和主題詞的熱度序列。如式（6）所示。

其中，Hd是時間段Tn內所有微博文本的熱度序列，熱度值越大的微博文本能夠反映該時間段熱點話題的能力越大。Hw是時間段Tn內所有主題詞的熱度序列，熱度值越大的主題詞能夠反映該時間段熱點話題的能力也越大。Id表示微博文本的本身權威性，用發布該微博文本的用戶是否屬于VIP用戶來衡量，如果用戶是VIP用戶，則Id對應的條目為1，反之為0。利用主題詞wi歸一化的時間段相關性度量來表示Iw中的每個條目。λ和μ為擬合參數，λ∈[0,1],μ∈[0,1]，且λ+μ<1。算法運行直至收斂或迭代次數達到50次。

5　熱點話題聚類

經過上面的工作，得到Tn時間段內所有微博文本的熱度序列和Tn時間段內所有主題詞的熱度序列，微博文本熱度序列里所包含的眾多微博文本用于詳細描述熱點話題，主題詞熱度序列里數量有限的熱點主題詞用于概括話題。下面對熱點主題詞進行簡單聚類以概括表示熱點話題。

同理，n個詞w1,w2,…,wn的組合支持度為：

算法1熱點話題聚類算法

輸入：Tn時間段內主題詞及其熱度序列Hw。

輸出：主題詞類簇集。

步驟1將熱度序列中的每個主題詞作為一個類簇。

步驟2計算各個類簇之間的組合支持度，即類簇內所有主題詞的組合支持度，將組合支持度最大的兩個類簇進行合并。

步驟3重復步驟2，直至達到組合支持度的最小閾值minSupport或者類簇內主題詞達到5個。

步驟4刪除少于3個主題詞的類簇，剩余的每個類簇即可表示一個熱點話題。

6　實驗與結果分析

6.1實驗數據及評價標準

本文采用的實驗數據來自新浪微博2014年7月21日—2014年7月26日共158 430條微博，利用爬蟲工具抽取其中的微博文本信息和用戶類型信息。為了消除噪聲數據，過濾掉無用信息，首先對微博數據進行預處理，去除以下內容：粉絲數接近0的用戶所發布的微博，微博中的“@用戶”字段，“＃話題名＃”部分，URL鏈接。然后，采用中科院ICTCLAS分詞系統對微博文本數據進行分詞并且標注詞性，根據哈工大的停用詞表（1 208個）過濾掉停用詞和分詞。人工標注這段時間內的主要熱點話題有：北京T3航站樓發生爆炸，北京被重摔女童已死亡嫌犯被刑拘，奶粉沖兌液態奶，快餐店食用冰塊比馬桶水臟，氣功大師王林變蛇等，這些話題都是人工高度概括的。對于每個熱點話題，人工挑選能夠概括表達該熱點話題的幾個熱點主題詞，考慮到不同詞性的詞對主題表達的貢獻程度不同，其中對主題表達和辨識作用最大的是動詞和名詞[14]，因此只挑選這兩種詞性，忽略其他詞性的詞。

本文采用信息檢索領域常用的準確率(Precision)、召回率(Recall)和F值(F-measure)作為實驗評價指標，具體的計算公式如下：

將人工挑選的熱點主題詞與本文方法識別出的主題詞進行對比，并對人工主觀性概括出來的熱點話題與本文方法聚類產生的熱點話題進行比較。實驗中用以上指標評價熱點主題詞的提取效果和熱點話題的檢測結果。其中，System.correct表示正確識別的熱點主題詞數或熱點話題數；System.output表示能夠識別到的熱點主題詞數或熱點話題數；Human. labeled表示人工標注的該時間段內的熱點主題詞總數或所有話題數。

6.2參數設置

首先，研究參數μ和λ的不同取值對熱點主題詞提取結果的影響。所謂熱點主題詞提取結果，是指最終聚成的主題詞簇中的主題詞與人工挑選的主題詞相對比的結果。參數μ表示考慮微博用戶的自身權威性和主題詞的時間段相關性時對熱點主題詞提取結果的貢獻大小；λ表示考慮微博文本之間的相似度關系或主題詞之間的共現關系時對熱點主題詞提取結果的貢獻大小；1-λ-μ則表示考慮微博文本和主題詞之間的重要性關系時對熱點主題詞提取結果的貢獻大小。

Fig.1 Influence of μ on hot topic keywords extraction圖1　參數μ對熱點主題詞提取結果的影響

圖1中，λ取固定值0.5，μ值從0到0.9變化，可以看出，當μ值取0.1時，準確率、召回率和F值最高。這說明考慮微博用戶自身權威性和主題詞的時間段相關性對熱點主題詞提取是有一定作用的。但是隨著μ值增加，性能曲線趨于下降，當μ值超過0.5后，下降速度變得更快。這說明如果過多地考慮微博用戶的本身權威性和主題詞的時間段相關性，而沒有充分考慮或忽視微博文本之間的相似度關系、主題詞之間的共現關系、微博文本和主題詞之間的重要性關系，熱點主題詞的提取效果會適得其反。

圖2中，μ取固定值0.1，λ值從0到0.9變化，可以看出，隨著λ值增大，準確率、召回率和F值上升，當λ值取0.5時，實驗結果達到最優。這說明微博文本之間的相似度關系、主題詞之間的共現關系、微博文本和主題詞之間的權重關系對熱點主題詞提取都有重要作用，同時考慮這3種關系有利于提高熱點主題詞的提取效果。

Fig.2 Influence of λon hot topic keywords extraction圖2　參數λ對熱點主題詞提取結果的影響

其次，考慮閾值minSupport對熱點話題檢測結果的影響。閾值minSupport影響熱點主題詞的聚類效果，從而影響熱點話題的檢測效果。當μ設置為0.1，λ設置為0.5時，閾值minSupport取不同值，熱點話題的檢測效果如表1所示。

從表1可以看出，當閾值minSupport取30時，準確率、召回率、F值分別取得最優值。隨著聚類閾值minSupport的增大，召回率變化很小，而準確率持續降低，這是因為過大的閾值minSupport會將不屬于同一話題的主題詞聚成一個類簇，導致熱點話題識別錯誤的發生，降低了熱點話題檢測的準確率。若閾值minSupport取值過小，導致無法將描述同一熱點話題的主題詞聚成一類，造成熱點主題詞識別不全，降低了召回率。因此閾值minSupport取30時熱點話題檢測效果最佳，準確率達到58.34%，召回率達到76.21%，F值達到66.09%。

取閾值minSupport為30時，對2014年7月21日—2014年7月26日期間的微博進行熱點話題檢測，得到12個能夠正確表示熱點話題的主題詞類簇。如表2所示。

Table 1 Influence of minSupport on hot topic detection表1　閾值minSupport對熱點話題檢測結果的影響

6.3實驗對比

選擇文獻[10]和文獻[15]提出的方法作為兩種Baseline方法，并且與本文方法進行微博熱點話題發現結果對比。文獻[10]提出的網絡熱點話題發現方法（記為Baseline1），主要思想是通過主題詞表和識別有意義串優化主題詞候選集，采用多特征融合計算主題詞權重，然后進行詞聚類表示熱點話題。本文將之用于微博熱點話題識別。文獻[15]提出基于速度增長的微博熱點話題發現（記為Baseline2），主要通過詞頻和詞的增長速度、用戶增長速度、微博增長速度等來選取熱點主題詞，同樣進行詞聚類。本文方法與兩種Baseline方法在熱點話題檢測的準確率、召回率、F值方面的對比結果如圖3所示。

由圖3可以看出，與Baseline1相比，本文方法的召回率和F值略低。分析可能的原因是微博語料過少，導致選取的主題詞數量不足，另外微博噪音太多，選取主題詞質量不夠高。而Baseline1方法是通過采集搜狗、百度等網站的熱門搜索詞，并利用有意義串進行新詞識別，主題詞選取效果較好。但是本文方法省去了人工構建詞典和有意義串的繁瑣工作。

與Baseline2方法相比，本文無論是準確率、召回率還是F值都較大提高。分析原因有以下兩點：

（1）在提取熱點主題詞方面，Baseline方法只是簡單將窗口內增長速度大于閾值的詞作為主題詞。本文首先考慮詞的時間段相關性及微博用戶類型，將時間段相關性較大的主題詞與該時間段內的微博文本進行熱度聯合排序，其中融合了微博文本之間的內容相似度關系、主題詞之間的共現關系以及主題詞在微博文本中的權重關系。最終得到的主題詞熱度序列里熱點主題詞具有較高的可信度和準確率。

Table 2 Correct topic keywords clusters to express hot topics表2　正確表示熱點話題的主題詞類簇

Fig.3 Comparison of micro-blog hot topic detection methods圖3　微博熱點話題發現結果對比

（2）在話題聚類方面，Baseline方法將相似度大于閾值的主題詞聚類，算法過于簡單，只是在相似度計算方法上有所創新。本文首先提出主題詞之間組合支持度的概念，以主題詞熱度序列為基礎，恰當地選擇初始類簇，同時由于熱度序列里主題詞數量有限，聚類算法時間復雜度較低，聚類精度較高。

7　結束語

本文通過研究發現，微博文本和熱點主題詞對于微博熱點話題的發現起著相輔相成的作用，于是構建關系模型框架將特定時間段內的微博文本及主題詞之間的各種關系進行有機融合，進行熱度聯合排序，并對熱度序列中的主題詞進行有效聚類以表征熱點話題。實驗表明，本文方法對于熱點主題詞提取及微博熱點話題發現具有一定可行性。

文中人為地選取時間段相關性大的主題詞作為初始熱點主題詞加入關系模型，具體選取的數量或閾值是否應該根據時間段的長短來決定有待進一步研究。另外，熱點話題識別的準確率還有很大的提升空間，主題詞聚類算法需要進一步優化，這些都是后續工作研究重點。

References:

[1] Ding Zhaoyun, Jia Yan, Zhou Bin. Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51(4): 691-706.

[2] Popescu A M, Pennacchiotti M. Detecting controversial events from Twitter[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management, Toronto, Canada, Oct 25-29, 2010. New York, USA:ACM, 2010: 1827-1836.

[3] Becker H, Naaman M, Gravano L. Beyond trending topics: real-world event identification on Twitter[C]//Proceedings of the 5th International AAAI Conference on Weblogs and Social Media, Barcelona, Spain, Jul 17-21, 2011. Menlo Park, USA:AAAI, 2011: 438-441.

[4] Li Jin, Zhang Hua, Wu Haoxiong, et al. BTopicMiner: domainspecific topic mining system for Chinese microblog[J]. Journal of Computer Applications, 2012, 32(8): 2346-2349.

[5] Lu Rong, Xiang Liang, Liu Mingrong, et al. Extracting news topics from microblogs based on hidden topics analysis and text clustering[C]//Proceedings of the 6th China Conference on Information Retrieval. Beijing: Chinese Information Processing Society of China, 2010: 291-298.

[6] Ritter A, Mausam B, Etzioni O, et al. Open domain event extraction from Twitter[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Beijing, China, Aug 12-16, 2012. New York, USA:ACM, 2012: 1104-1112.

[7] Hong L,Amr A, Gurumurthy S, et al. Discovering geographical topics in the Twitter stream[C]//Proceedings of the 12th International Conference on World Wide Web, Lyon, France, Apr 16-20, 2012. New York, USA:ACM, 2012: 769-778.

[8] Yang Liang, Lin Yuan, Lin Hongfei. Micro-blog hot events detection based on emotion distribution[J]. Journal of Chinese Information Processing, 2012, 26(1): 84-90.

[9] Shi Daming. Blog hot post discovery and author reputation degree research[D]. Dalian: Dalian University of Technology, 2007.

[10] Li Hengxun, Zhang Huaping, Qin Peng, et al. Keywords based hot topic detection on Internet[C]//The 5th China Conference on Information Retrieval. Beijing: Chinese Information Processing Society of China, 2009: 134-143.

[11] Zhen Hai, Chang Kuiyu, Kim Jung-Jae, et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(3): 623-634.

[12] Wu Qiong, Tan Songbo, Xu Hongbo, et al. Cross-domain opinion analysis based on random-walk model[J]. Journal of Computer Research and Development, 2010, 47(12): 2123-2131.

[13] Liu Kang, Xu Liheng, Zhao Jun. Extracting opinion targets and opinion words from online reviews with graph co-ranking [C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, USA, Jun 23-25, 2014. Stroudsburg, USA:ACL, 2014: 314-324.

[14] Zheng Feiran, Miao Duoqian, Zhang Zhifei, et al. News topic detection approach on Chinese microblog[J]. Computer Science, 2012, 39(1):138-141.

[15] Xue Suzhi, Lu Ran, Ren Yuanyuan. Hot topics found on microblog based on speed growth[J]. Application Research of Computers, 2013, 30(9): 2598-2601.

附中文參考文獻：

[1]丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展, 2014, 51(4): 691-706.

[4]李勁,張華,吳浩雄,等.基于特定領域的中文微博熱點話題挖掘系統BTopicMiner[J].計算機應用, 2012, 32(8): 2346-2349.

[5]路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客新聞話題發現研究[C]//第六屆全國信息檢索學術會議論文集.北京:中國中文信息學會, 2010: 291-298.

[8]楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發現[J].中文信息學報, 2012, 26(1): 84-90.

[9]時達明. Blog熱點話題發現及其作者聲譽度研究[D].大連:大連理工大學, 2007．

[10]李恒訓,張華平,秦鵬,等.基于話題詞的網絡熱點話題發現[C]//第五屆全國信息檢索學術會議論文集.北京:中國中文信息學會, 2009: 134-143.

[12]吳瓊,譚松波,許洪波,等.基于隨機游走模型的跨領域傾向性分析研究[J].計算機研究與發展, 2010, 47(12): 2123-2131.

[14]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測方法[J].計算機科學, 2012, 39(1): 138-141.

[15]薛素芝,魯燃,任圓圓.基于速度增長的微博熱點話題發現[J].計算機應用研究, 2013, 30(9): 2598-2601.

LIU Peiyu was born in 1960. He received the M.S. degree in computer application from East China Normal University in 1986. Now he is a professor and Ph.D. supervisor at Shandong Normal University, and the senior member of CCF. His research interests include network information security and natural language processing, etc.

劉培玉（1960—），男，山東臨朐人，1986年于華東師范大學獲得碩士學位，現為山東師范大學教授、博士生導師，CCF高級會員，主要研究領域為網絡信息安全，自然語言處理等。發表學術論文60余篇，主編教材8部，主持或參加縱向課題11項。

HOU Xiuyan was born 1990. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interests include natural language processing and Chinese opinion analysis, etc.

侯秀艷（1990—），女，山東文登人，山東師范大學碩士研究生，CCF學生會員，主要研究領域為自然語言處理，中文傾向性分析等。

ZHU Zhenfang was born in 1980. He received the Ph.D. degree from Shandong Normal University. He is a lecturer at Shandong Traffic Institute. His research interests include information security and information filtering, etc.

朱振方（1980—），男，山東臨沂人，博士，山東交通學院講師，主要研究領域為信息安全，信息過濾等。

LIU Fang was born in 1990. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interest is computer security.

劉芳（1990—），女，山東臨沂人，山東師范大學碩士研究生，CCF學生會員，主要研究領域為計算機安全。

CAI Xiaohong was born in 1988. She is an M.S. candidate at Shandong Normal University, and the student member of CCF. Her research interests include natural language processing and Chinese opinion analysis, etc.

蔡肖紅（1988—），女，山東泰安人，山東師范大學碩士研究生，CCF學生會員，主要研究領域為自然語言處理，中文傾向性分析等。

Micro-Blog Hot Topic Detection Based on Heat Co-ranking?

LIU Peiyu1,2, HOU Xiuyan1,2+, ZHU Zhenfang3, LIU Fang1,2, CAI Xiaohong1,2
1. School of Information Science＆Engineering, Shandong Normal University, Jinan 250014, China
2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Jinan 250014, China
3. College of Information Science and Electrical Engineering, Shandong Traffic Institute, Jinan 250357, China

+ Corresponding author: E-mail: alicehouhxy@163.com

LIU Peiyu, HOU Xiuyan, ZHU Zhenfang, et al. Micro-blog hot topic detection based on heat co-ranking. Journal of Frontiers of Computer Science and Technology, 2016, 10(4): 573-581.

Abstract:Micro-blog hot topic detection plays an important role in public opinion analysis and opinion mining. In order to reduce the impact of data sparsity on topic detection, this paper proposes an approach for micro-blog hot topic detection based on heat co-ranking, builds a unified model framework to organically integrate all relationships between micro-blog texts and topic keywords. The authority of micro-blog user and the time-related characteristics of topic keywords are simultaneously considered, and the heat of micro-blog texts and topic keywords gets mutual reinforcement and co-ranking. Topic keywords in hot sequence are clustered by using the combination support confidencebook=574,ebook=128as a threshold. The experimental results show that the proposed method has high accuracy for hot keywords extraction and hot topic detection, can effectively discover micro-blog hot topics in a specific period.

Key words:hot topic; topic keywords; micro-blog text; co-ranking; heat sequence

文獻標志碼：A

中圖分類號：TP391

doi:10.3778/j.issn.1673-9418.1509078

計算機與生活2016年4期

計算機與生活的其它文章: 非平坦函數概率密度估計*; 快速r循環分塊Jacket變換*; 基于粒子群算法的粗糙博弈模型與算法設計*; 面向多視角數據的極大熵聚類算法*; 基于圖譜的多標記特征選擇算法*; 標架叢上的局部特征聯絡學習算法*

基于熱度聯合排序的微博熱點話題發現*

1 引言

2 熱點主題詞提取

3 關系模型構建

4 熱度聯合排序

5 熱點話題聚類

6 實驗與結果分析

7 結束語

1　引言

2　熱點主題詞提取

3　關系模型構建

4　熱度聯合排序

5　熱點話題聚類

6　實驗與結果分析

7　結束語