李 華 朱 荔
(重慶大學計算機學院 重慶 400044)
?
基于影響力的微博新興熱點事件檢測
李華朱荔
(重慶大學計算機學院重慶 400044)
摘要從微博中準確高效地挖掘出正在發生的熱點事件是近年來研究的熱點。通過綜合考慮微博用戶的粉絲數量和微博本身的轉發、評論次數計算每條微博的影響力,從而提出一種基于影響力的微博新興熱點事件檢測方法IEED(Influence-Based Emerging Hotspot Event Detection)。該方法運用層次聚類將微博帖子聚類為事件集,并提取出事件中的關鍵詞構成事件摘要。通過運用現實生活中的新浪微博數據作為實驗數據集來測試所提出的方法,實驗結果證明,基于影響力的微博新興熱點事件檢測方法(IEED)能在早期高效地檢測出微博中的新興熱點事件,具備一定的應用價值。
關鍵詞新興事件檢測微博影響力聚類
0引言
微博作為一個新興的社交媒體服務,是當前最流行的網絡社交應用之一。國外最具代表性的微博平臺是Twitter,在中國最具代表性的則是新浪微博(現已改名為微博),新浪微博全球注冊用戶已經超過6億。
微博具有支持多平臺終端的特點,人們可以隨時隨地發布自己的所見所聞,但是發布的信息不能超過140個字符,這使得微博產生大量貼近現實生活的數據。然而由于微博數據量十分巨大,用戶無法通過閱讀大量微博獲取自己感興趣的熱點事件,因此對微博的海量信息進行挖掘,發現微博中的新興熱點事件能有效地幫助用戶找到感興趣的話題。 本文主要的研究方向是新興熱點事件的檢測,定義新興熱點事件為何時(when)、何地(where)正在或者即將要發生的事件(what)。
新興熱點事件需要在正確的時間檢測出來,特別是某些事件,如自然災害、傳染疾病和危害巨大的襲擊等事件如果在早期就能檢測出來能有效地幫助政府或者個人及時預防和處理相關事件,從而盡量減少不必要的傷害和損失。針對上述問題本文提出一種基于影響力的微博新興熱點事件檢測算法IEED。該算法運用微博帖子的轉發、評論次數和用戶的粉絲數量計算微博的影響力,同時運用不同時間段發布的微博數量對事件的新興程度進行界定,綜合考慮進行新興熱點事件檢測。
1相關工作
傳統的文本話題發現方法是將文本看作向量,然后運用聚類的方法找出熱點話題。當前多數事件檢測研究工作都是針對文本新聞和網頁新聞的,但是隨著微博用戶的迅速增長,微博文本的相關研究已經成為熱點,針對微博事件檢測的研究,國內外也已經取得了很多成果。
不管是針對新聞文本還是微博文本,事件檢測的相關工作都主要是TDT(topic detection and tracking)[1]。微博事件檢測方面國內外已有大量的研究。Sayyadi等人在文獻[2]中提出了一種構造關鍵詞圖(KeyGraph)檢測博客中事件的算法,算法檢測效果顯著,但是算法檢測到的事件數量取決于閾值的設定,而且沒有對得到的結果進行評估。Ozdikis等人在文獻[3]中提出一種Twitter下基于主題標簽(Hashtag)聚類的事件檢測方法,但是在該方法中每個tweet只用一個主題標簽標記,這樣會忽略一些重要的事件。童薇等人在文獻[8]中提出一種基于微博數據文本特征的事件檢測算法(EMD),但是該算法沒有增量地對事件進行檢測。李鳳嶺等人在文獻[9]中研究了基于LDA 模型的微博話題發現技術;郭跇秀等人綜合考慮用戶影響力和微博本身的文本特征和傳播特征提出一種微博突發事件檢測方法[11]。
在微博新興標題和事件檢測方面,國內外研究都很稀少。Cataldi等人在文獻[4]中提出了一種檢測新興標題的方法,但是該方法需要運用到用戶權限計算權值,在現實中用戶權限是很難收集全的。Alvanaki等人提出一種跟蹤標簽關聯項的新興標題檢測方法,開始的種子標簽從當前滑動窗口選擇獲得[5]。Unankard等人在文獻[6]中提出了一種基于位置信息的新興熱點事件檢測方法,該方法檢測效果很好,但是需要用到發布微博的位置信息,用戶有可能不愿意透露自己的位置信息。
與上述方法不同,本文綜合考慮微博的轉發、評論次數及發布微博用戶的粉絲數量,得到微博帖子的影響力,并運用微博帖子的影響力計算事件的熱點值。同時考慮事件各個時間段包含帖子的數量對事件新興性進行評定,提出一種基于影響力的微博新興熱點事件檢測算法IEED。運用此算法能在早期有效的從微博帖子中檢測出新興熱點事件。在進行事件摘要時提取出與主題最相關的關鍵詞(what、where、who)、事件最早發帖時間(when),總結出事件摘要。
2IEED算法結構
本文的IEED算法主要分為三個步驟:微博數據預處理、微博文本聚類和新興熱點事件檢測,算法的詳細結構如圖1所示。

圖1 IEED算法結構
2.1微博文本預處理
微博文本通常簡短且含有很多噪聲數據,為了加快算法處理的效率和提高檢測的精確度,在進行新興熱點事件檢測之前需要對微博文本進行預處理,去除噪聲數據,保留高質量的微博數據。微博數據主要由用戶ID、用戶名、發布時間、發布地址、內容、粉絲數量、轉發次數、評論次數等組成,表1詳細展示了新浪微博數據的字段。其中F表示該用戶的粉絲數量(關注他的用戶總數),R和C分別表示該條微博的轉發、評論次數。

表1 新浪微博帖子字段
在微博帖子中提取出微博內容、發布時間、轉發次數、評論次數和對應發布該微博用戶的粉絲數量。對于提取出的微博內容去除hashtag、內嵌鏈接URL、表情符號、@后的用戶名和轉發標記”RT”,采用中科院提供的中文分詞軟件ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[12]對微博內容進行分詞,分詞得到的結果去除中英文的停頓詞(stopwords),過濾掉虛詞和停用的詞。最后去除剩余關鍵詞少于三個的微博。預處理過后的微博可以表示為Di={wi,1,wi,2,…,Ri,Ci,Fu}。
2.2微博文本聚類
本文面對的問題是如何從給定的微博帖子中識別出事件。現實中一個事件往往對應多條微博,而在大多數情況下每條微博只討論了一個事件,本文只考慮每條微博只討論一個事件的情況。微博中討論的事件的數量非常大,不知道到底有多少事件正在被討論,因此本文運用層次聚類自動將微博帖子聚類為事件集。同時為了處理大量流入的微博文本,運用滑動窗口來跟蹤控制微博文本流入系統,窗口的大小可以設定為文本的具體數量或者一定的時間段。本文運用時間段來定義窗口大小,如5小時。1天等,時間段的大小可以隨著實際情況做出改變。此外,以前時間段的聚類事件會作為歷史聚類記錄在系統中,因為后面計算事件的新興評分時會用到。
本文選用增強規范化詞頻[14]計算詞匯在每個微博帖子中的權重,該方法能降低微博長度對權重計算的干擾,具體計算公式如下:
(1)

微博文本具有內容較短的特點,預處理后得到的詞匯較少,本文選用余弦相似性函數計算已經存在的聚類和新進入系統微博帖子間的相似性,計算公式如下:
(2)
其中,Di是微博帖子i,C是聚類的中心點,wi,j是詞匯j在Di中的權重。
本文選用引導者-追隨者聚類[7]算法,當進入系統的微博帖子的時間跨度大于滑動窗口大小時,系統開始聚類。當新的微博帖子進入系統時,系統會計算它與已存在聚類之間的相似度,如果相似度大于預先設定的閾值時,記錄下來,最后把微博加入與其相似度最大的聚類中(相似度大于閾值的聚類);如果微博文本和已存在的所有聚類的相似度都小于閾值,則建立一個新的聚類,將微博加入。計算微博帖子和已存在聚類的相似度時,每個聚類都用質心替代(質心的凝聚力很強,能代表該聚類),這有利于提高系統聚類的速度和效率。最后是聚類間的合并,合并最相似的聚類,計算聚類間的余玄相似性,如果相似度大于閾值,則合并兩個聚類。
2.3新興熱點事件檢測
2.3.1計算事件熱點評分
新興熱點事件檢測需要事件的熱點評分,計算事件的熱點評分需要用到微博影響力,本文綜合考慮微博用戶的粉絲數量和微博帖子的轉發、評論次數得到微博帖子的影響力。
計算微博影響力評分InfScorei,需要微博用戶的粉絲數量評分、微博轉發和評論次數評分,定義微博用戶粉絲數量評分FNScoreu的計算公式如下:
(3)
其中,Fu為用戶u的粉絲數量,Fmax為粉絲數最多的用戶的粉絲數量。因為現實中用戶粉絲數量相差非常大,為了消除數量級之間的差距,對用戶粉絲數量取對數,添加平滑因子1是為了保證對數底數大于0。
不同于Twitter,中國的微博用戶中存在大量的僵尸粉和活躍度很低的用戶,用戶的粉絲數不能完全說明該條微博的影響力。所以微博影響力不能簡單的只運用用戶粉絲數來評定,因此本文加入微博的轉發、評論次數更直觀地說明微博的影響力,微博轉發、評論次數評分RCScorei計算公式如下:
(4)
其中,Ri和Ci分別為微博帖子Di的轉發次數、評論次數,取對數同樣是為了消除數量級的影響;r為轉發、評論次數之和取對數后的一個閥值,當微博的轉發、評論次數之和取對數后的值大于該閥值時認為微博轉發、評論次數評分為1。
運用粉絲數量評分和微博轉發、評論次數評分計算微博帖子Di的影響力評分InfScorei,計算公式如下:
InfScorei=α×FNScoreu+(1-α)×RCScorei
(5)
其中,FNScoreu為發布該微博的用戶粉絲數量評分,RCScorei為微博轉發、評論次數評分,α∈[0,1]設置用戶粉絲數量評分和轉發、評論次數評分各自所占的比重,本文設置α=0.5。
最后,聚類事件C的熱點評分HotScorec根據聚類中微博帖子的影響力計算得到,具體計算公式如下:
(6)
其中,Di為聚類C中發布的微博帖子,InfScorei為Di的影響力評分,NC是聚類C中包含的微博帖子數量,由前面的計算公式分析可以知道HotScoreC的取值范圍為[0,1]。熱點評分將會在接下來計算事件的新興熱點評分中用到,最終會選擇出top-k評分的事件作為檢測出的新興熱點事件推薦給用戶。
2.3.2新興熱點事件檢測
本文的研究的目的是為了檢測出新興熱點事件,所有以前時間段發生的事件都不是新興熱點事件。現實生活中有些事件的微博發布數量增長得非常快但還是過去發生的事件,所以微博當前階段發布的數量不能作為判定事件是否為新興熱點事件的唯一條件。本文運用增長率作為事件新興性的評定條件,增長率定義為事件當前時間段包含微博帖子數量和以前時間段包含微博帖子的平均值加上標準差的比值。
計算事件的新興熱點評分首先需要計算事件C以前時間段平均包含的微博帖子數量和標準差。當增長率大于等于1時將事件列為候選新興熱點事件,同時計算事件的新興熱點評分,事件C在當前時間段的新興熱點評分EmergScoreC計算公式如下:
(7)
其中,HotScoreC為事件C的熱點評分,NC為事件C當前時間段微博帖子數量,Meanprev和SDprev分別為事件C以前時段平均包含的微博帖子數量和標準差。
計算所有增長率大于等于1的事件的新興熱點評分,并按照新興熱點評分大小降序排序,選出top-k的事件作為IEED系統檢測結果,并給出事件摘要。
2.3.3事件摘要
為了更好地理解每個事件具體談論的內容,為用戶提供更加直觀可讀的事件歸納,需要對每個事件作事件摘要。本文提取關鍵詞(what、who、where)和事件發生時間(when)作為事件摘要。提取關鍵詞時,希望提取出最能表達事件主題的關鍵詞,采用童薇等人在文獻[8]中提出的方法提取事件的關鍵詞和時間作為事件摘要,主要思路分為以下二個步驟:(1) 提取出關鍵詞;(2) 提取出事件發生的最早時間。
采用詞匯wj在事件C包含的微博帖子中出現的總次數w_countj來度量一個詞匯和該事件主題的相關性。同時考慮微博的轉發和評論次數對關鍵詞的影響,采用轉發、評論次數之和加權進一步計算關鍵詞與主題的相關性,因為轉發、評論次數一定程度反應了微博帖子的影響力,從而在一定程度上可以影響出現在該微博中的詞匯。由于兩條微博的轉發和評論次數相差可能非常大,可能出現數量級的差距,所以對微博的轉發、評論次數之和取對數以消除數量級的差異。由于某條微博的轉發和評論次數之和可能為0,但是對數的自變量必須大于0,所以在計算公式中加一個平滑因子1。具體計算公式如下:
(8)
其中,w_currenti,j為詞匯wj在微博帖子Di中出現的次數,Ri和Ci分別為Di的轉發和評論次數。
計算出事件C中所有詞匯與該事件的相關性,對w_countj進行降序排序,取出top-k個詞匯作為事件C的關鍵詞,即為事件摘要的what、who、where。
提取出事件C的主題后,還需要提取出事件C最早發生時間,提取出事件C中最早發布的微博帖子的時間作為事件的發生時間when,本文的時間精確度只到某天。
3實驗結果及分析
3.1數據集
采用新浪微博提供的API接口,收集了從2012年9月30日至2012年10月22日間712 543條微博帖子,同時獲取到微博帖子的轉發、評論次數及微博用戶的粉絲數量。收集到的微博帖子包含字段如表1所示。
3.2實驗結果
3.2.1評估指標
傳統的信息檢索評估中,精確度(precision)和召回率(recall)是兩個重要的指標。本文采用文獻[10]中的定義精確度,如下:

(9)
由于沒有專門的工具能給出數據集中檢測到的事件是否真實發生,本文采用百度新聞搜索檢測所有事件,如果能搜索出相關事件的新聞則認為該事件為真實發生過的事件。
召回率(recall)是指實驗結果檢測到的事件占數據集中現實生活中所有真實事件的比例。因為無法知道數據集內描述現實世界發生事件的總數,本文采用文獻[13]中定義的召回率,由于檢測出的事件中可能有多個事件都對應現實中的一個事件,召回率定義為:

(10)
精確度和召回率將作為本文的評估指標對本文提出的IEED算法得到的實驗結果作出評估。
3.2.2實驗結果及分析
在數據集上用KeyGraph[2]算法與本文提出的算法IEED比較,具體實驗結果如表2所示。比較后可以發現采用本文提出IEED算法能以0.691的精確度高效地檢測出微博中的新興熱點事件,比KeyGraph 算法的0.420高出很多。同時IEED算法檢測出的真實發生事件的總量也遠高于KeyGraph算法,同時也具有很高的召回率。表3、表4為檢測出的具體事件的例子。

表2 KeyGraph和IEED算法檢測結果

表3 KeyGraph算法檢測出的結果(2012年10月11日)

表4 IEED算法檢測出的結果(2012年10月11日)
4結語
本文基于微博的數據特征,運用微博用戶的粉絲數量,微博的轉發、評論次數計算得到微博的影響力,提出了一種基于影響力的微博新興熱點事件檢測方法IEED。實驗結果證明,本方法能在早期有效地檢測出微博中的新興熱點事件,具有很高的事件檢測精確度,同時能生成直觀可讀的事件摘要。
由于微博數據量大、文本短、噪聲數據多的特點給微博熱點事件檢測帶來很大的挑戰。本文在綜合考慮微博數據多樣化的特征進行熱點事件檢測上做了初步的探索。如何盡可能多的去除噪聲數據提高數據質量、如何消除微博數據稀疏的特征以及如何進一步提高新興熱點事件檢測的精確度和召回率,將是未來工作中需要研究的重點。
參考文獻
[1] Allan J,Carbonell J,Doddington G,et al.Topic detection and tracking pilot study final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,Feb 1998:194-218.
[2] Sayyadi H,Hurst M,Maykov A.Event detection andtrackingin social streams[C]//Proceedings of the 3rd InternationalAAAI Conference on Weblogs and Social Media (ICWSM 09),San Jose,California,USA,May 17-20,2009:311-314.
[3] Ozdikis O,Senkul P,Oguztuzun H.Semantic expansion of hashtags for enhanced event detection in Twitter[C]//Proceedings of the 1st International Workshop on Online Social Systems(WOOS),2012.
[4] Cataldi M,Di Caro L,Schifanella C.Emerging topic detection on twitter based on temporal and social terms evaluation[C]//Proceedings of the Tenth International Workshop on Multimedia Data Mining(MDMKDD).ACM,2010:4.
[5] Alvanaki F,Michel S,Ramamritham K,et al.See what’s enblogue:real-time emergent topic identification in social media[C]//Proceedings of the 15th International Conference on Extending Database Technology.ACM,2012:336-347.
[6] Unankard S,Li X,Sharaf M A.Location-based emerging event detection in social networks[M].Web Technologies and Applications.Springer Berlin Heidelberg,2013.
[7] Duds R O,Hart P E.Pattern classification and scene analysis[M].A Wiley lnterscience Publication,John Wiley and Sons,Inc,1973.
[8] 童薇,陳威,孟小峰.EDM:高效的微博事件檢測算法[J].計算機科學與探索,2012,6(12):1076-1086.
[9] 李鳳嶺,朱保平.基于LDA模型的微博話題發現技術研究[J].計算機應用與軟件,2014,31(10):24-26,66.
[10] Weng J,Lee B S.Event Detection in Twitter[J].Proceedings of Association for the Advancement of Artificial Intelligence,2011(11):401-408.
[11] 郭跇秀,呂學強,李卓.基于突發詞聚類的微博突發事件檢測方法[J].計算機應用,2014,34(2):486-490.
[12] Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17.Association for Computational Linguistics,2003:184-187.
[13] Li C,Sun A,Datta A.Twevent: segment-based event detection from tweets[C]//Proceedings of the 21st ACM international conference on Information and knowledge management.ACM,2012:155-164.
[14] Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing and Management,1988,24(5):513-523.
INFLUENCE-BASED DETECTION OF EMERGING HOT EVENTS IN MICROBLOGS
Li HuaZhu Li
(SchoolofComputer,ChongqingUniversity,Chongqing400044,China)
AbstractTo accurately and efficiently mine the hot events on occurrence from microblogs is the focus of research in recent years. In this paper we propose an influence-based emerging hot events detection (IEED) approach by comprehensively considering the fans number of microblogging users and the influence of each microblog calculated from the number of its forwarding and comments. The approach uses hierarchical clustering to cluster the microblogging messages into event set, and extracts the keywords in the events to form event abstracts. We tested the approach presented in the paper by using the experimental dataset set up from Sina microblogging data in real life, the experimental result proved that the influence-based IEED could efficiently detect the emerging hot events in microblogs at early time, and had certain applied value.
KeywordsEmerging events detectionMicroblog influenceClustering
收稿日期:2014-11-18。李華,副教授,主研領域:計算機網絡,網絡教育,大數據。朱荔,碩士。
中圖分類號TP391
文獻標識碼A
DOI:10.3969/j.issn.1000-386x.2016.05.025