徐維林 張暉 殷玉嬌 劉金嶺
摘要:為了使人們能夠更準確地了解所關(guān)注微博話題的后續(xù)發(fā)展情況,針對微博文本具有時序性的特點,定義了時間窗口,對每個時間窗口進行聚類,去除小類別話題,得到熱點話題,然后分析熱點話題的發(fā)展趨勢,從而可以進行熱點話題跟蹤。通過對淮安近兩個月來微博文本集實驗結(jié)果表明,該方法是準確且有效。
關(guān)鍵詞:微博;熱點話題;跟蹤技術(shù)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)13-0186-03
Abstract: In order to enable people to understand more accurately the subsequent development of the microblog concern topic, according to the characteristics of the micro blog this with scheduling, defines the time window, each time window for clustering, remove small categories, get hot topic, and then analyzed the development trend of the hot topics, which can be hot topic tracking. Micro blog by mean of huaian nearly two months in this episode, the experimental results show that the method is accurate and effective.
Key words: Micro blog; hot topic; tracking technology
隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,微博已經(jīng)成為人們?nèi)粘I钪行畔⒔涣鞯闹匾脚_。每天微博信息傳播著數(shù)以萬計的信息,信息的正確性及傳播范圍都無法得到有效控制,輿論熱點、焦點層出不窮。由于話題對社會的穩(wěn)定和眾多網(wǎng)民產(chǎn)生了重大影響,因此對網(wǎng)絡(luò)中話題的有效發(fā)現(xiàn)與監(jiān)控變得非常重要。話題跟蹤技術(shù)就是根據(jù)用戶的需求,按照一定的算法,對相關(guān)的話題內(nèi)容進行跟蹤,并將跟蹤到的結(jié)果進行歸類整合。當前話題跟蹤技術(shù)主要包括兩種:一是利用檢索的思想,根據(jù)話題構(gòu)造查詢向量;二是構(gòu)建話題模型,利用話題模型跟蹤后續(xù)報道。本文將取得的有時序序列的微博文本序列進行時間窗口分割,對每一個時間窗口的微博文本集進行分類,去掉小類別后得到熱點話題的序列,通過對每相鄰熱點話題發(fā)展趨勢的分析來進行熱點話題的跟蹤。
1 相關(guān)研究
話題檢測與跟蹤(Topic Detection and Tracking,TDT)是指從大量的新聞中發(fā)現(xiàn)新的話題,并且要為此話題建立一個模型,然后對后續(xù)的報道進行辨別和分析,找出已知的這個話題的相關(guān)報道或者發(fā)現(xiàn)新的話題并為其建立模型。TDT主要深入研究關(guān)于事件的發(fā)現(xiàn)和追蹤技術(shù)[1],目前,研究者對TDT的研究很多,成果也不少,國外這方面研究重點也主要集中在如何衡量報道之間的相關(guān)性,以確定報道所屬的話題,而在相關(guān)時,大部分采用的是向量空間模型(VSM)[2]、語言模型(LM)[3]]等方法如(James Allan[4]采用VSM來實現(xiàn))。而Leek[5]和Yamron[6]則采用LM來解決這個問題。VSM和LM都存在特征空間的數(shù)據(jù)稀疏性的缺陷,也有研究者采用數(shù)據(jù)平滑技術(shù)來解決這個問題,但是平滑得到的特征權(quán)重無法有效描述文本內(nèi)容上的差異。與國外相比,國內(nèi)大部分處于起步階段,不少研究者經(jīng)常使用不同的方法取得了一定的成果。李樹平等人利用KNN分類算法,對新聞報道文本的進行了話題跟蹤實驗[7];夏春艷等人先是在介紹了話題跟蹤的一些基本方法的基礎(chǔ)上,改進了KNN算法,提出了GTKNN 算法,減少了數(shù)據(jù)漂移的問題[8];諶志群等針對論壇數(shù)據(jù),綜合考慮帖子篇數(shù)與帖子熱度,提出了基于相對熵的語義距離計算方法,通過構(gòu)造主題演化圖實現(xiàn)論壇熱點話題的自動跟蹤[9];解放軍信息工程大學的鄒鴻程利用主題概率思想的LDA模型將話題和微博表示為主題向量,提出 SA-MBLDA算法實現(xiàn)微博話題跟蹤。[10] 該算法希望在構(gòu)建話題模型時考慮語義,但LDA模型的語義單元仍然是詞,考慮語義存在一定的局限性。
2 微博的分類及主題提取模型
文[11]中進行了短信文本語義分類及主題提取,稍加改造即可為對微博文本的分類及主題提取算法。假設(shè)微博文本集中的文本已經(jīng)使用香農(nóng)信息論對給定的每一個短信文本進行特征抽取,進一步進行了分詞,詞義消岐、去掉了停用詞及連詞、代詞等,轉(zhuǎn)化為向量形式
MB={(Wi1,Wi2,…,Win)|i=1,2,…,s} (1)
定義1 對于給定的時間定值t,按t將時間軸劃分為連續(xù)的小區(qū)段,每段時間內(nèi)含有若干條微博文本,稱每個時間段內(nèi)的微博文本集為時間窗口,記為t。
微博集合的分類及主題提取算法如下:
MC_S_TH算法:
Step1 根據(jù)信息論,在MB集合中,利用文[12]算法1計算出每個詞的信息量H(Wij),進一步確定特征詞Wij,構(gòu)建微博特征向量
Step2 利用時間軸劃分時間窗口t
Step2 利用文[13]算法2對t進行分類,去掉小類別話題得熱點話題類別集合[14]
Step3利用文[15]中算法對每一個熱點話題THij進行主題特征詞提取
3 微博熱點話題的演變
對于微博中主線的熱話題,隨著時間的推移,熱點話題會發(fā)生變化甚至演變,所以在跟蹤的過程中,要根據(jù)后續(xù)跟蹤的微博信息對話題模型(分類模型)進行動態(tài)調(diào)整。如2015年12月20日廣東深圳光明新區(qū)一工業(yè)園區(qū)附近發(fā)生山體滑坡事故,致使多棟樓房倒塌、被埋。事件發(fā)生之處,微博中談?wù)摰臒狳c一般是事情發(fā)生的經(jīng)過、人員傷亡及財產(chǎn)損失等話題。隨著事態(tài)發(fā)展,人們關(guān)注熱點也會慢慢發(fā)生轉(zhuǎn)移,如事故發(fā)生的原因、相關(guān)責任人及后續(xù)處理情況等話題。
3.1 熱點話題模型更新、演變
熱點話題模型更新是對初始訓練集進行補充,也就是說微博信息談?wù)摰脑掝}仍然是原先的話題,只是關(guān)注點發(fā)生了變化。話題演變是指當一個初始話題被人們關(guān)注時,隨著時態(tài)變化進入了新的話題,但這個新的話題與初始話題存在一定關(guān)聯(lián),但并不屬于初始話題的范疇。
針對微博的時間序列,考慮所劃分的時間窗口內(nèi)的微博文本集。這樣對于跨度小的熱點話題,在短時間內(nèi)會產(chǎn)生大量的相關(guān)微博,即在較短的時間內(nèi)發(fā)現(xiàn)突發(fā);相反,對于突發(fā)跨度大的熱點話題,突發(fā)時間段內(nèi)產(chǎn)生的微博數(shù)量相對較少。因為任何熱點話題在夜間很少有人關(guān)注,因此本文在不正常時間的時間窗口(如晚上11:00-第2天6:00,偶爾幾個時間窗口的微博數(shù)不符合可以不考慮不需要那么頻繁檢測,以提高系統(tǒng)的運行效率。
定義2 設(shè)按時序的某時間窗口t,則t中所含微博數(shù)量稱為t的長度,記為|t|,t中所含熱點話題HTi所含微博的數(shù)量成為話題的HTi強度,記為|HTi|。
3.2 微博熱點話題生成與演變過程
謝耘耕[11]提出了以時序序列為基準的微博熱點話題的傳播可以視作一個消息循環(huán)模型。分為形成期、爆發(fā)期、緩解期和平復(fù)期四個時段,其實任何熱點事件都不會無限期傳播下去,應(yīng)該增加一個消失期,才符合熱點話題的生命周期。微博熱點話題生命周期示意圖如圖1所示。
熱點話題的演變過程反映到反映到時間窗口上,就是話題強度的變化變化趨勢,生命周期內(nèi)熱點話題強度變化趨勢如圖2所示。
熱點話題跟蹤就是判定熱點話題的走勢。
3.3 話題漂移
如前例中,2015年12月20日廣東深圳發(fā)生山體滑坡事故,隨著時間及熱點話題的推移,人們的熱點話題可能會轉(zhuǎn)移到近幾年來的國內(nèi)有關(guān)安全生產(chǎn)上來。一般來講,如果一個話題漂移為另一個話題,他們的相關(guān)度也是比較高的,可以通過兩個話題特征詞集合所包含的公共特征詞數(shù)量和主題的相關(guān)度[16]反映出來,如從廣東深圳發(fā)生山體滑坡事故的熱點話題漂移到近幾年來的國內(nèi)有關(guān)安全生產(chǎn)的熱點話題上來,公共特征詞如安全、事故、責任等。
定義3 對給定的正整數(shù)M,主題相關(guān)性閾值,如果熱點話題HTi和HTj的特征詞集合分別為HTi_W和HTj_W,滿足HTi_W∩HTj_W>M,0 4 基于微博的熱點話題跟蹤 為了研究話題的演變軌跡,我們將后續(xù)微博數(shù)據(jù)按照時間窗口切分,將每個時間窗口中的微博集合先是進行預(yù)處理構(gòu)成向量集,利用SVM_S進行分類,提取每個類別主題,然后根據(jù)3.2和3.3的方法進行話題跟蹤判定。 定義4 如果時間窗口中i中有熱點話題HTij,其下一個相鄰時間窗口i+1中有話題HTi+1,k,如果對于給定的主題相關(guān)性閾值,滿足Sim(HTij,HTi+1,k)> ,則稱熱點話題HTi+1,k是熱點話題的延續(xù)。 微博話題跟蹤算法如下: MB_TT算法: Step1 抓取微博構(gòu)成歷史數(shù)據(jù)集 Step2 利用2中介紹的方法對微博歷史數(shù)據(jù)集進行預(yù)處理得到微博向量集MB Step3 給定時間定值t,將MB劃分為時間窗口 1,2,…,k Step4 對每一個時間窗口i,(i=1,2…,k)利用2中介紹的方法進行分類、主題提取 Step5 對相鄰時間窗口k和k+1中熱點話題進行比較 Step6 對于給定的主題相關(guān)性閾值 if Sim(HTij,HTi+1,k)> If(|HTij|與|HTi+1,k|相差不多)then 熱點話題處于緩解期 Else If (|HTij|>>|HTi+1,k|) then 熱點話題處于消失期 If (|HTij|<<|HTi+1,k|) then 熱點話題處于爆發(fā)期 Else if 0 if HTij主題特征詞集合∩HTi+1,k主題特征詞集合=個數(shù)比較多 then 熱點話題處于漂移 if HTij主題特征詞集合∩HTi+1,k主題特征詞集合=個數(shù)比較多 then 熱點話題HTij結(jié)束 5 實驗解結(jié)果分析 5.1 數(shù)據(jù)采集 利用Java編寫網(wǎng)絡(luò)爬蟲從新浪微博上采集了淮安地區(qū)11、12月份以來的每天去掉6:00~11:00之間依微博數(shù)據(jù),如圖3所示。 對怕取得9954條微博去掉晚上11:00至明天6:00的微博,剩余9739條微博,每半個月劃分為一個時間窗口,為四個時間窗口1、2、3、4,本文對微博語料進行分詞,采用的是中科院計算所的 ICTCLAS 中文分詞工具,利用MC_S_TH算法對i(i=1,…,4)進行分類熱點話題和主題提取,本文只對與淮安相關(guān)的三個熱點話題“淮安有軌電車”、“淮安樓盤”、“公務(wù)員考試”(分別記為HT電、HT樓、HT員)三個話題進行跟蹤實驗。實驗結(jié)果如圖4所示。 由圖4可以看出,人們對“淮安有軌電車”話題關(guān)注度較大,分析器原因,從11月18日起,淮安現(xiàn)代有軌電車開展了連續(xù)20天的列車模擬試運營(跑圖)工作,19日進行了首次載客試跑,于12月28日正式載客運營。樓盤在10月份、11月份較熱,是因為淮陰區(qū)內(nèi)9月底推新的三家樓盤分別為金鼎國際花園、聯(lián)眾光輝乾城及鼎泰公,清河區(qū)內(nèi)東祺金域華府10月底推出多套樓盤,中天華庭自9月27日二期房源首開后,11月又推出多層洋房及小高層,新天地榮府決定于11月7日迎來首開盤,… 。到12月底就很少有微博信息了。公務(wù)員考試關(guān)注度較低,在12月低出現(xiàn)了上升期,查了相關(guān)政府網(wǎng)得知2016年江蘇公務(wù)員考試報名時間為2016年1月11日9∶00至1月17日16∶00。從圖4的折線圖可以看出三個熱點話題的2016年1月份發(fā)展趨勢:“淮安有軌電車”話題處于緩解期,“淮安樓盤”話題處于消失期,“公務(wù)員考試”話題處于博發(fā)期。
6 結(jié)束語
話題跟蹤作為信息處理領(lǐng)域中的一項重要問題,自提出以來就受到了廣泛的關(guān)注,尤其用于輿情分析等領(lǐng)域后,更顯現(xiàn)出它的應(yīng)用價值[17]。目前,大多數(shù)的話題跟蹤系統(tǒng)研究都是針對新聞信息、博客信息等長文本,關(guān)于微博等社交網(wǎng)絡(luò)短文本信息的研究還比較少。本文針對微博文本具有時序性的特點,將時間軸劃分為等距時間片,定義了時間窗口,對每個時間窗口進行聚類,去除小類別話題,得到熱點話題,然后分析熱點話題的發(fā)展趨勢,從而可以可以進行熱點話題跟蹤。本文中采集了新浪網(wǎng)淮安地區(qū)的近11-12月份的微博文本進行實驗取得了較理想的效果。
參考文獻:
[1] 劉星星,何婷婷,龔海軍.網(wǎng)絡(luò)熱點事件發(fā)現(xiàn)系統(tǒng)的設(shè)計[J].中文信息學報,2008,22(6):80-85.
[2] 姚清耘,劉功申,李翔.基于向量空間模型的文本聚類算法[J].計算機工程,2008,34(18):39-44.
[3] 駱衛(wèi)華,劉群,白碩.面向大規(guī)模語料的語言模型研究新進展[J].計算機研究與發(fā),2009,46(10):1704-1712.
[4] 任曉東,張永奎,薛曉飛.基于K-Modes聚類的自適應(yīng)話題追蹤技術(shù)[J].計算機工程,2009(9).
[5] 張曉艷,王挺,梁曉波.LDA模型在話題追蹤中的應(yīng)用[J].計算機科學,2011(10).
[6] 席耀一,林琛,李弼程,等.基于語義相似度的論壇話題追蹤方法[J].計算機應(yīng)用,2011(1).
[7] 李樹平,夏春艷,李勝東,等.基于KNN的話題跟蹤研究[J].微計算機信息,2012,10:264-265.
[8] 夏春艷,崔廣才,李樹平.話題跟蹤方法的研究[J].計算機工程與應(yīng)用,2012,15:129-132.
[9] 諶志群,徐寧,王榮波.基于主題演化圖的網(wǎng)絡(luò)論壇熱點跟蹤[J].情報科學,2013,03:147-150.
[10] 鄒鴻程.微博話題檢測與追蹤技術(shù)研究[D].鄭州:解放軍信息工程大學,2012.
[11] 劉金嶺.基于降維的短信文本語義分類及主題提取[J].計算機工程與應(yīng)用,2010,46(23):159-161, 174.
[12] 劉金嶺,倪曉紅,王新功.手機短信文本信息流的自動文摘生成[J].現(xiàn)代圖書情報技術(shù),2013(2):43-49.
[13] 劉金嶺.基于語義的高質(zhì)量中文短信文本聚類算法[J].計算機工程,2009,35(10):201-205.
[14] 劉金嶺,王新功.基于中文短信文本聚類的熱點事件發(fā)現(xiàn)[J].情報雜志,2013,32(2):30-33.
[15] 劉金嶺,嚴云洋.基于上下文的短信文本分類方法[J].計算機工程,2011,37(10):41-43.
[16] 劉金嶺.基于主題的中文短信文本分類研究[J].計算機工程,2010,36(4):30-32.
[17] 謝耘耕,榮婷.微博輿論生成演變機制和輿論引導策略[J].現(xiàn)代傳播,2011,178(5):70-74.