馬子娟,岳 昆,段 亮,趙天資
云南大學(xué) 信息學(xué)院,昆明 650500
隨著互聯(lián)網(wǎng)與公眾生活的深度融合和新媒體的不斷發(fā)展,輿情新聞事件的活躍度和影響面進一步擴大。輿情新聞事件是指群眾廣泛關(guān)注并容易引起輿論強烈反響的事件。特定的輿情新聞事件往往包含不同的主題,每一個主題描述了事件的不同側(cè)面,基于這些主題進行跟蹤,可以更好地監(jiān)控事件的發(fā)展變化,為輿情事件分析提供便利。與一般新聞不同,輿情新聞的特點為事件跟蹤任務(wù)帶來了如下挑戰(zhàn):
(1)新媒體平臺的輿情新聞文本較短,導(dǎo)致輿情新聞主題特征稀疏,主題分布易受噪音影響,主題檢測精度降低。
(2)輿情新聞事件具有敏感性,在短時間內(nèi)會引起大量關(guān)注并帶來大量的后續(xù)新聞報道。
(3)輿情新聞事件在傳播過程中易演化發(fā)展出其他相關(guān)主題,并且演化周期比一般新聞更短。
(4)一些熱點事件一開始不具有輿情事件的主題特性,但因事件的核心誘因易引發(fā)波動和討論,從而次生出網(wǎng)絡(luò)輿情,次生性使得用戶在梳理新聞事件各個側(cè)面的主題信息時,很難高效地從大量新聞報道中準確掌握事件全貌。因此,需要建立針對特征稀疏、具有在線處理能力、能夠有效跟蹤新聞報道所屬主題的方法,從而提高對輿情新聞事件主題階段演變的識別能力。
主題模型[1]是檢測新聞事件主題的重要工具,基于主題模型的新聞事件跟蹤方法可有效發(fā)現(xiàn)與事件相關(guān)的主題信息,利用高效的學(xué)習(xí)算法從高維稀疏的詞項數(shù)據(jù)中提取低維主題特征,從而跟蹤事件主題不斷演化的趨勢。其中,典型的LDA(latent Dirichlet allocation)[2]模型能有效檢測傳統(tǒng)新聞中的潛在主題,而新媒體中的輿情新聞文本較短,詞項共現(xiàn)信息匱乏,數(shù)據(jù)稀疏,LDA不能有效實現(xiàn)主題檢測。
針對稀疏性問題,研究人員提出了BTM(Biterm topic model)主題模型[3]對短文本詞對進行建模。但是,隨著時間的推移,后續(xù)新聞報道的數(shù)據(jù)規(guī)模迅速增長,離線模型在新數(shù)據(jù)到來時,需要重復(fù)掃描整個數(shù)據(jù)集,具有較大的時間和空間開銷。為了克服離線模型處理實時數(shù)據(jù)流的缺陷,在線Biterm主題模型(online Biterm topic model,OBTM)[4]將時間屬性引入BTM并擴展到在線環(huán)境,對每個時間片的數(shù)據(jù)進行建模,且將主題的歷史分布作為當(dāng)前時間片主題檢測的先驗知識,使模型滿足輿情新聞事件主題在線檢測的需求,還能持續(xù)捕捉主題在大規(guī)模后續(xù)新聞報道中的演化。然而,當(dāng)輿情新聞數(shù)據(jù)不斷到達時,需要保持模型參數(shù)的實時更新,傳統(tǒng)模型使用批處理吉布斯采樣進行參數(shù)更新,主題檢測的效率并不高。
為了提高主題模型參數(shù)更新的效率,研究人員提出在線算法[5-6]將海量數(shù)據(jù)集切分成若干小段后順序處理,并對當(dāng)前段數(shù)據(jù)使用梯度下降法來估計模型的參數(shù),比傳統(tǒng)離線算法需要更少的迭代次數(shù)就能達到收斂。Foulds等[7]將隨機坍縮變分貝葉斯(stochastic collapsed variational Bayesian inference,SCVB0)算法引入LDA主題模型,實現(xiàn)參數(shù)的實時更新。
因此,本文提出面向輿情事件監(jiān)控的主題模型MBTM(monitor Biterm topic model),根據(jù)輿情新聞事件的特點,引入時間節(jié)點對OBTM模型中的時間片進行擴展,在每個時間節(jié)點對輿情新聞數(shù)據(jù)進行主題建模,并使用SCVB0算法代替OBTM中的吉布斯采樣算法來實時更新MBTM模型參數(shù),使模型在解決稀疏性的同時具有高效地進行在線處理的能力。
為了實現(xiàn)輿情新聞事件的有效跟蹤,需要在事件發(fā)展初期檢測新聞報道的主題,跟蹤特定事件主題的后續(xù)新聞報道,并將涉及某個事件主題的新聞報道組織成事件線索呈現(xiàn)給用戶[8]。對此,現(xiàn)有研究多采用基于文本分類和相關(guān)度比較的跟蹤方法[9],在已知目標主題的基礎(chǔ)上比較后續(xù)報道與該主題的相關(guān)程度。然而,輿情新聞的易演化性和次生性會導(dǎo)致主題漂移[10],現(xiàn)有方法難以兼顧事件中詞項的語義特征和隱含的主題特征。
本文進一步給出基于MBTM主題模型的輿情新聞事件跟蹤方法,在新聞事件發(fā)展初期,利用MBTM有效檢測新聞報道描述的主題。為了跟蹤特定輿情事件的后續(xù)報道,利用MBTM模型推斷每篇報道的主題特征,基于主題特征對后續(xù)報道進行分類,并給出事件線索的概念,將線索關(guān)鍵詞映射到Word2vec[11]詞向量空間,利用JS散度(Jensen-Shannon divergence)[12]度量相鄰時間節(jié)點間的線索關(guān)聯(lián)度,去除冗余線索,最終針對新聞事件主題生成相應(yīng)的事件線索。本文方法既能保持主題模型挖掘隱含主題特征的優(yōu)勢,又能利用詞向量的語義信息提高主題模型的可解釋性。
總體來說,本文的主要貢獻如下:
(1)針對輿情新聞的稀疏性和敏感性,提出了面向輿情新聞事件監(jiān)控的在線主題模型MBTM,解決了傳統(tǒng)模型無法從在線數(shù)據(jù)中有效地檢測輿情事件主題的問題。
(2)針對輿情新聞的易演化性和次生性,提出了基于MBTM主題模型的輿情新聞事件跟蹤方法,解決了輿情新聞事件發(fā)展所產(chǎn)生的主題漂移問題,還能在主題層次對輿情新聞進行抽象描述。
(3)通過建立在“后續(xù)”(https://houxuapp.com/)新聞網(wǎng)站和新浪微博(https://weibo.com/)數(shù)據(jù)集上的實驗,驗證了本文提出的MBTM模型構(gòu)建和輿情新聞事件跟蹤方法的高效性和有效性。
主題模型[13]是用于分析大規(guī)模文檔主題的概率生成模型,首先檢測文檔中的主題信息,然后按照主題信息對文檔進行分類管理。基于廣泛應(yīng)用于主題檢測的LDA主題模型,AlSumait等[14]引入時間屬性,提出OLDA(online latent Dirichlet allocation)模型,將主題歷史分布作為當(dāng)前時間窗口模型的先驗,更新數(shù)據(jù)時不需要訪問之前的數(shù)據(jù),使其具有在線處理能力,但這種共現(xiàn)模式降低了LDA的準確性。Yan等[3]提出BTM主題模型,對短文本中的所有詞對進行建模,利用詞匯的上下文信息,避免文檔-詞項共現(xiàn)次數(shù)不足造成的主題建模失效問題,但不能直接用于在線環(huán)境。Cheng等[4]提出在線Biterm模型OBTM,在時間片上用BTM模型對文本進行建模,使模型能處理在線數(shù)據(jù)。然而,對于輿情新聞在線數(shù)據(jù),僅引入時間屬性,無法在新數(shù)據(jù)到達時實時更新參數(shù)。
對此,Canini等[15]提出增量式吉布斯采樣(incremental Gibbs sampling,IGS)算法,也稱在線吉布斯采樣(online Gibbs sampling,OGS)算法,Hoffman等[5]提出了在線變分貝葉斯(online variational Bayesian,OVB)算法。OGS和OVB算法都基于離線GS和VB算法,GS算法需要對文本中的每個詞項進行訓(xùn)練,VB算法引入了時間復(fù)雜度較高的digamma函數(shù),OGS和OVB算法的精度和效率都有待提高。
跟蹤輿情新聞事件主題演化的內(nèi)在機理和規(guī)律,為分析和監(jiān)控輿情事件的發(fā)展態(tài)勢提供了極大便利。文獻[16]針對輿情事件提出子話題標簽生成模型,有助于發(fā)現(xiàn)事件共性,并反映事件子話題熱度的變化趨勢;文獻[17]提出基于灰色關(guān)聯(lián)計算的網(wǎng)絡(luò)輿情監(jiān)測模型,實現(xiàn)民族輿情熱點事件的預(yù)測和發(fā)現(xiàn)。文獻[18]提出一種動態(tài)聚類主題模型,實時檢測并跟蹤事件主題變化。文獻[19]提出基于事件相似度的跟蹤方法,有效挖掘事件發(fā)展線索,形成事件脈絡(luò)。文獻[20]提出事理圖譜的概念,用于發(fā)現(xiàn)事件的演化規(guī)律。這些方法針對多領(lǐng)域事件顯示了良好的跟蹤效果,但是針對輿情新聞特點的跟蹤方法還需要進一步研究。
本文給出輿情新聞數(shù)據(jù)、輿情新聞數(shù)據(jù)詞典的定義,討論MBTM主題模型的定義及其參數(shù)更新方法。表1給出相關(guān)符號及其含義。

表1 符號及含義Table 1 Notations and descriptions
定義1輿情新聞數(shù)據(jù)表示為I={I1,I2,…,IM},Ij描述為三元組(Rj,Tj,seg_Tj)(1≤j≤M),Rj為新聞Ij的發(fā)布時間,Tj為Ij的文字內(nèi)容,seg_Tj為Tj經(jīng)預(yù)處理后的文字內(nèi)容。
定義2輿情新聞數(shù)據(jù)詞典表示為W={w1,w2,…,wS},為新聞數(shù)據(jù)中出現(xiàn)的所有詞項wi的集合,其中沒有重復(fù)的詞項,即wi≠wj(1≤i,j≤S,i≠j)。
MBTM模型使用二元組Biterm替換LDA中的詞項,并將每條數(shù)據(jù)作為一個單獨的上下文單元,任意兩個不同的詞項構(gòu)成一個Biterm,表示在詞項序列上固定大小的上下文單元中共現(xiàn)的無序詞對。通過這種詞對的共現(xiàn)來加強主題模型的學(xué)習(xí),可有效解決稀疏性問題。用輿情新聞數(shù)據(jù)詞典W中的S個詞項來表示K個主題(K≥1),z為主題的指示變量,k為主題序號(k∈{1,2,…,K}),θ為整個數(shù)據(jù)集的主題分布,φk為主題-詞項分布,α(0<α<1)和β(0<β<1)為整個數(shù)據(jù)集的主題分布和主題-詞項分布的先驗參數(shù)。下面給出構(gòu)建MBTM的基本思想:
(1)對整個語料庫,從參數(shù)為α的狄利克雷分布中對主題分布θ進行隨機采樣,從而推斷出概率分布中的隱含變量θ,得到具體的概率分布,即θ~Dir(α),表示為:
其中,α是K維參數(shù),αi>0,Г(x)是Gamma函數(shù)。
(2)對每個主題k∈[1,K],基于參數(shù)為β的狄利克雷分布對每個主題進行隨機采樣,得到主題-詞項分布φk,簡稱為詞項分布,即φk~Dir(β)。
(3)對B中的每個Bitermb,基于參數(shù)θ的多項式分布,為每個b隨機采樣一個主題z,即z~Multinomial(θ)。基于參數(shù)φk的多項式分布對詞項w1(b)和w2(b)進行隨機采樣,即w1(b),w2(b)~Multinomial(φk)。
圖1展示了上述過程中變量間的概率依賴關(guān)系。方框表示其中的過程需重復(fù),右下角為重復(fù)的次數(shù),灰色節(jié)點為觀測值,空心節(jié)點為隱變量或參數(shù),箭頭表示依賴關(guān)系。
為了提高參數(shù)推斷方法的準確性和高效性,基于所構(gòu)建的MBTM圖模型,僅對隱含主題變量z進行推斷,z服從變分多項式分布Multinomial(γbk),其中γbk為該多項式分布的變分參數(shù)。
對參數(shù)及隱變量間的依賴關(guān)系進行坍縮變分表示,通過求邊際積分,從后驗分布中去除部分隱變量,得到如圖2所示的MBTM圖模型。
原模型中隱變量的后驗分布為P(θ,φ,z|B),經(jīng)過圖2的坍縮變分表示后,將隱變量θ和φ去除,得到只包含隱變量z的后驗分布P(z|B)。這種表示方式保持了變量間的依賴關(guān)系,使近似分布更準確。
MBTM利用變分方法求解參數(shù),變分法的主要思想是使用一個近似分布逼近真實的后驗分布,也就是使兩個分布之間的KL散度最小化。經(jīng)過推斷,最小化KL散度轉(zhuǎn)化為最大化對數(shù)似然函數(shù)的下界ELBO(evidence lower bound)。目標ELBO的公式為:
其中,E[·]表示基于變分分布的期望,Q(z|γ)表示相對于變量z的完全分解的變分分布,即
關(guān)于變分參數(shù)γbk最大化ELBO可得到參數(shù)的更新公式,此時γbk可表示基于可觀測數(shù)據(jù),Bitermb分配的主題為k的概率,即Q(zb=k),γbk的具體更新公式為:
為了在后續(xù)新聞報道到來時立即更新模型,本文提出使用SCVB0算法[7]中的隨機更新理論對MBTM參數(shù)進行在線更新的方法,包括更新變分參數(shù)、更新充分統(tǒng)計量、更新全局參數(shù)3個主要任務(wù)。其中,全局參數(shù)的更新通過變分參數(shù)和充分統(tǒng)計量的迭代更新來實現(xiàn),由全局參數(shù)可得到隱含主題分布及主題-詞項分布,從而推斷出當(dāng)前數(shù)據(jù)的主題結(jié)構(gòu)。具體如下:
每個Bitermb出現(xiàn)時,令時間步長t=1,并隨機初始化Nk和Nk,w,為更新和恢復(fù)參數(shù)所需數(shù)據(jù)的統(tǒng)計量,分別表示主題為k的Biterm個數(shù)和主題為k的包含詞w的Biterm個數(shù),,其中Bw是包含詞項w的Biterm集合。
(1)更新變分參數(shù)。為了保證參數(shù)更新的高效性,本文使用少量的數(shù)據(jù)計算充分統(tǒng)計量,并利用這些統(tǒng)計量來更新變分參數(shù)。為了克服式(3)中需要計算不可獲得的期望的問題,下面給出近似變分方法,在迭代更新變分參數(shù)時對γbk進行更新:
其中,表示統(tǒng)計量Nk和Nk,w計數(shù)時要去掉當(dāng)前出現(xiàn)的Bitermb。基于得到的變分參數(shù)γbk,Nk和Nk,w的估計方法如下:
(2)更新充分統(tǒng)計量。針對主題信息分布不一致的輿情新聞實時數(shù)據(jù)流,根據(jù)歷史時間節(jié)點的數(shù)據(jù)快速給出當(dāng)前時間節(jié)點正確的主題信息,為了描述時間步長t改變時模型在新數(shù)據(jù)和歷史數(shù)據(jù)之間的權(quán)衡,按照式(7)定義Robbins-Monro序列[21]:
其中,ρt為學(xué)習(xí)率,τ和κ是Robbins-Monro序列的學(xué)習(xí)參數(shù)(τ≥1,0≤κ≤1)。
為了迭代地更新變分參數(shù)γbk直至收斂,當(dāng)一個新的Bitermb出現(xiàn)時,隨機更新充分統(tǒng)計量,給出采用ρt作為權(quán)重因子的隨機更新方法,取當(dāng)前統(tǒng)計量和歷史已更新統(tǒng)計量的權(quán)重之和:
不難看出,Nk和Nk,w是當(dāng)前統(tǒng)計量及所有歷史已更新統(tǒng)計量的權(quán)重之和,因此,距離當(dāng)前時間節(jié)點越遠的數(shù)據(jù)具有多重權(quán)重因子,對當(dāng)前統(tǒng)計量的影響也越小,而距離當(dāng)前時間節(jié)點越近的數(shù)據(jù)對當(dāng)前統(tǒng)計量的影響就越大。
(3)更新全局參數(shù)。每次更新Nk和Nk,w后,時間步長t加1。在對所有Biterm進行了更新操作后,由于全局參數(shù)θk和φk,w僅與充分統(tǒng)計量Nk、Nk,w和模型參數(shù)有關(guān),僅需更新這些充分統(tǒng)計量,方法如下:
算法1概括MBTM主題模型參數(shù)更新的方法。
算法1 MBTM主題模型的參數(shù)更新
輸入:超參數(shù)α、β;主題總數(shù)K;Biterm集合B。
輸出:更新后的全局參數(shù)θk、φk,w。
1.隨機初始化Nk和Nk,w
2.令時間步長t為1
3.ForbinB:
4.利用公式(4)計算變分參數(shù)γbk
5.更新Nk和Nk,w
6.更新時間步長t←t+1
7.End for
8.更新全局參數(shù)θk和φk,w
算法1中,MBTM模型參數(shù)更新的時間復(fù)雜度為O(K||B),其中每個Biterm到來時參數(shù)更新的計算時間為O(K)。
定義3新聞報道集合I中輿情新聞事件原始線索表示為OCj={cjA1,cjA2,…,cjAt},其中cjAt(1≤j≤k)為第j條事件線索在At時間節(jié)點的線索關(guān)鍵詞的概率分布。
MBTM模型中的全局參數(shù)θk和φk,w是實時更新的,據(jù)此設(shè)置時間節(jié)點At(t=1,2,…,T),T為節(jié)點個數(shù),在每個時間節(jié)點采樣主題-詞項分布φAt k,w,獲取對應(yīng)的主題,檢測主題在詞項上的變化來描述事件的演化軌跡。
為了在后續(xù)到來的輿情新聞數(shù)據(jù)中跟蹤并給出主題相關(guān)的新聞報道,掌握事件的發(fā)展過程,利用MBTM的全局參數(shù)θk和φk,w來推斷文檔-主題的概率分布P(z|d)。
其中,P(z|b(d)i)可通過貝葉斯公式來計算,P(b(d)i|d)為Bitermb(d)i在文檔d中出現(xiàn)次數(shù)占其在所有文檔中出現(xiàn)總數(shù)的比例,Nd為文檔d中包含的Biterm個數(shù)。
經(jīng)過上述推斷,每條輿情新聞數(shù)據(jù)都表示為主題的概率分布,從而將高維的詞項特征表示為低維的主題特征,使用主題特征進行分類預(yù)測,進而得到同一主題的新聞數(shù)據(jù)集合。
為了生成最具代表性的事件線索,避免主題漂移,本節(jié)給出線索內(nèi)關(guān)聯(lián)度和線索間相似性的度量策略。基于第3.1節(jié)中的φkA,wt獲得每個時間節(jié)點的主題詞項作為線索關(guān)鍵詞,采用JS散度來度量OCj中相鄰節(jié)點間的線索關(guān)鍵詞概率分布的差異,計算方法如下:
其中,cjA,wt和cjA,wt+1分別為At和At+1下詞項w的概率分布。若JS散度小于閾值λ,認為兩個時間節(jié)點上的線索關(guān)聯(lián),將關(guān)聯(lián)節(jié)點按時間順序串聯(lián),得到最終的事件線索TCj。
針對主題相關(guān)的事件可能形成冗余事件線索,考慮將時間上一致、語義上相近的線索合并。對于任意兩條原始事件線索,采用線索關(guān)鍵詞在Word2vec詞向量空間上的余弦距離來表征線索間的相似程度,計算方法如下:
其中,vOCi和vOCj分別為線索OCi和OCj中線索關(guān)鍵詞詞向量加和的平均值。當(dāng)dist小于閾值μ時,認為兩條線索相似,進而對相似線索進行合并。上述線索生成方法的具體過程如圖3所示。
本文采用“后續(xù)”新聞網(wǎng)站2019年1月9日至2020年3月30日的4 500條輿情新聞數(shù)據(jù)以及新浪微博2013年1月20至2020年4月28日的15 000余條輿情新聞事件的相關(guān)微博作為測試數(shù)據(jù)集。
實驗環(huán)境如下:Intel?CoreTMi7 5930K CPU;3.7 GHz處理器;8 GB內(nèi)存;Ubuntu18.04.1操作系統(tǒng);Python作為編程語言。統(tǒng)一將后續(xù)實驗的超參數(shù)α和β分別設(shè)置為50/K和0.01,Word2vec詞向量維度設(shè)置為300,窗口長度為10,采用CBOW模型,分類模型使用LIBLINEAR(https://www.csie.ntu.edu.tw/~cjlin/liblinear/)進行5-fold交叉驗證。
使用準確率(accuracy)來測試輿情新聞事件主題檢測結(jié)果的有效性。在爬取的微博數(shù)據(jù)集中,每條數(shù)據(jù)都包含主題標識詞字段,若模型檢測得到的數(shù)據(jù)主題與標識詞標識的數(shù)據(jù)主題一致,認為檢測結(jié)果正確,從而定義準確率為正確檢測主題的數(shù)據(jù)條數(shù)占測試數(shù)據(jù)總條數(shù)的比例。
使用覆蓋率(coverage)來度量輿情新聞事件線索生成結(jié)果的有效性,反映新聞事件線索覆蓋內(nèi)容的多少,定義如下:
其中,correct(TC)為正確生成事件線索的條數(shù),TC為最終生成的事件線索。若生成線索的時間節(jié)點和主題詞項能在“后續(xù)”新聞網(wǎng)站事件專題下的參考主題發(fā)展關(guān)鍵點中找到對應(yīng)的關(guān)鍵時間節(jié)點和事件描述關(guān)鍵詞,認為生成了正確的事件線索,e為去除冗余線索后的事件線索總數(shù)。
使用查準率P(precision)、召回率R(recall)、和F1分值來測試輿情新聞事件跟蹤結(jié)果的有效性,計算方法如下:
其中,TP、FP和FN分別為跟蹤到與事件相關(guān)、跟蹤到與事件不相關(guān)、與事件相關(guān)未跟蹤到的新聞數(shù)。
(1)效率測試
為了測試MBTM構(gòu)建和事件跟蹤的效率,將從新浪微博獲取的輿情新聞事件的15 000條微博作為測試數(shù)據(jù)集,對比MBTM、BTM、OBTM和OLDA構(gòu)建和跟蹤的總時間,如圖4所示。可以看出,隨著主題數(shù)的增加,另外3種模型構(gòu)建與跟蹤執(zhí)行時間的增長速度比MBTM快,說明在多主題情況下MBTM構(gòu)建及事件跟蹤的效率高于BTM、OBTM和OLDA。
為了測試輿情新聞數(shù)對MBTM構(gòu)建和事件跟蹤算法執(zhí)行效率的影響,固定主題數(shù)為40,迭代次數(shù)為100,測試隨著新聞數(shù)增加4種主題模型構(gòu)建和事件跟蹤的總時間,如圖5所示。可以看出,隨著新聞數(shù)增加,MBTM效率最高,說明MBTM構(gòu)建與事件跟蹤方法的高效性。
為了測試迭代次數(shù)對MBTM構(gòu)建和事件跟蹤效率的影響,固定新聞數(shù)為4 000,設(shè)置主題數(shù)為10,增加迭代次數(shù),測試執(zhí)行時間的變化趨勢,如圖6所示。可以看出,隨著迭代次數(shù)增加,MBTM構(gòu)建和事件跟蹤的總時間增長速度明顯低于BTM、OBTM和OLDA,這是因為MBTM采用的SCVB0算法縮短了每輪迭代中參數(shù)更新的時間,驗證了基于MBTM進行事件跟蹤的高效性。
(2)輿情新聞事件主題檢測有效性
利用15 000余條輿情新聞事件的微博作為測試數(shù)據(jù)集,并按照事件主題類別進行分類,得到的測試數(shù)據(jù)集包含7個事件,共7 827條微博,如表2所示,此外還包含4 000條非相關(guān)數(shù)據(jù),作為前面7個事件的反例報道。

表2 輿情新聞事件測試數(shù)據(jù)Table 2 Test data of public opinion news events
分別利用MBTM、OLDA、OBTM和BTM檢測事件主題,表3給出在7個特定事件上的主題檢測結(jié)果。可以看出,OLDA有2個事件沒有檢測到主題詞項,OBTM和BTM中有多個事件出現(xiàn)了不同程度的主題混合(斜體加粗詞項代表該詞項不屬于當(dāng)前事件主題)。而在MBTM中,“少數(shù)民族運動會”等冷門事件主題也能被發(fā)現(xiàn),且沒有主題混合的情況,驗證了基于MBTM進行主題檢測方法的有效性。
為了驗證表3中主題詞項檢測結(jié)果的正確性,分別測試基于MBTM、OBTM、BTM和OLDA進行主題檢測的準確率,如圖7所示。可以看出,MBTM在7個事件上檢測主題的準確率均優(yōu)于另外3種模型,準確率比3種模型平均高出14%。

表3 4種模型檢測到的事件的主題詞項Table 3 Topic words of detected events of four models
進一步增加主題數(shù),分別測試4種模型在7個事件上主題檢測的平均準確率,如圖8所示。可以看出,隨著主題數(shù)的增加,MBTM的準確率變化幅度最小,且準確率始終高于另外3種模型。當(dāng)主題數(shù)增加到40時,MBTM的準確率達到93.5%,在主題數(shù)目為70~100時,MBTM仍能夠保持較高的準確率,因此該模型對主題數(shù)的敏感度更低,適用性更好。
進一步增加新聞數(shù),分別測試4種模型在7個事件上主題檢測的平均準確率,如圖9所示。可以看出,隨著新聞數(shù)增加,MBTM的準確率提升了近30%。
(3)輿情新聞事件跟蹤方法有效性
為了測試輿情新聞事件跟蹤方法的有效性,選用實驗(2)中的測試數(shù)據(jù)集,從中抽取6個輿情新聞事件和1個近期熱門事件的微博數(shù)據(jù),按照發(fā)布時間順序混合在一起形成新聞事件數(shù)據(jù)流,并按照4∶1的比例劃分為訓(xùn)練集和測試集,根據(jù)事件跟蹤的問題定義,測試集數(shù)據(jù)的發(fā)布時間都在訓(xùn)練集數(shù)據(jù)之后。將基于OBTM、BTM和OLDA的跟蹤方法作為基線方法,測試基于MBTM的跟蹤方法的召回率、查準率和F1值,如圖10~圖12所示。可以看出,基于MBTM的跟蹤方法提高了輿情新聞事件跟蹤的召回率、查準率和F1值。
為了測試新聞數(shù)對輿情新聞事件跟蹤結(jié)果的影響,測試隨著新聞數(shù)增加,召回率、查準率和F1值的變化趨勢,如圖13~圖15所示。可以看出,隨著新聞數(shù)增加,基于MBTM的跟蹤方法的3個指標始終高于基于另外3種模型的跟蹤方法,最高達到96.3%,97.9%,97.1%,說明本文方法能達到更好的跟蹤效果。
(4)輿情新聞事件線索生成有效性
為了測試本文提出的輿情新聞事件線索生成方法的有效性,選用實驗(3)中的測試數(shù)據(jù)集,設(shè)置閾值λ=0.35,μ=0.5(比較不同閾值組合下生成線索的覆蓋率,選取覆蓋率最高的閾值組合),時間節(jié)點個數(shù)為5。參考“后續(xù)”新聞網(wǎng)站事件專題下的主題發(fā)展關(guān)鍵點,測試不同主題數(shù)下4種模型在7個事件上生成事件線索的平均覆蓋率,如圖16所示。可以看出,針對7個輿情新聞事件,隨著主題數(shù)增加,基于MBTM生成事件線索的覆蓋率始終高于基于另外3種模型生成事件線索的覆蓋率,最高達到了83%,說明本文方法可有效挖掘輿情新聞事件的多主題特征,從而提高線索的覆蓋率。
圖17 展示了基于本文方法生成的其中兩條事件線索,兩條事件線索TC1和TC2分別代表“西藏民主改革60年”和“湖南岳陽天價切糕”的輿情新聞事件。其中,圓節(jié)點代表事件的線索節(jié)點,記錄事件主要信息的線索關(guān)鍵詞在該節(jié)點的右側(cè),線索節(jié)點的索引號對應(yīng)線索生成的時間節(jié)點,線索節(jié)點間的有向邊表示它們之間的關(guān)聯(lián)關(guān)系。
本文針對輿情新聞的特點,提出面向輿情新聞事件跟蹤的在線主題模型MBTM。實驗結(jié)果表明,MBTM比OBTM、BTM和OLDA更高效,基于MBTM的新聞事件跟蹤方法更適合于處理輿情新聞事件在線數(shù)據(jù),并能夠有效生成事件線索。但是,MBTM需設(shè)置適當(dāng)?shù)闹黝}數(shù)和學(xué)習(xí)率,未來的研究工作將考慮自適應(yīng)選取最優(yōu)主題數(shù)和學(xué)習(xí)率。