朱恒民 蔡婷婷 魏 靜
(1.南京郵電大學管理學院,江蘇 南京 210003;2.江蘇高校哲學社會科學重點研究基地—信息產業融合創新與應急管理研究中心,江蘇 南京 210003)
網絡話題已成為網民發表評論、政府了解民意、監管部門追蹤社會熱點的重要媒介。同生命體的生命周期類似,話題也有生命周期,也會經歷從萌芽到衰亡的各個階段,反映話題新興或衰亡等演化狀態。因此,識別話題的生命周期狀態對于監管部門了解話題現狀、掌握發展趨勢、監控輿論危機具有重要意義。
根據話題生命周期老化理論,話題演化可劃分為萌芽、生長、成熟和衰退4個狀態[1]。為了識別話題生命周期的狀態,一些學者提出了描述話題狀態的相關指標。Braun T等[2]提出了關于技術主題生命周期的新穎度指標,判斷主題是否進入了生命周期的成熟階段;基于新穎度指標,部分學者新增了一些其他指標來綜合判定話題的生命周期狀態。Tu Y N等[3]基于老化理論新增發文量指標,結合新穎度指標探測技術主題生命周期階段;祝娜等[4]新增被引量指標,通過自定義生命周期探測表來構建知識主題完整的生命周期演化路徑;譚春輝等[5]新增支持度指標,通過二維空間映射法判定主題所處的生命周期階段,從時間與強度兩個維度分析主題在各時間片所屬的狀態。此外,劉自強等基于Callon M等提出的向心度和密度指標[6],采用平面坐標法將科技文獻主題劃分為4個生命周期狀態,以描述主題在整個生命周期的演化過程[7]。另有一些學者通過繪制話題演化曲線來判定話題的生命周期狀態。劉東霞等[8]繪制專利累計量的S曲線,通過曲線走勢劃分煤炭液化技術主題的生命周期狀態;王晰巍等[9]利用百度指數曲線圖并結合話題事件特點,將微博話題劃分為4個生命周期狀態。
上述工作多是針對科技文獻,通過回溯一個已經演化完成的話題生命周期過程來劃分狀態,未能對一個正在演化中的話題進行狀態識別。其次,話題在演化過程中總是伴隨著網民情緒的變化,它會影響話題傳播和發展趨勢[10],但是上述工作并未將網民情緒納入話題生命周期狀態的判定指標。
在識別當前時刻話題狀態的基礎上,可以進一步預測未來時刻話題狀態的演化趨勢。已有相關工作多是基于時間序列預測方法,分析話題熱度或者強度等流行度指標的演化趨勢。岳麗欣等[11]采用ARIMA模型預測話題的強度變化趨勢;王寧等[12]運用灰色模型實現對話題熱度趨勢的預測;劉勘等[13]采用馬爾可夫鏈對話題熱度進行預測,并檢驗了建模方法的有效性;張和平等[14]選用百度指數作為話題熱度的衡量指標,采用馬爾可夫鏈修正灰色模型的預測結果。然而,僅預測話題流行度等單一指標并不能很好地描述話題狀態的演化趨勢。Liu R F等[15]采用隱馬爾可夫模型(Hidden Markov Model,HMM)試圖預測話題狀態,對多個話題分別構建HMM模型并建立模型庫,通過人工判別待預測話題與模型庫中已有話題是否相似,從而選擇相應模型預測話題未來的狀態,但是該方法人工干預工作量較大。此外,話題生命周期狀態是循序演變的,相較于預測話題在未來時刻的狀態,預測反映話題狀態的觀測指標趨勢更有意義。
HMM作為一種概率統計模型,能考慮時間序列的影響。通過觀測指標數據建立概率模型,運用最大似然估計法學習模型參數,用于解決分類和預測等問題[16-18]。Liu R F等[15]在預測話題生命周期狀態時,假設話題狀態指標數據是由隨機過程產生的隨機變量,采用高斯概率密度函數擬合這些指標數據。然而,單個高斯概率密度函數無法很好地擬合實際應用中的所有變量,于是使用幾個高斯概率密度函數的線性組合模擬觀測變量[19-20],即高斯混合模型(Gaussian Mixture Model,GMM)。因此,本文采用GMM來擬合話題狀態的多重觀測指標,并結合HMM提出話題狀態識別和趨勢預測方法。
綜上所述,現有研究主要是通過回溯話題演化過程來劃分話題生命周期狀態,鮮有研究引入網民情感指標來描述話題狀態,且多數研究是通過預測單一指標來分析話題的演化趨勢。因此,本研究對正處于演化中的話題進行狀態識別,將網民情感納入話題狀態識別指標,通過預測多個話題指標來更準確地描述話題狀態的發展趨勢,以期為監管部門識別話題演化狀態、揭示話題發展趨勢、采取干預措施提供決策支持。
話題狀態指標能夠量化描述話題生命周期狀態特征,反映話題從出現到衰亡的整個演化過程。首先基于Gompertz曲線來劃分話題的生命周期狀態,然后構建新穎度、關注度和情感度這3個話題狀態指標,分析指標與演化過程的相關性。
本文基于Gompertz曲線將話題生命周期劃分為萌芽、生長、成熟和衰退4個狀態。Gompertz曲線所描述現象的特點是:初期增長緩慢,之后逐漸加快,當達到一定程度后,增長率又逐漸下降,最后接近一條水平線。它通常用于描述事物的發展由萌芽、成長到飽和的周期過程。考慮到網絡話題的傳播過程與其較為一致,本文基于Gompertz曲線模型[21-22]對話題的生命周期發展階段進行模擬,通過微積分計算,確定曲線的3個分界點,然后據此劃分話題生命周期的4個狀態階段。
百度指數能夠統計并展示話題在生命周期內的用戶關注度數據,它是以話題關鍵詞為統計對象,以海量網民在某一時間段的百度搜索量為數據基礎,并綜合網民的閱讀、評論、轉發、點贊等行為的數據量,進行加權求和、指數化處理后得出,較為全面地衡量了用戶對話題的關注程度。百度指數累計量是一個隨時間連續變化的過程,本文對百度指數累計量進行Gompertz曲線擬合。
首先,假設話題百度指數累計量y是時間t的函數,其飽和值為K,增長系數為α,初始值為y0。用于描述百度指數累計量增長的微分方程為:
(1)
求解微分方程得:
(2)
當y0 y=Kabt (3) 為了求解參數K、a、b,可以對標準方程進行變化,對方程兩邊取對數可得: (4) 令y″=0,得: (5) 令y?=0,得: (6) (7) 其中,t1 圖1 Gompertz曲線描述的話題生命周期狀態階段 1)新穎度指標:新穎度是指話題的新鮮程度。一個話題開始出現后,隨著時間的推移,話題的發文數量逐漸增加,新穎度逐漸降低,話題逐漸成熟。將話題出現的第一個時刻(以小時為單位)作為話題的開始時刻(First Hour,FH),一個話題在t時刻的新穎度指標(Novelty Index,NI)的計量公式如式(8)所示。 (8) 2)關注度指標:關注度是指話題受網民關注的程度,其與話題的發文量有關,發文量越多,話題越受關注。因此,一個話題T的關注度可用該話題在k時刻內的發文量d(Tk)來表示。在話題演化的各個生命周期階段,其關注度是有差異的。在萌芽階段,話題逐漸受到關注;在生長階段,關注度持續增加;到成熟階段,關注度維持在一個較高水平;當話題進入衰退階段,其關注度隨之降低。因此,話題的關注度是衡量話題狀態的重要指標。 3)情感度指標:話題信息蘊含著網民的情緒,情緒越強烈,話題越容易激發網民的熱烈討論。因此,話題的情感度反映了話題蘊含的能量,是衡量話題狀態的又一個重要指標。 參照話題在生命周期內的百度指數曲線,通過繪制該話題在相同時間窗口內的關注度和情感度變化曲線,來分析指標與話題演化過程的相關性。以“專家稱已找到馬航MH370”話題為例,分析結果如圖2所示。通過驗證相關性,發現話題的關注度和情感度指標與百度指數的相關系數均超過0.9,說明關注度和情感度指標可以用來描述話題的演化過程。此外,話題從出現到衰亡的演化過程也是話題新穎度逐漸降低的過程,因此新穎度被眾多學者納入話題狀態指標。 圖2 話題在2021年11月30日—12月10日的各指標曲線與百度指數曲線對比圖 話題從萌芽走向衰退的過程可以看作是循序漸進的狀態轉移過程,這些內部隱藏狀態的變化無法用肉眼直接觀測到,但可以通過外部觀測指標來確定內部狀態的轉移。隨著時間推移,話題內部狀態變化是一種隨機過程,話題外部觀測變量在不同狀態下的結果也具有隨機性。這種由外部觀測變量反映內部狀態變化的過程是一種雙重隨機過程,與HMM建模過程一致。GMM-HMM允許隱藏狀態以多高斯分布產生觀測值,相比單個高斯分布,其更能合理地表達觀測值與隱藏狀態之間復雜的關聯關系。因此,本文基于GMM-HMM提出話題生命周期狀態識別和趨勢預測方法。 GMM-HMM是一個雙重隨機過程。其中,一個隨機過程描述隱藏狀態之間的概率轉移關系,另一個隨機過程描述隱藏狀態與觀測變量的映射關系。模型參數描述如下: 1)q:話題的隱藏狀態。話題狀態有萌芽狀態、生長狀態、成熟狀態和衰退狀態,分別用1、2、3、4表示。話題在t時刻的狀態表示為qt。 (9) 根據上述參數意義,一個GMM-HMM模型可以表示為一個五元組λ=(π,A,wim,uim,Σim)。 將4個話題狀態下的多觀測序列作為訓練集,基于多觀測序列訓練算法[24-25]依次訓練各話題狀態模型,得到4個話題狀態的模型庫,表示為{GMM-HMM1,GMM-HMM2,GMM-HMM3,GMM-HMM4},對應模型參數集為{λ1,λ2,λ3,λ4}。 話題狀態識別是根據正處于演化過程中的話題前幾個時刻的觀測序列,判斷出話題當前時刻所處的生命周期狀態,便于了解話題現狀,分析話題演化過程。 將話題在一段連續時間內的觀測序列O′輸入模型庫,分別計算模型庫中4個狀態模型產生O′的概率P(O′|λi),概率值最大的模型即為最優模型,其對應的話題狀態即為話題當前所處的狀態,判斷公式如式(10)所示。 (10) 話題狀態趨勢預測是基于話題當前時刻的狀態識別結果,預測話題關注度和情感度等狀態指標在未來時刻的變化趨勢,便于監管部門適時進行話題引導和網民情緒疏導。話題狀態趨勢預測可獲取話題在未來時刻的關注度和情感度的累計值,通過計算未來時刻與當前時刻的累計值之差,可得到話題狀態指標在未來時刻的變化量,進而反映出話題的演化趨勢。 通過話題狀態識別方法,得到最優模型。基于該模型的最優參數λ和當前時刻的話題狀態i,運用式(11)可預測出話題在未來時刻所對應的三維觀測變量值,即ot+1=(NIt+1,AIt+1,SIt+1)。式中,E(bj(ot))表示話題狀態j的混合高斯分布函數的期望值。 (11) 本文利用Python爬取新浪微博6個話題從出現到衰退完整生命周期內普通用戶發表的原創微博,話題分別為:“鄭州地鐵5號線事件”(話題1)、“鴻星爾克捐款”(話題2)、“鹿道森發遺書后失聯”(話題3)、“專家稱發現馬航MH370”(話題4)、“淘寶雙十二”(話題5)和“西安考研”(話題6),獲得數據共22 127條。 由于微博話題傳播速度快且易發酵,話題演化周期短,本文按小時(h)劃分時間片統計并處理話題數據,以便更快速地捕捉話題狀態的演變。6個話題的完整生命周期時間跨度分別為120h、200h、120h、122h、490h、250h。基于Gompertz曲線將這6個話題分別劃分為萌芽、生長、成熟和衰退4個狀態階段,各話題生命周期狀態的劃分時段如表1所示。基于狀態指標公式分別計算出每個話題在各個時間片的指標值,并作歸一化處理。由于關注度和情感度的取值范圍較大,故先利用小數定標法規范化指標,再利用Logistic函數將指標歸一化到(0,1)之間。各話題在每個時刻下的三維指標值構成一組觀測變量,另外加上每個話題在初始時刻的觀測變量,得到6個話題下共1 308組觀測數據。 表1 6個微博話題生命周期狀態的時間跨度 實驗采取類似交叉驗證的方法對話題狀態識別進行效果評估。在每一次驗證中,都取6個話題中的5個話題數據作為訓練集,訓練各狀態模型得到模型庫。取剩下的一個話題數據作為測試集,依次將該測試話題在連續5個時刻下的觀測變量作為一條觀測序列,輸入訓練好的模型庫,通過識別方法得到當前時刻的話題狀態。例如,將話題1~5的數據作為訓練集,話題6的數據作為測試集,從初始時刻開始,將連續5個時刻的觀測序列輸入模型庫,得到話題在當前時刻所處的狀態。識別結果的混淆矩陣如表2所示。 表2 話題6狀態識別的混淆矩陣 實驗采取精準率(Precision)、召回率(Recall)、F1值和準確率(Accuracy,Acc)這4個指標衡量話題狀態的識別效果。由于本次實驗數據來自于不同的微博話題,每個話題的生命周期長短不一,話題狀態類別不均衡。為了使評價指標更具有說服力,本文對不同話題的評價指標計算加權平均值,如式(12)所示。其中,P代表精準率,R代表召回率,num(topick)和num(all)分別表示第k個話題的測試組數和6個話題的觀測數據總數,Pk、Rk、F1k、Acck分別表示第k個話題識別的精準率、召回率、F1值和準確率。 (12) 實驗采用GaussianHMM模型、BP神經網絡模型進行對比,話題在不同模型下的狀態識別結果如表3所示。從中可以看出,基于GMM-HMM的話題狀態識別精準率、召回率、F1值和準確率均高于87%,相較于GaussianHMM和BP神經網絡具有較大優勢。這也說明多個高斯分布函數擬合話題狀態下的觀測變量是合適的。 表3 不同模型的話題狀態識別效果對比 實驗采用平均絕對誤差(Mean Absolute Error,MAE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為話題狀態趨勢預測精度的評價指標,誤差值越小表示模型的預測效果越好。其計算公式分別如式(13)、式(14)所示,其中,n為預測組數,Rt+1為t+1時刻的實際值,Pt+1為t+1時刻的預測值。 (13) (14) 實驗采用GaussianHMM模型、BP神經網絡模型進行對比,話題在不同模型下的狀態趨勢預測結果如表4所示。從中可以看出,基于GMM-HMM的話題關注度和情感度的MAE值均低于0.03,MAPE值均低于3.50%。可見,該方法對話題狀態趨勢的預測效果優于GaussianHMM和BP神經網絡方法。 表4 不同模型的話題狀態趨勢預測效果對比 識別演化過程中的話題狀態,預測話題發展趨勢,能夠及時跟蹤話題發展動態,盡早采取干預措施,對于輿情監管部門具有重要意義。為了實現此目標,本文提出話題狀態識別與趨勢預測方法,將網民情感納入話題狀態觀測指標中,基于GMM-HMM構建各話題生命周期狀態模型庫。通過實驗對比,驗證了該方法比GaussianHMM和BP神經網絡識別效果更好,預測誤差更小。本研究僅考慮到傳播速度較快、生命周期歷時較短的微博話題,在未來的研究中還需擴充網絡輿情的數據集,提高基于GMM-HMM的話題生命周期狀態識別及趨勢預測方法的普適性。


1.2 話題生命周期狀態指標計量

1.3 話題指標與演化過程的相關性分析

2 話題生命周期狀態識別及趨勢預測方法框架
2.1 GMM-HMM模型構建






2.2 模型訓練

2.3 話題狀態識別
2.4 話題狀態趨勢預測

3 實驗與結果分析
3.1 數據采集與處理

3.2 話題狀態識別結果分析


3.3 話題狀態趨勢預測結果分析

4 結束語