萬紅新
摘要:隨著互聯網的發展和普及,在網絡上產生了大量的評論數據,形成輿情熱點話題。輿情熱點是一個動態的變化過程。提出的動態主題模型可以從輿情文本中發現動態變化的熱點詞,通過詞語間的主題聚類來提取輿情熱點詞語,實現從海里文本數據中提取網絡輿情熱點。
關鍵詞:主題模型;動態主題;輿情熱點;大數據
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)08-0159-02
1引言
人工方式及一些常規方法已不能滿足對大數據輿情文本進行分析和處理的要求,輿情熱點的挖掘需要利用具有大規模數據處理能力的自動化相關技術來實現。動態化的主題模型適于處理海量的時變性文本數據,可以有效發現和提取熱點。將時間戳固定劃分的動態主題模型不能根據時間的動態變化調整主題-時間分布,在主題模型內部沒有實現動態的主題分配,時間分配對于主題詞的概率分布影響有限,使得主題詞語的分配難以符合實際輿情詞語的動態變化特點。本文提出了一種動態的主題模型D-LDA(Dynamic LDA),將時間因子作為時間層嵌入到主題模型中,從結構上對詞語的分布產生影響,并設計符合輿情文本分布特點的時間-主題-詞語分配算法,提升主題模型的時間敏感度,提取的主題詞語更能反映輿情熱點的變化規律。
2主要問題
LDA主題模型是一種概率模型,能夠從大文本數據集中提取潛在的主題詞語,而輿情熱點的挖掘契合了主題模型挖掘特點,利用主題模型能夠抽取隱藏的輿情熱點詞語。但主題模型對于時間變化不夠敏感,提取的主題詞語往往是高頻詞語,但一些與時間密切相關的熱點詞語提取率不高,容易忽略一些低頻的熱點詞語。具體問題包括:
① 大數據環境下的輿情文本熱點主題抽取。克服已有主題模型的不足,提出能夠發現更多動態主題詞語的LDA主題模型,實現主題詞和輿情熱點的關系映射。
② 動態主題模型的分布參數設計研究。加入時間約束后的LDA增加了文檔-時間和時間-主題分布,需要設計符合輿情熱點分布特點的算法來計算它們之間的分配關系。
③ 動態主題模型D-LDA(Dynamic LDA)的構建研究。如何在LDA的基礎上增加時間層,將三層結構的LDA轉換為四層結構,以適應時變性熱點主題詞的有效發現。
3相關研究
網絡上評論文本日益增加,已有的一些模型和算法難以處理如此大規模的文本數據, 主題模型的方法收到了關注。主題模型是無監督的學習方法,不需要進行大量的數據標注和訓練,主題模型同時可以對文本進行降維,適合對海量文本數據進行關鍵詞語抽取。LDA主題模型的這些特點對于輿情熱點的挖掘來說,提供了很好的基礎模型和算法。很多研究在標準LDA模型的基礎上,進行了模型改進和算法重設。標準LDA(Latent Dirichlet Allocation)[1]主題模型包括三層結構:文檔層、主題層和詞語層。要實現動態主題詞的提取,可以增加時間層。Blei(2006)將時間層加入LDA主題模型,提出的DTM(Dynamic Topic Model)主題模型可以提取動態的主題詞語,層級分配考慮了離散時間的影響,文檔分布按照時間片的不同而生成不同的主題詞語結構,獲取的主題詞語和時間變化保持同步[2];曹麗娜(2014)提出的主題模型重點關注隨時間變化的主題詞語鏈的提取,在詞語提取后,設計熱點權重進行主題排序,獲取更受關注的輿情話題 [3] ;陳曉美(2015)對于主題模型提取熱點的特點和優點進行了分析,提出了優化的基于主題模型的輿情熱點挖掘策略和提取路徑[4]。
4模型設計
提出的D-LDA主題模型保留了主題模型的主題提取功能的基礎上,將動態時間引入到標準LDA主題模型中,實現從三層結構到四層結構的轉變,包括的層級為:時間層、文檔層、主題層和詞語層,在提取熱點主題詞的同時,發現主題之間的動態變化和關聯性,實現文本熱點抽取。
D-LDA模型的參數估計采用吉布斯抽樣計算,分配參數包括文檔-時間分配、時間-主題分配、主題-詞語分配和時間介入的主題-詞語配,分別用符號[φtkw]、θdt、[θttk]和φkw表示,計算公式如(1)、(2)、(3)和(4)所示。公式中,k-1是除主題k以外的主題集合中的其他主題,w-1是除詞語w之外詞語集合中的其他詞語,[CKWkw]表示在主題k中詞語w出現的次數,[CDTdt]表示在時間點t文檔d的出現次數, t-1是除時間點t以外的時間點集合中的其他時間點,[CTKtk]表示在時間點t中主題k的分配次數,qk(w)是時間戳對詞語w屬于相關主題的權重分配因子,N是文本數據源中的非重復詞語個數。
[θdt=CDTdt+αt-1CDTdt+Tα] (1)
[θttk=CTKtk+αtk-1CTKtk+Kαt] (2)
[φkw=CKWkw+βw-1CKWkw+Nβ] (3)
[φtkw=qk(w)CKWkw+βw-1CKWkw+Nβ] (4)
5 實驗分析
對3個典型的主題模型進行了比較,LDA、DTM和D-LDA模型的熱點抽取的準確率和召回率如圖1、2所示,其中縱坐標表示準確率,橫坐標表示主題數。
從圖1進行分析,發現準確率隨著主題個數的增加都呈下降趨勢,這符合主題詞提取的一般規律。D-LDA模型相對于其他2個模型具有較明顯的優勢,說明時間的引入可以有效提升主題-詞語的分布動態性,提取更精確的輿情熱點詞語。DTM相對于LDA具有更好的準確率,表明LDA沒有時間層的介入,降低了詞語分布的變化性,影響了輿情主題詞語的提取。
從圖2可以看出,當主題數較少時,提取的主題詞語相對有限,所以3個模型的輿情熱點詞語的提取率不高。隨著主題數的增加,主題詞語提取相應增加,主題詞語的召回率業逐漸增加。D-LDA相對于其他2個模型召回率優勢較明顯,說明了動態時間層的加入,使得時間-主題、主題-詞語的結構更加清晰,改善了LDA模型對輿情熱點詞的識別率,提高了熱點詞的提取率。
6結論
提出了D-LDA模型基于大數據環境下的動態輿情熱點挖掘,重點在于構建符合輿情熱點動態分布特征的主題模型,實現熱點詞的提取及主題聚類。首先實現了LDA主題模型的時間層的嵌入,構造了四層LDA主題模型。標準LDA模型擅長抽取髙詞頻、高文檔頻率的主題詞語,沒有關注輿情文本詞語的動態變化特征,提取的主題詞語很難反映熱點的變化情況。D-LDA在保留LDA主題模型從大數據文本提取主題詞功能的同時,將時間戳因子引入主題模型,并且時間片的分配是隨機分布式的,可以動態影響文檔-時間、時間-主題的分布,從而抽取動態的而不是固化的熱度詞語及詞語關系,進而實現輿情熱點的有效提取。
參考文獻:
[1] Blei D, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.
[2] Blei D, Lafferty J D. Dynamic Topic Models[C]. Proceedings of the 23rd International Conference on Machine Learning (ICML). New York, USA: ACM, 2006: 113-120.
[3] 曹麗娜, 唐錫晉. 基于主題模型的BBS話題演化趨勢分析[J]. 管理科學學報, 2014, 17(11): 109-121.
[4] 陳曉美, 高鋮, 關心惠. 網絡輿情觀點提取的LDA主題模型方法[J]. 圖書情報工作, 2015, 59(21): 21-26.
【通聯編輯:光文玲】