999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態主題模型的大數據網絡輿情熱點抽取

2019-05-23 10:44:48萬紅新
電腦知識與技術 2019年8期
關鍵詞:大數據

萬紅新

摘要:隨著互聯網的發展和普及,在網絡上產生了大量的評論數據,形成輿情熱點話題。輿情熱點是一個動態的變化過程。提出的動態主題模型可以從輿情文本中發現動態變化的熱點詞,通過詞語間的主題聚類來提取輿情熱點詞語,實現從海里文本數據中提取網絡輿情熱點。

關鍵詞:主題模型;動態主題;輿情熱點;大數據

中圖分類號:TP393 文獻標識碼:A

文章編號:1009-3044(2019)08-0159-02

1引言

人工方式及一些常規方法已不能滿足對大數據輿情文本進行分析和處理的要求,輿情熱點的挖掘需要利用具有大規模數據處理能力的自動化相關技術來實現。動態化的主題模型適于處理海量的時變性文本數據,可以有效發現和提取熱點。將時間戳固定劃分的動態主題模型不能根據時間的動態變化調整主題-時間分布,在主題模型內部沒有實現動態的主題分配,時間分配對于主題詞的概率分布影響有限,使得主題詞語的分配難以符合實際輿情詞語的動態變化特點。本文提出了一種動態的主題模型D-LDA(Dynamic LDA),將時間因子作為時間層嵌入到主題模型中,從結構上對詞語的分布產生影響,并設計符合輿情文本分布特點的時間-主題-詞語分配算法,提升主題模型的時間敏感度,提取的主題詞語更能反映輿情熱點的變化規律。

2主要問題

LDA主題模型是一種概率模型,能夠從大文本數據集中提取潛在的主題詞語,而輿情熱點的挖掘契合了主題模型挖掘特點,利用主題模型能夠抽取隱藏的輿情熱點詞語。但主題模型對于時間變化不夠敏感,提取的主題詞語往往是高頻詞語,但一些與時間密切相關的熱點詞語提取率不高,容易忽略一些低頻的熱點詞語。具體問題包括:

① 大數據環境下的輿情文本熱點主題抽取。克服已有主題模型的不足,提出能夠發現更多動態主題詞語的LDA主題模型,實現主題詞和輿情熱點的關系映射。

② 動態主題模型的分布參數設計研究。加入時間約束后的LDA增加了文檔-時間和時間-主題分布,需要設計符合輿情熱點分布特點的算法來計算它們之間的分配關系。

③ 動態主題模型D-LDA(Dynamic LDA)的構建研究。如何在LDA的基礎上增加時間層,將三層結構的LDA轉換為四層結構,以適應時變性熱點主題詞的有效發現。

3相關研究

網絡上評論文本日益增加,已有的一些模型和算法難以處理如此大規模的文本數據, 主題模型的方法收到了關注。主題模型是無監督的學習方法,不需要進行大量的數據標注和訓練,主題模型同時可以對文本進行降維,適合對海量文本數據進行關鍵詞語抽取。LDA主題模型的這些特點對于輿情熱點的挖掘來說,提供了很好的基礎模型和算法。很多研究在標準LDA模型的基礎上,進行了模型改進和算法重設。標準LDA(Latent Dirichlet Allocation)[1]主題模型包括三層結構:文檔層、主題層和詞語層。要實現動態主題詞的提取,可以增加時間層。Blei(2006)將時間層加入LDA主題模型,提出的DTM(Dynamic Topic Model)主題模型可以提取動態的主題詞語,層級分配考慮了離散時間的影響,文檔分布按照時間片的不同而生成不同的主題詞語結構,獲取的主題詞語和時間變化保持同步[2];曹麗娜(2014)提出的主題模型重點關注隨時間變化的主題詞語鏈的提取,在詞語提取后,設計熱點權重進行主題排序,獲取更受關注的輿情話題 [3] ;陳曉美(2015)對于主題模型提取熱點的特點和優點進行了分析,提出了優化的基于主題模型的輿情熱點挖掘策略和提取路徑[4]。

4模型設計

提出的D-LDA主題模型保留了主題模型的主題提取功能的基礎上,將動態時間引入到標準LDA主題模型中,實現從三層結構到四層結構的轉變,包括的層級為:時間層、文檔層、主題層和詞語層,在提取熱點主題詞的同時,發現主題之間的動態變化和關聯性,實現文本熱點抽取。

D-LDA模型的參數估計采用吉布斯抽樣計算,分配參數包括文檔-時間分配、時間-主題分配、主題-詞語分配和時間介入的主題-詞語配,分別用符號[φtkw]、θdt、[θttk]和φkw表示,計算公式如(1)、(2)、(3)和(4)所示。公式中,k-1是除主題k以外的主題集合中的其他主題,w-1是除詞語w之外詞語集合中的其他詞語,[CKWkw]表示在主題k中詞語w出現的次數,[CDTdt]表示在時間點t文檔d的出現次數, t-1是除時間點t以外的時間點集合中的其他時間點,[CTKtk]表示在時間點t中主題k的分配次數,qk(w)是時間戳對詞語w屬于相關主題的權重分配因子,N是文本數據源中的非重復詞語個數。

[θdt=CDTdt+αt-1CDTdt+Tα] (1)

[θttk=CTKtk+αtk-1CTKtk+Kαt] (2)

[φkw=CKWkw+βw-1CKWkw+Nβ] (3)

[φtkw=qk(w)CKWkw+βw-1CKWkw+Nβ] (4)

5 實驗分析

對3個典型的主題模型進行了比較,LDA、DTM和D-LDA模型的熱點抽取的準確率和召回率如圖1、2所示,其中縱坐標表示準確率,橫坐標表示主題數。

從圖1進行分析,發現準確率隨著主題個數的增加都呈下降趨勢,這符合主題詞提取的一般規律。D-LDA模型相對于其他2個模型具有較明顯的優勢,說明時間的引入可以有效提升主題-詞語的分布動態性,提取更精確的輿情熱點詞語。DTM相對于LDA具有更好的準確率,表明LDA沒有時間層的介入,降低了詞語分布的變化性,影響了輿情主題詞語的提取。

從圖2可以看出,當主題數較少時,提取的主題詞語相對有限,所以3個模型的輿情熱點詞語的提取率不高。隨著主題數的增加,主題詞語提取相應增加,主題詞語的召回率業逐漸增加。D-LDA相對于其他2個模型召回率優勢較明顯,說明了動態時間層的加入,使得時間-主題、主題-詞語的結構更加清晰,改善了LDA模型對輿情熱點詞的識別率,提高了熱點詞的提取率。

6結論

提出了D-LDA模型基于大數據環境下的動態輿情熱點挖掘,重點在于構建符合輿情熱點動態分布特征的主題模型,實現熱點詞的提取及主題聚類。首先實現了LDA主題模型的時間層的嵌入,構造了四層LDA主題模型。標準LDA模型擅長抽取髙詞頻、高文檔頻率的主題詞語,沒有關注輿情文本詞語的動態變化特征,提取的主題詞語很難反映熱點的變化情況。D-LDA在保留LDA主題模型從大數據文本提取主題詞功能的同時,將時間戳因子引入主題模型,并且時間片的分配是隨機分布式的,可以動態影響文檔-時間、時間-主題的分布,從而抽取動態的而不是固化的熱度詞語及詞語關系,進而實現輿情熱點的有效提取。

參考文獻:

[1] Blei D, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.

[2] Blei D, Lafferty J D. Dynamic Topic Models[C]. Proceedings of the 23rd International Conference on Machine Learning (ICML). New York, USA: ACM, 2006: 113-120.

[3] 曹麗娜, 唐錫晉. 基于主題模型的BBS話題演化趨勢分析[J]. 管理科學學報, 2014, 17(11): 109-121.

[4] 陳曉美, 高鋮, 關心惠. 網絡輿情觀點提取的LDA主題模型方法[J]. 圖書情報工作, 2015, 59(21): 21-26.

【通聯編輯:光文玲】

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 亚洲久悠悠色悠在线播放| 国产精品污污在线观看网站| 亚洲第一视频网| 伊人久热这里只有精品视频99| 999精品视频在线| 精品亚洲国产成人AV| 欧美精品在线视频观看| 中文字幕乱码二三区免费| 亚洲欧美一区二区三区图片| 一区二区影院| 国产精品蜜芽在线观看| 国产成人久视频免费| 国产呦精品一区二区三区网站| 欧美亚洲第一页| h视频在线观看网站| 亚洲综合片| 亚洲色欲色欲www在线观看| 欧美色99| 日本亚洲国产一区二区三区| 久无码久无码av无码| 欧洲一区二区三区无码| 91精品国产丝袜| 国产女人18毛片水真多1| 久久香蕉国产线看观看式| 日韩少妇激情一区二区| 欧美视频二区| a级毛片免费播放| 亚洲国产成人自拍| 成人在线不卡| 国产新AV天堂| 亚洲国产成人久久精品软件| 亚欧美国产综合| 99精品伊人久久久大香线蕉| 亚洲中文精品久久久久久不卡| 国产电话自拍伊人| 毛片视频网址| 国产综合日韩另类一区二区| 日韩国产 在线| 精品久久高清| 色窝窝免费一区二区三区| 国产欧美视频一区二区三区| 亚洲综合狠狠| 伊人91在线| 欧美在线三级| 亚洲精品波多野结衣| 成人年鲁鲁在线观看视频| 国产成人永久免费视频| 精品天海翼一区二区| 国产精品免费p区| 免费高清a毛片| 国产一级做美女做受视频| 国产色图在线观看| 中文字幕不卡免费高清视频| 久久精品国产免费观看频道 | 一级毛片免费观看久| 日韩国产黄色网站| 在线观看国产精美视频| 黄色网址免费在线| 91在线一9|永久视频在线| 天堂成人在线| 成人亚洲天堂| 国产日韩精品欧美一区灰| 欧美日韩精品一区二区在线线| 91色综合综合热五月激情| 国产人碰人摸人爱免费视频| 成年人国产视频| 一级毛片免费高清视频| 久久久久久国产精品mv| 真人免费一级毛片一区二区 | 三上悠亚一区二区| 国产91九色在线播放| 99视频在线观看免费| 国产精品亚洲日韩AⅤ在线观看| 亚洲毛片一级带毛片基地| 在线观看视频一区二区| 91久久偷偷做嫩草影院精品| 免费国产黄线在线观看| 亚洲a免费| 日韩少妇激情一区二区| 91久久夜色精品国产网站| 日韩高清一区 | 国产精品免费福利久久播放 |