999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于網絡輿情熱點主題提取的分析與研究

2021-04-22 06:45:20
探索科學(學術版) 2021年2期
關鍵詞:詞匯文本模型

北京科技大學天津學院信息工程學院 天津 300000

0 引言

隨著計算機網絡的普及,網絡的存在,加快了信息的傳播速度,縮短了大眾之間交流的距離,加快了社會輿論的形成與傳播。從而形成了一種新的輿論傳播方式,即網絡輿情。網絡輿情是通過網絡圍繞事件的發生、發展和變化。它不受空間和時間的限制[1],網絡輿情的形成,對社會的影響是非常大的。以微博熱點為例,熱點的出現往往意為著輿論的起點,然后以該熱點為核心的網絡輿情開始產生,那么怎么才能快速有效的從海量的網絡中的大量數據中提取出有用的網絡輿情數據是亟需解決的問題,這關系到輿情分析結果的質量及針對該輿情的決策。

本課題研究的目的就是對網絡中實時產生的熱點討論短文本進行分析處理,剔除掉那些討論中產生得無價值文本,將其中得有價值文本,經過語義分析、高頻詞匯關聯,結合文本分析快速得出實時變化的熱點輿情信息。可以更好的了解輿情熱點的發展狀況,及時把控輿情的走向,從而提高對輿情的監控能力。

一、主要研究內容概述

本課題經過研究分析,確定了以下思路:

圖1 課題整體研究結構

以一個網絡熱點為例,它是由眾多的討論數據構成的想要分析一個網絡熱點,這些數據是必不可少的。在獲取到數據源后,首先需要將文本數據進行清洗,用于主題熱點的提取。通過對文本數據進行清洗、分詞、去除停用詞等基本的預處理。其次利用LDA主題模型與GloVe詞共現模型相結合得出輿情熱點中的主題。從而得到輿論的核心主題。

二、數據清洗與分詞

在網絡中獲取的數據源是雜亂無章的,想要進一步的進行分析,就需要將數據進行清洗和分詞,去除文本中的表情符號,標點符號等對輿情分析沒有任何意義的垃圾數據。

使用正則表達式對文本中的表情符號等進行匹配,去除掉無用得數據;然后自定義中文詞庫,結合jieba分詞技術,將短文本數據進行分詞處理,并獲取詞性;接著自定義停用詞詞庫,結合分詞后得結果,將文本中得無意義詞匯去除。(如例1)

在網絡中獲取的數據源是雜亂無章的需要進一步的進行分析處理

例1 jieba分詞詞性結構

三、LDA主題模型

在將所有的短文本數據都進行預處理后,就需要對這些短文本數據進行主題提取,經過團隊的研究和分析后決定采用隱含狄利克雷分布(Latent Dirichletallocation)以下簡稱LDA主題模型,對這些熱點數據進行主題提取。LDA主題模型是基于貝葉斯模型的一個3層貝葉斯模型,也稱作文檔主題生成模型[2]。它包含了文檔中的詞、文檔中的主題和文檔三層結構。

根據文章的結構,我們通常都會認為一個文章是由若干個主題組成的,一個主題又會圍繞很多的詞匯,這些詞匯共同構成了一篇文章。在LDA主題模型中,這些詞都是通過一定的概率選擇了某個主題,并且認為從這個主題中又以一定的概率選擇了某個詞語。從文檔到主題,從主題到詞語都服從多項式分布。所以,使用LDA主題模型對短文本分詞后的詞集進行不斷遍歷,從而找出大量短文本數據中的主題詞匯。

圖2 LDA主題模型

四、Glo Ve詞共現模型

Glo Ve詞共現模型(Global Vectors for Word Representation)是基于語料庫構建詞的共現矩陣,然后基于共現矩陣和GloVe模型對詞匯進行向量化表示(見例2、表1)。使用該模型,可以找到文本中詞與詞之間的聯系。

例2 GloVe模型輸入語料內容

表1 詞共現矩陣

籃球 0 1 0 0 0 0 0運動 0 0 1 0 0 0 0

在上文中提到利用LDA主題模型對大量短文本數據進行熱點主題詞匯提取,但是提取出的主題中的詞語是無序的,所以,還無法準確得知具體的熱點主題信息。這個時候就需要利用Glo Ve詞共現模型,來找出文本中具有前后關系的詞語。結合LDA主題模型的結果,得出更加詳細的熱點主題結果。

五、分析結果

通過LDA主題模型與Glo Ve詞共現模型結合使用后,本小組成員爬取了微博中關于羅志祥周揚青分手事件引發得網絡輿情數據,經過分析處理后,得出了如下結果:

通過圖3可以看到,經過這兩個模型得分析后已經得出了兩條關于該熱點事件的主題。在圖3上半部分中,LDA主題模型得出了由主題詞匯和概率組成得詞匯集合,但卻是無序的;但是經過Glo Ve模型訓練后(圖3下半部分),將LDA主題模型訓練出的主題詞匯含有的共現詞匯找了出來,這樣,就得到了一條清晰的熱點主題。

圖3 LDA(上)與GloVe(下)模型分析結果(部分)

六、結語

近幾年,隨著網絡謠言的不斷產生,網絡輿情的監控機制的不完善,對社會造成了很多的不良影響,所以在網絡輿情方面的研究越來越多。本文利用LDA主題模型和Glo Ve詞共現模型,從大量的網絡輿情數據中國進行主題提取,通過對網絡輿情的主題獲取,可以更快更準的獲取輿情的核心內容,進而加強對輿情的控制能力。

猜你喜歡
詞匯文本模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 欧洲日本亚洲中文字幕| 日韩黄色大片免费看| 久久视精品| 58av国产精品| 天天色天天操综合网| 99er精品视频| 国产精品尤物在线| 国产精品极品美女自在线网站| 国产香蕉一区二区在线网站| 国产又色又爽又黄| 国产亚洲精品自在久久不卡 | 欧美日韩午夜| 欧美a级在线| 福利国产在线| 日本黄色a视频| 亚洲看片网| 国产一级二级在线观看| 国产偷倩视频| 欧美精品啪啪| 亚洲欧美日韩久久精品| 国产浮力第一页永久地址| 福利国产微拍广场一区视频在线| 91精品小视频| 欧美五月婷婷| 激情爆乳一区二区| 国产在线97| 91在线激情在线观看| 国产黄色免费看| 国产成年无码AⅤ片在线| 亚洲精品动漫| 在线观看网站国产| 欧美国产日产一区二区| 九九久久99精品| 成人av专区精品无码国产| 日韩欧美中文| 无码日韩精品91超碰| 97视频在线观看免费视频| 国产97视频在线| 午夜无码一区二区三区| 啪啪免费视频一区二区| 制服丝袜在线视频香蕉| 日韩一区精品视频一区二区| 九九这里只有精品视频| 国产地址二永久伊甸园| 久久久久久午夜精品| 久久精品无码一区二区日韩免费| 999国产精品永久免费视频精品久久 | 日韩欧美色综合| 亚洲精品大秀视频| 四虎永久在线精品国产免费| 国产在线精品香蕉麻豆| 亚洲女同欧美在线| 91亚洲免费视频| 国产毛片基地| 国产欧美日韩va另类在线播放| 日本精品影院| 亚洲h视频在线| 精品久久久久久中文字幕女| 欧美性精品| 久青草国产高清在线视频| 国产一区二区三区精品欧美日韩| 亚洲人成人无码www| 欧美区日韩区| 福利片91| 萌白酱国产一区二区| 亚洲无码视频喷水| 精品国产免费第一区二区三区日韩| 91精品aⅴ无码中文字字幕蜜桃| 全色黄大色大片免费久久老太| 精品福利视频网| 亚洲精品欧美重口| 国产美女精品一区二区| 亚洲一区色| 2022国产无码在线| 久久天天躁狠狠躁夜夜躁| 99精品伊人久久久大香线蕉| 黄色网在线| 青青久久91| 亚洲国产av无码综合原创国产| 日本成人精品视频| 日韩国产无码一区| 国产凹凸视频在线观看|