999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)于網(wǎng)絡(luò)輿情熱點(diǎn)主題提取的分析與研究

2021-04-22 06:45:20
關(guān)鍵詞:詞匯文本模型

北京科技大學(xué)天津?qū)W院信息工程學(xué)院 天津 300000

0 引言

隨著計(jì)算機(jī)網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)的存在,加快了信息的傳播速度,縮短了大眾之間交流的距離,加快了社會(huì)輿論的形成與傳播。從而形成了一種新的輿論傳播方式,即網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)輿情是通過網(wǎng)絡(luò)圍繞事件的發(fā)生、發(fā)展和變化。它不受空間和時(shí)間的限制[1],網(wǎng)絡(luò)輿情的形成,對社會(huì)的影響是非常大的。以微博熱點(diǎn)為例,熱點(diǎn)的出現(xiàn)往往意為著輿論的起點(diǎn),然后以該熱點(diǎn)為核心的網(wǎng)絡(luò)輿情開始產(chǎn)生,那么怎么才能快速有效的從海量的網(wǎng)絡(luò)中的大量數(shù)據(jù)中提取出有用的網(wǎng)絡(luò)輿情數(shù)據(jù)是亟需解決的問題,這關(guān)系到輿情分析結(jié)果的質(zhì)量及針對該輿情的決策。

本課題研究的目的就是對網(wǎng)絡(luò)中實(shí)時(shí)產(chǎn)生的熱點(diǎn)討論短文本進(jìn)行分析處理,剔除掉那些討論中產(chǎn)生得無價(jià)值文本,將其中得有價(jià)值文本,經(jīng)過語義分析、高頻詞匯關(guān)聯(lián),結(jié)合文本分析快速得出實(shí)時(shí)變化的熱點(diǎn)輿情信息。可以更好的了解輿情熱點(diǎn)的發(fā)展?fàn)顩r,及時(shí)把控輿情的走向,從而提高對輿情的監(jiān)控能力。

一、主要研究內(nèi)容概述

本課題經(jīng)過研究分析,確定了以下思路:

圖1 課題整體研究結(jié)構(gòu)

以一個(gè)網(wǎng)絡(luò)熱點(diǎn)為例,它是由眾多的討論數(shù)據(jù)構(gòu)成的想要分析一個(gè)網(wǎng)絡(luò)熱點(diǎn),這些數(shù)據(jù)是必不可少的。在獲取到數(shù)據(jù)源后,首先需要將文本數(shù)據(jù)進(jìn)行清洗,用于主題熱點(diǎn)的提取。通過對文本數(shù)據(jù)進(jìn)行清洗、分詞、去除停用詞等基本的預(yù)處理。其次利用LDA主題模型與GloVe詞共現(xiàn)模型相結(jié)合得出輿情熱點(diǎn)中的主題。從而得到輿論的核心主題。

二、數(shù)據(jù)清洗與分詞

在網(wǎng)絡(luò)中獲取的數(shù)據(jù)源是雜亂無章的,想要進(jìn)一步的進(jìn)行分析,就需要將數(shù)據(jù)進(jìn)行清洗和分詞,去除文本中的表情符號,標(biāo)點(diǎn)符號等對輿情分析沒有任何意義的垃圾數(shù)據(jù)。

使用正則表達(dá)式對文本中的表情符號等進(jìn)行匹配,去除掉無用得數(shù)據(jù);然后自定義中文詞庫,結(jié)合jieba分詞技術(shù),將短文本數(shù)據(jù)進(jìn)行分詞處理,并獲取詞性;接著自定義停用詞詞庫,結(jié)合分詞后得結(jié)果,將文本中得無意義詞匯去除。(如例1)

在網(wǎng)絡(luò)中獲取的數(shù)據(jù)源是雜亂無章的需要進(jìn)一步的進(jìn)行分析處理

例1 jieba分詞詞性結(jié)構(gòu)

三、LDA主題模型

在將所有的短文本數(shù)據(jù)都進(jìn)行預(yù)處理后,就需要對這些短文本數(shù)據(jù)進(jìn)行主題提取,經(jīng)過團(tuán)隊(duì)的研究和分析后決定采用隱含狄利克雷分布(Latent Dirichletallocation)以下簡稱LDA主題模型,對這些熱點(diǎn)數(shù)據(jù)進(jìn)行主題提取。LDA主題模型是基于貝葉斯模型的一個(gè)3層貝葉斯模型,也稱作文檔主題生成模型[2]。它包含了文檔中的詞、文檔中的主題和文檔三層結(jié)構(gòu)。

根據(jù)文章的結(jié)構(gòu),我們通常都會(huì)認(rèn)為一個(gè)文章是由若干個(gè)主題組成的,一個(gè)主題又會(huì)圍繞很多的詞匯,這些詞匯共同構(gòu)成了一篇文章。在LDA主題模型中,這些詞都是通過一定的概率選擇了某個(gè)主題,并且認(rèn)為從這個(gè)主題中又以一定的概率選擇了某個(gè)詞語。從文檔到主題,從主題到詞語都服從多項(xiàng)式分布。所以,使用LDA主題模型對短文本分詞后的詞集進(jìn)行不斷遍歷,從而找出大量短文本數(shù)據(jù)中的主題詞匯。

圖2 LDA主題模型

四、Glo Ve詞共現(xiàn)模型

Glo Ve詞共現(xiàn)模型(Global Vectors for Word Representation)是基于語料庫構(gòu)建詞的共現(xiàn)矩陣,然后基于共現(xiàn)矩陣和GloVe模型對詞匯進(jìn)行向量化表示(見例2、表1)。使用該模型,可以找到文本中詞與詞之間的聯(lián)系。

例2 GloVe模型輸入語料內(nèi)容

表1 詞共現(xiàn)矩陣

籃球 0 1 0 0 0 0 0運(yùn)動(dòng) 0 0 1 0 0 0 0

在上文中提到利用LDA主題模型對大量短文本數(shù)據(jù)進(jìn)行熱點(diǎn)主題詞匯提取,但是提取出的主題中的詞語是無序的,所以,還無法準(zhǔn)確得知具體的熱點(diǎn)主題信息。這個(gè)時(shí)候就需要利用Glo Ve詞共現(xiàn)模型,來找出文本中具有前后關(guān)系的詞語。結(jié)合LDA主題模型的結(jié)果,得出更加詳細(xì)的熱點(diǎn)主題結(jié)果。

五、分析結(jié)果

通過LDA主題模型與Glo Ve詞共現(xiàn)模型結(jié)合使用后,本小組成員爬取了微博中關(guān)于羅志祥周揚(yáng)青分手事件引發(fā)得網(wǎng)絡(luò)輿情數(shù)據(jù),經(jīng)過分析處理后,得出了如下結(jié)果:

通過圖3可以看到,經(jīng)過這兩個(gè)模型得分析后已經(jīng)得出了兩條關(guān)于該熱點(diǎn)事件的主題。在圖3上半部分中,LDA主題模型得出了由主題詞匯和概率組成得詞匯集合,但卻是無序的;但是經(jīng)過Glo Ve模型訓(xùn)練后(圖3下半部分),將LDA主題模型訓(xùn)練出的主題詞匯含有的共現(xiàn)詞匯找了出來,這樣,就得到了一條清晰的熱點(diǎn)主題。

圖3 LDA(上)與GloVe(下)模型分析結(jié)果(部分)

六、結(jié)語

近幾年,隨著網(wǎng)絡(luò)謠言的不斷產(chǎn)生,網(wǎng)絡(luò)輿情的監(jiān)控機(jī)制的不完善,對社會(huì)造成了很多的不良影響,所以在網(wǎng)絡(luò)輿情方面的研究越來越多。本文利用LDA主題模型和Glo Ve詞共現(xiàn)模型,從大量的網(wǎng)絡(luò)輿情數(shù)據(jù)中國進(jìn)行主題提取,通過對網(wǎng)絡(luò)輿情的主題獲取,可以更快更準(zhǔn)的獲取輿情的核心內(nèi)容,進(jìn)而加強(qiáng)對輿情的控制能力。

猜你喜歡
詞匯文本模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲青涩在线| 91 九色视频丝袜| 99热这里只有精品在线观看| 欧美午夜性视频| 女人毛片a级大学毛片免费| 91青青在线视频| 99久久精品免费看国产电影| 亚洲丝袜第一页| 91免费国产在线观看尤物| 奇米影视狠狠精品7777| 久久婷婷五月综合色一区二区| 亚洲三级成人| 五月综合色婷婷| 99在线视频免费| 久久成人免费| 亚洲国产日韩在线观看| 91精品免费高清在线| 欧美激情视频二区| 久久精品国产91久久综合麻豆自制| 国产成人永久免费视频| 四虎影视国产精品| www.av男人.com| 国产区在线观看视频| 久久久噜噜噜| 无码电影在线观看| 2020精品极品国产色在线观看| 国产欧美高清| 成人中文字幕在线| 久久综合丝袜长腿丝袜| 久热re国产手机在线观看| 亚洲精品无码av中文字幕| 国产性爱网站| 欧美一区精品| 中文纯内无码H| 欧美a级在线| 国产免费福利网站| 欧美午夜久久| 自拍偷拍欧美日韩| 999国内精品久久免费视频| 日韩在线播放中文字幕| 久久五月天国产自| 成人福利免费在线观看| 精品国产Ⅴ无码大片在线观看81| 福利视频一区| 国产精品爆乳99久久| 久久国产成人精品国产成人亚洲| 五月婷婷综合在线视频| 蝴蝶伊人久久中文娱乐网| 国产成人精品一区二区| 亚洲天堂久久新| 91免费观看视频| 婷婷激情五月网| 国产成人麻豆精品| 中文字幕调教一区二区视频| 中国国产A一级毛片| 免费不卡在线观看av| 高清码无在线看| 18禁黄无遮挡免费动漫网站| 午夜视频在线观看免费网站 | 久久性妇女精品免费| 久久精品只有这里有| 国产成人1024精品下载| 中文天堂在线视频| 国产无码网站在线观看| 一本无码在线观看| 国产95在线 | 欧美国产综合色视频| 国产自在自线午夜精品视频| 国产精品蜜臀| 毛片在线区| 狠狠v日韩v欧美v| 欧美精品1区| 亚洲乱强伦| 一级成人a毛片免费播放| 国产精品熟女亚洲AV麻豆| 国产在线观看人成激情视频| 人妻91无码色偷偷色噜噜噜| 欧美区国产区| 亚洲高清无码久久久| 在线欧美国产| 中国国产一级毛片| 久久国产成人精品国产成人亚洲 |