999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡輿情動態(tài)分類研究

2022-08-29 12:13:58王一帆邵開麗徐志文葉鴻鑫
物聯(lián)網(wǎng)技術 2022年8期
關鍵詞:分類文本信息

王一帆,邵開麗,徐志文,葉鴻鑫

(黃河科技學院 工學部,河南 鄭州 450000)

0 引 言

在大數(shù)據(jù)環(huán)境下,針對突發(fā)事件網(wǎng)絡輿情的分析主要是對大量突發(fā)事件產(chǎn)生的網(wǎng)絡信息數(shù)據(jù)進行采集、分析、篩選、儲存,并甄別出有用的信息。大數(shù)據(jù)環(huán)境下的突發(fā)事件具有數(shù)據(jù)量大、形式多樣、傳播流動性強、真實性低等特點。按照傳統(tǒng)數(shù)據(jù)統(tǒng)計的方法控制突發(fā)事件網(wǎng)絡輿情已不符合當前需求,如何在大量且無序的網(wǎng)絡輿情信息中篩選出有效信息并分類,避免“數(shù)據(jù)爆炸”,提高有關部門對突發(fā)事件的趨勢判斷能力,是當前環(huán)境下突發(fā)事件輿情分析面臨的主要挑戰(zhàn)。

為探究輿情引導重點與管理方案,莊文英、許英姿、任俊玲、王興芬分析了輿情演化特征,將SEIR傳染病模型與LDA文檔主題生成模型相結(jié)合,采取LDA進行主題抽取,劃分意見群體,構建拓展SEInR多意見競爭演化模型,并利用Python針對大宗商品領域突發(fā)事件“中行原油寶事件”進行數(shù)據(jù)采集、模型仿真與靈敏度檢驗,實現(xiàn)輿情演化與輿情防控分析,進而分析平臺管控、媒體引導與監(jiān)管干預對網(wǎng)絡輿情演化的影響。對于使用單個預測模型會出現(xiàn)結(jié)果不準確的情況以及網(wǎng)民和媒體對于網(wǎng)絡輿情的影響有直接關系等現(xiàn)象,劉定一、沈陽陽、詹天明、劉亞軍、應毅提供了新的預測辦法,該預測辦法主要包括兩部分,一是社交媒體熱門看點分析,二是循環(huán)記憶神經(jīng)中的長短期神經(jīng)網(wǎng)絡。實驗證明了模型的精確性,說明此模型的預測精度較高,可以運用到實際生活中。基于數(shù)據(jù)分解的研究思路,程鐵軍、王曼、黃寶鳳、馮蘭萍利用自適應噪聲完備集成經(jīng)驗模態(tài)分解、BP神經(jīng)網(wǎng)絡以及相空間重構理論構建基于CEEMDAN-BP的輿情預測方法,并根據(jù)突發(fā)事件的案例進行了實證研究。針對各種突發(fā)事件的網(wǎng)絡輿情,許多專家都提供了自己的預測辦法,并且將會隨著科學技術的發(fā)展進步,提出更多、更好的分析預測方法來應對突發(fā)事件網(wǎng)絡輿情。

隨著科技的發(fā)展,社會輿情主要通過網(wǎng)絡進行傳播。截至2021年6月,中國網(wǎng)民規(guī)模達10.11億,互聯(lián)網(wǎng)普及率達71.6%。當突發(fā)事件發(fā)生后,網(wǎng)絡平臺成為輿情傳播的主流媒體。例如,突發(fā)的新冠肺炎疫情,網(wǎng)絡輿情會隨時更新疫情最新進展、確診人員情況和活動軌跡、藥物供給情況、政府防控應對措施等,成為突發(fā)事件和應對方法的及時反饋,提高了政府公信力。因此,對于網(wǎng)絡輿情進行準確識別和分類,為公眾及時準確地了解突發(fā)事件提供了信息支持,為網(wǎng)絡輿情管理部門提供了數(shù)據(jù)支持。

1 網(wǎng)絡輿情動態(tài)分類總流程

網(wǎng)絡輿情動態(tài)分類流程如圖1所示。

圖1 網(wǎng)絡輿情動態(tài)分類流程

2 網(wǎng)絡輿情信息采集與處理

大數(shù)據(jù)或稱海量數(shù)據(jù),當前主流的數(shù)據(jù)處理工具無法對基數(shù)如此巨大的信息進行快速的處理分類。大量突發(fā)事件的網(wǎng)絡輿情與大數(shù)據(jù)相似,其關鍵內(nèi)容并非網(wǎng)絡中發(fā)布的海量數(shù)據(jù)本身,而是基于大量數(shù)據(jù)研究分析得到的具有現(xiàn)實意義的結(jié)論,所以利用大數(shù)據(jù)分析突發(fā)事件的網(wǎng)絡輿情更加便捷。

對于突發(fā)事件的網(wǎng)絡輿情進行分類分析,需要對網(wǎng)絡輿情進行深度挖掘,包括網(wǎng)絡輿情采集、網(wǎng)絡輿情處理等過程,如圖2所示。

圖2 網(wǎng)絡輿情信息采集與處理流程

2.1 網(wǎng)絡輿情采集

要實現(xiàn)網(wǎng)絡輿情分類的前提是突發(fā)事件網(wǎng)絡輿情采集。只有基于大量網(wǎng)絡輿情信息的支持,聚類算法的結(jié)果才能夠精準。此處運用了Scrapy爬蟲框架,其具有可擴展、高性能、多線程、分布式爬蟲等特點,可抓取微博、微信等媒體平臺及官方網(wǎng)站中有關以下四類突發(fā)事件的網(wǎng)絡輿情信息:

(1)自然災害。主要包括水澇、干旱、臺風、地震、沙塵暴、森林火災、泥石流等。

(2)事故災難。主要包括石油泄漏、車禍、道路坍塌、天然氣井噴發(fā)、瓦斯爆炸等。

(3)公共衛(wèi)生事件。主要包括非典、食物中毒、新冠肺炎、禽流感等。

(4)社會安全事件。主要包括持槍搶劫、毒氣武器攻擊、暴亂等。

2.1.1 Scrapy爬蟲提取

Scrapy爬蟲框架基于Python開發(fā),能夠高效的從網(wǎng)頁中抓取有效數(shù)據(jù)。Scrapy框架結(jié)構如圖3所示。

圖3 Scrapy框架結(jié)構

2.1.2 網(wǎng)絡輿情采集結(jié)果

Scrapy爬蟲提取的部分突發(fā)事件網(wǎng)絡輿情信息見表1所列,其中id表示網(wǎng)絡輿情編號,detail表示網(wǎng)絡輿情信息。

表1 Scrapy爬蟲提取的部分網(wǎng)絡輿情信息

2.2 網(wǎng)絡輿情處理

對網(wǎng)絡輿情的研究基于文本,通過Scrapy爬蟲提取的結(jié)果并非都可以直接使用,往往會出現(xiàn)一些例如“。”、字母、數(shù)字之類的無用信息,所以必須對挖掘的網(wǎng)絡信息進行處理。一般使用文本處理的方法,除缺失值處理、去重等一般方法外,還包括如下方法:

(1)jieba分詞。中文的數(shù)據(jù)文本,詞和詞之間都存在緊密的聯(lián)系,而此處使用的網(wǎng)絡輿情文本基于詞語,運用jieba分詞方法對輿情信息進行處理,可以得到含有重要特征的關鍵詞。如:將“2020年2月2日湖南發(fā)生高致病性禽流感”處理為“2020年 2月2日 湖南 發(fā)生 高 致病性 禽流感”。

(2)去字母、數(shù)字。從表1可以看出,采集的網(wǎng)絡輿情信息含有數(shù)字、字母等文本內(nèi)容,例如“2020年2月2日湖南發(fā)生高致病性禽流感”中含有數(shù)字,會影響之后網(wǎng)絡輿情特征詞的提取。這里去除數(shù)字為“年 月 日 湖南 發(fā)生 高 致病性 禽流感”。

(3)去停用詞。通過以上步驟處理得到的結(jié)果,還不能很好地運用到模型中。其中“。”“、”“的”等標點符號和詞,對輿情信息分類作用不大,故需將無用信息剔除,便于后續(xù)網(wǎng)絡輿情特征文本詞的提取。

經(jīng)過缺失值處理、去重處理、jieba分詞、去停用詞等方法對網(wǎng)絡輿情信息進行處理后,得到了清晰的文本。經(jīng)過網(wǎng)絡輿情處理部分網(wǎng)絡輿情信息對比見表2所列。

表2 經(jīng)過網(wǎng)絡輿情處理部分網(wǎng)絡輿情信息對比

3 基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡輿情動態(tài)分類

基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡輿情動態(tài)分類流程如圖4所示。

圖4 基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡輿情動態(tài)分類流程

3.1 構造特征文本

經(jīng)過缺失值處理、去重處理、jieba分詞、去停用詞等方法對網(wǎng)絡輿情信息進行處理后,得到的是仍然是文本,由于中文無法直接被計算機讀取,無法將文本運用K-means聚類算法進行分析。因此,需要將網(wǎng)絡輿情文本轉(zhuǎn)化為特征向量,經(jīng)過計算,如果網(wǎng)絡輿情的特征向量相似度較高,代表網(wǎng)絡輿情之間的相似度較高,可將其分為一類。

3.1.1 詞袋模型

將通過上述步驟得到的網(wǎng)絡輿情信息切分成特征文本后,進一步轉(zhuǎn)換成向量,以便放入K-means聚類模型中。詞袋模型構建:首先把提取的特征文本轉(zhuǎn)化成此詞條列表,然后針對每個特征集創(chuàng)建一個向量,詞條重復的次數(shù)即為向量的值。

3.1.2 權值轉(zhuǎn)換

采用TF-IDF統(tǒng)計方法判斷網(wǎng)絡輿情特征文本對于該網(wǎng)絡輿情文本的權值。詞頻向量中的數(shù)字代表每條網(wǎng)絡輿情對應的特征文本在總詞條列表中出現(xiàn)的次數(shù),使用TF-IDF算法可將其中出現(xiàn)次數(shù)多的,即詞頻向量中數(shù)字較大的特征文本做進一步提取,得到對應的網(wǎng)絡輿情特征文本關鍵詞。

經(jīng)過權值轉(zhuǎn)換后得到的矩陣,列代表全部特征文本詞的集合,行代表網(wǎng)絡輿情對應特征文本詞的權值向量。矩陣即可代入之后的聚類算法中,實現(xiàn)網(wǎng)絡輿情動態(tài)分類。

3.2 K-means聚類算法

經(jīng)過權值轉(zhuǎn)換得到的矩陣可用于聚類算法構建模型,此處使用K-means聚類算法。作為一種常用的劃分聚類算法,K-means具有實現(xiàn)簡單、能夠處理大型數(shù)據(jù)等優(yōu)點。對未分組的網(wǎng)絡輿情進行分類,屬于無監(jiān)督學習。K-means算法以為參數(shù),將一個或多個對象分成個簇,提高簇內(nèi)部的相似度,同時降低簇之間的相似度。計算方法如下:

式中:代表所有網(wǎng)絡輿情權值向量平方誤差的總和;為每條網(wǎng)絡輿情對應的點;m為某一簇的平均值。從圖5可以看出:值越小,每簇分類的網(wǎng)絡輿情之間的相似度越高。

圖5 K-means聚類算法工作流程

值得一提的是,一般聚類算法中距離度量使用的是歐氏距離,此處我們使用余弦相似度作為距離度量。余弦相似度與歐氏距離相比,更利于文本的相似度計算,因此使用余弦相似度計算網(wǎng)絡輿情對應的特征文本詞之間的相似度,便于對網(wǎng)絡輿情進行分類。

通過TF-IDF算法得到每條網(wǎng)絡輿情特征文本詞權值向量之間夾角的余弦值,就可以評估網(wǎng)絡輿情之間的相似度。為方便后續(xù)分析,需要把余弦值轉(zhuǎn)換到0~1范圍內(nèi),再做歸一化處理。公式如下:

3.3 網(wǎng)絡輿情動態(tài)分類結(jié)果

通過聚類算法我們得到4種分類結(jié)果,從左至右將得到的簇標號為1、2、3、4,得到的部分聚類算法分類結(jié)果見表3所列。

表3 聚類算法分類結(jié)果

將4種網(wǎng)絡輿情分類與聚類算法結(jié)果結(jié)合,設定分類編號1、2、3、4分別對應自然災害、事故災難、公共衛(wèi)生事件以及社會安全事件,4種輿情分類的部分結(jié)果見表4、表5、表6、表7所列。

表4 分類為自然災害的部分網(wǎng)絡輿情文本

表5 分類為事故災難的部分網(wǎng)絡輿情文本

表6 分類為公共衛(wèi)生事件的部分網(wǎng)絡輿情文本

表7 分類為社會安全事件的部分網(wǎng)絡輿情文本

將4個表中的數(shù)據(jù)與4種網(wǎng)絡輿情分類對比,可以看出K-means聚類算法對網(wǎng)絡輿情分類準確率較高,能夠基本達到對大數(shù)據(jù)環(huán)境下突發(fā)事件網(wǎng)絡輿情分類的目的。

4 結(jié) 語

本文通過研究基于大數(shù)據(jù)的突發(fā)事件網(wǎng)絡輿情動態(tài)分類的背景、現(xiàn)狀、意義,敘述了網(wǎng)絡輿情動態(tài)分類的現(xiàn)實意義和重要性,使用網(wǎng)絡爬蟲方法進行網(wǎng)絡輿情信息采集與處理,提取網(wǎng)絡輿情關鍵特征文本,將其轉(zhuǎn)化為權值向量,放入K-means聚類模型得到4種分類,可以直接觀察對突發(fā)事件網(wǎng)絡輿情分類的結(jié)果,實現(xiàn)研究目標。

猜你喜歡
分類文本信息
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美亚洲激情| 中国国产A一级毛片| 综合色亚洲| a级免费视频| 亚洲另类国产欧美一区二区| 99re在线视频观看| 国产成人a在线观看视频| 女人18毛片一级毛片在线| 无遮挡国产高潮视频免费观看| 亚洲精品国产综合99久久夜夜嗨| 5388国产亚洲欧美在线观看| 日韩精品成人在线| 日韩二区三区| 手机成人午夜在线视频| a级毛片毛片免费观看久潮| 99资源在线| 久久永久免费人妻精品| 国产自无码视频在线观看| 中国黄色一级视频| 日本在线欧美在线| 日韩中文欧美| 国产精品成人一区二区不卡 | 精品丝袜美腿国产一区| 亚洲伊人久久精品影院| 沈阳少妇高潮在线| 欧美日韩亚洲国产| 日韩在线欧美在线| 亚洲色图在线观看| 欧类av怡春院| 一级毛片免费观看不卡视频| 久久久久久久久18禁秘| 国产一区三区二区中文在线| 久草中文网| 欧美曰批视频免费播放免费| 亚洲无限乱码一二三四区| 精品久久久久久成人AV| 真人高潮娇喘嗯啊在线观看| igao国产精品| 九九热精品免费视频| 99视频在线精品免费观看6| 国产乱视频网站| 亚洲综合婷婷激情| 亚洲成人在线免费| 黄色不卡视频| 毛片基地视频| av大片在线无码免费| 欧美人与性动交a欧美精品| 久久91精品牛牛| 色综合久久88| 人妻丰满熟妇AV无码区| 国产剧情国内精品原创| 国产一二三区在线| 国产精品一区二区不卡的视频| 自拍偷拍欧美日韩| 亚洲精品成人福利在线电影| 久久国产精品影院| 国禁国产you女视频网站| 精品视频在线观看你懂的一区| 欧美日韩综合网| 一本久道久久综合多人| 波多野结衣在线se| 亚洲欧美不卡| 亚洲婷婷在线视频| 丁香六月综合网| 伊人色综合久久天天| 欧美激情综合| 天堂在线亚洲| 国产精品第5页| 在线毛片免费| 天堂在线亚洲| 欧美日韩国产在线播放| 精品欧美一区二区三区在线| 一级福利视频| 亚洲一级色| 97se亚洲| 波多野结衣的av一区二区三区| 国产免费久久精品44| 国产视频一区二区在线观看| 一级福利视频| 97国产精品视频自在拍| 综合色天天| 99久久免费精品特色大片|