999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系分析

2020-05-03 14:05:35胡治宇
公關(guān)世界 2020年6期
關(guān)鍵詞:文本

胡治宇

摘要:Hadoop作為數(shù)據(jù)分析的重要系統(tǒng),已經(jīng)廣泛應(yīng)用于數(shù)據(jù)監(jiān)控領(lǐng)域當(dāng)中。因此,本文將網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控作為研究內(nèi)容,簡單介紹Hadoop平臺的基本概念,分析基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心技術(shù),如網(wǎng)絡(luò)爬蟲技術(shù)、文本挖掘技術(shù)以及關(guān)鍵詞檢索技術(shù),再圍繞著網(wǎng)絡(luò)輿論數(shù)據(jù)收集、網(wǎng)絡(luò)輿情數(shù)據(jù)處理、網(wǎng)絡(luò)輿情數(shù)據(jù)分析以及網(wǎng)絡(luò)輿情監(jiān)控測試四個方面進行考慮,深入探討基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的體系,發(fā)現(xiàn)基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的體系具有較強的可靠性,僅供參考。

關(guān)鍵詞:網(wǎng)絡(luò)輿情 關(guān)鍵詞 監(jiān)控體系

目前,截止2019年底,我國網(wǎng)絡(luò)用戶已經(jīng)超過10億,已成為全球網(wǎng)絡(luò)用戶最多的國家。在互聯(lián)網(wǎng)環(huán)境下,網(wǎng)民可以自主了解不同的新聞,并能夠在不同的平臺中發(fā)表自己的言論觀點,這就逐漸提高了網(wǎng)絡(luò)輿情的影響力。為了更好的對網(wǎng)絡(luò)輿情進行控制,就需要加強對網(wǎng)絡(luò)輿情的監(jiān)控。Hadoop平臺屬于分布式系統(tǒng),可通過編程模型對龐雜海量的數(shù)據(jù)進行有效的分布式處理。因此,構(gòu)建基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控系統(tǒng)已成為未來發(fā)展趨勢。

一、Hadoop平臺概述

Hadoop平臺屬于分布式系統(tǒng),可通過編程模型對龐雜海量的數(shù)據(jù)進行有效的分布式處理。目前,Hadoop平臺的主要子項目就是HDFS,憑借HDFS可以對大型數(shù)據(jù)進行有效存儲,并具有容錯性較高的特點,能夠通過較高的吞吐量對數(shù)據(jù)進行大規(guī)模的訪問。同時,Hadoop平臺還具有四大優(yōu)勢,分別是可靠性、效率性、低廉性以及擴展性,可以對數(shù)據(jù)進行穩(wěn)定高效快速的處理,并能減少軟件的應(yīng)用成本。

二、基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心技術(shù)

(一)網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲作為一種依照特定規(guī)則在網(wǎng)絡(luò)平臺上抓取重要信息的程序,通常應(yīng)用于關(guān)鍵詞搜索引擎當(dāng)中,能夠穩(wěn)定有效的抓取網(wǎng)絡(luò)信息的關(guān)鍵詞,屬于構(gòu)建網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心工具。一般來講, 種子URL集合都會存放一些URL,包括門戶網(wǎng)站網(wǎng)頁以及論壇主頁網(wǎng)頁等,這些都是網(wǎng)絡(luò)爬蟲的運行起點。因此,網(wǎng)絡(luò)爬蟲首先都是從種子URL集合進行爬取,將種子URL頁面中存放的URL全部放入到待抓取隊列當(dāng)中,再從帶抓取列隊當(dāng)中準(zhǔn)確獲取一個URL,并對網(wǎng)址進行有效訪問,從而將網(wǎng)頁內(nèi)容抓取到本地文件系統(tǒng)當(dāng)中,最后對已經(jīng)抓取的網(wǎng)頁進行快速解析,以便提取一些能夠指向其他網(wǎng)頁的有效連接。目前,網(wǎng)絡(luò)爬蟲技術(shù)主要分為兩種,分別是通用型網(wǎng)絡(luò)爬蟲以及聚集型網(wǎng)絡(luò)爬蟲。其中,通用型網(wǎng)絡(luò)爬蟲的應(yīng)用范圍相對較廣,主要應(yīng)用于門戶搜索引擎;聚集型網(wǎng)絡(luò)爬蟲更多應(yīng)用于與主題相關(guān)的網(wǎng)頁類型,主要應(yīng)用于校園網(wǎng)絡(luò)輿情監(jiān)控。

(二)文本挖掘技術(shù)

文本挖掘?qū)儆跀?shù)據(jù)挖掘中最為常見的一項技術(shù),主要由三個模塊組成,分別是文本預(yù)處理、文本分類以及文本聚類。首先,文本預(yù)處理作為文本挖掘的基礎(chǔ),直接決定了文本挖掘的效率、精度以及模型。文本預(yù)處理主要涉及到中文分詞以及文本特征表示兩大內(nèi)容。對于中文分詞而言,主要就是將漢字序列精確有效的劃分為單個的詞,如jieba就是常見的中文分詞工具;對于文本特征表示而言,主要就是將人類能夠理解的文本信息進行有效轉(zhuǎn)化,使其成為能夠被計算機精確有效識別的一種格式,如概率模型以及空間向量模型就是常見的表示模型。其次,文本分類主要涉及到監(jiān)督式學(xué)習(xí)算法,如支持向量機以及樸素葉貝斯就是常見的分類算法,往往能夠有效確定分類的具體類別,包括經(jīng)濟、房產(chǎn)、娛樂以及體育等類別,并依照分類文本的實際內(nèi)容以及具體含義進行深度計算,從而將文本有效歸入到對應(yīng)的類別當(dāng)中。最后,文本聚類主要涉及到無監(jiān)督式機器學(xué)習(xí)算法,通常會自動將文本進行有效歸類,使同一類別的文本內(nèi)容更加接近,而不同類別的文本內(nèi)容則會相差較大。

(三)關(guān)鍵詞檢索技術(shù)

由于互聯(lián)網(wǎng)儲存了大量數(shù)據(jù),如果選擇整體檢索的方式,不僅會消耗較多時間,還不能有效保證檢索的準(zhǔn)確性。關(guān)鍵詞檢索技術(shù)已成為信息檢索的主要方式,能夠有效保證信息檢索的時效性。目前,在網(wǎng)絡(luò)輿情監(jiān)控體系中,關(guān)鍵詞檢索技術(shù)已成為核心部分,而關(guān)鍵詞檢索主要有三種方式,一是依照預(yù)先設(shè)定的語義分析來抓取關(guān)鍵詞,二是通過大數(shù)據(jù)技術(shù)進行統(tǒng)計來抓取關(guān)鍵詞,三是借助機器學(xué)習(xí)法來抓取關(guān)鍵詞。由于關(guān)鍵詞檢索技術(shù)在實際應(yīng)用中面臨較多流程,可通過簡化來完成相關(guān)操作。例如,首先,對信息內(nèi)容的主題詞進行有效分析,篩選出含義更為貼近的主題詞,以便構(gòu)建一個標(biāo)準(zhǔn)的主題詞表。其次,對這個主題詞表進行有效處理,提取文本中的關(guān)鍵詞。最后,根據(jù)權(quán)重比例來抓取關(guān)鍵詞,進而將關(guān)鍵詞有效篩選出來。

三、基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系分析

(一)網(wǎng)絡(luò)輿論數(shù)據(jù)收集

數(shù)據(jù)收集作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第一步,具有奠定基礎(chǔ)的作用。在數(shù)據(jù)收集過程中,應(yīng)根據(jù)數(shù)據(jù)來源采取對應(yīng)的收集方式。例如,網(wǎng)絡(luò)輿情的主要數(shù)據(jù)信息通常來源于各大網(wǎng)絡(luò)平臺,包括搜狐新聞、網(wǎng)易新聞、新浪微博以及騰訊微博等平臺。如果數(shù)據(jù)信息來源于新聞網(wǎng)站,主要借助Nutch來完成數(shù)據(jù)采集。目前,Nutch主要由兩種類別,分別是分布式以及非分布式。由于分布式系統(tǒng)在實際運行中效率以及穩(wěn)定性均優(yōu)于非分布式系統(tǒng),通常選擇分布式Nutch,具體的數(shù)據(jù)收集過程如下:首先將URL列表準(zhǔn)確添加到系統(tǒng)當(dāng)中,并在URL列表中進行相應(yīng)的操作;其次,創(chuàng)建一個Fetchlist,再通過內(nèi)容解析器將收集的大量數(shù)據(jù)進行有效分析。最后,提取一個全新的URL,并對CrawIDB進行有效更新,以此完成數(shù)據(jù)收集工作。如果數(shù)據(jù)信息來源于微博網(wǎng)站,主要借助API接口來完成數(shù)據(jù)采集,并在此期間確保客戶端能夠通過微博平臺的真實授權(quán),再對相關(guān)應(yīng)用進行開放。

(二)網(wǎng)絡(luò)輿情數(shù)據(jù)處理

數(shù)據(jù)處理作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第二步,具有承上啟下的作用。目前,相關(guān)技術(shù)還不能直接對收集的數(shù)據(jù)進行處理,必須采取數(shù)字化處理措施。在對數(shù)據(jù)進行數(shù)字化處理過程中,由于國內(nèi)網(wǎng)絡(luò)輿情數(shù)據(jù)大部分都是中文數(shù)據(jù),這就與英文數(shù)據(jù)的處理方式存在一定差異,再加上中文分詞的具體界限較為模糊,應(yīng)重點加強對中文分詞的預(yù)處理。在數(shù)據(jù)預(yù)處理過程中,還應(yīng)重點構(gòu)建文本向量空間模型,使該模型具有基本元素,包括詞頻、詞義、詞性以及標(biāo)題等內(nèi)容,并對不同類型的特征詞設(shè)置對應(yīng)的權(quán)重比。在數(shù)據(jù)預(yù)處理結(jié)束后,還應(yīng)對數(shù)據(jù)進行有效聚類,并設(shè)置相應(yīng)的數(shù)據(jù)聚類模塊,再借助層次聚類算法進行有序處理。在使用層次聚類算法時,應(yīng)將各種因素作為實際考量標(biāo)準(zhǔn),包括處理高維數(shù)據(jù)的穩(wěn)定性、對參數(shù)的依賴性以及抗干擾性等,確保層次聚類算法能夠發(fā)揮實際作用。

(三)網(wǎng)絡(luò)輿情數(shù)據(jù)分析

數(shù)據(jù)分析作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第三步,具有決定性作用。在整個網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)當(dāng)中,核心部分就是輿情分析模塊,只有輿情分析模塊能夠穩(wěn)定運行,就能對網(wǎng)絡(luò)輿情關(guān)鍵字進行強力有效的監(jiān)控。一般來講,網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控主要有三種形式,分別是敏感話題關(guān)鍵字監(jiān)控、熱點話題關(guān)鍵字監(jiān)控以及內(nèi)容傾向性監(jiān)控。其中,敏感話題關(guān)鍵字監(jiān)控就是對于一些具有敏感特征的字詞進行監(jiān)控,如法輪功、邪教等敏感詞。目前,國內(nèi)網(wǎng)絡(luò)具有較強的開放性,網(wǎng)民可以通過網(wǎng)絡(luò)將自己的各種意見以及各種看法發(fā)布到網(wǎng)絡(luò)平臺當(dāng)中,但在交互傳播中難免會出現(xiàn)一些具有敏感性的關(guān)鍵字,為了避免這類敏感話題對社會造成影響,監(jiān)控系統(tǒng)就會借助敏感詞詞庫進行充分有效地匹配,如果發(fā)現(xiàn)網(wǎng)絡(luò)傳播的關(guān)鍵字與敏感詞詞庫中的字詞明顯匹配,就能及時進行監(jiān)控;熱點話題關(guān)鍵字監(jiān)控就是對于一些當(dāng)前社會熱議的內(nèi)容進行監(jiān)控,并借助數(shù)據(jù)聚類技術(shù)對網(wǎng)絡(luò)傳播的熱門話題、熱門文章以及熱門評論進行有效分析,分別統(tǒng)計出這些熱門話題、熱門文章以及熱門評論的關(guān)注度,并將其按照數(shù)值大小依次進行排列,以便對一定時期內(nèi)的社會熱議的內(nèi)容進行準(zhǔn)確有效識別;內(nèi)容傾向性監(jiān)控就是根據(jù)信息發(fā)布者的自身主觀情感進行研究,以此得出信息發(fā)布者個人關(guān)于信息內(nèi)容的立場以及態(tài)度,并借助數(shù)據(jù)聚類技術(shù)對于情感詞進行有效匹配,并根據(jù)相應(yīng)的權(quán)重進行準(zhǔn)確計算。

(四)網(wǎng)絡(luò)輿情監(jiān)控測試

實驗測試作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的最后一步,能夠了解監(jiān)控系統(tǒng)的實際運行效果。為此,本實驗采用6臺戴爾服務(wù)器,以此作為監(jiān)控系統(tǒng)的硬件設(shè)施,并采用64位CentOS6.4以及64位jdk1.7,以此作為監(jiān)控系統(tǒng)的軟件設(shè)施。同時,將TDT作為本次實驗測試的評估標(biāo)準(zhǔn),對高校網(wǎng)絡(luò)輿情的實際發(fā)展趨勢進行評估,并將誤報率以及漏報率作為評估指標(biāo)。其中,誤報率=監(jiān)控到與主題有關(guān)的信息量/監(jiān)控到與關(guān)鍵詞有關(guān)的信息量,漏報率=未監(jiān)控到與主題有關(guān)的信息量/監(jiān)控到與關(guān)鍵詞有關(guān)的信息量。在實驗測試結(jié)束后,得出由網(wǎng)絡(luò)爬蟲技術(shù)抓取的實際數(shù)量達到6160條,并得出以下五個關(guān)鍵字,包括兼職、考研、飲食、旅游以及就業(yè),這意味著高校學(xué)生在一段時期內(nèi)對這些內(nèi)容較為關(guān)注,同時發(fā)現(xiàn)誤報率、漏報率以及識別代價等指標(biāo)數(shù)值均處于較低狀態(tài),表明本次實驗測試結(jié)果較為準(zhǔn)確,體現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)控的實際效果顯著。

結(jié)語:

綜上所述,基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系主要應(yīng)用到網(wǎng)絡(luò)爬蟲技術(shù)、文本挖掘技術(shù)以及關(guān)鍵詞檢索技術(shù),并且涵蓋了網(wǎng)絡(luò)輿論數(shù)據(jù)收集、網(wǎng)絡(luò)輿情數(shù)據(jù)處理、網(wǎng)絡(luò)輿情數(shù)據(jù)分析以及網(wǎng)絡(luò)輿情監(jiān)控測試四個步驟,在實際應(yīng)用中具有良好的關(guān)鍵字監(jiān)控效果。

課題項目:江西省教育廳科學(xué)技術(shù)研究項目《基于Hadoop的高校網(wǎng)絡(luò)輿情引導(dǎo)研究》項目編號:181120。

參考文獻:

[1]唐存琛,王極可. 一種結(jié)合模型集成的輿情管理模型的研究[J]. 計算機應(yīng)用與軟件,2019,36(06):31-34+92.

[2]江瑾. 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計和實現(xiàn)[J]. 信息與電腦(理論版),2019(13):63-65.

[3]高為民. 微時代背景下高校大學(xué)生網(wǎng)絡(luò)輿情預(yù)警研究[J]. 教育現(xiàn)代化,2017,4(13):90-91.

[4]聶瓊,陶杰,吳凡. 淺談高職網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的設(shè)計[J]. 現(xiàn)代計算機,2019(32):88-90.

猜你喜歡
文本
文本聯(lián)讀學(xué)概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
從背景出發(fā)還是從文本出發(fā)
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 理论片一区| 99re在线视频观看| 高清欧美性猛交XXXX黑人猛交| av一区二区无码在线| 久热re国产手机在线观看| 欧美国产在线精品17p| 在线观看欧美国产| 在线视频一区二区三区不卡| 欧美丝袜高跟鞋一区二区| 久久免费视频6| a毛片免费观看| 伊大人香蕉久久网欧美| 亚洲国产天堂在线观看| 久久精品免费看一| 丰满人妻久久中文字幕| 亚洲视频影院| 在线日本国产成人免费的| 久久国产免费观看| 亚洲人成网7777777国产| 国产a v无码专区亚洲av| 欧美在线国产| 四虎在线高清无码| 沈阳少妇高潮在线| 中文字幕第4页| 久久国产精品77777| 亚洲侵犯无码网址在线观看| 精品国产91爱| 国产视频只有无码精品| 亚洲天堂网在线播放| 亚洲天堂高清| 久久一日本道色综合久久| 91视频国产高清| 国产精品白浆在线播放| 动漫精品啪啪一区二区三区| 无码内射在线| 天天综合网色中文字幕| 亚洲色图综合在线| 亚洲精品卡2卡3卡4卡5卡区| 99re在线视频观看| 日韩中文无码av超清| 欧美一级高清片欧美国产欧美| 日本久久免费| 日韩天堂网| 久久久国产精品无码专区| 国模私拍一区二区三区| 国产成人精品第一区二区| 毛片在线区| 九九热视频在线免费观看| 不卡午夜视频| 成人精品免费视频| 少妇极品熟妇人妻专区视频| 欧美成人午夜影院| 任我操在线视频| 精品三级网站| 91黄色在线观看| 亚洲成aⅴ人在线观看| 欧美第二区| 精品久久国产综合精麻豆| 日韩精品免费一线在线观看| 午夜福利免费视频| 欧美国产日本高清不卡| 国产内射一区亚洲| 国内精品久久人妻无码大片高| 亚洲精选无码久久久| 久久人与动人物A级毛片| 国产精品美乳| 国产本道久久一区二区三区| 国产成人久久777777| 波多野结衣爽到高潮漏水大喷| 国产精品亚洲欧美日韩久久| 免费高清毛片| 草草线在成年免费视频2| 午夜欧美理论2019理论| 久久福利网| 香蕉eeww99国产在线观看| 亚洲成人高清无码| 亚洲欧美日韩中文字幕一区二区三区| 国产黄在线免费观看| 97国产一区二区精品久久呦| 美女毛片在线| 亚洲AV永久无码精品古装片| 99久久人妻精品免费二区|