999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系分析

2022-02-16 12:10:14張曉飛
無線互聯(lián)科技 2022年23期
關(guān)鍵詞:分析系統(tǒng)

張曉飛

(遵義師范學(xué)院,貴州 遵義 563000)

0 引言

互聯(lián)網(wǎng)使用具有隨意性、便利性及隱蔽性,已成為民眾間接或直接表達觀念的首選。特別是微信、微博社交平臺的興起,人們熱衷于在網(wǎng)絡(luò)上對某件事表達看法、立場與態(tài)度。不乏消極輿論通過網(wǎng)絡(luò)傳播,如果引導(dǎo)不善,可能會威脅社會秩序與穩(wěn)定性。加強互聯(lián)網(wǎng)輿情監(jiān)控,利用Hadoop作為分布式處理框架處理海量數(shù)據(jù),設(shè)置監(jiān)控網(wǎng)絡(luò)關(guān)鍵字,可以有效減輕網(wǎng)絡(luò)輿情數(shù)據(jù)分析工作量。

1 系統(tǒng)需求分析

互聯(lián)網(wǎng)相關(guān)的人工智能、云計算、大數(shù)據(jù)等技術(shù)迅速發(fā)展,已經(jīng)融入網(wǎng)民生活,使得信息技術(shù)成為生活生產(chǎn)要素重組、改變競爭格局、重塑經(jīng)濟結(jié)構(gòu)的重要力量。根據(jù)統(tǒng)計可知,我國截至2021年網(wǎng)民規(guī)模達到10.32億人,相比2020年網(wǎng)民增加4 296萬人,互聯(lián)網(wǎng)普及率是73.0%。網(wǎng)民數(shù)量快速增長,多數(shù)網(wǎng)民在互聯(lián)網(wǎng)中發(fā)表過言論觀點,因此,必須提高網(wǎng)絡(luò)輿監(jiān)控力,以免由于消極論斷引發(fā)社會動蕩[1]。Hadoop平臺是分布式系統(tǒng),利用編程模型處理龐雜數(shù)據(jù),子項目是HDFS,借助HDFS能夠存儲大型數(shù)據(jù),容錯性及數(shù)據(jù)吞吐量高,可實現(xiàn)大規(guī)模數(shù)據(jù)訪問。在網(wǎng)絡(luò)輿情監(jiān)督中,管理人員需結(jié)合網(wǎng)監(jiān)部門及網(wǎng)絡(luò)發(fā)展要求,提取輿情關(guān)鍵字,從而實現(xiàn)敏感話題監(jiān)測、傳播途徑監(jiān)測、輿情態(tài)勢分析、重點話題自動關(guān)注,有效篩選網(wǎng)絡(luò)輿情熱點,識別敏感話題。在此過程中,系統(tǒng)能夠根據(jù)熱點話題進行跟蹤,生成統(tǒng)計報告;對于微博評論、新聞評論、論壇跟帖等也能做到數(shù)據(jù)精準(zhǔn)抽取、準(zhǔn)確挖掘、合理分析。按照設(shè)計要求,該輿情分析系統(tǒng)的熱點篩選準(zhǔn)確度需超過90%,涉及社會穩(wěn)定的輿情內(nèi)容篩選準(zhǔn)確度需達到100%。

2 系統(tǒng)設(shè)計方案

2.1 系統(tǒng)框架

Hadoop網(wǎng)絡(luò)輿情系統(tǒng)設(shè)計采取MVC架構(gòu),系統(tǒng)利用web爬蟲處理網(wǎng)頁URL及其聯(lián)結(jié)數(shù)據(jù),經(jīng)過去重、分類、除綴等操作,結(jié)合不同類別信息,采集相應(yīng)網(wǎng)頁。URL原始地址是使用eTools元搜索引擎,搜索某些關(guān)鍵字,返回搜索結(jié)果枝系統(tǒng),成為網(wǎng)絡(luò)爬蟲URL初始采集列表,且URL可以將列表劃分為若干信息數(shù)據(jù)類型,下發(fā)至不同采集節(jié)點[2]。網(wǎng)絡(luò)爬蟲經(jīng)過深度迭代與廣度迭代,采集互聯(lián)網(wǎng)網(wǎng)頁信息。在提取信息時,利用抽取信息模塊處理爬蟲采集數(shù)據(jù),篩選網(wǎng)頁內(nèi)容,采取去重技術(shù)清理數(shù)據(jù),能夠有效獲取輿情純文本信息。在存儲數(shù)據(jù)時,用戶先根據(jù)關(guān)鍵字內(nèi)容范圍抽取網(wǎng)頁信息,將其存儲至相應(yīng)HDFS文件系統(tǒng)之后,處理基礎(chǔ)數(shù)據(jù)。具體步驟為:開發(fā)人員先應(yīng)用Mahout開源算法庫,通過機器學(xué)習(xí)與數(shù)據(jù)挖掘算法,處理存儲于HDFS系統(tǒng)網(wǎng)頁數(shù)據(jù);再尋找輿情熱點,檢測敏感話題,提取關(guān)鍵字,追蹤輿情發(fā)展態(tài)勢;最后生成專題,分析網(wǎng)絡(luò)輿情。系統(tǒng)架構(gòu)如圖1所示。

圖1 系統(tǒng)架構(gòu)

在系統(tǒng)實施中,借助網(wǎng)絡(luò)爬蟲提取互聯(lián)網(wǎng)數(shù)據(jù)后,用戶方能對網(wǎng)頁預(yù)處理,提取網(wǎng)頁內(nèi)容、標(biāo)題關(guān)鍵字,做到去重、消噪、分詞。系統(tǒng)部署運算的框架是Map/Reduce模型,該模型立足于B/S架構(gòu),能保證系統(tǒng)開發(fā)的安全性。

2.2 數(shù)據(jù)收集模塊

在網(wǎng)絡(luò)關(guān)鍵字監(jiān)控中,由于輿情數(shù)據(jù)來源于各大網(wǎng)絡(luò)平臺,包括新浪微博、網(wǎng)易新聞、西瓜視頻、搜狐新聞等,系統(tǒng)數(shù)據(jù)收集作為重要的初始環(huán)節(jié),需結(jié)合數(shù)據(jù)來源,選擇恰當(dāng)?shù)氖占J健R孕侣剶?shù)據(jù)為例,Nutch由非分布式、分布式構(gòu)成,在實際運行中,分布式系統(tǒng)由于穩(wěn)定性、運行效率均優(yōu)于非分布式系統(tǒng),所以可使用分布式Nutch[3]。收集數(shù)據(jù)步驟如下:用戶利用元搜索引擎檢索關(guān)鍵字,添加URL列表至系統(tǒng)內(nèi),在URL列表創(chuàng)建Fetchlist,通過內(nèi)容解析器分析輿情數(shù)據(jù),提取全新URL,更新CrawIDB,完成數(shù)據(jù)收集。數(shù)據(jù)信息源于微博網(wǎng)站,管理人員利用API接口完成數(shù)據(jù)采集,在這一過程中需先保證客戶端獲得微博平臺的真實授權(quán),再完成開放工作。

2.3 數(shù)據(jù)處理模塊

網(wǎng)絡(luò)數(shù)據(jù)處理,主要是利用URL去重、建立索引、網(wǎng)頁分詞等,網(wǎng)頁分詞先用漢語詞法分析系統(tǒng),它具有分詞效果好、系統(tǒng)功能成熟的效果。在系統(tǒng)采集數(shù)據(jù)中,抽取網(wǎng)頁URL地址,收集互聯(lián)網(wǎng)數(shù)據(jù),不同網(wǎng)頁URL地址相同,網(wǎng)頁爬蟲為避免多次爬取相同網(wǎng)頁,增加系統(tǒng)負荷,降低爬取網(wǎng)頁速度,需考慮判重URL地址,進行重復(fù)URL地址過濾[4]。在URL驅(qū)蟲中,系統(tǒng)使用Bloom Filter算法能夠識別某元素是否處于集合內(nèi),實現(xiàn)去重效果。Nutch爬蟲在爬取網(wǎng)頁URL內(nèi)容時,能夠維護2個URL庫,分別為即將抓取與已抓取URL地址庫。在爬取關(guān)鍵字時,開發(fā)人員需要用到Bloom Filter算法,判斷URL地址是否已經(jīng)抓取,存在則放棄爬取;不存在則需添加至地址庫內(nèi)。由于利用輿情分析系統(tǒng)爬取的URL數(shù)量較大,為加快該進程,本設(shè)計使用拆分Bloom Filter算法。具體表現(xiàn)為:先通過s×m位串矩陣V表達數(shù)據(jù)集合,即Data={d1,d2,…,dn},算法將s長度作為m位串及h+1散列函數(shù),確定其映射范圍后,查詢1個位串是否處于集合內(nèi)。

2.4 數(shù)據(jù)存儲模塊

在Hadoop輿情關(guān)鍵字監(jiān)控系統(tǒng)中,數(shù)據(jù)存儲作為重要部分,能夠存儲網(wǎng)頁源數(shù)據(jù),包括網(wǎng)頁URL、網(wǎng)頁標(biāo)題、建立時間、瀏覽網(wǎng)頁數(shù)量、品論數(shù)量等,以XML文件模式存儲。存儲結(jié)果數(shù)據(jù),包括中間結(jié)果與分析結(jié)果數(shù)據(jù),前者是網(wǎng)頁預(yù)處理信息,后者是輿情統(tǒng)計信息,提取輿情關(guān)鍵字,篩選輿情熱點,追蹤輿情結(jié)果。存儲系統(tǒng)參數(shù),包括角色權(quán)限、密碼、用戶名、運行系統(tǒng)日志等,包括采集網(wǎng)頁日志、提取數(shù)據(jù)日志等,配制主要系統(tǒng)參數(shù)[5]。在數(shù)據(jù)存儲中,系統(tǒng)采取HDFS文件存儲。經(jīng)過網(wǎng)頁預(yù)處理后,數(shù)據(jù)中如果存在圖片內(nèi)容,則大小低于10 MB;如果收集的數(shù)據(jù)中無圖片內(nèi)容,則數(shù)據(jù)大小在2~64 k范圍內(nèi)。為提高該系統(tǒng)的存儲效率,設(shè)計人員以key存儲序列化文件,以value存儲真正文件,將多個小文件進行合并,匯集成大文件后存儲至HDFS。此種方法使得用戶訪問文件時,可利用Index了解文件key信息,快速訪問后面的數(shù)據(jù)信息。

2.5 輿情分析模塊

系統(tǒng)輿情分析模塊需提取輿情關(guān)鍵詞,構(gòu)建Map/Reduce模型,實現(xiàn)多層次、多角度的輿情分析。在模塊集群中,利用Master控制運行環(huán)境,完成資源調(diào)度與進程調(diào)度,通過節(jié)點Node提交輿情分析表申請后,系統(tǒng)即可根據(jù)預(yù)先定義的環(huán)境進行工作。Map/Reduce模型中,由于CPU工作流程相同,僅數(shù)據(jù)不同,可將作業(yè)劃分為若干獨立單元,將獨立單元分配至處理器處理。任務(wù)分配過程,即為mapper過程,處理任務(wù)是reduce過程,由reduce進程與mapper進程執(zhí)行,處理多種數(shù)據(jù),還能組合處理后數(shù)據(jù),Reduce任務(wù)喚醒Reducer執(zhí)行操作,結(jié)果輸出后存儲于系統(tǒng)內(nèi)。

2.5.1 提取關(guān)鍵字

在輿情關(guān)鍵字中,文件集關(guān)鍵詞和文檔關(guān)鍵詞屬于包含關(guān)系,關(guān)鍵詞詞頻越高,表明受關(guān)注度越高。通常,輿情關(guān)鍵詞是信息量較高的命名實體,在提取過程中,增加命名實體權(quán)重,能夠準(zhǔn)確提取關(guān)鍵詞。文檔中出現(xiàn)關(guān)鍵詞位置,對于文檔也有一定的影響。計算權(quán)重公式如下:

W(t.d)=

(1)

其中,W(t.d)是指t詞在d文檔中權(quán)重;N是文檔集內(nèi)文檔數(shù)量;tf(t,d)是頻率;nt是文檔中t詞出現(xiàn)數(shù)量;W(POS(T))是t詞詞性權(quán)重;|d|是文檔向量長度;W(Position(t,d))是文檔中t位置系數(shù)。根據(jù)公式,關(guān)鍵詞權(quán)重計算如下:

(2)

其中,Wt是候選關(guān)鍵字t權(quán)重;f(t)是文檔中有候選關(guān)鍵字t的數(shù)量;N是全部文檔數(shù)量;d是候選關(guān)鍵字集中關(guān)鍵詞數(shù)量。

2.5.2 熱點分析

在進行網(wǎng)絡(luò)熱點分析時,用戶首先隨機選取網(wǎng)頁樣本,通過聚類分析的方式,獲得熱點網(wǎng)絡(luò)輿情簇;然后選擇1個輿情簇提取關(guān)鍵詞特征,將熱點關(guān)鍵詞作為二次聚類依據(jù),可以將純文字文本向量化。系統(tǒng)自動將計算文本傳遞至TF-IDF模塊,獲得結(jié)果后返回至向量模塊,再通過第一與第二聚類,獲得有關(guān)分類,根據(jù)類別話題數(shù)量,篩選熱門話題。

2.5.3 生成專題

生成專題是專題輿情、熱點輿情進行抽取簡報;生成專題過程,就是計算文本向量權(quán)重維度,將維度文本摘要、整理相關(guān)信息,以簡報方式提供用戶,迅速識別熱點輿情。

3 系統(tǒng)測試

在系統(tǒng)測試中,為準(zhǔn)確監(jiān)測網(wǎng)絡(luò)關(guān)鍵字,本設(shè)計使用6臺服務(wù)器作為系統(tǒng)硬件,應(yīng)用64位Cent0S6.4及jdkl.7為軟件設(shè)施,評估網(wǎng)絡(luò)輿情監(jiān)測情況。本設(shè)計以漏報率與誤報率為指標(biāo),對高校網(wǎng)絡(luò)數(shù)據(jù)進行抓取,得出關(guān)鍵字有就業(yè)、考研、兼職、旅游、飲食等。測試結(jié)果表明,漏報率與誤報率較低,系統(tǒng)準(zhǔn)確性較好。

4 結(jié)語

綜上所述,隨著互聯(lián)網(wǎng)發(fā)展,產(chǎn)生海量、動態(tài)、異構(gòu)新聞數(shù)據(jù),人們難以高效、迅速地尋找到感興趣的新聞。為監(jiān)控網(wǎng)絡(luò)輿情,相關(guān)人員需要挖掘此類數(shù)據(jù),對新聞話題進行輿情預(yù)測與持續(xù)追蹤。為此,本文立足于Hapood軟件平臺框架,使用MVC架構(gòu),系統(tǒng)利用web爬蟲處理網(wǎng)頁URL及有關(guān)聯(lián)結(jié)數(shù)據(jù),設(shè)計了數(shù)據(jù)收集、處理、存儲及輿情分析模塊,提取輿情關(guān)鍵字,生成輿情專題,便于監(jiān)控網(wǎng)絡(luò)輿情。

猜你喜歡
分析系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
電力系統(tǒng)及其自動化發(fā)展趨勢分析
中西醫(yī)結(jié)合治療抑郁癥100例分析
主站蜘蛛池模板: 在线精品自拍| 精品夜恋影院亚洲欧洲| 国产激情在线视频| 高清无码一本到东京热| 新SSS无码手机在线观看| 欧美性爱精品一区二区三区| 亚洲中久无码永久在线观看软件 | 天天婬欲婬香婬色婬视频播放| 天天摸天天操免费播放小视频| 欧美日韩一区二区三区在线视频| 中文成人无码国产亚洲| 国产成人精彩在线视频50| 国产69囗曝护士吞精在线视频| 国产特级毛片aaaaaa| 日本免费a视频| 亚洲香蕉久久| 国产精品自拍合集| 国产本道久久一区二区三区| 青草国产在线视频| 91视频国产高清| 人妻少妇久久久久久97人妻| 婷婷亚洲最大| 欧美日韩国产系列在线观看| 狠狠色综合网| 日日碰狠狠添天天爽| 亚洲色图欧美激情| 日韩午夜片| 青青草原国产免费av观看| 亚洲三级色| 无码免费视频| 国产成人无码综合亚洲日韩不卡| 91免费国产在线观看尤物| 又爽又大又光又色的午夜视频| 久久99国产视频| 精品一区二区三区中文字幕| 国产欧美网站| 色欲不卡无码一区二区| 青青草国产在线视频| 婷婷色狠狠干| 亚洲国产系列| 国产精品精品视频| 国产欧美日韩一区二区视频在线| 污污网站在线观看| 国产精品爆乳99久久| 天堂成人在线视频| 18禁不卡免费网站| 国产a v无码专区亚洲av| 久久精品丝袜| 99久久无色码中文字幕| 亚洲AV一二三区无码AV蜜桃| 国产一级妓女av网站| 欧美精品在线视频观看| 久久久久久久久久国产精品| 亚欧美国产综合| 国产97视频在线| 欧美在线精品一区二区三区| vvvv98国产成人综合青青| 免费看的一级毛片| 亚洲成A人V欧美综合天堂| 亚洲欧美人成电影在线观看| 国产性爱网站| 少妇人妻无码首页| 伊人AV天堂| 日本黄色a视频| 亚洲AV人人澡人人双人| 色综合中文综合网| 久久人搡人人玩人妻精品| 青青青国产视频| 久久综合亚洲鲁鲁九月天| 丝袜国产一区| 狠狠做深爱婷婷综合一区| 国产成年女人特黄特色毛片免 | 欧美一级在线| 免费观看精品视频999| 欧美一级高清视频在线播放| 久久久91人妻无码精品蜜桃HD| 欧美在线一二区| 日本道综合一本久久久88| 91久久国产综合精品女同我| 久久综合成人| 国产一区二区三区免费观看| 91在线一9|永久视频在线|