基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系分析

2020-05-03 14:05:35胡治宇

公關(guān)世界 2020年6期

關(guān)鍵詞：文本

胡治宇

摘要：Hadoop作為數(shù)據(jù)分析的重要系統(tǒng)，已經(jīng)廣泛應(yīng)用于數(shù)據(jù)監(jiān)控領(lǐng)域當(dāng)中。因此，本文將網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控作為研究內(nèi)容，簡單介紹Hadoop平臺的基本概念，分析基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心技術(shù)，如網(wǎng)絡(luò)爬蟲技術(shù)、文本挖掘技術(shù)以及關(guān)鍵詞檢索技術(shù)，再圍繞著網(wǎng)絡(luò)輿論數(shù)據(jù)收集、網(wǎng)絡(luò)輿情數(shù)據(jù)處理、網(wǎng)絡(luò)輿情數(shù)據(jù)分析以及網(wǎng)絡(luò)輿情監(jiān)控測試四個方面進行考慮，深入探討基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的體系，發(fā)現(xiàn)基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的體系具有較強的可靠性，僅供參考。

關(guān)鍵詞：網(wǎng)絡(luò)輿情關(guān)鍵詞監(jiān)控體系

目前，截止2019年底，我國網(wǎng)絡(luò)用戶已經(jīng)超過10億，已成為全球網(wǎng)絡(luò)用戶最多的國家。在互聯(lián)網(wǎng)環(huán)境下，網(wǎng)民可以自主了解不同的新聞，并能夠在不同的平臺中發(fā)表自己的言論觀點，這就逐漸提高了網(wǎng)絡(luò)輿情的影響力。為了更好的對網(wǎng)絡(luò)輿情進行控制，就需要加強對網(wǎng)絡(luò)輿情的監(jiān)控。Hadoop平臺屬于分布式系統(tǒng)，可通過編程模型對龐雜海量的數(shù)據(jù)進行有效的分布式處理。因此，構(gòu)建基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控系統(tǒng)已成為未來發(fā)展趨勢。

一、Hadoop平臺概述

Hadoop平臺屬于分布式系統(tǒng)，可通過編程模型對龐雜海量的數(shù)據(jù)進行有效的分布式處理。目前，Hadoop平臺的主要子項目就是HDFS，憑借HDFS可以對大型數(shù)據(jù)進行有效存儲，并具有容錯性較高的特點，能夠通過較高的吞吐量對數(shù)據(jù)進行大規(guī)模的訪問。同時，Hadoop平臺還具有四大優(yōu)勢，分別是可靠性、效率性、低廉性以及擴展性，可以對數(shù)據(jù)進行穩(wěn)定高效快速的處理，并能減少軟件的應(yīng)用成本。

二、基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心技術(shù)

（一）網(wǎng)絡(luò)爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲作為一種依照特定規(guī)則在網(wǎng)絡(luò)平臺上抓取重要信息的程序，通常應(yīng)用于關(guān)鍵詞搜索引擎當(dāng)中，能夠穩(wěn)定有效的抓取網(wǎng)絡(luò)信息的關(guān)鍵詞，屬于構(gòu)建網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的核心工具。一般來講，種子URL集合都會存放一些URL，包括門戶網(wǎng)站網(wǎng)頁以及論壇主頁網(wǎng)頁等，這些都是網(wǎng)絡(luò)爬蟲的運行起點。因此，網(wǎng)絡(luò)爬蟲首先都是從種子URL集合進行爬取，將種子URL頁面中存放的URL全部放入到待抓取隊列當(dāng)中，再從帶抓取列隊當(dāng)中準(zhǔn)確獲取一個URL，并對網(wǎng)址進行有效訪問，從而將網(wǎng)頁內(nèi)容抓取到本地文件系統(tǒng)當(dāng)中，最后對已經(jīng)抓取的網(wǎng)頁進行快速解析，以便提取一些能夠指向其他網(wǎng)頁的有效連接。目前，網(wǎng)絡(luò)爬蟲技術(shù)主要分為兩種，分別是通用型網(wǎng)絡(luò)爬蟲以及聚集型網(wǎng)絡(luò)爬蟲。其中，通用型網(wǎng)絡(luò)爬蟲的應(yīng)用范圍相對較廣，主要應(yīng)用于門戶搜索引擎；聚集型網(wǎng)絡(luò)爬蟲更多應(yīng)用于與主題相關(guān)的網(wǎng)頁類型，主要應(yīng)用于校園網(wǎng)絡(luò)輿情監(jiān)控。

（二）文本挖掘技術(shù)

文本挖掘?qū)儆跀?shù)據(jù)挖掘中最為常見的一項技術(shù)，主要由三個模塊組成，分別是文本預(yù)處理、文本分類以及文本聚類。首先，文本預(yù)處理作為文本挖掘的基礎(chǔ)，直接決定了文本挖掘的效率、精度以及模型。文本預(yù)處理主要涉及到中文分詞以及文本特征表示兩大內(nèi)容。對于中文分詞而言，主要就是將漢字序列精確有效的劃分為單個的詞，如jieba就是常見的中文分詞工具；對于文本特征表示而言，主要就是將人類能夠理解的文本信息進行有效轉(zhuǎn)化，使其成為能夠被計算機精確有效識別的一種格式，如概率模型以及空間向量模型就是常見的表示模型。其次，文本分類主要涉及到監(jiān)督式學(xué)習(xí)算法，如支持向量機以及樸素葉貝斯就是常見的分類算法，往往能夠有效確定分類的具體類別，包括經(jīng)濟、房產(chǎn)、娛樂以及體育等類別，并依照分類文本的實際內(nèi)容以及具體含義進行深度計算，從而將文本有效歸入到對應(yīng)的類別當(dāng)中。最后，文本聚類主要涉及到無監(jiān)督式機器學(xué)習(xí)算法，通常會自動將文本進行有效歸類，使同一類別的文本內(nèi)容更加接近，而不同類別的文本內(nèi)容則會相差較大。

（三）關(guān)鍵詞檢索技術(shù)

由于互聯(lián)網(wǎng)儲存了大量數(shù)據(jù)，如果選擇整體檢索的方式，不僅會消耗較多時間，還不能有效保證檢索的準(zhǔn)確性。關(guān)鍵詞檢索技術(shù)已成為信息檢索的主要方式，能夠有效保證信息檢索的時效性。目前，在網(wǎng)絡(luò)輿情監(jiān)控體系中，關(guān)鍵詞檢索技術(shù)已成為核心部分，而關(guān)鍵詞檢索主要有三種方式，一是依照預(yù)先設(shè)定的語義分析來抓取關(guān)鍵詞，二是通過大數(shù)據(jù)技術(shù)進行統(tǒng)計來抓取關(guān)鍵詞，三是借助機器學(xué)習(xí)法來抓取關(guān)鍵詞。由于關(guān)鍵詞檢索技術(shù)在實際應(yīng)用中面臨較多流程，可通過簡化來完成相關(guān)操作。例如，首先，對信息內(nèi)容的主題詞進行有效分析，篩選出含義更為貼近的主題詞，以便構(gòu)建一個標(biāo)準(zhǔn)的主題詞表。其次，對這個主題詞表進行有效處理，提取文本中的關(guān)鍵詞。最后，根據(jù)權(quán)重比例來抓取關(guān)鍵詞，進而將關(guān)鍵詞有效篩選出來。

三、基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系分析

（一）網(wǎng)絡(luò)輿論數(shù)據(jù)收集

數(shù)據(jù)收集作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第一步，具有奠定基礎(chǔ)的作用。在數(shù)據(jù)收集過程中，應(yīng)根據(jù)數(shù)據(jù)來源采取對應(yīng)的收集方式。例如，網(wǎng)絡(luò)輿情的主要數(shù)據(jù)信息通常來源于各大網(wǎng)絡(luò)平臺，包括搜狐新聞、網(wǎng)易新聞、新浪微博以及騰訊微博等平臺。如果數(shù)據(jù)信息來源于新聞網(wǎng)站，主要借助Nutch來完成數(shù)據(jù)采集。目前，Nutch主要由兩種類別，分別是分布式以及非分布式。由于分布式系統(tǒng)在實際運行中效率以及穩(wěn)定性均優(yōu)于非分布式系統(tǒng)，通常選擇分布式Nutch，具體的數(shù)據(jù)收集過程如下：首先將URL列表準(zhǔn)確添加到系統(tǒng)當(dāng)中，并在URL列表中進行相應(yīng)的操作；其次，創(chuàng)建一個Fetchlist，再通過內(nèi)容解析器將收集的大量數(shù)據(jù)進行有效分析。最后，提取一個全新的URL，并對CrawIDB進行有效更新，以此完成數(shù)據(jù)收集工作。如果數(shù)據(jù)信息來源于微博網(wǎng)站，主要借助API接口來完成數(shù)據(jù)采集，并在此期間確保客戶端能夠通過微博平臺的真實授權(quán)，再對相關(guān)應(yīng)用進行開放。

（二）網(wǎng)絡(luò)輿情數(shù)據(jù)處理

數(shù)據(jù)處理作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第二步，具有承上啟下的作用。目前，相關(guān)技術(shù)還不能直接對收集的數(shù)據(jù)進行處理，必須采取數(shù)字化處理措施。在對數(shù)據(jù)進行數(shù)字化處理過程中，由于國內(nèi)網(wǎng)絡(luò)輿情數(shù)據(jù)大部分都是中文數(shù)據(jù)，這就與英文數(shù)據(jù)的處理方式存在一定差異，再加上中文分詞的具體界限較為模糊，應(yīng)重點加強對中文分詞的預(yù)處理。在數(shù)據(jù)預(yù)處理過程中，還應(yīng)重點構(gòu)建文本向量空間模型，使該模型具有基本元素，包括詞頻、詞義、詞性以及標(biāo)題等內(nèi)容，并對不同類型的特征詞設(shè)置對應(yīng)的權(quán)重比。在數(shù)據(jù)預(yù)處理結(jié)束后，還應(yīng)對數(shù)據(jù)進行有效聚類，并設(shè)置相應(yīng)的數(shù)據(jù)聚類模塊，再借助層次聚類算法進行有序處理。在使用層次聚類算法時，應(yīng)將各種因素作為實際考量標(biāo)準(zhǔn)，包括處理高維數(shù)據(jù)的穩(wěn)定性、對參數(shù)的依賴性以及抗干擾性等，確保層次聚類算法能夠發(fā)揮實際作用。

（三）網(wǎng)絡(luò)輿情數(shù)據(jù)分析

數(shù)據(jù)分析作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的第三步，具有決定性作用。在整個網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)當(dāng)中，核心部分就是輿情分析模塊，只有輿情分析模塊能夠穩(wěn)定運行，就能對網(wǎng)絡(luò)輿情關(guān)鍵字進行強力有效的監(jiān)控。一般來講，網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控主要有三種形式，分別是敏感話題關(guān)鍵字監(jiān)控、熱點話題關(guān)鍵字監(jiān)控以及內(nèi)容傾向性監(jiān)控。其中，敏感話題關(guān)鍵字監(jiān)控就是對于一些具有敏感特征的字詞進行監(jiān)控，如法輪功、邪教等敏感詞。目前，國內(nèi)網(wǎng)絡(luò)具有較強的開放性，網(wǎng)民可以通過網(wǎng)絡(luò)將自己的各種意見以及各種看法發(fā)布到網(wǎng)絡(luò)平臺當(dāng)中，但在交互傳播中難免會出現(xiàn)一些具有敏感性的關(guān)鍵字，為了避免這類敏感話題對社會造成影響，監(jiān)控系統(tǒng)就會借助敏感詞詞庫進行充分有效地匹配，如果發(fā)現(xiàn)網(wǎng)絡(luò)傳播的關(guān)鍵字與敏感詞詞庫中的字詞明顯匹配，就能及時進行監(jiān)控；熱點話題關(guān)鍵字監(jiān)控就是對于一些當(dāng)前社會熱議的內(nèi)容進行監(jiān)控，并借助數(shù)據(jù)聚類技術(shù)對網(wǎng)絡(luò)傳播的熱門話題、熱門文章以及熱門評論進行有效分析，分別統(tǒng)計出這些熱門話題、熱門文章以及熱門評論的關(guān)注度，并將其按照數(shù)值大小依次進行排列，以便對一定時期內(nèi)的社會熱議的內(nèi)容進行準(zhǔn)確有效識別；內(nèi)容傾向性監(jiān)控就是根據(jù)信息發(fā)布者的自身主觀情感進行研究，以此得出信息發(fā)布者個人關(guān)于信息內(nèi)容的立場以及態(tài)度，并借助數(shù)據(jù)聚類技術(shù)對于情感詞進行有效匹配，并根據(jù)相應(yīng)的權(quán)重進行準(zhǔn)確計算。

（四）網(wǎng)絡(luò)輿情監(jiān)控測試

實驗測試作為實現(xiàn)網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控的最后一步，能夠了解監(jiān)控系統(tǒng)的實際運行效果。為此，本實驗采用6臺戴爾服務(wù)器，以此作為監(jiān)控系統(tǒng)的硬件設(shè)施，并采用64位CentOS6.4以及64位jdk1.7，以此作為監(jiān)控系統(tǒng)的軟件設(shè)施。同時，將TDT作為本次實驗測試的評估標(biāo)準(zhǔn)，對高校網(wǎng)絡(luò)輿情的實際發(fā)展趨勢進行評估，并將誤報率以及漏報率作為評估指標(biāo)。其中，誤報率=監(jiān)控到與主題有關(guān)的信息量/監(jiān)控到與關(guān)鍵詞有關(guān)的信息量，漏報率=未監(jiān)控到與主題有關(guān)的信息量/監(jiān)控到與關(guān)鍵詞有關(guān)的信息量。在實驗測試結(jié)束后，得出由網(wǎng)絡(luò)爬蟲技術(shù)抓取的實際數(shù)量達到6160條，并得出以下五個關(guān)鍵字，包括兼職、考研、飲食、旅游以及就業(yè)，這意味著高校學(xué)生在一段時期內(nèi)對這些內(nèi)容較為關(guān)注，同時發(fā)現(xiàn)誤報率、漏報率以及識別代價等指標(biāo)數(shù)值均處于較低狀態(tài)，表明本次實驗測試結(jié)果較為準(zhǔn)確，體現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)控的實際效果顯著。

結(jié)語：

綜上所述，基于Hadoop的網(wǎng)絡(luò)輿情關(guān)鍵字監(jiān)控體系主要應(yīng)用到網(wǎng)絡(luò)爬蟲技術(shù)、文本挖掘技術(shù)以及關(guān)鍵詞檢索技術(shù)，并且涵蓋了網(wǎng)絡(luò)輿論數(shù)據(jù)收集、網(wǎng)絡(luò)輿情數(shù)據(jù)處理、網(wǎng)絡(luò)輿情數(shù)據(jù)分析以及網(wǎng)絡(luò)輿情監(jiān)控測試四個步驟，在實際應(yīng)用中具有良好的關(guān)鍵字監(jiān)控效果。

課題項目：江西省教育廳科學(xué)技術(shù)研究項目《基于Hadoop的高校網(wǎng)絡(luò)輿情引導(dǎo)研究》項目編號：181120。

參考文獻：

[1]唐存琛，王極可. 一種結(jié)合模型集成的輿情管理模型的研究[J]. 計算機應(yīng)用與軟件，2019，36（06）：31-34+92.

[2]江瑾. 網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計和實現(xiàn)[J]. 信息與電腦（理論版），2019（13）：63-65.

[3]高為民. 微時代背景下高校大學(xué)生網(wǎng)絡(luò)輿情預(yù)警研究[J]. 教育現(xiàn)代化，2017，4（13）：90-91.

[4]聶瓊，陶杰，吳凡. 淺談高職網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的設(shè)計[J]. 現(xiàn)代計算機，2019（32）：88-90.