胡治宇
摘要:Hadoop作為數據分析的重要系統,已經廣泛應用于數據監控領域當中。因此,本文將網絡輿情關鍵字監控作為研究內容,簡單介紹Hadoop平臺的基本概念,分析基于Hadoop的網絡輿情關鍵字監控的核心技術,如網絡爬蟲技術、文本挖掘技術以及關鍵詞檢索技術,再圍繞著網絡輿論數據收集、網絡輿情數據處理、網絡輿情數據分析以及網絡輿情監控測試四個方面進行考慮,深入探討基于Hadoop的網絡輿情關鍵字監控的體系,發現基于Hadoop的網絡輿情關鍵字監控的體系具有較強的可靠性,僅供參考。
關鍵詞:網絡輿情 關鍵詞 監控體系
目前,截止2019年底,我國網絡用戶已經超過10億,已成為全球網絡用戶最多的國家。在互聯網環境下,網民可以自主了解不同的新聞,并能夠在不同的平臺中發表自己的言論觀點,這就逐漸提高了網絡輿情的影響力。為了更好的對網絡輿情進行控制,就需要加強對網絡輿情的監控。Hadoop平臺屬于分布式系統,可通過編程模型對龐雜海量的數據進行有效的分布式處理。因此,構建基于Hadoop的網絡輿情關鍵字監控系統已成為未來發展趨勢。
一、Hadoop平臺概述
Hadoop平臺屬于分布式系統,可通過編程模型對龐雜海量的數據進行有效的分布式處理。目前,Hadoop平臺的主要子項目就是HDFS,憑借HDFS可以對大型數據進行有效存儲,并具有容錯性較高的特點,能夠通過較高的吞吐量對數據進行大規模的訪問。同時,Hadoop平臺還具有四大優勢,分別是可靠性、效率性、低廉性以及擴展性,可以對數據進行穩定高效快速的處理,并能減少軟件的應用成本。
二、基于Hadoop的網絡輿情關鍵字監控的核心技術
(一)網絡爬蟲技術
網絡爬蟲作為一種依照特定規則在網絡平臺上抓取重要信息的程序,通常應用于關鍵詞搜索引擎當中,能夠穩定有效的抓取網絡信息的關鍵詞,屬于構建網絡輿情關鍵字監控的核心工具。一般來講, 種子URL集合都會存放一些URL,包括門戶網站網頁以及論壇主頁網頁等,這些都是網絡爬蟲的運行起點。因此,網絡爬蟲首先都是從種子URL集合進行爬取,將種子URL頁面中存放的URL全部放入到待抓取隊列當中,再從帶抓取列隊當中準確獲取一個URL,并對網址進行有效訪問,從而將網頁內容抓取到本地文件系統當中,最后對已經抓取的網頁進行快速解析,以便提取一些能夠指向其他網頁的有效連接。目前,網絡爬蟲技術主要分為兩種,分別是通用型網絡爬蟲以及聚集型網絡爬蟲。其中,通用型網絡爬蟲的應用范圍相對較廣,主要應用于門戶搜索引擎;聚集型網絡爬蟲更多應用于與主題相關的網頁類型,主要應用于校園網絡輿情監控。
(二)文本挖掘技術
文本挖掘屬于數據挖掘中最為常見的一項技術,主要由三個模塊組成,分別是文本預處理、文本分類以及文本聚類。首先,文本預處理作為文本挖掘的基礎,直接決定了文本挖掘的效率、精度以及模型。文本預處理主要涉及到中文分詞以及文本特征表示兩大內容。對于中文分詞而言,主要就是將漢字序列精確有效的劃分為單個的詞,如jieba就是常見的中文分詞工具;對于文本特征表示而言,主要就是將人類能夠理解的文本信息進行有效轉化,使其成為能夠被計算機精確有效識別的一種格式,如概率模型以及空間向量模型就是常見的表示模型。其次,文本分類主要涉及到監督式學習算法,如支持向量機以及樸素葉貝斯就是常見的分類算法,往往能夠有效確定分類的具體類別,包括經濟、房產、娛樂以及體育等類別,并依照分類文本的實際內容以及具體含義進行深度計算,從而將文本有效歸入到對應的類別當中。最后,文本聚類主要涉及到無監督式機器學習算法,通常會自動將文本進行有效歸類,使同一類別的文本內容更加接近,而不同類別的文本內容則會相差較大。
(三)關鍵詞檢索技術
由于互聯網儲存了大量數據,如果選擇整體檢索的方式,不僅會消耗較多時間,還不能有效保證檢索的準確性。關鍵詞檢索技術已成為信息檢索的主要方式,能夠有效保證信息檢索的時效性。目前,在網絡輿情監控體系中,關鍵詞檢索技術已成為核心部分,而關鍵詞檢索主要有三種方式,一是依照預先設定的語義分析來抓取關鍵詞,二是通過大數據技術進行統計來抓取關鍵詞,三是借助機器學習法來抓取關鍵詞。由于關鍵詞檢索技術在實際應用中面臨較多流程,可通過簡化來完成相關操作。例如,首先,對信息內容的主題詞進行有效分析,篩選出含義更為貼近的主題詞,以便構建一個標準的主題詞表。其次,對這個主題詞表進行有效處理,提取文本中的關鍵詞。最后,根據權重比例來抓取關鍵詞,進而將關鍵詞有效篩選出來。
三、基于Hadoop的網絡輿情關鍵字監控體系分析
(一)網絡輿論數據收集
數據收集作為實現網絡輿情關鍵字監控的第一步,具有奠定基礎的作用。在數據收集過程中,應根據數據來源采取對應的收集方式。例如,網絡輿情的主要數據信息通常來源于各大網絡平臺,包括搜狐新聞、網易新聞、新浪微博以及騰訊微博等平臺。如果數據信息來源于新聞網站,主要借助Nutch來完成數據采集。目前,Nutch主要由兩種類別,分別是分布式以及非分布式。由于分布式系統在實際運行中效率以及穩定性均優于非分布式系統,通常選擇分布式Nutch,具體的數據收集過程如下:首先將URL列表準確添加到系統當中,并在URL列表中進行相應的操作;其次,創建一個Fetchlist,再通過內容解析器將收集的大量數據進行有效分析。最后,提取一個全新的URL,并對CrawIDB進行有效更新,以此完成數據收集工作。如果數據信息來源于微博網站,主要借助API接口來完成數據采集,并在此期間確保客戶端能夠通過微博平臺的真實授權,再對相關應用進行開放。
(二)網絡輿情數據處理

數據處理作為實現網絡輿情關鍵字監控的第二步,具有承上啟下的作用。目前,相關技術還不能直接對收集的數據進行處理,必須采取數字化處理措施。在對數據進行數字化處理過程中,由于國內網絡輿情數據大部分都是中文數據,這就與英文數據的處理方式存在一定差異,再加上中文分詞的具體界限較為模糊,應重點加強對中文分詞的預處理。在數據預處理過程中,還應重點構建文本向量空間模型,使該模型具有基本元素,包括詞頻、詞義、詞性以及標題等內容,并對不同類型的特征詞設置對應的權重比。在數據預處理結束后,還應對數據進行有效聚類,并設置相應的數據聚類模塊,再借助層次聚類算法進行有序處理。在使用層次聚類算法時,應將各種因素作為實際考量標準,包括處理高維數據的穩定性、對參數的依賴性以及抗干擾性等,確保層次聚類算法能夠發揮實際作用。
(三)網絡輿情數據分析
數據分析作為實現網絡輿情關鍵字監控的第三步,具有決定性作用。在整個網絡輿情監控系統當中,核心部分就是輿情分析模塊,只有輿情分析模塊能夠穩定運行,就能對網絡輿情關鍵字進行強力有效的監控。一般來講,網絡輿情關鍵字監控主要有三種形式,分別是敏感話題關鍵字監控、熱點話題關鍵字監控以及內容傾向性監控。其中,敏感話題關鍵字監控就是對于一些具有敏感特征的字詞進行監控,如法輪功、邪教等敏感詞。目前,國內網絡具有較強的開放性,網民可以通過網絡將自己的各種意見以及各種看法發布到網絡平臺當中,但在交互傳播中難免會出現一些具有敏感性的關鍵字,為了避免這類敏感話題對社會造成影響,監控系統就會借助敏感詞詞庫進行充分有效地匹配,如果發現網絡傳播的關鍵字與敏感詞詞庫中的字詞明顯匹配,就能及時進行監控;熱點話題關鍵字監控就是對于一些當前社會熱議的內容進行監控,并借助數據聚類技術對網絡傳播的熱門話題、熱門文章以及熱門評論進行有效分析,分別統計出這些熱門話題、熱門文章以及熱門評論的關注度,并將其按照數值大小依次進行排列,以便對一定時期內的社會熱議的內容進行準確有效識別;內容傾向性監控就是根據信息發布者的自身主觀情感進行研究,以此得出信息發布者個人關于信息內容的立場以及態度,并借助數據聚類技術對于情感詞進行有效匹配,并根據相應的權重進行準確計算。
(四)網絡輿情監控測試
實驗測試作為實現網絡輿情關鍵字監控的最后一步,能夠了解監控系統的實際運行效果。為此,本實驗采用6臺戴爾服務器,以此作為監控系統的硬件設施,并采用64位CentOS6.4以及64位jdk1.7,以此作為監控系統的軟件設施。同時,將TDT作為本次實驗測試的評估標準,對高校網絡輿情的實際發展趨勢進行評估,并將誤報率以及漏報率作為評估指標。其中,誤報率=監控到與主題有關的信息量/監控到與關鍵詞有關的信息量,漏報率=未監控到與主題有關的信息量/監控到與關鍵詞有關的信息量。在實驗測試結束后,得出由網絡爬蟲技術抓取的實際數量達到6160條,并得出以下五個關鍵字,包括兼職、考研、飲食、旅游以及就業,這意味著高校學生在一段時期內對這些內容較為關注,同時發現誤報率、漏報率以及識別代價等指標數值均處于較低狀態,表明本次實驗測試結果較為準確,體現了網絡輿情監控的實際效果顯著。
結語:
綜上所述,基于Hadoop的網絡輿情關鍵字監控體系主要應用到網絡爬蟲技術、文本挖掘技術以及關鍵詞檢索技術,并且涵蓋了網絡輿論數據收集、網絡輿情數據處理、網絡輿情數據分析以及網絡輿情監控測試四個步驟,在實際應用中具有良好的關鍵字監控效果。
課題項目:江西省教育廳科學技術研究項目《基于Hadoop的高校網絡輿情引導研究》項目編號:181120。
參考文獻:
[1]唐存琛,王極可. 一種結合模型集成的輿情管理模型的研究[J]. 計算機應用與軟件,2019,36(06):31-34+92.
[2]江瑾. 網絡輿情監控系統的設計和實現[J]. 信息與電腦(理論版),2019(13):63-65.
[3]高為民. 微時代背景下高校大學生網絡輿情預警研究[J]. 教育現代化,2017,4(13):90-91.
[4]聶瓊,陶杰,吳凡. 淺談高職網絡輿情監測系統的設計[J]. 現代計算機,2019(32):88-90.