李雪妍
摘要:隨著互聯網的飛速發展,網絡輿情的預警和分析對掌控網絡、促進社會和諧發展起著至關重要的作用。面對網絡中的海量數據,引入Web 挖掘技術可以快速有效的從互聯網上獲得并分析輿情信息。本文闡述了Web挖掘技術及基于Web挖掘的網絡輿情分析方法,最終將該方法運用于一個校園輿情分析治理的系統構架中。
關鍵詞:Web挖掘;網絡輿情;輿情分析
1. 引言
網絡輿情是由于各種事件的刺激而產生的通過互聯網傳播的人們對于該事件的所有認知、態度、情感和行為傾向的集合。隨著因特網在全球范圍內的飛速發展,廣泛的網絡平臺為公眾內隱的情緒和態度的表達提供了開放、快速、交互的渠道,為社會各階層成員自由發表言論、參與公共事務討論提供了便利,對社會一些突發事件的處理起到了積極有效的作用。然而,這些變化也為一些有害信息、雜音和噪音的傳播提供了渠道。因而對輿情的管控就是要使輿情不轉化為輿論或轉化為良性輿論,為此需要加強對網絡輿情信息的分析和預警處理,從而及時發現輿情的熱點以及正確引導民意的走勢,這已成為成為社會管理者面臨的重大課題。
近年來,國內外許多專家學者和研究機構從事于網絡輿情分析技術的研究和探討,并取得了一定進展。這些研究雖然在一定程度上增強了相關職能部門對輿情信息的監控和引導能力,但仍存在一些不足。由于網絡的信息量十分巨大,僅僅依靠人工的方法難以應付海量信息的收集和處理,而自動化、智能化的輿情收集和分析處理技術的研究甚少,針對這一難題,Web挖掘作為一種新興的數據挖掘技術,可以有效地從互聯網上獲取并分析相關輿情,達到監控和治理的目的,為處置網絡輿情提供很大幫助。
2. Web挖掘技術
Web挖掘能夠快速、準確地獲得有價值的網絡信息、利用歷史數據預測未來的行為以及從海量數據中發現知識。它克服了普通數據庫管理系統無法發現數據中存在的關系和規則、無法根據現有的數據預測未來的發展趨勢、缺乏發現數據背后隱藏的知識的手段等弱點。它的出現為自動和智能地把互聯網上的海量數據轉化為有用信息和知識提供了條件,在實際工作中具有重要的意義
2.1 Web挖掘的方法和過程
1. 數據源的收集
通過各種信息渠道收集互聯網上的信息,包括門戶網站、博客、微博、論壇等網站上的信息,通過這些網站的WWW服務器中提取存儲的用戶的訪問日志和用戶訪問的交互信息,這也是Web使用記錄挖掘的重要數據來源,對于這些數據,可以分為日志文件和用戶訪問數據。
2. 數據預處理
數據預處理主要對數據源進行數據清洗、數據規范化和數據集成等,形成事務數據庫,其目標是,通過對用戶訪問站點留下的數據,整理成為便于被模式挖掘算法所使用的數據形式,以供數據挖掘階段使用。
3. 模式挖掘
對數據預處理所形成的事務數據庫,利用模式挖掘的一些有效算法來發現隱藏的模式或者規則。常用的技術有:統計分析、路徑分析技術、關聯規則發現、序列模式、分類和聚類等技術。
4. 模式分析
由于用戶使用模式挖掘出來的信息還不能直接被人們所理解,需要把這些模式解釋為人們可以理解的知識,同時也要去除對人們沒有用的模式,所以對于模式分析需要借助一些工具來實現。
2.2 Web挖掘的分類
Web 數據挖掘可以分為Web 內容挖掘(Web Content mining),Web結構挖掘(Web structure mining),Web 使用挖掘(Web usage Mining)三類。
2.2.1 Web內容挖掘
Web內容挖掘從網頁內容中抽取有用的信息和知識。例如:根據網頁的主題,我們可以進行自動的聚類和分類。雖然這些任務與傳統數據挖掘的任務相似,但是我們依然可以為了各種不同的目的從網頁中根據模式抽取有用的信息,例如熱點詞的跟蹤商品描述、論壇回帖等。而這些信息可以被用作進一步分析來挖掘用戶態度。這些任務也不是傳統的數據挖掘任務。
2.2.2 Web結構挖掘
Web結構挖掘從表征Web結構的超鏈接(簡稱鏈接)中尋找有用的知識。例如:從這些鏈接中,我們可以找出哪些是重要的網頁,這是一項搜索引擎采用的重要技術。我們也可以發掘具有共同興趣的用戶社區。這些任務在傳統的數據挖掘中并不存在,因為在關系型表格中并沒有鏈接結構。挖掘頁面的結構和Web 結構,可以用來指導對頁面進行分類和聚類,找到權威頁面、中心頁面,從而提高檢索的性能。同時還可以用來指導頁面采集工作,提高采集效率。
2.2.3 Web使用挖掘
Web使用挖掘從記錄每位用戶點擊情況的使用日志中挖掘用戶的訪問模式。這項任務也使用了許多數據挖掘的算法。其中一項重要的議題是點擊流數據的預處理,以便生成可以用來挖掘的合適數據。
3. 基于Web挖掘的網絡輿情分析方法
1. 主題詞檢索
主題詞檢索是將Web上的文檔轉化為一種類似關系型數據庫中記錄的形式,內容較規則且能反應文本內容特征的中間形式,一般采用文本特征向量表示法來進行表示、特征抽取、內容總結,然后利用機器學習方法來提取知識模式。通過自動主題詞檢索,可以及時掌握用戶關心的重點輿情問題,實時跟蹤了解情況。
2. 輿情熱點跟蹤
該方法首先將存放在文本文件中的Web記錄轉換成序列數據庫中的訪問記錄,然后采用某種序列模式挖掘算法對數據庫中的記錄進行挖掘,最后分析出用戶所關心的序列模式。通過對輿情熱點的跟蹤,可以發現網絡輿情問題的演變情況,分析出輿情問題的發展規律,從而可以預測輿情問題的發展趨勢,為下一步的決策做準備。
3. 分類分析
分類分析首先按特定標記對記錄集合進行分類,然后挖掘出比按特定標記分類的記錄集合更豐富、更細致的特征描述或模式描述。分類技術要求對輿情的描述對象及其行為方式進行歸類,然后將這些歸類進行聯合,從而分析出具有相似描述和相似行為的對象是否可以符合。
4. 聚類分析
聚類首先采用訪問頻度閾值和頁面間距離閾值對頁面進行初步的篩選,然后把訪問頻度大于訪問頻度閾值的頁面加到頻繁訪問頁面集合中,然后將其中距離低于頁面距離閾值的頁面聚合在一起。聚類分析的結果是一系列相近信息組成的集合,同一組中的信息相近,不同組的信息相差較大。據此可以判別當前網絡輿情的熱點及重點問題。類似的輿情問題存在某種有序關系,這種有序關系反映了此類輿情的特征,通過聚類分析,可以得出各種不同的熱點問題集合,有益于相關部門采取進一步的行動。
5. 統計分析
統計分析是利用統計、概率的原理對關系中各屬性進行統計分析,從而找出它們之間的關系和規律。統計分析是數據挖掘最基本的技術方法之一。常用的統計方法有判別分析、因子分析、相關分析、回歸分析等。通過對互聯網上日志訪問頻率進行統計分析,可以在一定程度上發現用戶感興趣的問題,從而確定當前的熱點網絡輿情話題。
4. 校園輿情分析治理系統架構
依據基于Web挖掘的網絡輿情分析方法,結合Web挖掘的工作流程和數據庫原理,設計了一個校園輿情分析治理系統構架,該系統主要由三個功能平臺構成,如圖1所示。
(1)內容管理平臺
內容管理平臺通過詞典管理、系統管理和數據庫管理功能對整個輿情分析系統進行全面的管理,同時該平臺的鏈接功能保證了系統的可擴展和靈活性。
(2)監控分析平臺
利用主題詞檢索、輿情熱點跟蹤、分類分析、聚類分析和統計分析等多種方法對收集來的輿情信息進行監控和分析,從而有效的為校園輿情治理提供必要的準備。
(3)輿情發布平臺
通過輿情預警、輿情監測、輿情導向等手段,為學管人員和指導教師提供經過總結的有指導意義的輿情分析報告,進一步采取座談交流、干預教育、對BBS論壇輿情引導等途徑,實現校園輿情的分析和治理。
參考文獻
[1] 梅中玲.基于WEB信息挖掘與網絡輿情分析技術[J].中國人民公安大學學報(自然科學版),2007,(4)
[2] 陳文舉,夏泉.試論高校輿論引導與和諧校園建設[J].濟南大學學報.2006.16(6):88-95
[3] 黃曉斌.網絡信息挖掘[M].北京:電子工業出版社.2005
[4] 費愛國,王新輝.一種基于Web日志文件的信息挖掘方法[J].計算機應用,2004,24(6):58