中圖分類號:TU文獻標識碼:A文章編號:1008-925X(2011)09-0-02
摘要:本文以基于數(shù)據(jù)挖掘的決策支持系統(tǒng)方法整合網(wǎng)絡輿情信息,建立網(wǎng)絡輿情信息倉庫,對非結構化的模糊復雜的信息,運用數(shù)據(jù)挖掘中文本挖掘技術有效分析網(wǎng)絡熱點事件的輿情,及時發(fā)現(xiàn)重大突發(fā)事件,減少危機損失,提高政府管理和監(jiān)控輿情危機的能力。
關鍵詞:網(wǎng)絡輿情 數(shù)據(jù)挖掘 決策支持系統(tǒng)
1、引 言
近幾年,隨著Web2. 0的興起與普及,互聯(lián)網(wǎng)已成為一個開放的、個性化的社會環(huán)境形態(tài),對社會穩(wěn)定和國家安全的維護帶來了嚴峻挑戰(zhàn)。但是現(xiàn)在我們政府情報機構網(wǎng)絡安全管理和監(jiān)控能力比較薄弱,難以適應復雜的環(huán)境。因此,建立基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng),對非結構化的模糊復雜的信息,運用文本挖掘技術有效分析網(wǎng)絡輿情事件,及時發(fā)現(xiàn)重大突發(fā)事件,減少危機損失,提高政府管理和監(jiān)控能力勢在必行。
2、基于數(shù)據(jù)挖掘的決策支持系統(tǒng)
決策支持系統(tǒng)(DSS) [1]是利用大量信息,數(shù)據(jù)結合眾多模型,通過人機交互,輔助各級決策者實現(xiàn)科學決策的系統(tǒng)。它是融計算機技術、信息、技術、人工智能、管理科學、決策科學等學科和技術于一體的技術繼承系統(tǒng),包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘分析系統(tǒng),由以下三個主體[2]組成:
(1)模型庫系統(tǒng)和數(shù)據(jù)庫系統(tǒng)結合,作為該系統(tǒng)的基礎,為決策問題進行模型計算和定量分析,提供輔助決策信息。
(2)知識庫系統(tǒng)和數(shù)據(jù)挖掘的結合,從數(shù)據(jù)庫和數(shù)據(jù)倉庫中挖掘知識放入專家系統(tǒng)的知識庫中,通過知識推理定性分析,輔助決策。
(3)數(shù)據(jù)倉庫和OLAP,從數(shù)據(jù)倉庫中提取綜合數(shù)據(jù)和信息來反映了其內在本質。
3、基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng)的定位
從網(wǎng)絡輿情預警決策支持系統(tǒng)的功能和實現(xiàn)方式對其定義:基于決策支持系統(tǒng)技術,將聯(lián)機分析處理、數(shù)據(jù)挖掘模型(文本挖掘模型)、數(shù)據(jù)倉庫、知識庫、方法庫等相結合,應用于情報機構的網(wǎng)絡輿情預警中的人機結合系統(tǒng)。
3.1數(shù)據(jù)倉庫
數(shù)據(jù)倉庫[3]的設計要滿足決策支持系統(tǒng)的要求,即數(shù)據(jù)要具備概括性、抽象性、統(tǒng)一性三個特點。所以圖1中數(shù)據(jù)倉庫和部門數(shù)據(jù)庫加上一個虛擬層,實現(xiàn)數(shù)據(jù)挖掘的數(shù)據(jù)清洗,為數(shù)據(jù)倉庫提取有用數(shù)據(jù)。
3.2數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘[4],簡單點說,就是從大量數(shù)據(jù)中尋找規(guī)律的技術,通過處理海量的、不完全的、隨機的、結構復雜的數(shù)據(jù)選擇有用數(shù)據(jù),建立知識模型。網(wǎng)絡輿情預警決策支持系統(tǒng)運用數(shù)據(jù)挖掘中文本挖掘技術,包括自動分類技術、自動關聯(lián)技術、觀點挖掘技術、自動分詞技術、結構化抽取技術以及自動摘要、關鍵詞技術等。
圖1 決策支持結構系統(tǒng)
4、基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng)的構建
基于數(shù)據(jù)挖掘的決策支持系統(tǒng)采集網(wǎng)絡中的新聞網(wǎng)頁、論壇、博客、新聞評論,貼吧等網(wǎng)絡資源,發(fā)現(xiàn)突發(fā)性熱點事件,進行熱點跟蹤定位和實時輿情預警,幫助政府及時掌握輿情動向,準確捕捉預警信息,對有較大影響的重要事件快速發(fā)現(xiàn)、快速處理,為政府決策提供信息依據(jù)[5]。
4.1數(shù)據(jù)準備
網(wǎng)絡輿情預警需要多樣化的信息,在整理信息的時候,需要做到全面、準確、及時。本系統(tǒng)涉及的信息有:
文本信息:新聞、博客、產(chǎn)品評論、論壇帖子等文本信息,包括主題、關鍵詞、時間、URL等。
詞匯信息:包括現(xiàn)在詞典中的字或詞和現(xiàn)在網(wǎng)絡用語的語義、適用的語境和是否帶有情感等。
圖像信息:主要是新聞、博客、產(chǎn)品評論、論壇帖子等上發(fā)布的圖片,包括主題、內容、時間、URL、瀏覽數(shù)量等。
視頻音頻信息:主要是新聞、博客、產(chǎn)品評論、論壇帖子等上發(fā)布的視頻音頻,包括主題、內容、時間、、URL、瀏覽數(shù)量等。
這些來自互聯(lián)網(wǎng)的大量信息,通過收集、整理、存儲、預處理在數(shù)據(jù)庫中作為原始數(shù)據(jù),這些數(shù)據(jù)是離散的、模糊的。
4.2系統(tǒng)功能模塊
根據(jù)網(wǎng)絡輿情預警的規(guī)劃,如輿情分類、情感分類與趨勢預測、輿情檢索以及統(tǒng)計分析等,本系統(tǒng)建立了輿情信息采集管理系統(tǒng)、輿情分類管理系統(tǒng)[6]、輿情來源管理系統(tǒng)、輿情情感分類管理系統(tǒng)和用戶管理系統(tǒng)。
①輿情分類管理系統(tǒng):輿情分類即對海量信息的自動(文本語義分析)分類。通過關鍵字樣本、文件樣本、自定義等把原始信息分類,形成分類別(危害國家安全、危害社會治安、擾亂社會秩序等)的分類庫,分類管理可以對分類的類別數(shù)據(jù)進行增加、刪除、修改等操作。
②輿情信息采集管理系統(tǒng):輿情信息采集管理系統(tǒng)對文本信息、圖像信息、視頻音頻信息的來源,如新聞、博客、產(chǎn)品評論、論壇帖子、網(wǎng)站及其網(wǎng)站的權威性進行分析統(tǒng)計。
③輿情來源管理系統(tǒng):輿情來源管理部門對文本信息、圖像信息、視頻音頻信息的來源,如新聞、博客、產(chǎn)品評論、論壇帖子、網(wǎng)站及其網(wǎng)站的權威性進行分析統(tǒng)計。
④輿情情感分類管理系統(tǒng):輿情分類管理部門從根據(jù)新聞、博客、產(chǎn)品評論、論壇帖子等收集的文本信息、圖像信息、視頻音頻信息,經(jīng)過預處理之后,通過觀點挖掘方法對輿情信息的情感傾向進行分析,及時發(fā)現(xiàn)消極情感的信息,以便迅速做出反應。
⑤輿情統(tǒng)計系統(tǒng):統(tǒng)計輿情分類管理系統(tǒng)和輿情情感分類管理系統(tǒng)的信息,為政府提供報表或報文,供政府決策使用。
5、結 論
基于數(shù)據(jù)挖掘的網(wǎng)絡輿情預警決策支持系統(tǒng)可以有效解決現(xiàn)在網(wǎng)絡輿情預警系統(tǒng)中存在的問題,通過文本挖掘技術對非結構化的模糊復雜的信息分析處理,及時發(fā)現(xiàn)重大突發(fā)事件,減少危機損失,提高政府管理和控制輿情的能力。
參考文獻:
[1]R.H.J.Sprague E.D.Carlson.決策支持系統(tǒng)的建立[M].科學技術文獻出版社, 1990
[2]閡建虎..基于數(shù)據(jù)倉庫的決策支持系統(tǒng)設計研究[J].微型電腦應用, 2010, 26(4): 48-55.