張玉芬 馬春光 胡曉旭

摘 要:隨著互聯網的飛速發展,多數人已經把它作為獲取信息的首選途徑。與此同時,少數不法分子開始借助互聯網與政府為敵,極大地危害了社會的安定。尤其是校園網,網民都是些思想還未完全成熟的學生,受到蠱惑和慫恿的概率極高,目前部分高校對此已經高度重視。基于此,給出了校園網網絡輿情監控系統的架構設計方案,具體描述了網頁信息源設定、網頁信息采集、輿情分析、輿情處理等組成模塊的功能及關鍵技術,為理解和構建校園網信息輿情監控系統提供參考。
關鍵詞:網絡輿情;監控系統;高校校園
引言
我國目前已有5.91億網民,而在這眾多網民中學生恰恰是數量最大的一個群體,占比達到了26.8%。計算機網絡的進一步普及,一方面,雖然給眾多網民的生活和工作帶來非常大的便利;但另一方面,與網絡相關的漏洞問題和黑客攻擊問題,也給網民造成了一定的損失。現在流行的網絡交互平臺,如博客、論壇、微博、即時通信軟件、QQ群、微信等,其功能主要是為人民大眾提供表達個人觀點和抒發個人情感的公共虛擬場所。但是,一小撮惡意分子卻利用它們對民眾進行煽風點火,刺激負面情緒的萌生和爆發。校園網的公共安全就顯得更加重要,因為它面向的是高校人數眾多的學生網民,而且學生們正處于思想還未完全成熟,情緒波動大,極易受到網絡負面新聞的影響。所以,在網絡盛行的當今時代,為了讓高等教育更好地開花結果,必須盡可能的監控高校學生上網的渠道,加以網絡教育,必要時進行網絡引導。互聯網上的網絡輿情信息是關乎社會與校園安全穩定的一個重要因素,所以網絡輿論監控和分析成為研究的熱點問題。
一、國內外網絡輿情的現狀
網絡輿情指的是公眾通過有線或者無線這樣的信息網絡,針對公共事務和現象發表的個人意見和建議,隱藏在海量的網民言論中。由于網絡輿情具有海量和隱蔽的特征,如果單單依靠人工判讀這種傳統的方式來分析的話,效率勢必極其低下,并且最為重要的目標是輿情的統計特征將很難從中獲知,特別是如果采用傳統的人工方法來跟蹤重點網民的話,更加是不現實的。但是,緊隨著計算機和互聯網技術的迅猛發展,可以方便地采用計算機技術對網絡言論進行自動地提取、分析和處理,進而監控和引導網絡輿情,這已經成為當前首選的有效且可行的方法[1]。
國外的一些市場機制已然趨于成熟的發達國家,更多倡導通過市場自動調節機制和行業的自律對網絡輿情進行管理。例如,加拿大政府把網絡輿情分為攻擊性信息和非法信息兩類,前者需要通過加強行業和用戶的自律性;與此同時,輔以網絡知識教育和自律性道德規范的制約來解決,并且已經取得了良好的管理效果。而后者則是以法律為依據,按法律進行制裁,他們實行的是“自我規制”制度。目前,IBM公司已經推出了采用先進的語義和文本分析技術的網絡輿論監控方面的綜合解決方案。該方案對如下網絡應用:BLOG、Wiki、BBS論壇、新聞組、讀者評論、網摘等。該方案從監控技術上說,就屬于比較成熟的。而在我們國家,目前主要是研究對輿論信息的監控和引導、如何進行組織管理和法律保護以及關鍵技術的算法實現等相關內容[2]。
二、校園網信息輿情監控系統的組成
1.功能介紹
該系統能夠對高校學生們常常訪問的校園網網站,如學校主頁、校內各級下屬學院和各其他部門的主頁、學校的BBS等的網頁信息自動進行抓取、分類和聚類分析、熱點和焦點的統計、跟蹤等,最終客觀而全面地把輿情結果以報告的形式提供出來,從中可以洞悉學生們的熱點和敏點話題,及時發現有害的輿情導向信息,為校方有效疏通學生不良情緒,作出科學引導提供有效依據,并且可以通過信息群發技術進行積極地輿情引導。
2.總體框架
通過對系統功能和業務流程的分析得知,該系統可劃分為網頁信息源設定、網頁信息采集模塊、輿情分析模塊和輿情處理模塊這四個核心部分,下圖描述了該系統的組成結構。
圖1 高校校園網信息輿情監控系統的組成結構
3.網頁信息源設定
該部分是整個校園網信息輿情監控系統的數據來源。按照功能需求,該系統既可以采集來自論壇、博客、綜合性網站等的網頁信息,又可以采集用戶自定義的關注網站。所以,設置的網頁信息來源主要有兩種,一是常見的搜索引擎,二是用戶自己定義的需要注意的網址列表,可以存放在文本文件中。互聯網Web頁面中包含著非常多的數據信息,可以把它看做是一個大的數據庫,正是我們所需要的信息來源。
4.網頁信息采集模塊
網頁信息采集模塊可以根據事先設置好的關鍵字,從搜索引擎和自定義網址列表所對應的網站中連續地采集網頁信息,并對信息進行預處理操作,處理之后將有效數據存放到輿情數據庫中。由于網頁的更新較為頻繁,增長速度又特別快,而且頁面中多是些結構不規整的數據,所以,對網頁進行信息采集是十分復雜的,下面將列出該模塊實現的主要關鍵技術。
(1)抓取網頁。可以利用搜索引擎所特有的網絡爬蟲程序,順著超鏈接進行一級一級地抓取網頁。經常被人們使用的有兩種抓取網頁的思路,分別是深度優先和寬度優先遍歷策略。
(2)處理網頁。主要包括提取關鍵內容、對數據進行清理和對內容進行去重。提取內容和清理數據過程指的是,首先,當網頁抓取以后,先要把網頁上與文本沒有任何關系的內容清理掉;然后,提取網頁的內容和標題;最后,采用人工和機器學習的方式來設定抽取模板,由于不同類型的網頁,需要抽取的內容不同。內容去重涉及到自然語言的處理,具體過程是,先過濾掉沒有意義或者內容有重復的網頁,然后再對文本進行分詞處理,可以使用以詞典為基礎、規則與統計相結合的分詞方法進行。
5.網頁數據庫
采集所得來的網頁數據可以利用企業級數據庫進行存儲,這樣數據庫管理系統自身具備的功能可被充分利用,能夠非常方便地按照用戶的需求對數據庫中的數據進行操作,同時成為輿情分析模塊的數據來源。
6.輿情分析模塊
輿情分析模塊是整個輿情系統的重中之重,它建立在網頁信息采集模塊和網頁數據庫的基礎之上,主要功能包括以下三方面。一是對輿情觀點進行傾向性分析。主要是運用人工智能和模糊匹配的方式,通過對數據信息進行概念化,進而把用戶的觀點分析出來,包括情感、喜好、態度等非內容的信息,從而明確用戶的意圖。二是對熱點和焦點事件的識別功能。焦點事件是指某一輿情信息在某一段時間內被媒體播出或者刊登次數較多;熱點事件是指某一輿情信息在某一段時間內更多地被關注或者被集中地關注,可以采用相關網頁數量來測量,也即關注度。三是對焦點事件和重點網民的跟蹤,最終形成關聯分析和趨勢分析。該模塊主要由文本分類、文本聚類、話題識別和跟蹤處理等部分組成,關鍵技術主要是以上各部分所涉及的算法。
7.輿情處理模塊
輿情處理是在輿情分析之后,需要根據用戶的需求做出相應的處理報告,為相關部門提供決策支持。該模塊的主要功能包括:一是統計和上報輿情信息的分析結果;二是對輿情進行引導。
(1)統計、上報功能。為了更清晰地給用戶提供輿情分析的統計結果,系統提供了多種形式,如分類查看、熱點統計、焦點跟蹤、重點網民跟蹤等,尤其是系統能夠預測分析重點事件的未來發展趨勢,還能夠根據設置的特征信息對焦點事件和重點網民自動識別,這些分析和統計得出的結果將會自動形成報表。其中,分類查看是能夠以分類形式來顯示最新搜索到的網頁信息;熱點統計指的是能夠把網絡上用戶關心最多的網頁一一列舉出來;焦點事件定義為眾多網民較為關心的事件,并且對其進行跟蹤,系統從而能夠查找出與此事件有關的全部網頁信息,這便是焦點跟蹤[3]。跟蹤重點網民是對用戶最為感興趣的重點網民進行實時跟蹤,并且能夠根據時間段設置來列出該重點網民的所有言論信息。
(2)輿情引導功能。采用基于信息群發的推送技術對輿情進行引導,該方法指的是利用信息群發軟件,通過論壇,即時通訊或電子郵件等方式,大量地向用戶發送網頁信息或手機短信,這些用戶包括互聯網用戶或者移動通信網的用戶等[4]。為了達到引導網絡輿情的目的,對于那些焦點事件,需要用戶進行正確引導,可以將事先設定的發言內容,使用信息群發技術,大批量地發送到聊天群或者主流的論壇等網站,這種引導方法與傳統輿情引導方式(社會管理者主動干預互聯網)相比,更加隱蔽、更加柔和,成本也更加低廉,最為重要的是此種方法信息宣傳效果更加好一些,并且不容易被網民察覺。
結語
目前,網絡輿情監控是一個比較新的研究領域,它不但能夠促進互聯網輿情信息挖掘理論的進步,而且能夠解決提取網頁中有用信息的實現技術上的難題,進而及時地對校園以及社會輿情的變化情況作出快速的響應。本文對校園網信息輿情監控系統的功能和規劃設計過程做了初步的研究,主要是利用科學的手段和先進的技術對網頁信息進行采集、分析和處理,來實現對高校校園網絡信息輿情的動態關注和積極引導,為高校的相關部門提供良好的決策支持。
參考文獻:
[1] ?蔡洪民,等.校園網輿情監控系統的設計與實現[J].計算機安全,2013,(2):51-54.
[2] ?何佳,等.網絡輿情監控系統的實現方法[J].鄭州大學學報:理學版,2010,(3),42卷第1期:82-85.
[3] ?劉磊.網絡輿情分析系統研究[J].情報探索,2010,(10):106-108.
[4] ?虞欣平,等.一種實用的網絡輿情監控系統[J].福建電腦,2011,(6).