陳洪華 張立
摘 要:利用網頁文本獲取技術,可以建立一種新的網絡輿情監控方法。利用該方法,可以很好地實現高校網絡輿情信息的采集、存儲、分析以及應答處理,以引導學生健康成長。
關鍵詞:文本獲取;輿情監控;高校
輿情是“輿論情況”的簡稱,是指在一定的社會空間內,圍繞中介性社會事件的發生、發展和變化,作為主體的民眾對作為客體的社會管理者及其政治取向產生和持有的社會政治態度。它是較多群眾關于社會中各種現象、問題所表達的信念、態度、意見和情緒等等表現的總和。隨著互聯網的高速發展,網絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。在高校里,由于用戶的知識層面、對新事物的接受程度以及網絡設備的普及率比較高,網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬上形成網上輿論。
一、高校網絡輿情監控的重要性
負面的網絡信息往往比正面的網絡信息傳播的速度更快、范圍更廣、影響更大,高校里亦是如此。負面的網絡信息散布者往往都會借助網絡來更快、更廣地表達其錯誤的觀點、傳播其錯誤的思想,并借此產生巨大的社會影響,給當事部門、單位造成巨大的輿論壓力。同時,通過網民的相互轉載、轉發、群聊等,錯誤的觀點、思想往往會被放大、發酵,形成不好的社會影響,乃至影響整個社會的安定生活,使人心惶惶,對整個社會造成重大負面影響。可以這么說,有時網絡載體已然成為負面輿情信息的放大器。高校里,由于網友的活躍程度很高,有的大學生甚至有的教職工都會被負面的輿情信息所迷惑并“以訛傳訛”,小到影響整個學校的正常教學秩序,大到影響整個地區乃至整個社會的安定團結。正是由于大學生、教職工參與程度極高,高校里的網絡輿情監控顯得尤為重要。
二、高校網絡輿情監控的現狀
高校網絡輿情信息主要包括學校新聞、通知公告、學生論壇、學生博客、OA辦公討論區以及各留言板等。這些信息往往來源于不同的部門、單位,一般情況下,學校新聞由黨委宣傳部管理,通知公告由辦公室發布,學生論壇、學生博客由學生處監督,OA辦公討論區等由現代教育中心搭建、維護等。由于高校輿情信息來源于不同部門、單位,造成各部門、單位在輿情監管方面“各自為政”,缺乏統一監控,極易造成不良信息的廣泛、迅速擴散,進而造成不良社會影響,產生巨大的輿論壓力。另外一方面,作為高校決策制定的領導者,想要在某特定時間段內及時掌握本校所有網絡輿情信息將變得很難。甚至,個別分管領導還要通過與其他分管領導才能獲取相對比較全面的輿情信息。在此情況下,領導者很難及時、準確地應對網絡上的突發事件。第三,依照“誰建設、誰監管”原則,各輿情信息發布者都應該對各自所發布的各種信息負有監管職責。可現實情況是,高校里許多單位把網站建設好,把交流平臺搭建好后,就陷入“三不管”狀態,即“不更新、不維護、不監管”。這時,在防范負面的輿情信息時,做不到“及時關注、時刻警惕”的狀態;另外,一旦出現負面的輿情信息時,都找不到源頭,出現“扯皮”現象。缺乏統一管理,各家“各自為政”,輿情信息監管不到位、不及時,監管陷入被動,這是目前一些高校所面臨的現狀。
三、網頁文本獲取簡介
網頁文本獲取,即通過搜索互聯網相關網頁,并對網頁上的文本內容進行抓取。目前,互聯網搜索主要包括“爬行和抓取”“索引”“搜索詞處理”以及“排序”四個步驟。即派“蜘蛛”在互聯網上發現新網頁并抓取文件,然后跟蹤該網頁文件中的鏈接,發現更多新網頁并獲取文件;“蜘蛛”在抓取這些文件后,將其分解、分析,并以巨大表格形式存入數據庫。此時,若用戶通過搜索引擎進行網頁文本搜索,搜索引擎首先對用戶搜索詞進行判斷是否有錯別字或拼寫錯誤等處理后,啟動查詢數據庫,返回包含搜索詞的頁面,并根據排名算法依序呈現。
四、基于網頁文本獲取的高校網絡輿情監控方法介紹
某個高校范圍內,能否有個小型系統專門負責網站信息的監管,做到敏感信息“及時關注、時刻警惕”呢?答案是肯定的。本文提出一種基于網頁文本獲取技術的網絡輿情監控方法,可方便、實時地應對高校范圍內的網絡輿情監控。高校網絡輿情信息主要包括學校新聞、通知公告、學生論壇、學生博客、OA辦公討論區以及各留言板等,而包含這些網絡輿情信息的網頁文本往往部署在高校自己的服務器上。這樣,我們就可以直接通過讀取服務器上網頁文件的方式進行文本判斷,而不需通過“蜘蛛”進行爬行獲取了。解決了文件獲取問題后,文本獲取就變得簡單多了。但是,可能很多網絡輿情信息是寫在網站程序的某個數據庫中的,服務器上并沒有包含該信息的相關html或htm等文件出現。針對這種情況,我們可以對全校所有包含類似于“學校新聞”“通知公告”“學生論壇”等等具有“互動”性質的網站進行梳理,得到其數據庫的存儲地址并通過讀取數據庫的形式進行文本獲取。一旦確定各數據庫的存儲地址后,只要不是新增、減少網站或是重新建設網站,我們就可以“一勞永逸”地進行數據庫內容的實時監控。在對網頁文件或數據庫內容進行文本獲取時,我們可以設置各種特定的詞,通過文本“截取”方式進行過濾,一旦發現網頁文件或數據庫內容中出現特定的詞,即可進行相關預警,并設置顯示網頁文件位置或數據庫名稱等。
總結:為維護學校正常的教學、研究秩序,更好地服務師生,促進高校更好、更快地發展,本文針對高校里有可能出現的負面網絡輿情信息,提出了基于網頁文本獲取技術的高校網絡輿情監控方法。通過該方法,學校決策制定的領導者,就可以實時掌握第一手資料,做到“未雨綢繆”,即使出現負面網絡輿情,也可以及時做到“亡羊補牢”,為阻止或遏制負面信息擴散打下堅實基礎,從而為學生營造一個良好的學習環境。
參考文獻:
[1]陳洪華,張立.高校網絡宣傳教育及網站建設管理的幾點思考[J].科技信息,2011(34).
[2]徐建華.網絡搜索引擎原理、特性分析及未來發展趨勢[J].圖書情報工作,2000(8).
(1.淮陰工學院黨委宣傳部,2.淮安信息職業技術學院商學院)