沈旭,王新政,林子晴
(1.嶺南師范學院信息工程學院,湛江524048;2.桂林理工大學信息科學與工程學院,桂林541004)
中國互聯網絡信息中心發布的第43 次《中國互聯網絡發展狀況統計報告》中指出,8.29 億是本人國截止2018 年12 月的網民規模,全年新增的網民就達到5653 萬,同時報告指出互聯網的普及率高達59.6%,并且,在數據中本人們可以發現本人國網民中青年群體占整體網民的67.8%,而高校學生在這當中又是一個特殊的群體,他們正處在青春洋溢、朝氣蓬勃的時期,對于社會上發生的討論度高的新聞或者熱點事件有著高度的關注,并且喜歡對這些事件或者熱點新聞發表自己的看法與感受,而這不免會引來激烈又廣泛的討論。但是,在這些言論中,可能會充斥著缺乏深思熟慮的表達,由于網絡的快速傳播,最后會對整個社會的輿情有著負面的影響。因此,高校就要加強對網絡熱點事件的了解,盡早知道當天的熱度較高的話題,給學生正確地網絡文化指引,營造一個充滿正能量的校園網絡環境。
數據研究的重點一直都是對網絡輿情的分析,目的就是通過獲取海量網絡數據,并對數據進行挖掘,然后分析出隱藏在數據背后的有價值輿情觀點[1]。
在國內,從2005 年開始出現網絡輿情分析的研究文獻[2],相對國外來說起步較晚,但近年來對網絡輿情感興趣的人越來越多,該主題的文獻也逐漸升溫,相應的也出現了很多不同方向的輿情信息系統,例如TOOM 輿情監測系統、軍犬網絡輿情監控系統、谷尼網絡輿情監測系統,等等。并且可以發現,國內的網絡輿情分析的重點是服務于政府或者一些決策管理的機構[3],服務于校園的還是比較缺少的。
在國外,從1997 年開始就有相關的文獻發表,而在2012 年呈逐年上升的趨勢,其中,大部分的研究內容是對網絡輿情分析進行微觀分析、對網絡動機的分析以及對地區間差異的分析等[4]。同時在十九世紀也初步產生了一些輿情分析技術。例如,話題檢測與跟蹤(Topic Detection and Tracking)技術,它不僅可以處理網絡上日趨嚴重的信息爆炸問題,也可以對媒體信息流的已知話題進行持續跟蹤,同時自動識別新話題[5]。此外,國外還有許多輿情監測軟件,例如說Buzzlogic、Radian6、Trackur、Sentiment Metrics 等。可見,國外對網絡的監測與管理也是十分重視。
本課題主要研究的內容是高校網絡輿情突發事件預警系統的設計,利用PyCharm 作為開發平臺,采用Python 語言,從網絡中爬取需要分析的數據,然后把熱點話題通過郵箱發送給輿情監控人員,幫助學校及時獲取網絡熱點話題信息,并對學生采取積極的引導措施。主要的功能模塊如下:輿情信息采集模塊、輿情分析與展示模塊以及輿情預警功能模塊。
網絡爬蟲技術,被稱作網絡機器人,也被叫做網頁蜘蛛,是一種可以根據一定的規則,自動提取網頁數據的技術。爬蟲流程圖如圖1 所示。

圖1 爬蟲流程
在使用的場景不同的情況下,爬蟲可以有不同的分類,一般可分為通用爬蟲和聚焦爬蟲。搜索引擎爬取網絡信息的重要組成部分就是通用爬蟲,第一步就是要選取初始URL,并且把這些URL 放入等待爬取的URL 隊列里面,然后從URL 隊列中拿出等待抓取的地址,下一步就可以解析DNS,獲得主機的IP,同時下載URL 對應的網頁,并將其存進已經下載的網頁庫里,同時把這些URL 放入已爬取的URL 隊列里面。下一步就要分析已爬取URL 隊列里面的URL 和其中的其他一些URL,并且將URL 放進等待爬取URL 隊列,從而進入下一個循環[6]。通用爬蟲的流程如圖2 所示。

圖2 通用爬蟲的流程圖
聚焦爬蟲通俗講就是可以針對某種特定的內容進行數據抓取,可見它獲取到的數據都是盡可能地和需求相關的,換句話來說,這是一種“面向特定需求”的爬蟲程序。聚焦爬蟲和通用搜索引擎爬蟲的主要區別在于:聚焦爬蟲在抓取網頁數據的時候會對內容進行篩選,盡可能地實現只抓取與主題需求相關的網頁數據信息。聚焦爬蟲流程如圖3 所示。

圖3 聚焦爬蟲流程圖
網頁解析就是對抓取的網頁進行再處理,去掉與主題無關的信息,例如無用的鏈接、廣告等[7-8]。可以使用很多種方法去處理,例如可以通過BeautifulSoup 解析處理,或者是JSON 解析、PyQuery 解析處理又或是XPath 解析處理,也可以使用正則表達式處理。
數據可視化主要是為了讓人們可以更直觀地看出數據的各種屬性和變量之間的關系,通常會使用圖表的方式呈現出來,例如餅圖、直方圖、散點圖、柱狀圖等。讓人可以更直觀地分析數據,發現不同的數據信息之間潛在的關系,最終有利于挖掘到有價值的信息。
高校網絡輿情突發事件預警系統,其目的在于能夠及時準確地得到網絡輿情信息,并把信息的分析結果反饋給高校管理人員,以便做出相應的決策去應對突發事件,維護校園的穩定。但由于網絡輿情載體多而雜,本系統不可能涵蓋所有類型的網絡,針對這一特點,本文網絡輿情信息獲取的來源主要是新浪新聞站點等,一方面新聞信息比較真實可靠,另一方面新聞信息涵蓋了各方面的熱點話題,通過新聞點擊量來分析出熱點話題,系統涉及到的內容包括前期的采集輿情信息,分析得到的信息,最后通過圖表展示出來,最后核心功能就是輿情預警,其中輿情預警主要是把話題熱度前三名通過郵箱的方式發送給輿情監控人員,起到報警的作用。
為了滿足用戶的功能需求,提高系統的實用性,本系統需要實現的功能如下:
(1)輿情采集:實現互聯網中信息采集是實現該系統的基礎工作。在輿情采集工作中涉及到一些新聞門戶網站,采集到的數據最終會保存在MySQL 數據庫中。
(2)輿情處理:通過采集的數據來分析熱點關鍵字,提取熱門話題,對熱門話題進行排序。
(3)數據分析:通過柱狀圖、餅狀圖等顯示關鍵詞及熱度的數據,讓用戶可以更直觀地感受輿情信息的具體內容。
(4)輿情預警:對信息按熱度(點擊量)進行排序,把關注度前十的話題信息通過郵箱發送給輿情監控人員。
對系統功能模塊的劃分是以需求分析得到結果為參考的。大體分為三個模塊:輿情采集、數據分析、輿情預警。系統模塊圖如圖4 所示。
系統流程圖如圖5 所示。

圖4 系統模塊圖

圖5 系統流程圖
輸入用戶名和密碼,點擊登錄即可,用戶可注冊成為普通用戶。普通用戶可以查看系統的所有數據信息,管理員除此之外還可以發送預警信息給特定的聯系人。登錄頁面如圖6 所示。

圖6 登錄頁面
數據采集是該系統最底層也是最核心的模塊,該模塊主要是抓取目標HTML 頁面上的數據,并傳到本地數據庫當中。爬蟲程序核心代碼如下:


登錄成功后,就會進入系統首頁,該頁面主要是對獲取到的輿情信息的概覽,可以查看數據總條目,以折線圖展示兩周內獲取數據的變化,通過餅狀圖清晰地看出信息來源的主流媒體有哪些,同時以詞云圖的形式展示出熱門的話題。系統首頁如圖7 所示。

圖7 系統首頁
(1)熱門信息頁面
該頁面展示了熱門前三十名的信息,主要包括信息標題、信息點擊率、信息時間、信息發布媒體,點擊標題就可以跳轉到該信息具體內容的鏈接。熱門信息頁面如圖8 所示。

圖8 熱門信息頁面
(2)熱門話題頁面
該頁面展示了話題的熱度排名。可以在搜索框搜索相關話題的熱度。熱門話題頁面如圖9 所示。

圖9 熱門話題頁面
(1)時間與熱度分析頁面
此頁面是利用一個橫坐標為時間,縱坐標為點擊量的散點圖進行分析,可以直觀觀察到信息的普遍熱度集中在10000 到120000 之間。其中,右下角有一個熱度篩選,可以通過這個篩選某個熱度范圍的新聞,當鼠標移動到某個點時,就會顯示相應新聞的標題信息、點擊量數目、話題信息,點擊該點,就會跳轉到此信息的相應鏈接。時間與熱度分析頁面如圖10 所示。

圖10 時間與熱度分析頁面
(2)熱度話題分析
話題分析頁面主要是可以從一個橫坐標為話題,縱坐標為熱度的柱狀圖中直觀看出熱度前一百的話題的熱度差別。話題分析頁面如圖11 所示。

圖11 熱度話題分析頁面
當點擊該柱形時候,就會在下方出現一個“空心”圓餅圖來顯示該話題的具體情況。點擊大學的柱形就會出現該話題的具體分析信息,具體話題分析如圖12 所示。

圖12 具體話題分析圖
(3)話題數據查詢
該頁面可以查詢感興趣的話題的具體新聞信息。在文本框中輸入話題,點擊查詢,頁面即會出現話題的具體分析圖。話題查詢頁面如圖13 所示。

圖13 數據話題查詢頁面
(1)預警分級
在預警分級可以看到熱度較高的話題數據。把數據分為三個等級:紅色預警是熱度前十名的話題,黃色預警是熱度第十到第三十的話題,其余為綠色預警。
紅色預警信息如圖14 所示:

圖14 紅色預警信息
黃色預警信息如圖15 所示:

圖15 黃色預警信息
綠色預警信息如圖16 所示:

圖16 綠色預警信息

圖17 發送郵件頁面

圖18 郵件發送成功提示
(2)發送郵件
該頁面只有管理員可以進入,普通用戶不能發送信息,因此要先用管理員的身登錄系統,然后填寫郵箱地址,點擊發送信息即可。其中,發送郵件頁面如圖17所示。
郵件發送成功提示如圖18 所示。
高校網絡輿情突發事件預警系統,其目的在于能夠及時準確地得到網絡輿情信息,并把信息的分析結果反饋給高校管理人員,以便做出相應的決策去應對突發事件,維護高校穩定。本文網絡輿情信息獲取的來源主要是新浪新聞等站點,通過新聞點擊量來分析出熱點話題,系統涉及到的內容包括前期的輿情采集信息,分析得到的信息,最后通過圖表展示出來,最后核心功能就是輿情預警,其中輿情預警主要是把話題熱度前三名通過郵件的方式發送給輿情監控人員,實現及時預警功能。但是由于網絡輿情載體多而雜,本系統網絡輿情信息獲取的來源覆蓋面廣度仍有欠缺,這是以后需要改進的地方。