申 臻
(湘潭大學公共管理學院 湖南湘潭 411105)
根據中國互聯網絡信息中心在京發布的第44次《中國互聯網絡發展狀況統計報告》[1]截至2019年6月,中國網民規模達8.54億,較2018年底增長了2598萬,而我國大學生網民數量占比20.2%,同比增加了1.6%。大學生網民群體的性質較一般網民群體更加特殊,并且相比于其他學生群體,大學生思想活躍,關心時事,擅長發表自己的意見,也樂于做網絡輿情的傳播者。然而,大學生的人生價值觀并未完全形成,在互聯網的浪潮下容易受到沖擊,從而造成不可逆轉的傷害。所以,關注大學生網絡輿情,建立高效率的預警機制,是大學與相關部門工作的重中之重。大學生網絡輿情是指一定時期內,大學生通過互聯網對某些社會事件、言論所表達的態度意見和情緒的總稱,也是從自身出發對輿情事件再加工之后的反饋。大數據環境下,網絡信息更加爆炸,更是對大學以及相關部門提出了更嚴峻的挑戰。
以CNKI全文數據來源,檢索式設置為“大學生+網絡輿情預警”與“高校+網絡輿情預警”進行檢索,時間設定為CNKI起始時間至2019年10月14日(檢索日),共檢索到相關文獻420篇。此研究方向取得了一定的進展。如,鄧上民和劉亞倩基于AHP和調查法,篩選出指標進行權重計算,從而構建出了高校網絡輿情安全評估體系[2]。向志強和龍雅麗認為,大學生群體性事件網絡輿情預警系統由五個子系統組成,并在此基礎上提出建立完備的預警運行機制[3]。聶峰英根據高校網絡輿情的特點,以3個一級指標、6個 二級指標、21個三級指標構建高校網絡輿情預警指標體系。李中原認為,利用人工研判和技術手段結合的方法可以提升對高校學生的監測效率,從而更好的進行預警[4]。然而,縱觀這些文獻,對于大數據環境下的網絡輿情研究還比較少。本文基于前人的研究成果,試圖構建一個適應于大數據環境的更完備的預警體系。
輿情主體的特殊性。顯而易見的是,大學生網絡輿情的主體就是大學生。區別于社會上的其他成員,因為其學歷文化程度較高的緣故,大學生更樂于在網上發表與傳播意見。同時,大學生也更加愿意傳播“意見領袖”的觀點。但是,大學生往往還處于人生階段的一個重要轉型期,價值觀還未完全形成,容易被虛假惡意信息蠱惑,從而產生嚴重的后果。
信息傳播媒介的多樣性。對網絡知識與移動終端的熟練掌握使得大學生有多種多樣的方式表達自己的意見。比如qq,微信,微博,貼吧,論壇。同時,正因為傳播媒介的多樣性,使得輿情在開始階段發展較快,可以在非常短的時間內迅速形成大量的意見,尤其是在如今大數據環境信息爆炸的時代,讓輿情監測變得更加的艱難。
表達內容的多元性。不同于單一的文字內容,大學生更喜歡使用圖片,表情包,視頻以及音頻等數字內容傳達自己的想法。最有名的便是“Facebook表情包大戰”,大陸網友使用表情包與臺灣網友在Facebook上對峙,最終大陸網友大獲全勝。有時候,大學生們僅僅就用一張圖片表達自己的態度,這也給輿情預警的信息獲取環節加大了難度。
大學生關注的輿情內容主要包括以下幾個方面:
娛樂體育事件。大多數大學生都對娛樂明星,體育比賽有興趣。當出現吸引到他們的輿情事件時,他們喜歡在微博或者虎撲等新興社交媒體上發表自己的觀點和意見。這類話題的特征是傳播速度快,但也很容易被新的話題取代,且大多數事件都是中性事件,因此輿情造成的后果危害會比較小。
國內外政治以及社會事件。當代大學生聚焦政治與社會事件,普遍會有一種正義感。他們會怒斥“假疫苗”的生廠商,對“臺獨”“港獨”分子不屑一顧,對“NBA聯盟”嚴厲抵制。同時,也有一種悲天憫人的情懷。他們對地震災民深表同情,對救火英雄們心存感激,也為他們的國家自豪。當談論這些話題時,存在一個很明顯的特征,就是“理性與非理性共存”。大學生們可以很容易分清善惡與是非,但是,在表達意見時,他們很容易控制不住自己的情緒。這個話題是出現惡劣后果的重災區,也是輿情預警應該重點監測的話題。
我們將預警系統規劃為五個子系統,分別為輿情信息規劃系統,輿情信息采集系統,輿情信息分析系統,輿情信息警報系統和輿情信息匯總可視化系統。
輿情信息規劃系統。規劃是采集的前提,也是所有系統運轉的基礎。信息規劃是指大學以及政府網絡相關部門根據需要,確定要跟蹤的對象,構建關鍵詞庫。并且及時調整采集內容。關鍵詞庫可以構建兩套,一套是日常關鍵詞庫,一套是敏感事件關鍵詞庫。日常關鍵詞庫中,可以添加需要監測的常用的主題詞,來作為日常信息收集的源文件。而敏感事件關鍵詞庫則需要根據特定的事件添加特定的主題詞。關鍵詞庫是動態的,會根據相關研究成果以及不同的網絡輿情事件進行調整。
輿情信息采集系統。信息采集系統是網絡爬蟲工具與人工同時進行工作的信息收集機制。這里,我們使用python爬蟲工具來構建。首先,我們引用一個requests請求庫,它能模擬瀏覽器訪問網頁的操作。我們使用requests庫提取到了一系列的信息,接著我們使用正則表達式進行解析,(這里也可以使用Beautiful Soup和Xpath等頁解析庫進行操作),將解析好的信息與規劃好的關鍵詞進行對照,接著把相關信息傳入MySQL數據庫中保存起來。因為爬蟲工具是全自動化的,因此我們可以不斷循環這一流程,提取出海量的信息供接下來的輿情信息分析系統使用。我們可以制作多個爬蟲工具放在大學生常去的貼吧,論壇,知乎等網站上。同時,在使用爬蟲工具之外,在敏感事件期間,還需要大學以及相關部門專業的輿情信息人員進行專門搜集。
輿情信息分析系統。輿情信息分析系統是整個預警系統中最核心的系統,它分為兩個步驟。如下所示:
數據的預處理環節:數據的預處理首先需要進行數據清理。數據清理就是清除數據噪聲和與挖掘主題明顯無關及不一致的數據,包括與要分析的信息不相關的廣告,圖片和文字等。數據清理的主要環節有填補數據空缺值、平滑噪聲數據、識別并刪除孤立點、糾正數據的不一致等。然后,我們為了更好的進行數據分析,我們需要對數據進行中文分詞、關鍵字提取、規則匹配以及命名實體分析,這也是情感詞語分析的基礎。經過數據的預處理環節之后,我們就可以把信息傳給下一個環節了。
數據的分析與建模環節:經過數據的預處理環節之后,我們得到了一系列有規律的數據。此時,采用情感詞語分析的方法對數據進行分析。我們將輿情演化時期表達大學生態度與情感的一些“情感詞”在情感詞庫中進行檢索,計算詞語的相似性,得到不同情感詞之間的相似度。接著,與基準詞進行比較判斷出“情感傾向度”。最后,使用文本聚類的方法,將相似的傾向度放一起,不相似的傾向度分開,構建出輿情演化階段情感變化的模型,這個模型也可以起到預測的效果。至此,我們的數據分析與建模環節也完成了。
輿情信息警報系統。輿情信息警報系統的具體操作流程是將經過數據分析與建模系統的處理得到的情感模型與我們構建好的預警指標體系進行對照,預警指標體系可以使用德爾菲法,根據大學生的特性,從情感角度出發進行構建。我們依據指標不同的權重,計算出警報的等級。警報等級分為微度警情、輕度警情、中度警情、中高度警情、重度警情以及特重警情。輕度警情及以下的可以進行模型備份并且冷處理,輕度警情以上的將輿情匯總交給大學以及相關網絡部門進行處理并預案。
輿情信息匯總可視化系統。輿情信息匯總可視化系統是大數據時代下必須且必要的系統。它不同于一般的輿情報表或者輿情報告,它著重于人與信息交互的一個過程。在這里我們可以借鑒英國《衛報》的做法,英國《衛報》可以說是數據新聞的先驅者,2010年10月23日,《衛報》刊登了一篇伊拉克戰爭日志,它使用維基解密的數據,運用Googlefushion制作了一副點圖,將伊拉克戰爭中所有人員的傷亡情況標注于地圖之上,地圖可以縮放大小,數據多達39.1萬條左右。在地圖上一個紅點便代表一次死傷事件,鼠標點擊紅點后便會彈出詳細的說明:傷亡人數、時間、造成死亡的原因等[5]。這里既沒有使用夸張的修辭,也沒有使用冗長的話語,地圖上密布的紅點就顯得觸目驚心。大學生是理性與非理性共存的群體,使用簡單的勸誘方法作用不大,但是,如果我們將輿情事件的整個面貌全部平鋪直敘在大學生的面前,讓大學生自己去思考,作用可能會好的多。在一個輿情事件發生后,大學與相關網絡部門已經對情況進行了初步的控制,接下來需要從理性角度進行引導。輿情匯總可視化系統的具體流程如下:大學以及相關網絡部門使用Dipity、Timetoast等工具制作出輿情事件的時間流程圖,上面標有事件發生的時間、原因、主要傳播者、傳播熱力圖以及不同時間事件的進展等內容,并將時間流程圖放在大學官網以及大學生喜歡逛的論壇、微博等社交媒體上。大學生可以使用鼠標點擊點擊任意時間點看到不同的內容,這樣做的好處是不僅使大學生們可以輕松了解事件的全貌,還能從整個事件中迎來理性的回歸。
一套成熟的網絡輿情預警系統對輿情信息部門具有重要意義。本文借鑒了前人研究成果之精華,并且進行了一定程度的創新,對于大學以及相關網絡信息部門具有一定理論價值。然而,本篇論文仍然存在許多不足之處。比如,預警指標體系并沒有很好的表述出來,整個系統缺少了實例佐證,需要更好的表述清楚。這也是本人下一步研究的重點內容。