張嘯杰

摘? ?要:融媒體時代的到來、互聯網終端設備的普及,使得整個社會發生了翻天覆地的變化,人工智能與大數據的運用使人們的生活更加方便與高效。新媒體的發展、“草根媒介”的誕生、小視頻的蓬勃發展,顛覆了原有的傳播方式與信息發布和獲取方式。青年人作為社會中最為活躍的一部分人群,往往集中于高校,并且經常運用互聯網發聲,嘗試新手段、新技術等。文章運用大數據對校園網絡媒體監控是當今時代下及時、有效地引導青年的必要手段進行了研究。
關鍵詞:融媒時代;校園網絡;數據監控;內容引導
1? ? 校園網絡媒體監控的背景與目的
融媒體時代的到來、互聯網的迅猛發展、移動終端的普及、傳播方式的顛覆,是當前社會給我們的直觀感受,根據中國互聯網發展狀況統計調查,2018年6月數據顯示,我國互聯網用戶突破8億,其中學生占據了25%左右[1]。他們善于在網絡上發聲,利用互聯網制造輿論,且是思想最為活躍,而又尚未形成個人價值觀與世界觀的群體,他們“理想”、獵奇而又沖動,容易被利用。因此,互聯網成為當今青年獲取和發布信息的重要手段和輿情高發的版塊。
學生的高校時期正是“三觀”形成的關鍵期,而高校肩負著青年學生思想政治教育責任,又是連接社會的紐帶,因此在校園里正確引導學生、努力使青年學生成為社會主義的建設者和接班人是高校不可推卸的責任。高校學生有更多的個人生活時間和空間,網絡不能斷、手機不離手已成為常態,在這種隨時都可能獲取負面信息、時刻會造成輿論的情況下,及時發現問題、解決問題,甚至未雨綢繆,提前預判不利情況的發生成為高校輿情監控必不可少的能力。
在當前情況下,運用大數據進行校園網絡媒體監控顯得十分必要。在保證個人信息不被泄露的情況下,全面監控校園網絡信息,以監控為手段、內容引導為目的,通過大數據手段對校園內青年學生們從網絡上獲取的信息及發布的信息進行處理,形成敏感詞庫。針對某一時間集中爆發的高頻詞語或某一時間段的高頻詞語甚至某一個ID賬戶經常瀏覽的信息進行收集、整理和分析,從而獲取個人以及集體的關注重點,反向的給學校提供內容引導的向導,有更好地判斷和更高效、更精準的引導方向[2]。
2? ? 校園網絡媒體監控的現狀
目前國內擁有較多的輿情監控軟件,如紅麥輿情監控系統、中國輿情網PALAS帕拉斯網絡輿情監控系統、Goonie網絡輿情監控系統、樂思輿情監測系統及軍犬網絡輿情監控系統等,各自擁有不同的特點,而且在自己的領域擁有較強的數據挖掘能力,能夠較快地挖掘需要的信息。目前研發的輿情監控系統更多的是為政府部門和企業所用,幫助政府了解突發事件或者輿論熱點情況,幫助合作企業了解競爭對手產品特性、提供決策意見和制定相關營銷方案。但使用成本較高,對于一般的公司或者一些高校而言,受制于經濟情況,無法完整地使用相關監測軟件。而相關政府部門對相關輿情監控后,又缺乏預測機制抑或事件已經發生,當信息傳遞到高校時,很有可能為時已晚。因此,高校自主建設或擁有獨立的輿情監控與引導方式顯得格外重要,能夠讓較早地了解校內學生對于社會熱點事件如何看待及其選擇的新聞信息內容或者查找內容的傾向性,從而幫助學校更好地了解學生對于群體性事件、社會熱點事件的了解和看法,并時刻關注學生的個體健康狀況[3]。
3? ? 大數據下校園網絡媒體監控研究
本次研究運用爬蟲技術獲取Web頁面文本信息9 000余條,其中經過識別,剔除廣告等數據,獲得可用數據7 000余條。在文本預處理情況下確定文本關鍵詞,形成數據模型,運用賦值法形成敏感閾值范圍。
3.1? 數據文本預處理
本次獲取文本多為短文本,短文本預處理尤其困難,采用rost分詞軟件將獲取文本進行分詞,去除停用詞和無實際意義的介詞等進行簡單的文本分詞,透過分詞可以較為明顯地獲取某一時段或某一IP查找網絡信息的特點。結合詞頻—逆文檔處理(Term Frequency–Inverse Document Frequency,TF-IDF)對文本信息進行整理,不能僅依靠頻率數據來確定文本信息的敏感性[4-5]。例如在高校中擁有心理亞健康狀態的學生有很多,甚至隱藏著很多存在心理疾病的人群。針對此種情況,不能僅依靠文本數據頻率來確定是否敏感,更應該將或許頻率較少但卻極為重要的信息進行監控與分析,因此針對此類信息更應該單獨關注。
3.2? 文本信息聚類
結合文本預處理、關鍵詞頻率以及高校學生重點關注情況,基于DBSCAN算法[6]形成以下5類文本信息聚類:文體娛樂類、校園生活類、社會熱點時事政治類、醫療健康類。其中文體娛樂類多涉及文化、體育、廣告、明星等各類娛樂新聞。校園生活則包含宿舍、班級、生活日常、購物、社團等各類校園內的日常或有關校園的各類話題。社會熱點主要指去除微博熱點中一些娛樂新聞熱點的,包含教育、醫療、國家、政治等社會時政熱點。醫療健康則是為了了解當前學生身體狀態。高校學生身心日漸成熟,對于一些不方便對外公布的疾病往往選擇通過網絡查詢,來了解自身狀態或尋求治療,因此,醫療健康分類包含各類疾病的查詢或各類藥品的查詢。
3.3? 構建文本信息三維數據模型及賦值
根據文本信息聚類、網絡信息傳播中個人選擇信息方式以及信息平臺影響范圍,對各類監控信息形成三維數據模型,校園網絡媒體監控主要是對一些輿情的監控、對部分個人IP非正常信息查詢的監控。因此,從內容分類來看文體娛樂往往不在監控范圍,每一個大學生都有自己的愛好以及自己喜歡的明星,其信息的選擇和傳播往往不會對社會或者校園產生重大輿情的影響。校園生活類是能夠在校園內形成輿情的重要信息,尤其是一些管理類的失誤、服務類的不及時等,一些很小的事情可能都會在網絡上引起軒然大波。社會熱點中的時政熱點是了解當前青年學生思想政治認識以及人生觀、價值觀的重要標尺,青年人的選擇、是非的認知或者思想上的傾向都應該是學校積極掌握的。醫療健康類中的傳染類疾病、心理疾病等這些存在隱私的疾病,患者往往選擇網絡查詢,是可以從網絡監控中了解的。通過這些手段可以更好地進行干預,避免事態影響擴大。
操作方式的選擇是依據個人對信息的認知程度和信息傳播的影響程度來確定,在操作方式中閱讀信息是最基本的信息獲取,而點贊或舉報是個人對信息經過思考后對其是否認可或符合個人傾向的深度表現。網絡查詢往往基于百度,而查詢則是對于個人而言要進一步了解相關信息的一種表現,轉發和評論是除了個人認知外,更想要向其他人傳遞信息的一種深度表現。
網絡平臺的選擇一方面有其個人喜好的原因,但也存在其傳播目的性影響范圍的選擇。在校園網絡媒體監控中,任何高校都有其值得吐槽的地方,系統允許大家吐槽或追問,但要有意識地進行解釋或者干預,尤其一些在論壇、貼吧、網頁、公眾號和微博上宣傳的信息更容易引發全網的輿情。基于此形成數據三維模型(見圖1)。在此模型中當數值超過5時,定義為“敏感”,需要跟進關注;當數值≥8時,定義為“高度敏感”,需要重點關注。
4? ? 結語
在互聯網覆蓋度極高、移動終端普及、信息獲取和發布更加多元化的情況下,校園對網絡參與度極高的青年學生進行網絡監控顯得極為重要,能夠更有效地指導教育方向,重點在于防患于未然。文章提出了網絡監控的一種方式,嘗試運用大數據對校園網絡媒體進行監控,通過三維數據模型對獲取的文本信息進行處理,得到信息是否值得關注的結果。但目前仍然缺乏系統的內部監控系統,對于隱私的保護也需要進一步加強,數據信息維度仍有待加強。高校青年學生是國家的未來,他們的認知、“三觀”傾向關系著個人的未來,也關系著國家和社會的未來,高校積極、有效地加強對青年學生的教育,尤其是思想政治教育,是時代賦予的重要歷史使命。
[參考文獻]
[1]中國互聯網絡信息中心.2018年上半年中國互聯網產業發展狀況[J].科技中國,2018(9):32-39.
[2]葉云峰,葛啟超.新媒體背景下高校輿論引導研究[J].湖北科技學院學報,2016(3):8.
[3]李影溪.高校網絡媒體的輿論監督特性研究[J].陜西教育,2012(1):38-39.
[4]牛萍.TF_IDF與規則結合的中文關鍵詞自動抽取研究[D].大連:大連理工大學,2015.
[5]馬宏煒.基于語言網絡的微博特征發現和話題關鍵詞提取[D].杭州:杭州電子科技大學,2014.
[6]楊宇,鄒臣嵩.基于COMET的現代學徒制職業能力聚類分析[J].廣東技術師范學院學報,2018(3):74-79.