李徐輝
(陜西國防工業職業技術學院,陜西 西安 710300)
隨著網絡傳播技術的迅速發展,新媒體載體層出不窮。在廣大網民的積極參與和傳播下,新媒體事件屢見不鮮,對社會產生了重要影響。當前時代已經成為新媒體事件頻發的時代。對于高校而言,新媒體時代既有積極的一面也有消極的一面[1]。新媒體可以幫助高校教師提升教學質量和水平,但同時,在新媒體技術的傳播下,學生獲取新鮮資訊的途徑增加,但資訊信息的真實性和可信度難以保證。網絡輿情是指在新媒體技術的支撐下,公眾對某一熱點話題所表現出的具有一定影響力和傾向性的意見或言論。在高校網絡中,網絡輿情反映了特定中介性社會事項所引發的社會政治態度[2]。學生是網絡中最為積極的群體,經常活躍在各類網絡領域,是新媒體時代下信息傳播的主要承載者。然而,由于學生缺乏真實社會的經驗,對信息的辨識能力較弱,極易受到虛假信息和輿情的誤導,成為其傳播的推動者[3]。此外,高校網絡中包含大量的信息,一旦計算機系統被非法攻擊者入侵,就會造成信息泄露,對高校甚至學生本身的利益造成嚴重負面影響。因此,為了保障學生和高校的合法權益,避免學生受到不良信息的影響,本文將從新媒體視角出發,開展對高校網絡信息安全風險預警的研究。
信息獲取是對高校網絡安全風險進行監測的關鍵環節。在新媒體視角下,只有實現對高校網絡新媒體信息的及時獲取,才能確保預警方法發揮重要作用[4]。一般經驗表明,高校網絡中的新媒體信息快速傳播時間大約為6 h,本次針對信息發布至傳播6 h這一時段進行研究。因此,在獲取高校網絡新媒體信息時,需要設置一個閾值U。此閾值是在6 h內點擊率、回復率和轉載率的線性組合參數,該閾值的設定應結合高校網絡傳播的特點和網絡用戶的行為習慣。通過以下內容確定閾值:設在高校網絡論壇當中,針對該新媒體信息的點擊率為D,回復率為H,轉載率為Z。在完成設定后,根據網絡新媒體信息的分析,將其重要性劃分為:Z≥2H≥200D,一般D>70×(H+Z)。當D的取值小于或等于這一設定時,說明該新媒體信息引起了廣泛響應,則U的計算公式為:
U=D/100+H+2Z
(1)
當達到閾值時,高校網絡后臺程序將自動推送數據到預警數據庫中。結合以往新媒體信息在形成前6 h的D、H和Z的取值,確定U的具體取值。使用上述方式對高校網絡新媒體信息進行采集,能夠確保信息的全面性。在完成獲取操作后,對得到的高校網絡新媒體信息進行挖掘。由于計算機不能像人類那樣理解文字中的信息,只能分辨0與1,所以有必要把文字的信息表達為計算機能夠辨識的數據,把文字表達為數字或符號的矢量。然而,中文詞匯并不能完全表達語義,而短語和句子盡管能夠充分表達語義,但是經過大量的實驗驗證,卻發現單一的短語或句子往往蘊含著多層次的意義,這給計算帶來了很大的時空開銷[5]。因此,需要選擇特征項作為文本處理使用詞用以識別文本[6]。在對文本進行挖掘的過程中,引入布爾模型,其文本表示模型可寫作:D=(W1,W2,…,Wn),在該模型當中,n表示特征項的數量,Wi的取值均為0或1。當Wi的取值為1時,說明某一特征項i在文本D當中;當Wi的取值為0時,說明某一特征項i不在文本D當中。采用這種方式會在一定程度上忽略了特征項與文本項之間的關聯性差異。因此,對該模型進行優化,將文本表示為由特征項組成的正交規范化矢量,接下來,對模型進行優化,可表示為:
D=(T1W1,T2W2,…,TnWn)
(2)
模型中,Ti表示某一特征項i的取值;Wi表示某一特征項Ti的矢量權重,Wi的取值一般在(0,1)之間,Wi取值越大,則說明特征項Ti越能夠反映文本D中的內容;相反,Wi取值越小,則說明特征項Ti越無法反映文本D中的內容。將符合所有Ti值要求的文本匯總,實現對重要內容的挖掘。具體挖掘步驟為:收集文本文檔——文檔預處理——標記化——去除停用詞——Stemming——文本轉換——數據挖掘——評估。在挖掘的過程中,對風險特征進行提取,其公式為:
(3)
公式中,P(k)表示特征量;η(k)表示挖掘狀態系數;li(k)表示文本信息數據特征量;ηi(k)表示所有文檔信息數據量。根據上述基本邏輯,實現對高校網絡新媒體信息的深度挖掘。
為方便后續對風險信息的聚類和安全預警,對信息安全風險特征進行加權和特征降維。在對各特征項進行權值計算時,必須采用詞頻加權法。詞頻加權法是一種將特征項在文章中出現的次數作為權重的方法,權重隨著出現次數的增加而增大[7]。一般來說,在高校網絡中,不同新媒體信息之間并沒有直接的相關性,因此可分別計算各自新媒體信息的權重,詞頻加權的計算公式為:
(4)
公式中,tfi表示特征項Ti在文本當中出現的頻率。若文本中特征項存在,則將權重值記為1,反之記為0。
為了降低預警方法的計算量和運行負擔,對信息安全風險特征進行降維。只需要選取最能體現文本內容的特征項即可。常見的降維方式包括特征選擇和特征抽取等,而特征抽取更加簡單[8]。通過對以往新媒體事件的分析可以看出,事件主要涉及地點、人物、相關部門、事件、結局5個詞語,而這5個詞語也是最能體現事件整體狀況[9]。所以,可將這個矢量空間的維度設定為5個維度:
D=(T1W1,T2W2,…,T5W5)
(5)
對于高校網絡中本體庫Hownet沒有覆蓋的新詞,根據新詞的上下文語境,對其進行綜合評價,將新詞的語義值定義為:
ti=0.4·ti-1+0.4·ti+1+0.2·50
(6)
公式中,ti表示特征項Ti的語義值,公式中的2個0.4表示上一特征項和下一特征項的影響系數,0.2表示平衡因子,按照下述公式進行降維調整:
(7)
通過上述方式可以實現對其降維,從而降低后續預警的誤差。
針對完成降維的信息安全風險特征,對其進行聚類分析,篩選出對高校網絡運行造成威脅的風險信息,并在發現風險信息后,立即進行安全預警[10]。選擇將K-means算法作為聚類算法
將聚類結果分為4種不同類型,并設置對應的D取值范圍。第一類,對社會的發展和穩定有利的新媒體信息,D取值范圍在0~0.25;第二類,屬于高校網絡中用戶自娛自樂事件的新媒體信息,D的取值在0.25~0.50;第三類,屬于對社會的發展和穩定有一定負面影響的新媒體信息,D的取值在0.50~0.75;第四類,會嚴重影響社會的發展和穩定的新媒體信息,D的取值在0.75~1.00。根據上述劃分規則,在對高校網絡中的新媒體信息監測時,一旦出現D的取值在0.50以上的新媒體信息,則立即進行預警,并將其剔除,避免對整個高校網絡環境造成負面影響,以此實現對高校網絡信息安全風險的有效預警。
在上述論述基礎上,從理論方面實現了對新媒體視角下高校網絡信息安全風險預警方法的設計。為了進一步驗證該預警方法的實際應用可行性,選擇以某高校為依托,針對高校網絡的信息安全進行風險預警。通過對預警方法在應用過程中的表現以及應用效果實現對其性能的檢驗。選擇某一高校為研究對象,以微博平臺中高校的超話作為研究區域,其研究時間設定在某一信息發布后6 h內,依據平臺提供的點擊統計功能記錄每個內容的點擊次數,統計用戶與內容的互動情況及內容被其他用戶轉載或分享的次數,以此來開展研究。先從預警的精度角度,對該方法進行驗證,將誤報率作為精度檢驗的量化指標,對預警誤報率的測定可通過下述公式計算得出:
(9)
公式中,η表示預警方法的誤報率;s表示未進行預警但屬于風險信息的數據量;r表示未正確匹配風險信息的數據量;m表示信息總數據量。根據上述公式,將實驗結果中該預警方法的誤報率記錄,并得到如表1所示的實驗結果。
表1 本文預警方法誤報率記錄
從表1中得到的實驗結果可以看出,本文設計的預警方法可以實現對風險信息的安全預警,盡管隨著高校網絡中信息數據量的增加,預警方法的誤報率出現了略微增加的情況,但在信息數據量達到10 000 Mbits時,其誤報率也均控制在了3.00%以內,實驗結果十分可觀。通過上述實驗可以證明,本文設計的預警方法在實際應用到高校網絡當中時,可以實現對風險信息的有效預警,確保高校網絡的運行安全,保障網絡用戶的個人利益不受損害。
通過上述實例,實現了對本文設計的預警方法預警精度的驗證。在此基礎上,為使驗證結果更客觀,再從本文預警方法結果的信度角度,實現對其預警精度對比。采用科隆巴赫系數反映信度,其計算公式為:
(10)
公式中,δ表示預警結果的信度值;Wi表示預警結果的方差;Wt表示預警結果的標準差。根據上述公式計算得出信度值δ,δ的取值在0~1,δ越接近1,則說明本文預警方法的預警精度越高;δ越接近0,則說明本文預警方法的預警精度越低。在預警的過程中,隨著高校網絡中信息總數據量的增加,記錄每一時刻的δ值,并將其繪制成如圖1所示的實驗結果。
圖1 本文預警方法預警結果信度值變化曲線
從圖1中曲線可以看出,應用本文提出的預警方法對高校網絡信息安全風險預警,預警結果的信度值隨著信息數據量的增加,出現了略微下降的趨勢,但始終高于0.7,這一變化趨勢與上述誤報率測試結果相符,說明實驗結果具有客觀性。綜合上述得出的實驗結果證明,本文設計的預警方法可以實現對高校網絡信息安全風險的高精度預警,對于提升高校網絡環境整體安全性具有極大的幫助。
本文將新媒體作為大環境背景,開展了對高校網絡信息安全風險預警方法的設計研究。新媒體與傳統媒體相比,具有及時性、互動性、開放性等特點,其特性決定了突發事件爆發后,信息的傳播速度更快,且影響范圍更廣?;谶@一特點,本文設計了一種全新的預警方法,用以實現對高校網絡信息的安全保護。在實際應用中,在高校網絡信息安全風險預警的前期信息獲取階段,仍然存在進一步需要改進的環節,例如制定相應的服務協議、確保信息的全面性等。對此,為了使高校網絡安全性得到更大的提升,針對這一方面的問題還將進行更加深入的探索研究。