傲起 楊曉



摘要:校園網的發展對學生的學習與生活帶來了極大的便利,但同時也影響著學生的思想和行為,給高校學生管理工作帶來了新的挑戰。該文基于校園網流量分析,設計了一套學生網絡行為監測系統,可通過分析學生網絡行為監測學生的網絡游戲沉迷情況,通過分析學生網絡瀏覽內容監測學生的話題關注情況,為學生的思想教育和行為引導提供可靠、有效的科學依據。
關鍵詞:網絡行為分析;流量分析;網絡游戲沉迷;風險管控;大數據
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2020)09-0027-02
開放科學(資源服務)標識碼(OSID):
1 背景
近年來,網絡極大的便利了學生的日常學習與生活,包括資料查找、聊天、點餐、購物、視頻、游戲等。然而網絡上的信息良莠不齊,由于學生群體思想活躍、單純明辨是非能力差、自控力欠缺,在網絡帶來便利的同時,也帶來了一系列問題和風險,嚴重影響了學生的健康成長,如網貸、沉迷游戲、傳播不良言論等[1]。傳統的管理措施主要依賴學校的管理制度和學生的自我約束,缺乏網絡控制、網絡行為分析能力和管控措施。為此,本文提出了一種基于校園網絡流量數據的學生行為監測系統的設計方案,能夠實時掌握學生的網絡游戲沉迷情況和學生關注黃賭毒情況,為學校提供有效科學的網絡管控措施。
2 網絡行為監測系統
本系統對網絡言論與行為識別、判定及管控,架構設計如圖1所示,由數據采集層、數據處理層和分析推理層組成,主要實現學生網絡沉迷的管控、涉黃賭毒的風險用戶發現和用戶關注主題分析。
2.1 數據采集
數據采集捕獲校園流量數據包,對流量數據包進行識別,對于網頁瀏覽數據包進一步通過爬蟲爬取對應頁面。主要設計思路如下:
1)流量數據包捕獲:在校園出口路由器上設置流量鏡像,基金項目:內蒙古自治區高等學校科學研究項目:智慧校園之學生上網行為的分析與研究(項目編號:NJZY18315)將數據轉發到數據采集服務器,在該服務器上使用基于DP-DKc2]的數據包采集軟件捕獲數據并將數據按照pcap文件格式進行存儲。
2)流量識別:采用基于深度包檢測技術對流量進行識別3],獲取以下信息:流量應用類型,訪問IP地址、應用層協議、訪問端口、訪問網址、訪問時間、源IP地址、源Mac地址等,將信息存儲到數據庫。
3)網頁爬蟲:對于應用層協議為HTTP的數據包并且非搜索引擎的網址,使用網頁爬蟲下載對應網頁文檔存儲到本地服務器。
2.2 數據處理
數據處理對流量數據和網頁文檔進行數據預處理和特征提取,為分析推理層提供算法所需數據。主要設計思路如下:
1)流量數據包的預處理和特征提取
流量數據預處理:本系統主要涉及的流量類型為網頁流量和游戲類流量,對于視頻和音頻類數據不進行處理,因此在預處理階段將該類數據包過濾掉。
流量數據特征提取:對流量數據進行統計匯總,獲取每個學生的周上網總時長、上網頻率、每次上網時間段和平均在線時長等。對搜索引擎類數據包,對請求進行解析,獲取請求關鍵字。
2)網頁文檔的預處理和特征提取
網頁文檔的預處理:從網頁中去除HTML標簽提取文本內容。對處理后的文本進行文本分詞,文本分詞是網頁關鍵詞提取的基礎,可采用Jieba分詞工具或者中科院分詞系統。最后從分詞之后的文本中去除停用詞。
網頁文檔關鍵詞提取:關鍵詞提取方法有TF-IDF算法、TextRank算法和基于LDA[4.5]主題模型的關鍵詞提取方法,其中前兩者無法從文本中提取隱含的主題信息,因此本文采用LDA算法。通過對LDA模型的訓練可獲取每個網頁文檔的關鍵詞分布。
2.3 網絡游戲沉迷管控
隨著互聯網的發展,很多大學生沉浸于游戲,嚴重影響了正常的學業。通過網絡游戲沉迷分析幫助學校發現沉迷游戲的學生,便于進行有針對性輔導和教育。主要設計思路如下:
1)特征選取:學生的網絡游戲迷主要體現在上網時長方面[6],因此取以下四個特征作為度量標準。
2)網絡游戲沉迷度量化模型:層次分析法[7]堤:一種定性與定量相結合的決策分析方法,這里應用該方法對網絡游戲沉迷度進行量化研究,其模型結構如圖2所示。
為了得到學生的游戲成謎度,需要設定準則層的評分規則,即如何通過學生的網絡行為對六個度量指標進行數值評價。這里采用統計方法,由學生在群體中的排名決定每個指標的量化值,各特征指標的量化值范圍0 - 100,排名越靠前數值越高,表示沉迷程度越深,如某一學生的總上網時長排在第五名,那么他的總時長量化值為95。
準則層到目標層的定量化,即網絡游戲成謎度,將由所有特征指標的量化值加權求和表示。特征指標的權重使用一致矩陣法,首先對特征指標兩兩相比較確定判定矩陣中每個元素值,然后對矩陣進行一致性驗證,若通過則經特征向量歸一化獲得每個指標的權重值,若不通過重新調整判定矩陣。
2.4 風險管控
網絡中存在很多不健康的、有危害性的內容,如涉黃、涉賭、涉毒、暴恐等,通過分析學生上網瀏覽的內容,發現瀏覽此類內容的學生,從而可對學生有針對性地做思想教育和行為引導。主要設計思路如下:
1)建立知識庫:針對涉黃、涉賭、涉毒建立相關關鍵詞知識庫、違規網站域名庫和事件關鍵詞庫(如惡性事件、民族分裂事件等)。
2)判定網頁性質:如網頁域名在違規域名庫,則直接判定為風險網頁。否則使用關鍵詞多模式匹配方法[8]檢測網頁中是否包含已預設的敏感關鍵詞,若}H現頻率高于某一閾值標記該網頁為風險網頁,如涉賭網頁。
3)發現風險用戶:統計每個用戶的風險網頁瀏覽次數和利用搜索引擎搜索敏感詞匯次數,根據上述兩個指標對用戶進行排名,發現高風險學生,如關注賭博的學生。
2.5 用戶關注分析
學生管理者能夠與學生進行有效溝通的前提是對學生的興趣愛好、所關注的事與物要有一定的了解。用戶關注分析通過對學生的瀏覽內容發現學生所關注的主題,具有相似興趣愛好的學生群體。主要設計思路如下:
1)熱門主題發現:根據網頁關鍵詞分布,統計每個關鍵詞的關注熱度。
2)相似興趣學生群體發現:根據網頁關鍵詞分布,計算每個用戶的關注主題分布,使用余弦相似度[9]衡量用戶興趣相似度,基于K-means聚類[10]算法發現具有相似主題興趣的用戶群體。
3 結束語
本文對高校學生網絡行為監測系統提出了一種設計思路,主要從網絡行為和網絡內容兩個角度設計了三種監測與分析模塊,能夠有效幫助高校實時掌握學生動態,從而對學生有針對性地進行思想教育和行為引導。
參考文獻:
[1]李立,彭聰留.基于大學生的網絡行為態勢感知和管理方案探討[J].網絡安全技術與應用,2019(9): 80-83.
[2]任吳哲,年梅,基于DPDK的高速數據包捕獲方法[J].計算機系統應用,2018,27(6): 240-243.
[3]孟博,何旭東,王德軍,等.網絡協議流量識別方法研究[Jl.鄭州大學學報:理學版,2019,51(4): 68-74.
[4]楊傳春,張冰雪,李仁德,等.基于LDA模型的網絡刊物主題發現與聚類[Jl.上海理工大學學報,2019,41(3): 273-280, 306.
[5]李夢杰,劉建國,郭強,等.基于文本挖掘的互聯網教育課程主題發現與聚類研究[J].上海理工大學學報,2018,40(3):259-266.
(6]劉晨光,王彥英.大學生上網時長與網絡成癮的相關性調查 [Jl.內蒙古科技與經濟,2015(4): 16-17.
[7]林海卓,王繼龍,張頤哲,等.高校網絡沉迷與防沉迷系統的研究與實現[J].通信學報,2014(z1): 170-177.
[8]夏念,嵩天.短規則有效的快速多模式匹配算法[J].計算機工程與應用,2017,53(7): 1-8.
[9]武永亮,趙書良,李長鏡,等,基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學報,2017,31(5): 138-145.
[10]楊俊闖,趙超.K-Means聚類算法研究綜述[J].計算機工程與應用,2019,55(23): 7-14,63.
【通聯編輯:謝媛媛】
作者簡介:傲起(1983-),女(蒙古族),內蒙古鄂爾多斯人,講師,碩士,主要研究方向為上網行為分析、輿情分析、情感分類、深度學習;楊曉(1989-),女(蒙古族),內蒙古鄂爾多斯人,初級,學士。