姜彬峰



摘? ?要:隨著移動互聯網和高校校園網的日趨完善,大學生已成為網絡社會最主要的社會群體之一。網絡已成為大學生校園生活和日常生活不可缺少的重要工具之一,對高校學生網絡行為進行分析、管理和引導具有重要的作用和深遠的意義。文章重點對網絡訪問數據預處理、網絡訪問數據清洗、網頁分類等核心環節進行了闡述,并構建了網絡行為分析與管理系統,為高校網絡部門優化校園網絡服務、保障網絡安全提供了參考。
關鍵詞:網絡行為分析;網絡行為管理;數據挖掘
隨著網絡的迅速普及,近年來我國網民數量不斷增長,2019年8月中國互聯網絡信息中心(CNNIC)發布了第44次《中國互聯網絡發展狀況統計報告》,截至2019年6月,我國網民規模達8.54億,互聯網普及率達61.2%,手機網民規模達8.47億,網民使用手機上網的比例達99.1%,2019年上半年,我國網民的人均每周上網時長為27.9 h[1]。隨著移動互聯和高校校園網的日趨完善,大學生已成為網絡社會最主要的社會群體之一。由于具有較高的文化層次以及較強的新生事物接受能力,大學生掌握了很高的計算機和網絡技術,也因此主導著計算機網絡文化的潮流,網絡使用普及率、上網時間等都明顯高于其他群體。網絡已成為大學生校園生活和日常生活不可缺少的環節之一,對高校學生網絡行為進行分析、管理和引導具有重要的作用和深遠的意義。
1? ? 高校學生網絡行為分析與管理現狀
學生網絡行為分析與管理是指通過提取和監控網絡流量,采集網絡用戶信息,包括用戶ID信息、所在區域、相關瀏覽數據和流量數據,建立分析數據庫,識別學生訪問網站、網絡系統、數據庫、論壇等訪問行為,及時關注和掌握學生網絡行為狀態,引導學生行為。同時,通過關注網上異常行為,提高專有網絡的安全性。
高校學生網絡行為數據挖掘主要包括數據采集、數據處理、數據分析等步驟,數據采集是從高校各個專門網絡、APP、教學管理系統、圖書借閱系統、數據庫等教育環境中獲取學生訪問和使用數據,并進行存儲;數據處理首先采用數據清理、數據變換等方法將采集的數據轉換成適合于數據挖掘的數據格式,然后運用人工智能、統計分析、機器學習等方法,從大量數據中挖掘和發現相關隱含信息;數據分析是指構建相應的評價指標對數據挖掘結果進行評價,為相關行為管理提供依據。
2008年,美國、荷蘭等國家便先后成立了國際教育數據挖掘工作組,并召開了首屆教育數據挖掘國際學術會議。近年來,關于教育數據挖掘的研究不斷增多。2014年,電子科技大學成立教育大數據研究所;2015年,中國統計信息服務中心成立中國教育大數據研究院。吳青等[2]基于J48決策樹對高校學生網絡學習行為進行了研究,構建了相關學習模型。為了實現網絡學習的過程監管,施佺等[3]使用關聯規則和聚類分析方法對學生的網絡學習行為數據進行了研究,并構建了數據挖掘模型。薛黎明等[4]將聚類算法用于用戶行為分析,以上網時長為指標值,使用K-均值聚類與Kohonen神經網絡聚類方法對上網記錄進行聚類分析,獲得了較好的效果。馬煜[5]利用數據挖掘技術分析了校園網用戶的行為特點,為網絡部門優化校園網絡服務、保障網絡安全提供了參考。周航[6]基于大數據通過可視化校園網絡的用戶行為數據,了解用戶的網絡行為,并為相關管理部門提供優化依據。
2? ? 高校學生網絡行為分析與管理技術
本文借助某高校學生的網絡訪問記錄,通過網絡爬蟲、網頁分類、關鍵詞聚類、網絡行為可視化等手段,對采集的數據進行處理,研究學生的興趣模型,采用關聯規則對學生瀏覽的網頁進行分析與分類,從而揭示學生在此過程中所體現的網絡行為。
2.1? 網絡訪問數據預處理
學生網絡訪問日志主要來源于某高校信息化辦公室數據中心的服務器數據,包括學生的基本信息以及訪問數據,例如網址、下載文件、訪問數據庫、端口請求等。據此構建了數據基本字段,格式如圖1所示。
其中,NUM表示記錄編號,USER_ID表示訪問學生的ID號,USER_CRC表示學生的學號,TIME1表示訪問開始時間,TIME2表示訪問結束時間,URL表示訪問鏈接,TYPE表示鏈接分類類別,TER表示訪問設備類型。
2.2? 網絡訪問數據清洗
為了去除訪問數據中的異常數據、彈窗、無效鏈接和其他無用數據,在進行數據挖掘之前,首先要對采集到的數據進行清洗,保障數據的質量和有效性。本文中需要過濾的無效或者無用數據包括訪問的圖片、下載的壓縮包、彈出的窗口、廣告等噪聲信息,這些信息會影響后續的網絡數據建模,因此必須提前進行處理,針對常用的數據異常類型,處理方式如下:
(1)缺失值類異常數據,如果缺失率較低,且數據重要程度不高,可根據數據分布情況進行填充,例如均值、中位數等;如果缺失率較高,且數據重要程度不高,可以直接刪除;如果缺失率較高,且數據重要程度較高,本文采用熱平臺插補法進行處理,即在非缺失數據集中,找到與缺失值類似的匹配數據,利用非缺失數據集中的數據對缺失數據進行填補[7]。
(2)異常值類異常數據,是指明顯偏離正常范圍的數值,可通過箱線圖或者統計分析進行區分,通過數據的統計特性,去尋找不合理的值。本文采用基于正態分布的離群點檢測方法進行判斷,在準則下,異常值是測定值中與平均值偏差超過3倍標準差的值,對于正態分布而言,屬于極小概率事件。對于不服從正態分布的數據,本文采用超過原理平均值3倍的方式來判斷。
(3)重復值類異常數據,首先將所有數據按照一定的規則進行排序,然后通過比較相鄰數據集的相關性來判斷是否屬于異常數據,可用duplicated函數實現此過程。
(4)噪音類異常數據,是檢測數據的隨機誤差或者方差,不同于離群點數據。對于噪音,可采用回歸法進行處理,即用一個函數擬合來光滑數據,只要找到適合數據的擬合函數,就能消除噪音對數據的影響。
2.3? 網頁分類
根據學生訪問習慣,本文將學生訪問網頁分為新聞、藝術、影音、郵箱、游戲、寵物、購物、科技、論壇、美食、汽車、體育、文學、教育、考試、交通、旅游等,同時用相應的訓練樣本對其進行訓練。分類流程如圖2所示。
3? ? 高校學生網絡行為分析與管理系統構建
從實際需求出發,設計了高校學生網絡行為分析與管理系統,系統根據學生訪問日志,通過對網頁進行分類,借助Echarts對結果進行可視化展示,主要實現了數據上傳、數據讀取、網頁分類、結果可視化等功能。其系統功能結構如圖3所示。
4? ? 結語
本文在深入分析高校學生網絡行為分析與管理研究現狀的基礎上,對網絡行為分析與管理技術進行了闡述,包括網絡訪問數據預處理、網絡訪問數據清洗、網頁分類等核心環節,并根據實際需要構建了網絡行為分析與管理系統,提出了系列解決方案,為高校網絡部門優化校園網絡服務、保障網絡安全提供了參考。
[參考文獻]
[1]中國互聯網信息中心.第44次《中國互聯網絡發展狀況統計報告》[EB/OL].(2019-08-30)[2020-03-10].http://www.cac.gov.cn/2019-08/30/c_1124938750.htm.
[2]吳青,羅儒國.基于網絡學習行為的學習風格挖掘[J].現代遠距離教育,2014(1):54-62.
[3]施佺,錢源,孫玲.基于教育數據挖掘的網絡學習過程監管研究[J].現代教育技術,2016(6):87-93.
[4]薛黎明,欒維新.聚類算法在高校網絡用戶行為分析中的應用[J].現代電子技術,2016(7):29-32.
[5]馬煜.基于數據挖掘對校園網用戶網絡行為的分析[J].科技創新與應用,2016(34):79.
[6]周航.基于大數據的高校網絡用戶行為的數據可視化設計分析[J].中國包裝,2019(7):33-35.
[7]翟學新.高校學生網絡行為與興趣關聯分析[D].綿陽:西南科技大學,2018.
Research on network behavior analysis and management in university
campus based on data mining
Jiang Binfeng
(Information Office, Jilin Railway Technology College, Jilin 132200, China)
Abstract:With the development of mobile internet and campus network, the college students have become one of the most important social groups in the network society. Network has become an indispensable part of college students campus life and daily life. It has an important role and profound significance to analyze, manage and guide college students network behavior. This paper focuses on the core links of network access data preprocessing, network access data cleaning, web page classification and so on, and constructs a network behavior analysis and management system, which provides a reference for the network department of colleges and universities to optimize campus network services and ensure network security.
Key words:network behavior analysis; network behavior management; data mining