基于機器學習算法的校園網學生上網行為評估方法研究*

2021-11-25 10:44:20隋繼學

科技創新與應用 2021年33期

李騫，王碩，隋繼學

（河南牧業經濟學院能源與智能工程學院，河南鄭州450011）

1 背景介紹

大學生逐漸成為網絡社會的主體，在各高校進行校園信息化建設的過程中，信息化基礎設施不斷在完善。以河南牧業經濟學院三個校區為例，無線、有線網絡已基本實現教室、宿舍、校園全覆蓋，為學生在校上網提供了便利，學生每日通過校園網上網、聊天、學習、游戲、購物已經成為日常生活中不可或缺的一部分。

學生上網行為評估分析主要指的是通過在校園網出口或校園網不同節點采集網絡流量，識別上網日志及流量信息中的網絡行為軌跡（包括專業網頁瀏覽、游戲娛樂等），利用智能數據分析方法，對網絡資源利用情況和學生上網行為進行評估和分析。隨著可視化技術、數據采集技術的提升，進行學生上網行為評估是現代化校園了解學生日常軌跡的一種真實而重要的方式，也為進一步研究學生校園行為活動提供了新的思路和方法。但是，隨著校園網速度的加快，網絡應用復雜度增加，加密網絡和未知網絡的更新也給校園網學生上網行為的數據采集與分析帶來了新的挑戰。

因此，本文從學生網絡流量數據與日志分析入手，提出了一種基于網絡爬蟲框架的校園網網絡流量數據獲取模型，利用機器學習算法來獲得理想的數據處理優化模型，比較了基于網絡流量數據的梯度增強決策樹（Gradient Boosting Decision Tree，GBDT）和隨機森林（Random Forests，RF）兩種方法，對學生上網數據進行各個角度的詳細分析。最后，基于學生上網行為數據分析，從多個方面對高校網絡監控和學生教育管理給出對策和建議，為老師們研究分析在校學生學習、生活特征提供了新技術、新方法，同時大數據分析技術也必將促進當前高校信息化建設。

2 相關原理工作介紹

傳統學生溝通在實行過程中具有效率低的致命缺點，并且也很難挖掘到學生提供信息所蘊含的潛在信息及真實的生活學習情況。網絡數據與學生的生活息息相關，可以被用于分析學生的行為模式。傳統教育理念普遍認為學生上網時長和上網內容會對學生學業和日常生活造成影響，但是卻很難建立學生上網行為與學業之間的模型，因而無法進行相關研究。

2.2 兩組患者手術后情況比較觀察組手術后下床活動時間、手術后肛門排氣時間及患者手術后12 h疼痛評分明顯優于對照組，差異有統計學意義（P＜0.05），兩組患者住院費用及手術后住院時間相比，差異無統計學意義（P＞0.05）。見表3。

對于學生上網行為分析，主要的難點和研究點集中在：數據流量采集技術、流量準確識別、上網行為分析模型建立三方面。針對數據流量采集技術，根據實現方法可以分為硬件和軟件兩種類型，硬件實現雖準確度高但是需要購買專門的設備，不適用于研究；軟件可以根據實際需求進行開發和部署，靈活性較高。針對流量識別技術，主要集中在TCP端口、深度包檢測（DIP）和機器學習。其中，TCP端口識別不適應動態變化，DIP技術不能應用于加密網絡和未知網絡，而機器學習不受端口、數據包、加密等復雜動態網絡情況的限制[1]，對學生上網情況的分析具有一定的實用價值，也將成為今后高校教育教學研究的一項重要內容[2-3]。

國內外許多學者基于大學生的上網數據進行了分析。例如Miao[4]等人提出了一種區分大學生不同年級的方法，利用校園WiFi數據捕捉學生的行為特征，利用這些特征，采用機器學習聚類算法對不同年級的學生進行聚類；Kamal Bunkar[5]等人建立了一個系統，允許學生預測正在學習課程的最終成績，他們嘗試在機器學習中應用一些算法，特別是分類，通過評估學生數據來研究可能影響學生表現的主要屬性，從而幫助提高高等教育的質量；Tripti[6]等人使用不同的分類算法，根據學生的社會數據、學術數據和各種情感技能建立預測模型，將C4.5和隨機樹兩種算法應用到學生的記錄中，發現隨機樹具有較高的精度。

此模塊主要對考試類別進行管理、對考試科目進行設置、對科目課程進行設置等。根據考試的性質劃分類別，在科目考試時，考試只有一個科目，每名候選人對考試科目來講，是一個考試的基本單元，當然一個科目可以包含一個或幾門課程。每一個考試分期可設置不同的考試科目和考試時間，但新增一個考試分期時系統自動默認上一個分期的設置。科目包含科目編號和科目名稱，同類型的科目編號在不同分期應設置一致，這樣能適應跨分期的科目合格統計與對比，以及科目題庫的重用。

由于每次迭代的訓練集和測試集都不相同，對于上網數據進行分類需要通過N次迭代得到訓練模型，獲得更可靠的結果。每次迭代均從SQL中提取數據集，將數據集隨機分為訓練集和測試集，對數據集進行規范化處理。在所有迭代結束后，將最優模型參數保存到SQL中，訓練模型流程如圖3。

（1）數據獲取和預處理階段。利用網絡爬蟲獲取上網數據，按照數據處理形式，對記錄進行轉換，寫入數據倉庫，可采用SQL語句或批量加載，這一部分是為下一步統計準備有用的數據。

3 基于機器學習的學生上網行為分析方法

學生上網數據行為分析過程可以分為以下兩個步驟。

(3)凝灰熔巖、凝灰巖銅鐵礦石。該礦石中礦石礦物為磁鐵礦、針鐵礦、黃鐵礦、黃銅礦、孔雀石等，脈石礦物為晶屑、玻屑等，礦石主要為細粒結構、他形晶粒結構，星點浸染狀構造。

付軍科認為，ERAS不僅僅是一項技術，更多的是一種理念的更新，其核心就是圍繞患者圍手術期的加速康復采取一系列優化措施。“這和國家講的時刻為患者利益考慮，讓患者獲得優質醫療服務的理念是高度契合的。”付軍科說，本著這樣的核心理念，以患者為中心，想辦法預防一些并發癥的發生，就會自然啟動ERAS的各個程序，伴隨而來的便是醫療質量的提升及對精細化醫療管理的踐行。

（2）基于機器學習的模型建立和分析階段。利用機器學習建立上網數據與行為的模型，這是整個行為分析的關鍵部分。需要通過從不同角度對學生上網行為進行統計和分析，幫助教育者掌握學生上網需求，發掘出隱含規律，實現對學生上網情況的全面把握。

3.1 基于網絡爬蟲的上網數據獲取

為了獲取盡量多的學生網絡流量數據，本文采用了一個由模擬登錄瀏覽器和從網頁下載數據組成的網絡爬蟲（Spider）。由于學生在登錄瀏覽器時，需輸入用戶ID、密碼以及驗證碼，其中驗證碼是一幅數字和字母的圖像。因此，在設計中提出了一個基于Keras的卷積神經網絡進行驗證碼自動識別。網絡爬蟲的框架如圖1所示，Web爬蟲得到的數據集示例如表1和表2所示，每天的日志數據量約4萬條，包括的核心字段有用戶賬號、用戶名稱、登錄時間、使用時長、IP地址、使用流量、行為詳情等，表2給出經過處理后的數據集。

表1 學生上網數據集展示

圖1 網絡爬蟲框架

3.2 基于機器學習的學生網絡行為分類模型

學生網絡行為可以根據不同的需求對行為進行分類。本研究將網絡行為分為網絡學習，網絡娛樂兩個部分，然后通過上網時間等數據對學生上網行為進行綜合分析，并進行標記。處理后的數據集將保存到SQL中，如表2。Label為1代表上網行為好，Label為0代表上網行為不良，需進行預警。

表2 處理后的數據集

此外，網上學習的網絡行為由兩部分組成，專業課學習以及課外學習。判斷依據為對專業課的關鍵詞搜索以及相應的視頻觀看情況。研究根據學生上網瀏覽信息條數數據和觀看時間進行程度等級劃分，建立相應的數學模型。網上娛樂的網絡行為分為社交、購物、娛樂視頻、游戲、其他五種類型，并且在此類頁面中停留過長時間。由于時長較難判斷，所以主要是通過瀏覽條數來進行娛樂行為判斷。然后將代表程度等級的結果來代替建立相應的數學模型。

上網時間是對學生上網行為的一個綜合評價指標，因為時間的長短可以反映學生對于網絡的使用情況，適當地使用網絡有利于學生的學習和娛樂，而過度沉迷則不利于生活和學習。所以上網時間的選取一般是分時段、分時長來判斷學生對網絡的利用情況和分配情況，圖2給出了網絡行為分類的結構。

實驗中采用了梯度增強決策樹和隨機森林兩種方法，以便增加判斷結果的可信度。采用方法程序運行時間如圖5所示，梯度增強決策樹算法花費的時間更少。對于每個算法，我們使用相同的參數集進行多次實驗。模型的精度和曲線下面積（AUC）是每次迭代的評價標準，精度和模型AUC值越高，質量越好。圖6、圖7中水平軸表示算法運行的迭代次數，垂直軸表示算法的精度值和AUC。從性能圖來看，隨機森林（RF）算法的平均精度和平均AUC較高，即使稍高一點，梯度增強決策樹（GBDT）的結果也更穩定。根據算法性能的準確性、AUC和運行時間綜合考慮，梯度增強決策樹是對學生網絡行為分類的較好選擇。

圖2 網絡行為分類結構圖

為了對比結果，本文采用梯度增強決策樹和隨機森林算法兩種方法對數據進行訓練，梯度增強決策樹（GBDT）是集成學習boosting的代表方法，隨機森林（RF）是集成學習bagging的代表方法[7-9]。GBDT的主要思路是基于梯度增強和決策樹的，思想是訓練多個弱分類器獲得一個強分類器，得到更好的分類結果[10]。利用損失函數的負梯度擬合，可以用GBDT求解一些分類問題；隨機森林[11]是它從原始訓練樣本集中隨機抽取n個樣本，生成一個新的訓練樣本集，新的訓練樣本集用于訓練分類和回歸樹（classification and regression tree，CART）。根據這一策略，我們可以生成M分類和回歸樹，形成一個隨機森林。新數據的分類結果取決于每個弱學習者，最后一個分類是所有弱學習者投票最多的分類。

從流量數據中我們可以得到，學生每天產生100萬條日志信息，可以具體定位到每個用戶的上網行為軌跡，其核心字段有IP地址、終端類型、記錄時間、行為詳情。我們從中可以總結出一些學生上網行為的特點與規律：

戰爭年代早已遠去，和平時期的軍隊沒有經歷過戰場，沒有經受過戰火洗禮的軍隊，很難在突然發生的戰爭中發揮應有的實力。而全息投影則很好地解決了這個問題，利用全息投影模擬戰場環境，為軍事行動提供高空間感的仿真環境支持。這在陸軍方面或許作用不是非常顯著，但是在海空軍中用來模擬飛機飛行，艦隊行駛，不僅訓練了參戰人員的實際操作能力，還節省了使用真實裝備進行演練的經費，減少了設備的損耗。

圖3 訓練模型流程

4 學生上網行為分析與結論

4.1 網絡數據分析方法性能

在本文的實驗部分中，我們利用網絡爬蟲獲取學生的網絡流量數據，并基于這些數據訓練分類器，其中計費系統每天產生近4萬條登錄日志，包括的核心字段有用戶賬號、用戶名稱、登錄時間、使用時長、IP地址、使用流量等。我們希望通過對用戶行為進行分析與分類，這些分類器能夠正確地對新樣本進行分類，并及時發現學生上網過程中的需要及時注意的行為。

為了更直觀地理解分類結果，我們提取了每個記錄的一些特性，包括登錄時間、注銷時間和網絡流量數據。這些特征以三維形式顯示，不同類別的點具有不同的顏色。灰點代表學生上網過程中存在壞記錄，需要輔導員和老師特別關注，黑點代表上網習慣的好記錄，可以作為學生上網質量的評價標準。同時，圖4中顯示出學生上網行為的百分比。

圖4 分類出學生上網行為的好與壞及百分比

如今的化妝品市場，增速已經趨于緩慢，我國化妝品市場正在從增量市場向存量市場轉變，化妝品市場已經基本飽和，未來市場的增長將主要依賴于消費升級。老品牌升級換代進軍高端似乎是必然的選擇。

圖5 GBDT與RF算法運行時間比較

圖6 隨機森林AUC曲線與精度分析

圖7 梯度增強決策樹AUC曲線與精度分析

4.2 學生上網行為分析結果

政策一：6月25日，財政部、稅務總局和科技部三部門下發了《關于企業委托境外研究開發費用稅前加計扣除有關政策問題的通知》，《通知》對有關稅收優惠政策進行了明確。

綜上所述，個人網絡流量數據是評價學生網絡習慣的重要指標。為了評估學生的在線習慣，本文通過對學生網絡數據中提取的大量網絡行為數據訓練分類器，建立數學模型。新輸入的數據被已經訓練的分類器分類為正或負行為（即上網行為良好或者上網行為預警），最后為便于理解學生的上網習慣進行可視化數據處理，以期從微觀的角度來探索網絡行為與學生學業之間的關聯關系。

（1）平均上網時間長，且較為集中。通過IP地址的統計，學生上網的時間主要集中在18：00以后以及課間。由于學生在校期間自由支配時間比較充裕，幾乎每個學生都有手機，并且大部分學生都配有手提電腦，上網幾乎是學生們的核心活動。

（2）上網形式比較單一，以移動接入形式為主。使用移動客戶端的上網頻率遠高于使用PC端。在上網數據中，其中通過無線Portal接入人數最多，達到5000人次。其中，使用頻率最高的是手機視頻軟件，其次是社交軟件、網頁訪問、購物軟件、應用程序，其中也包含對旅游、新聞、教育資源的訪問。

《基礎教育課程改革綱要（試行）》指出：“大力推進多媒體網絡技術在教學過程中的普遍應用，促進網絡技術與學科課程的整合，逐步實現教學內容的呈現方式、學生的學習方式、教師的教學方式和師生互動方式的變革，充分發揮網絡技術的優勢，為學生的學習和發展提供豐富多彩的教育環境和有力的學習工具。”有效地運用現代網絡技術，可以使數學課堂的教學形式更加生動、形象，同時在運用網絡技術的過程中，揭示數學知識的形成與發展，從而使數學的教學收到事半功倍的效果。

（3）上網缺少目的性，以娛樂為主。根據對網絡日志的分析，我們發現學生在上網的過程中注意力分散，自控力差，并且沒有集中在進行學習和研究上。其中以視頻類為目的的占25.38%；18.51%為搜索引擎及導航類地址；大約40%的為在線聊天類、網購類、知識學習類等，網絡為學生生活提供便捷和多種交流方式，大約有20%的學生基本沒有通過網絡進行知識汲取。

（3）上網辨識度低。大學生的好奇心比較強，他們對新事物充滿新鮮感，在嘗試中損害了自身利益。在樣本中，大部分學生的上網行為都符合正常人的行為習慣，但是部分學生在下課時間瀏覽過賭博性質的網站、黃色網站、借貸網站等，但是不排除是瀏覽器惡意插件導致的，所以通過對比IP及其關聯賬號，可以定位這部分學生個人信息，及時反饋給學工管理處，時刻觀察學生的生活情況，并且督促該部分學生改善上網習慣。

4.3 針對學生上網行為分析的建議

針對分析結果，在高校的教育工作者進行教育和管理的同時，本文也提出了一些建議：

（1）需要不斷加強對學生網絡管理的力度，學生的自控力普遍較差，學生沉迷網絡環境是不可逆轉的未來趨勢，會對教育質量以及學生的學業造成影響。必須高度重視網絡內容管理，營造良好網絡環境，通過對學生網絡行為分類及預警，減少學生不良網絡行為的發生。同時，還要重視來自各個領域的反饋信息，爭取提前進行預先疏導，從最大程度上提高大學生的網絡免疫能力。

（2）學校及院系需要定期開展具有吸引力的文體活動，豐富在校學生的課余時間，一方面為學生提供展示自我的平臺，另一方面對于學生依賴網絡有較強的分散效果。既可以使學生愉悅身心，也可以使校園內文化氛圍更加濃厚，杜絕不良網絡環境對學生的影響。

（3）利用網絡平臺，正面宣傳網絡用途，多鼓勵學生上網學習，做到勞逸結合。首先在網上開展豐富多彩網絡學習活動，如網絡知識講座、網絡知識競賽等。引導學生進行有效地網絡學習，獲取專業養料。再次，促進網絡教育與傳統教育相結合，可以借助班會或集中教育時間來宣傳相關網絡知識，組建網絡心理健康教育中心，定期開展系列活動。實行線上+線下的形式，一方面進行面對面交流，另一方面有老師在網絡上進行輔導，滿足不同學生的需求。

5 結論

本文主要以學生網絡流量數據對學生上網行為進行分類與分析，并給出相應的分析結果和建議。在實現方法上，我們構建了一個網絡爬蟲框架獲取學生上網數據集。然后對數據集進行處理，通過兩種方法梯度提升決策樹和隨機森林對分類模型進行訓練。最后，對這些分類模型進行比較，使分類結果可視化，挖掘出學生的上網習慣。通過對實驗結果的分析及可視化便于學生查看在線記錄，從而對學生管理提出相應的教學管理對策，該方法可為高效解決類似問題提供一種新的辦法，有利于培養良好的在線習慣，輔助高校教育教學管理。