葉超


摘? 要:隨著教育信息化的普及,如何有效地利用學生管理過程中產生的數據,提高學生管理水平和效率,成為了新時代學生管理過程中亟需解決的問題。文章通過決策樹分析,研究了溫州職業技術學院2013年9月-2018年12月學生晚歸與當時天氣情況的聯系。研究發現在晴天、高溫(29℃以上)、風力強(3級以上)的情況下,更容易發生晚歸。而在晴天、高溫(29℃以上)、風力弱(0-3級)和晴天、低溫(20℃以下)的情況下,發生晚歸的情況明顯低于平均值。文章的研究結論可以幫助學生公寓管理人員,通過天氣預報提前識別可能發生的晚歸風險,有針對性地進行學生回寢的統計和檢查。從而降低因晚歸帶來的管理風險,提高學生管理工作的有效性和針對性。
關鍵詞:晚歸;數據挖掘;決策樹;教育大數據
中圖分類號:TP393? ?? ? 文獻標志碼:A 文章編號:2095-2945(2020)15-0189-02
Abstract: With the popularization of educational informatization, how to effectively use the data generated in the process of student management to improve the level and efficiency of student management has become an urgent problem to be solved in the process of student management in the new era. Through the Decision Tree analysis, this paper studies the relationship between the late return of students in Wenzhou Vocational and Technical College from September 2013 to December 2018 and the weather conditions at that time. It is found that late return is more likely to occur in sunny days, high temperature (above 29 ℃) and strong wind (above Level 3). However, under the conditions of sunny day, high temperature (above 29 ℃), weak wind (Level 0-3), sunny day and low temperature (below 20 ℃), the occurrence of late return is obviously lower than the average. The conclusions of this paper can help the managers of student apartments to identify the possible risks of late return in advance through the weather forecast, and make targeted statistics and inspection of students' return to bed, so as to reduce the management risk caused by returning late and improve the effectiveness and pertinence of student management.
Keywords: late return; data mining; Decision Tree; education big data
1 概述
隨著現代計算機和存儲技術的發展,每天產生并被記錄的數據越來越多。在教育領域這些龐雜的數據涵蓋了學生學習、生活和管理的方方面面,是學校一筆隱性的資源。但是,由于數據本身量大,信息渠道錯綜復雜,導致大量數據不被重視,從而被認為是“垃圾”而被忽略[1]。與此同時,高校規模的不斷擴張和信息技術的發展,對學生管理、課堂教學以及就業工作都提出了新的挑戰。充分地利用教育領域的大數據,及時地預測和判斷學生行為,能為高校在心理健康分析、教學質量評估和學生就業等方面提供決策幫助[2]。
隨著高校內全面地推行一卡通,統一了學生管理信息獲取的渠道,為研究學生行為數據提供了物質基礎。2014年12月起,成都電子科技大學教育大數據研究所在教育部的支持下,開始研發“學生畫像”系統。該系統通過學生日常生活數據,如學生進入圖書館次數、打水次數、就餐次數等,分析學生學習、生活狀態以及進行過宅預警、抑郁預警等一系列預警,幫助教師和輔導員及時了解學生動態[2]。
本文收集了溫州職業技術學院2013年9月-2018年12月時間內的學生晚歸數據(晚歸定義:學生在規定的門禁時間之后回到公寓一種違紀情況),運用決策樹分析法,研究晚歸的發生與當天的天氣情況以及自然環境之間的關系。以此了解學生晚歸特點,為學校公寓管理提供決策分析和幫助。
2 數據與方法
本文收集了溫州職業技術學院2013年9月-2018年12月時間內的學生晚歸數據,總共整理匯總1319期學生晚歸公告。針對數據有效性進行了篩選,最后得到832期晚歸公告,每一期公告代表一天,若該日晚上有學生晚歸,則記為該日發生晚歸,若該日無學生晚歸,則記為該日無晚歸。經計算可知,總計832天平均發生晚歸的概率為63%。此外,根據晚歸數據,查閱歷史天氣資料,整理匯總出對應時間的最高氣溫、晴雨情況、風力強度等天氣情況作為研究晚歸事件發生的標簽[3]。
數據挖掘(DataMing)本質上是從海量的數據中提取潛在的有用信息[4]。決策樹算法是數據挖掘領域的一種重要的數據分類方法,其分類規則是計算劃分后樣本的信息增益,通過比較信息增益能夠快捷地將實際問題轉化成各種易操作的分類規則[5]。本文使用Python 3.7實現決策樹ID3算法,研究晚歸發生與天氣情況之間的關系。
3 數據分析與討論
為了研究學生晚歸情況與當天天氣情況的關系,首先要將天氣情況數據離散化處理。如表1所示,根據日常經驗可以將風力分為強弱兩類,將晴雨情況也可以分為晴天和雨天兩類。對于溫度標簽,本文將它分為高中低三類,因此必須找到高溫與中溫、中溫和低溫的兩個臨界點(a,b)。筆者翻閱了相關資料發現,對于氣溫高低的劃分并沒有統一的標準。為了更好地得到更好的分類結果,本文設計一個6×6溫度矩陣G, 其中Gij=[ai,bj]代表一種最高溫度分類的可能,a=[15℃,16℃,17℃,18℃,19℃,20℃] b=[25℃,26℃,27℃,28℃,29℃,30℃]。
根據溫度矩陣G,本文分別計算了上述36種可能的最高溫度分類情況下的決策樹。通過分別計算每一顆決策樹模型的準確率,可知Gij=[20℃,29℃]時模型準確率達到最高,從而實現對最高溫度的離散化處理,如下表1所示。
如圖1a所示,本文通過Python 3實現ID3算法,得到晚歸決策樹。分析決策樹可發現,影響某一天晚上是否會發生晚歸的最主要因素是當天是晴天還是雨天,其次是最高溫度,最后是風力強度。該決策樹每一條樹枝的準確率可通過計算得到:
P1{X=晚歸│天氣晴∩氣溫高∩風力強}=75%、P2{X=無│天氣晴∩氣溫高∩風力弱}=46.9%、P3{X=晚歸│天氣晴∩氣溫中}=64.7%、P4{X=無│天氣晴∩氣溫低}=43.4%、P5{X=晚歸│天氣雨}=65.9%
由上文可知,平均晚歸率為63%(即非晚歸率為37%),P1、P2和P4的準確率分別都高出平均值12.5%、9.9%和6.4%,說明以上三種分類方式能夠有效地識別晚歸。P3和P5只比平均值高出1-2%,說明這兩種分類方式的效果不明顯。在決策樹模型中,針對分類效果不明顯的樹枝可以進行適當的“剪枝”。因此,本文根準確率剪去了如下兩條樹枝:{X=晚歸│天氣晴∩氣溫中}和{X=晚歸│天氣雨}。最終得到“剪枝”后的決策樹,如圖1b所示。
4 結論
本文運用數據挖掘的思想方法,對溫州職業技術學院2013年9月-2018年12月的學生晚歸數據進行分析。通過Python實現決策樹ID3算法,分別研究了晚歸現象與最高溫度、晴雨情況以及風力強度的關系。分析結果顯示,在晴天、高溫(29℃以上)、風力強(3級及以上)的夜晚,發生晚歸的概率明顯高于平均值;在晴天、高溫(29℃以上)、風力弱(0-3級)和晴天、低溫(20℃以下)的夜晚,學生晚歸的概率明顯低于平均值。該項研究結論可以幫助學生公寓管理人員,通過天氣預報提前識別可能發生晚歸的風險日期,有針對性地進行學生回寢的統計和檢查,提前聯系個別尚未回校的學生。從而降低因晚歸帶來的管理風險,提高學生管理工作的有效性和針對性。
參考文獻:
[1]丁波,孫力.教育數據挖掘研究現狀及趨勢[J].數字教育,2015(006):13-16.
[2]劉譞.基于學生行為的成績預測模型的研究與應用[D].電子科技大學,2017.
[3]魯瑋.數據挖掘技術在高職學生心理健康數據中的應用研究[D].安徽大學,2019.
[4]JIAWEIHAN,MICHELINEKAMBER, JIANPEI, et al.數據挖掘:概念與技術[M].2012.
[5]周志華,等.機器學習及其應用2011[M].清華大學出版社,2011.