肖皇培 王 芳 黎智成
(華南理工大學廣州學院 廣州 510800)
隨著高校信息化建設的迅速發展,教育領域與大數據技術的融合已成為必然趨勢。基于大數據的智能決策、智能推薦和校園安全預警等系統,可以為教育管理部門提供教學決策、改善管理服務、提高教學質量,以及促進教育針對性和個性化的發展。
教育管理部門一直關注的重要問題之一是如何提高學生的學業成績。然而,影響學生學業成績的因素十分廣泛和復雜。例如身體的狀態(身高和體重等)[1~2]、智商(IQ)[3~4]、甚至DNA[5~6]都與學業成績有一定的關系。因此,可以根據學生的不同情況,設計個性化的教學或課程。然而影響學生學習的身高、IQ 和DNA 等因素很難被改變,教育管理者把關注的重點放在影響學習的精神或行為方面。目前有很多關于學生行為與學業成績相關的研究,如學業成績與責任心有很強的相關性[7],課程出席率作為影響學業成績的決定性因素也顯而易見[8],課外的學習時間與學習成績密切相關[9]。除此之外,一些文獻還指出,好的生活方式[10]和睡眠習慣[11]對學生的學習也是有益的。
目前,在對高校學生行為與學業成績相關的傳統研究中,大部分研究采用問卷調查或自我報告的方式,因而得出的結論不夠客觀。傳統研究采用的數據集規模一般僅有幾十到幾百的規模,因此得出結論也不夠說服力。由于現代信息技術的迅速發展,可以通過多種方式輕易地獲取學生生活和學習的相關數據,如通過在線課程、校園WiFi,校園一卡通和教務系統等。通過分析這些與學生相關的校園大數據,可以獲取一些與學業成績相關的行為特征。例如,文獻[12]通過查看慕課課程學習過程中的視頻觀看量以及暫停是否超過一次這兩個指標,來衡量課程學習的效果。文獻[13]發現,花費較多時間在聯誼會的學生學習成績一般較差。文獻[14]通過校園卡收集本科生的行為數據(包括洗澡、就餐、取水和進出圖書館等數據),指出勤奮性和規律性兩個行為特征對學業成績有明顯相關性,并能通過這些特征能成功地預測出學生的學業成績。
現代人的生活與電息息相關,人們一進門打開電燈開關就開始用電,各種生活用品更是離不開電,電視、電腦、冰箱、空調、洗衣機和電吹風等必不可少;即使離開房間,很多電器還在為人們服務。可以說,電的使用記錄著人們生活與學習的點滴,因此學生用電的規律性從某種程度上體現了生活與學習的規律性。本文主要研究校園生活中的用電量,通過分析學生宿舍的日常用電信息,找出學生學習生活中的規律性,以及這些規律性與學業成績之間的關聯性。本文以2020 年9 月1 日至12 月13 日某學院的學生用電數據作為數據集,提取每個宿舍的日用電信息,通過真實熵計算用電的規律性;其次,以某專業2019 級學生為研究對象,說明規律性與學業成績的相關性。借此,教育管理者可以根據用電的規律性特征,對學生的學業成績進行預測,找出成績不良的學生提前干預、警示或輔導,實現教育的個性化,提高教學質量。由于用電信息的特殊性和普遍性,用電信息還可以輔助管理者進行校園管理,使教育朝著學生有利于學業進步的方向發展,如及時找出使用大功率電器的學生或宿舍,對其進行安全預警,也能輔助輔導員找出上網成癮的學生,做到及時有效溝通、疏導和監督。
通過調取某學院2020 年9 月1 日至12 月13 日共104 天的學生宿舍用電量作為最初的數據集,該數據集共703309 條記錄,含有電表ID、宿舍ID、獲取時間,已用電量、剩余電量和免費電量等字段。為保護學生的隱私,電表ID 和宿舍ID 與學生宿舍名稱的對應關系是不公開的。為了保證獲取每日用電量的精確性,獲取電表時間統一為每晚23 點30分,如圖1所示。

圖1 學生宿舍用電數據
通過計算本日已用電量和上日已用電量之差,得到6924 個宿舍對應的104 天用電量,如宿舍ID分別為933 和934 的每日用電序列F933 和F934 如下:
F933 =[19.55,8.74,12.25,10.03,7.77,12.55,9.57,……,1.85,1.51,1.39,1.94,1.61,1.62,1.55]
F934 =[10.25,5.81,7.36,4.60,8.83,7.68,8.39,……,1.80,1.30,1.42,1.32,2.42,1.64,1.08]
序列中的數字為該宿舍按時間順序排列的每日用電量。
對于事件發生的序列有一些經典的度量方式,如信息熵或辛普森指數。由于信息熵或辛普森指數僅僅考慮了事件發生的數量而忽略了事件發生的時間順序,均不適合量化規律性。文獻[14,15]給出了一些具體的例子說明序列的真實熵比信息熵和辛普森指數更能刻畫事件的規律性。
本文利用真實熵來刻畫一個給定序列ε的規律性。真實熵的定義如式(1)所示:
其中n 為序列ε 的總長度,Λi為從i 開始的、前面從未出現過的ε 最短子序列的長度,如果最短子序列不存在,則Λi=n-i+2。利用上述定義,對給定的 序 列ε=[43,44,43,44,44] ,可 求 得Λ1=1 ,Λ2=1,Λ3=3,Λ4=2,Λ5=2,因此通過式(1)計算出序列ε 的真實熵為Se=0.894。
真實熵作為規律性的度量,熵越小,序列的規律性越高。為了更好的量化學生的規律性,把每個學生的日用電量映射到一個整數序列。假設Hi為第i天的用電量,設Hi=Ii+Fi,其中Ii和Fi分別為Hi的整數部分和小數部分,i=1,2,…,104。定義映射Hi'如下:
通過映射式(2),可以把日用電序列映射到一條離散的整數序列,如上述宿舍ID號分別為933和934 的用電序列F933 和F934 映射到整數序列F933'和F934'如下:
F933' =[39, 17, 24, 20, 15, 25, 19,54,……,2,3,3,2,3,3,3,3]
F934'=[20,11,14,9,17,15,16,35,……,2,3,2,2,2,4,3,2]
通過對所有宿舍用電序列求真實熵,得到與之對應的用電量規律性指標,這些真實熵某種程度上反映了學生在校生活的規律。如上述兩條序列求得真實熵分別為SF933'=1.589 和SF934'=1.610,說明宿舍933的校園生活比宿舍934更有規律性。
在學生的日常生活學習中,基于耗電量計算規律性,主要考慮以下幾點:1)數據以一種不引人注目的方式取得,能較客觀的反映學生的生活方式;2)絕大多數學生在校園生活和學習,因此采用的數據集覆蓋面廣,得出的結論具有較強說服力;3)日常生活離不開電,因此也能獲得大量的用電記錄。
基于以上考慮,耗電量的真實熵某種程度上反映了學生的規律性。通過計算6924 個宿舍用電的真實熵,給出學生宿舍用電的真實熵分布如圖2 所示。從圖中可以看出,大部分學生用電的真實熵在0.5~3.0 之間,真實熵的廣泛分布可以區分出具有不同規律的學生,反映了不同學生的規律性。

圖2 真實熵的分布圖
直觀地,規律性作為一個學生的內在個性特征,不僅表現在用電情況,同時也表現在洗澡、就餐、出入圖書館和出席上課等。學生的規律性越高,自我約束力就越高,學業成績就越好。為了分析與驗證規律性與學業成績的相關性,引用斯皮爾曼秩相關系數(Spearman's Rank Correlation Coefficients)[16]來計算二者的相關性,斯皮爾曼秩相關系數的定義如下:
其中,式(3)中N 為參與計算的學生數量,di的定義為di=r(oi)-r(Gi),r(Oi)和r(Gi)分別為第i個學生的規律性和學業成績排名。斯皮爾曼秩相關系數rs∈[-1,1],其絕對值越大,相關性越高。
通過選取2019 級某專業所有147 名學生作為研究對象,把該專業某門必修課程的期中和期末考試成績作為其學業成績,分別計算學生的學業成績和規律性(即用電量的真實熵)的排名。再把104天按期中考試時間分為考試前的76 天和考試后的28 天,分別與期中和期末考試成績結合,計算斯皮爾曼秩相關系數,結果如表1 所示。其中104 天的用電量真實熵與期中成績的相關系數為0.1817,與期末成績的相關系數為0.1193,期中考試前的真實熵與期中考試成績相關系數高達0.1880,說明規律性與學業成績有一定的相關性,即規律性越高的學生,在一定程度上學業成績表現越好。

表1 用電真實熵與學業成績的秩相關系數表
上表中104 天的真實熵與期中成績的相關系數明顯高于期末成績的相關系數,這與數據大部分取自期中考試前是相符的。前76 天的真實熵與期中成績的相關系數明顯高于期末的,后28 天的真實熵與期末成績的相關系數明顯高于期中的,這也是符合真實情況的,因為期中考試前的數據更能反映期中成績,而期中考試后的數據更能反映期末成績,說明了規律性與學業成績的相關性與人們預期是相符的。
由于用電信息的特殊性與普遍性,教育管理者還可以通過用電信息輔助高校進行管理,使教育朝著學生有利于學業進步的方向發展。如部分學校由于安全性考慮,禁止學生在校使用大功率電器。但管理者很難做到每個宿舍進行有效的監督,并發現大功率電器使用者。通過對用電量進行分析,很容易篩選出大功率電器的可能使用者,并交由管理者進行核實和監督,提高校園的用電安全性。如通過對上述104 天用電量進行處理,發現單日用電量超30度且3次以上的宿舍共有21個,如表2所示,其中ID為8582的宿舍用電情況超用次數尤其突出。

表2 單日用電量超30度情況表
通過對用電量的分析,還可以找出可能的上網成癮者,協助輔導員對其做到及時有效的溝通和疏導。網癮者的最大表現是連續多天長時間使用電腦,因此用電情況也會表現為連續多天高耗電。通過選取連續20天以上日用電超過15度的宿舍作為可能的網癮者,找出可能的網癮者18 個,如表3 所示,其中ID 為2333 和6945 宿舍連續使用高電量的天數較為突出。

表3 連續20天以上高電量使用情況表
本文通過學生的用電數據和真實熵刻畫學生的規律性,并說明規律性與學業成績的相關性。據此,教育管理者可以根據規律性的特征找出潛在的不良學業者提前干預、警示或輔導,實現教育的個性化,提高教學質量。同時,由于用電信息的特殊性和普遍性,還可以及時找出使用大功率電器的學生或宿舍,對其進行安全預警,也能輔助輔導員找出連續上網成癮的學生,做到及時有效溝通、疏導和監督。
下一步,將獲取更多學生的規律性數據加以分析,如除用電量數據之外的就餐、洗澡和就寢等數據,以及反映學生勤奮性的數據(如課程出勤率和出入圖書館情況等)。把這些影響學生學業成績或其他綜合素質的特征數據[17],通過建立深度學習網絡并對其進行訓練,對學生的學業成績等方面進行預測,從而更有效地找出某些方面表現不佳的學生,以便提前進行干預或輔導。