姜紹萍
(煙臺汽車工程職業學院 信息與控制工程系,煙臺 265500)
近年來,我國普通高校數量和高校在校學生數量急劇上升,使得高校教學質量不過關的情況越來越嚴重.傳統的學生管理方法和教學質量評估方法工作量大,評判依據較為單一,已經無法適應當前的教育體系,大數據技術和互聯網技術的發展為解決上述問題提供了有力的技術條件[1–3].目前國內高校普遍已經建立起自己的校園數字化管理平臺,校園數字化管理可以記錄每個學生的個人行為數據,包括日常的宿舍門禁、食堂就餐、上網記錄、歷史成績等,這些個人行為數據可以作為評估學生學業情況的重要依據[4–7].
文獻[8]中提出了一種RBF 神經網絡學業預警算法,建立了適用于學業預測的RBF 神經網絡模型,并利用遺傳算法對傳統RBF 網絡的權重向量進行全局搜索以得到最優模型,提升了模型的收斂速度和誤差精度,取得了不錯的效果.但文中采用的影響因素是通過專家和教師按照經驗認為評定的,評定結果的可靠性有待商榷[8].文獻[9]利用BP 神經網絡進行學生成績預測,通過挖掘學生各科成績之間的關系各學期歷史成績的發展趨勢預測學生最終的結業成績[9].國外學者Hajra 也研究了在虛擬學習環境下,采用深度人工神經網絡挖掘大數據信息,并用于學業預警[10].
本文提出了一種基于學生行為相關性分析的GABP 學業預警算法,運用Kendall 相關性分析方法在一卡通數據庫、網絡數據庫和歷史成績數據庫中搜尋與學生學業情況相關性最強的特征數據,確定預測網絡的輸入數據;再利用相關性分析結果改進GA-BP 網絡,提升算法收斂速度的同時還能避免陷入局部收斂,建立一個綜合評估學生學業情況的神經網絡模型.該算法可以綜合前3年學生個人行為數據預測該生未來的學業水平,向存在畢業困難的學生提前發出預警,有利于學校對這類學生進行有效的監督和管理.
學生個人行為數據主要包括一卡通數據庫、網絡數據庫和歷史成績數據庫3個數據庫中的信息,數據庫中的數據一般按照時間順序進行排列,但其記錄形式十分詳細,包含了大量的冗余信息.例如,在一卡通消費數據中存在商鋪窗口、刷卡機號等信息,在網絡瀏覽數據中存在目標IP、目標端口等信息,在歷史成績數據中存在課程名稱、專業名稱等信息,因此必須對原始數據進行預處理.本文算法的數據預處理過程主要分為去噪、拆分、統計、處理4個部分.首先,去噪過程主要根據數據庫中的標簽或標志位判斷某一字段對應的記錄對象,剔除數據集中的冗余字段和無效字段;拆分過程同樣根據數據庫中的標簽或標志位,將數據按照字段描述的行為信息進行拆分;再運用統計學原理進行拆分數據的統計,進行累加或平均等操作獲得二次數據;最后根據不同字段的數據特征按照目標要求進行二次處理,例如按照網絡訪問的目標域名將學生的上網用途進行拆分,具體流程如圖1所示.

圖1 預處理流程圖
本文完成一卡通數據的去噪和拆分后,按照以往一卡通數據的研究經驗,經過分類數據的二次處理得到了6個一卡通數據特征字段:平均晨出時間、平均晚歸時間(時間記錄形式以24 時計時法對應轉換為小數形式,例如8:30 記為8.30)、早起頻率(每月早8 點前出宿舍的次數)、晚歸頻率(每月晚10 點后回到宿舍的次數)、圖書借閱量(每月在圖書館借閱的書物數量)、消費總金額(每月一卡通消費的總金額),表1是一卡通數據記錄示例表.

表1 學生一卡通數據示例
從學生上網的網絡日志中按照網絡用途分類得到每位學生的上網記錄,經過分類數據的二次處理得到了4個網絡數據的特征字段:游戲時長、學習時長、娛樂時長(利用網絡觀看視頻、小說或交友聊天等)、上網總時長,時長統計均按月為單位取平均值,表2展示了網絡數據的記錄形式.

表2 網絡數據示例(單位:小時/月)
學校管理系統對于學生成績的管理相對成熟,因此成績數據的預處理多數是進行關鍵字段的選取即可,采用績點的形式對學生課程情況進行統計,分別計算了每位學生3年成績的平均績點、已獲學分、掛科學分、掛科率,歷史成績數據的記錄形式見表3.

表3 歷史成績數據示例
最常見的相關性分析方法有Pearson、Spearman和Kendall.Pearson 相關性分析更加適用于連續數據之間的相關性分析,而本文進行的相關性分析均為一組連續數據與一組分類數據之間的相關性分析,例如掛科率與是否順利畢業之間的相關性,因此宜采用Spearman和Kendall 相關性分析[11].Spearman和Kendall 都是等級相關性分析方法.Kendall 相關性系數的計算需要按等級大小對一組數據進行排序[12,13].本文將正常畢業記為1,未正常畢業記為0,該組數據僅分為兩個等級,可以節省大量排序和比較的計算時間,采用Kendall 相關性分析將比Spearman 相關性分析具有更快的計算速率.因此,本文采用Kendall 相關性系數進行相關性分析.
Kendall 相關性系數是用來衡量兩個隨機變量之間相關性的參數,取值范圍在?1~1 之間,系數值越大表明兩個變量正相關關系越強,系數值越小表明兩個變量負相關關系越強[14,15].本文目的在于發掘每一類特征數據與學生是否能夠順利畢業的關系,因此不考慮正負相關性的影響,直接取Kendall 相關性系數的絕對值|K|作為本文的相關性系數[16],|K|的計算方法如下:

式中,C為兩組數據中具有一致性的數據對的對數,D為兩組數據中不具有一致性的數據對的對數.例如:(Xi,Yi)和(Xj,Yj)為一對數據對,若Xi

其中,S為第1 組數據中擁有相同元素的小集合的個數,Ui為第一組數據中每個小集合中元素的個數,T為第2 組數據中擁有相同元素的小集合的個數,Vi為第3 組數據中每個小集合中元素的個數,N為樣本的總數.
選取2014 級學生在校3年的個人行為數據結合Kendall 相關系數的計算方法,得到了各項學生個人行為與未正常畢業之間的相關系數,計算結果如表4所示.
表4中相關系數計算結果表明,掛科率、掛科學分、網絡學習時長、早起頻率等8 項個人行為與學生的畢業情況相關性很大,相關性系數均高于0.5,因此,本文將選取相關性系數前8 位的個人行為特征數據進行神經網絡的訓練和預測[17].

表4 相關系數計算結果
BP 神經網絡是一種具有很強的非線性映射能力的神經網絡,理論上可以以任意精度逼近一個非線性函數[18,19].GA 算法是模擬自然界遺傳機制搜索問題最優解的算法,其搜索過程較為全面,不易陷入局部最優[20].GA 算法和BP 神經網絡的結合能夠補足兩種算法各自的不足,提升計算速度且避免陷入局部最優[21].相關性分析的結果明確了對學業情況影響最大的八個因素,同時得到了每一個因素的相關性系數,相關性系數與BP 神經網絡輸入層與隱含層的權值有一定的關系.因此,在GA-BP 算法初期快速縮小最優權值的范圍可以有效提升算法的計算效率,本文將采用相關性系數優化GA 算法中種群的初始值來實現這一目的.
選取相關性系數較大的8個學生行為特征數據進行學生學業情況的預測,因此神經網絡將輸入8 維數據,分別為掛科率、掛科學分、網絡學習時長、早起頻率、游戲時長、平均績點、平均晨出時間、已獲學分.隱含層采用常用的雙隱含層結構,即隱含層數量為2 層.第1 層隱含層有9個節點,采用Sigmoid 函數作為激活函數;第2 層隱含層有1個節點,采用pureline函數作為激活函數.輸出層為學生的正常畢業情況,BP 神經網絡模型結構如圖2所示.

圖2 BP 神經網絡模型結構圖
GA 算法用于為BP 神經網絡確定最優權值和閾值,而相關性系數為GA 算法確定種群的初始分布位置.例如:按照相關性系數從高到低排列的第一維數據為掛科率,掛科率的相關性系數為0.732,則在種群的初始分布中將更多的種群分布在0.732 附近.本文采用正態分布確定種群分布概率P,計算方法如式(3)所示.

其中,x為粒子的初始值,μi第i維數據的相關性系數,按照表4中的計算結果,μi應分別取0.732、0.707、0.685、0.632、0.601、0.589、0.576、0.532.Pi為第i維數據種群的初始分布概率.種群數量取值為100,每個種群粒子之間的步長間隔采用式(4)確定.

其中,Lij為第i維數據第j個粒子與其前一個粒子的步長間隔.本文輸入數據維度為8,種群數量為100,因此i取1–8 之間的整數,j取1–100 之間的整數.按照此規則設置種群中粒子的初始值能夠保證初始化時種群按照期望為μi的正態分布進行分布,增大相關性系數周圍分布的初始粒子數量,提升算法的尋優效率.
改進GA-BP 神經網絡的計算誤差即模型的預測錯誤率,是預測結果中錯誤預測數據數量與訓練數據總量的比值.本文根據模型的期望準確度給定模型的閾值為0.0001,最大訓練次數1000,當計算誤差低于閾值時或者訓練次數超過預設最大訓練次數時終止訓練.改進GA-BP 學業預警模型算法流程如圖3所示.
本次測試選取我校2014 級信息與控制工程系342 名學生在校3年的個人行為數據和畢業情況進行模型的訓練和測試,其中一卡通數據共625 896 124 條,網絡數據共886 034 856 條,歷史成績數據共783 648條,經過數據預處理后獲得342 名學生的8 組個人行為特征數據和畢業情況數據,共同構成了學業預測的原始數據集.將原始數據集(342 名)拆分為訓練數據集(262 名)和測試數據集(80 名),對學業預測模型進行訓練和測試,測試結果如圖4所示.

圖3 改進GA-BP 學業預警模型算法流程

圖4 測試結果統計圖
由圖4中的測試結果可以看出,測試數據集中的80 名學生的學業預測結果中,有6 名同學的預測結果與實際情況不符,本次測試的預測準確率為92.5%.
為了驗證利用Kendall 相關系數改進GA-BP 神經網絡初始權重后的效果,本次實驗繼續從數據庫中調取2014 級信息與控制工程系342 名學生的歷史數據進行網絡訓練.用該組數據分別對普通的GA-BP 神經網絡和相關系數改進GA-BP 神經網絡進行訓練,分別設定網絡的期望誤差為0.1、0.01、0.001,學習速率為0.01,網絡最大迭代次數為5000.測試結果如圖5所示.
在圖5的測試結果中,可以看出在相同的期望誤差下,普通GA-BP 神經網絡的迭代次數明顯大于相關系數改進GA-BP 神經網絡.因此,在誤差相同的情況下,經過Kendall 相關系數改進初始權重的GA-BP 神經網絡的訓練速度更快.

圖5 普通的GA-BP與相關系數改進GA-BP的訓練結果對比
本文針對目前高校學生管理困難和教學評估難度大的問題,提出了一種基于Kendall 相關性分析改進GA-BP 神經網絡的高校學生學業預警算法.設計了一套適用于海量教育數據分析的數據分類和二次處理方法,將Kendall 相關性分析和GA-BP 神經網絡相結合進行學生學業情況的預測.利用Kendall 相關性分析確定與學業情況相關性最強的8個學生行為作為預測模型的輸入數據,并采用相關系數改進GA-BP 算法,加快算法的尋優速度,同時能夠避免神經網絡陷入局部收斂,有效提高網絡訓練效率和預測準確率.實驗測試結果表明,本文提出的高校學生學業預警算法的預測準確率可以達到90%以上,能夠有效對學生的學業情況進行預測和預警,對高校學生教育的管理和學生個人的學業把控具有十分重要的意義.