許亞杰,梁靖涵
(鄭州科技學院 信息工程學院,河南 鄭州 450000)
青少年是祖國的未來,是黨和國家事業的接班人,正處于學習基礎知識、認識世界的關鍵時期。研究表明,青少年時期的表現對青少年以后的人生有著深遠的影響,因此,教育者應當重視學生表現[1]。目前,國內外專家學者對學生表現評價的研究已取得了一定的研究進展,相關的理論和實踐性研究成果為本課題形成提供了重要的思想借鑒,但是,專門針對初級中學生家庭、行為和教學特征的研究成果尚不多見[2]。然而,初級中學生正處于是青春發育的關鍵期,存在著各式各樣的問題,因此,教育者更要關注學生的成長,發現學生成長中的隱患,及時調整學生狀態,促進學生全面發展。
數據集來源于標準測試數據集,由加州大學歐文分校提供,數據集名稱為Student Performance。該數據集通過使用學校報告和調查表進行收集,數據屬性包括學生成績、社會和與學校相關特征,數據集共有395條、33個屬性。
本文重點研究影響學生學習表現的自身、家庭和學校因素。為保證數據集特征與分析內容相關性,需要對數據進行初步篩選。經過統計分析,總結出影響學生的如下因素:(1)在自身因素上,主要考慮健康狀況、是否想要接受高等教育的意愿、是否戀愛;(2)在家庭因素上,家庭大小、父母同居狀態、家庭關系質量;(3)在學校因素上,缺勤次數、每周學習時間、課外活動、上網時間、空閑時間等。
為此,本文提取了其中的主要因素對數據進行匯總,選擇了famsize,Pstatus,studytime,activities,higher,Internet,romantic,famrel,freetime,goout,health和absences等12個屬性作為特征評價指標。各屬性及描述如表1所示。

表1 數據集的屬性與描述
數據清洗主要包括格式標準化、異常數據和重復數據清除和錯誤數據糾正。通過簡單查詢,可以看到本文所使用的學生表現數據,數據的格式包含:數值型數據、字符型數據和邏輯數據,為保障數據分析的有效性,必須對數據進行規范化處理。為此,本文對字符型數據進行編碼,使其轉化為數值型數據,其中,對于famsize特征:LE3編碼成0,GT3編碼成1;Pstatus特征:T編碼成0,A編碼成1。對于邏輯型數據,通過編碼使其轉化成數值型數據,為此,對于特征activities,higher,Internet和romantic的屬性值,TRUE編碼成1,FALSE編碼成0。
同時,本文對學生表現數據集進行異常值檢測并清理。本文選擇G3(最終成績)作為數據標簽,并查看其數據分布。從G3的數據分布可以看出,數據分布從0~20,可以看出大部分學生的成績分布在8~15分,小部分的學生分布在0~7和16~20。其中,對于數據集中G1(第一階段成績)、G2(第二階段成績)、G3(第三階段成績)的關聯性來看,對于G3為0 的學生而言,G1和G2很高,而G3為0,說明該學生G3成績數據存在異常,為此,為保障分類的準確性,將數據集中G3為0的38條數據進行清除,至此,數據集共有357條。
從G3的數據分布上可以看到數據集成績分布在0~20,等級劃分較為松散,在數據集樣本量不大的情況下,不利于數據分類預測,為此,為保障數據標簽劃分的合理性,本文采用K-means聚類算法,將數據劃分成兩類,分別是warning和keeping兩類標簽,用0和1代替。
針對學生表現分類,本文利用已有研究結果,考慮到方法適用性以及理論成熟性,在數據挖掘算法中選擇了決策樹分類方法[3]。
決策樹算法包含有ID3,C4.5和 CART樹,其中CART樹又稱為分類回歸樹,既可用于分類,也可用于回歸。當數據集的因變量是離散值時,可以采用CART分類樹進行擬合[4]。本文中,數據集特征均為離散型數據,且特征較多,適合使用CART樹進行分類。
決策樹建模過程是一個遞歸的過程,基本步驟如下:
(1)首先加載樣本數據。
(2)根據樣本特點,選擇合適的特征選擇標準。
(3)開始將所有記錄看作一個節點。
(4)根據特征選擇標準,遍歷每個變量的每一種分割方式,找到最好的分割點。
(5)分割成兩個節點N1和N2。
輪式機器人的線速度可通過編碼器獲得,設兩輪輪距為L,編碼器的線數為P(輪子轉一圈編碼器輸出的脈沖數),輪徑為D。通過左右編碼器的脈沖頻率fL和fR可以算得左右輪子的線速度為:
(6)對N1和N2分別繼續執行(3)-(5)步,直到每個節點足夠“純”為止。
(7)生出決策樹模型。
決策樹算法通過大量數據集樣本訓練,構建樹形結構來描述分類規則。其中,樹形結構是關鍵,需要確定樹上的每一層的屬性,前提是需要確定特征選擇標準。
對于CART 決策樹算法使用基尼指數來選擇劃分屬性,基尼值代表了根據某一特征屬性分類后的數據的不純度。基尼值越小表示集合純度越高,反之,集合越不純[5]。
其中,數據集D中有K個類,k表示類別;pk表示樣本屬于第k個類別的概率。
對于特征A,將集合D劃分成D1和D2,基尼指數G(D,A)表示經過特征A劃分后集合D的不確定性,公式如下:
其中,∣D∣,∣D1∣,∣D2∣分別表示數據集D,D1,D2中樣本數量。
CART模型在學生表現分類中的應用。具體過程,由于總樣本量共357條,樣本量不大,為提高訓練模型的泛化能力,采用K折交叉驗證法,其中k=10,選擇其中285條數據作為訓練集數據來進行模型擬合,利用剩下72條數據作為測試集來進行模型預測,驗證模型準確率。
在建模方面,通過網格搜索找到最優參數,設定決策樹模型關鍵參數為criterion="gini",max_depth=3、min_samples_split=25,random_state=0。
通過CART算法對數據集進行決策樹模型建立,如圖1所示。其中,每一個內部結點特征取值為是和否,左分支是,右分支否。每個節點第一個屬性表示分割節點條件,samples 表示這一層分類使用的樣本數,class表示所屬類別,value中的兩個值分別表示標簽為warning和keeping的樣本數。

圖1 決策樹模型
根據CART模型可以得到影響學生表現的重要指標以及指標內容指向。從圖1中可以看出,對學生表現影響比較大的因素分別是goout,absences,health以及Internet。從根節點右分支來看,當學生goout次數大于3.5,且學生健康指數大于2.5,學生曠課次數大于7次,可以明顯地判定出學生表現會很差。即對于初中學生而言,如果出去次數過多,在身體允許情況下,經常曠課,會嚴重影響學生表現。因此,在今后學生管理中,對于學生家長,要適當約束學生外出次數,對學校管理要加強學生考勤工作,在身體允許情況下,保證出勤次數,以此來確保學生有足夠時間投入學習,達到提高成績的目的。
本文采用決策樹算法對學生表現數據集中的famrel,goout,health和absences等12個特征進行分析,建立了決策樹CART模型。從決策樹規則中可以看出,學生要積極鍛煉身體保證身體健康,家庭方面要合理地限制學生外出次數,學校要嚴格執行考勤制度,確保學生在健康情況下,要應出勤盡出勤,以此來保障學生的投入學習,提高教學效果,保障教學質量。