劉 姣 王 兵 蔣玉宇 陳宓宓
(江蘇科技大學(xué)信息化建設(shè)與管理中心 鎮(zhèn)江 212003)
現(xiàn)代高等教育從精英到大眾,從一元到多元,校園載容量急劇擴大,教學(xué)資源日益緊張,對校園風(fēng)氣凈化、教育信息化建設(shè)和學(xué)校管理提出了新的挑戰(zhàn),其中學(xué)生考核為教學(xué)工作的重要內(nèi)容之一,單純依靠考試的傳統(tǒng)評價體系已無法真實、準(zhǔn)確地反映學(xué)生能力水平。為此,需要建立更加科學(xué)的成績評價模型,為高校教學(xué)質(zhì)量評估和教育信息化建設(shè)提供有效方法。
目前高校成績評價主要是從課程、作業(yè)成績,性別、年級等自身狀況和學(xué)習(xí)能力等方面分析預(yù)測大學(xué)生成績。何楚、宋健、傅亞莉等采用Aprior、遺傳神經(jīng)網(wǎng)絡(luò)、C4.5等方法以課程和作業(yè)成績分?jǐn)?shù)為基礎(chǔ)對成績進行預(yù)測建模[1~2],但是測試分?jǐn)?shù)只是單純地反映了學(xué)生試卷的答題狀況,并不能完全反映學(xué)生的知識能力水平。鄒麗娜、丁茜、李曉莉等采用BP算法和分位數(shù)分析了性別、年紀(jì)、學(xué)習(xí)能力等對成績的影響[3~4],這些算法對性別、年紀(jì)、學(xué)習(xí)能力影響值的量化存在局限性。雖然這些算法可以在一定程度上反映和預(yù)測本學(xué)期的成績,但是成績評價仍然有待提高。
因此,本文構(gòu)建以學(xué)生日常行為為載體的成績評估預(yù)測模型。在對成績模型屬性水平進行劃分時,清晰的邊界不能正確描述屬性水平,因此本文采用模糊理論[5]和決策樹[6~7]相結(jié)合的算法分析學(xué)生上課出勤率、考勤和借閱情況與學(xué)生成績之間的關(guān)聯(lián)關(guān)系,以達到預(yù)測的目的,為高校的教學(xué)工作提供重要的決策依據(jù)。
決策樹算法特點是在屬性值較少的情況下進行高質(zhì)量、高效率的分類,現(xiàn)階段的大多數(shù)決策樹學(xué)習(xí)算法是一種核心算法的變體,即采用自頂向下的貪婪搜索遍歷可能的決策樹空[8],決策樹常見算法ID3、C4.5、C5.0等[9~11]。
高校學(xué)生正值青春年少,心智還不成熟,行為具有偶然性、突發(fā)性等特點,隸屬度劃分具有潛在的不確定性,采用傳統(tǒng)的決策樹算法生成的決策樹對于突變的數(shù)據(jù)具有不適應(yīng)性,導(dǎo)致決策樹結(jié)構(gòu)繁瑣,決策結(jié)果不精確。因此本文采用模糊理論和ID3相結(jié)合的算法對行為數(shù)據(jù)進行分析,得到學(xué)生成績評估模型。模糊決策樹核心原理主要有以下幾點:
1)指標(biāo)模糊處理:分析屬性的選取是衡量決策模型的標(biāo)志,屬性值的量化是構(gòu)建模型的前提[12],通過設(shè)計模糊隸屬度函數(shù)將指標(biāo)進行模糊處理。
2)建立模糊矩陣:模糊矩陣的建立是構(gòu)建模糊決策樹的基礎(chǔ)。在指標(biāo)進行模糊化的基礎(chǔ)上建立模糊判斷矩陣。
3)模糊決策樹的建立:在模糊矩陣的基礎(chǔ)上得到模糊信息熵,進而計算出模糊信息增益FGain。模糊決策樹是在ID3算法上進行了改進,將傳統(tǒng)決策樹上的信息熵和信息增益均進行模糊化處理,最后通過遞歸調(diào)用得出決策推理。
本文通過改進的模糊決策樹設(shè)計決策分析模型,模型框架如圖1所示。
本文通過問卷調(diào)查,專家經(jīng)驗,數(shù)理統(tǒng)計和深度訪談等方式[13~14],從影響學(xué)生學(xué)業(yè)成績的眾多行為指標(biāo)中選取上課出勤率,最早出宿舍時間,最晚出宿舍時間和圖書借閱量作為評估學(xué)生成績決策樹的節(jié)點屬性,選取學(xué)生期末成績?yōu)闆Q策樹的結(jié)點屬性。設(shè)m為屬性水平的劃分,n為區(qū)分屬性水平的中心點。屬性 Aij(屬性i的第j個元素)在水平mk的模糊隸屬度矩陣為Ci,矩陣元素為,其中j=1,2,…,p,k=1,2,3,n1,n2分別為區(qū)分屬性水平的中心點。

圖1 決策分析模型框架
由于模型選取的分析屬性度量單位和取值排序存在差異,為了克服數(shù)值含義的不同本文設(shè)計分段和半三角形相結(jié)合的隸屬度函數(shù),求解屬性元素分段水平的隸屬度:


當(dāng)屬性取值 x<n2,隸屬度(0,0,1)。
由此可得模糊隸屬度矩陣Ci為 p*k階矩陣,其中∈[0,1]。具體表示方式如式(3)所示:

本文建立的學(xué)生成績評估模型,從根節(jié)點開始逐步對樣本節(jié)點屬性進行測試,并沿著相應(yīng)的分支向下行走直至達到樣本結(jié)點,此時得到的結(jié)點屬性即為該樣本在節(jié)點屬性條件下的評估結(jié)果,結(jié)點屬性在水平mk的隸屬度值為所取樣本的隸屬度值之和,即:

由此可得成績結(jié)點在水平m上的熵如公式:

對屬性結(jié)點G和屬性節(jié)點Ai進行模糊分割,得到結(jié)點G在節(jié)點Ai模糊條件熵如公式:

最后得到節(jié)點Ai在結(jié)點G相應(yīng)的信息增益如公式:

通過得出的信息增益值,選取FGain(Ai,G)最大的作為決策樹的根節(jié)點,然后對每一顆子樹進行遞歸調(diào)用,逐漸定位樹的分枝節(jié)點。最后得到成績預(yù)測模糊決策樹。
隨機選取江科大50名學(xué)生數(shù)據(jù)如表1所示,通過數(shù)據(jù)清洗,篩選和轉(zhuǎn)換,選取學(xué)生一學(xué)期上課出勤率,最早出宿舍時間(日均),最晚回宿舍時間(日均),圖書借閱量(學(xué)期總合)為決策樹節(jié)點屬性,學(xué)生期末成績?yōu)闆Q策樹結(jié)點屬性(注:如果未請假夜不歸宿者另做處理)。

表1 學(xué)生行為數(shù)據(jù)表
通過同教務(wù)專家、后勤集團的調(diào)研選取模型屬性中心點的取值,如表2所示,其中n1,n2分別區(qū)分屬性水平的中間點,為屬性水平(時間在數(shù)值上越小越接近m1水平,在計算模糊隸屬度時取反)。

表2 屬性中心點和水平值選取
通過2.2小節(jié)設(shè)計的數(shù)據(jù)模糊化方法,得到學(xué)生成績(G)和各評估屬性(Ai)的模糊隸屬度矩陣,其中i=1,2,3,4:

通過信息熵和信息增益的計算方法得到各屬性的模糊信息增益:


通過上述計算,選取信息模糊增益最大的屬性(最早出宿舍時間)為模糊決策樹的根節(jié)點,由此可將樣本集分成3部分,然后再對樹的分枝按照上述方法進行遞歸運算,得出以50個樣本訓(xùn)練集為基礎(chǔ)的模糊決策樹模型如圖2所示。

圖2 一卡通決策分析樹
其中決策樹中標(biāo)識序號為基于行為的成績評估分類,共計13類,經(jīng)計算序號為①、③、⑦和○11的枝干評估結(jié)果為無,由此可得該行為分枝出現(xiàn)的概率極小,對此進行模糊截枝處理,處理后行為分枝評估結(jié)果如表3所示。
隨機選取200個測試樣本集對所建模型9類分枝的正確性進行驗證,學(xué)生樣本采集標(biāo)準(zhǔn)參照表1,得到根據(jù)學(xué)生行為狀況預(yù)測成績結(jié)果的正確率如圖3所示。
由圖3可知,上課出勤率高且最晚回宿舍時間為中等的學(xué)生學(xué)業(yè)水平94%為優(yōu)秀,上課出勤率為中等且最早出宿舍時間為早的學(xué)生學(xué)業(yè)水平84%是優(yōu)秀。上課出勤率為中等、最早出宿舍時間為中等且最晚回宿舍時間為早的學(xué)生學(xué)業(yè)水平87%是一般,上課出勤率為中等、最早出宿舍時間為中等且最晚回宿舍時間為中等的學(xué)生學(xué)業(yè)水平90%是優(yōu)秀等。即針對決策樹○13中的每一個分枝均能預(yù)測成績信息。

表3 屬性中心點和水平值選取
以高校學(xué)生校園日常行為為基礎(chǔ),采用模糊理論設(shè)計隸屬度函數(shù),結(jié)合改進的決策樹算法深度挖掘?qū)W生日常行為與能力、水平之間的關(guān)聯(lián)關(guān)系,建立了模糊決策樹。實驗證明該決策樹能夠正確、高效、全面地對學(xué)生成績進行分析預(yù)測,為高校的信息化建設(shè)和教學(xué)管理決策工作提供重要的依據(jù)。