基于關聯規則的CET-4成績數據挖掘

2014-01-02 07:58:10劉靜

赤峰學院學報·自然科學版 2014年22期

劉靜

（阜陽師范學院，安徽阜陽 236037）

1 引言

全國大學生英語四級考試（CET-4）是由國家教育部高等教育司組織安排的標準化、教學水平考試.該考試緊扣教學大綱，考試成績具有很高的信度和效度.在高校，CET-4考試受到了包括學生、任課教師和學校管理者在內所有人的高度重視.[5]

我校教務管理系統中存放著各種成績信息，學校目前所利用的僅僅是成績數據的提取，成績背后較為隱蔽的有用信息沒有被充分挖掘出來.針對這個問題，采用關聯規則中經典的Apriori算法，挖掘CET-4成績與《大學英語》期末考試成績的相關性，分析哪個學期的英語學習對CET-4成績影響最大，并總結出規律應用到教師的常規教學和同學們的日常學習中去.

2 基于關聯規則的Apriori數據挖掘算法

關聯規則挖掘，就是在數據列表中找出滿足最小置信度和最小支持度的規則，挖掘不同數據項集之間潛在的關聯規則.[1]在現有關聯規則挖掘中，最典型的算法是Apriori算法.該算法依據頻繁項集性質的先驗(Prior)知識命名，是一種通過多次掃描數據庫，來獲取支持度大于最小支持度的頻繁項集的廣度優先算法.[1]

該算法描述如下：

輸入:DB[1]，min_sup；

輸出:頻繁x項集Frequent_Result[x]和頻繁x項集的支持度；

Function:

Step1://掃描得到所有頻繁1項集 Frequent_Result[1]；

Frequent_Result[1]=Frequent_ResultSet_Gen(DB[1]，min_sup)；//函數SourceSet_Gen(M[x])負責掃描中間數組二階運算得到的D[x+1]中的數據，算出候選項的支持度；

x=1;While(Frequent_Result[x]!=Ф){

Step2://找出D[x]中大于最小支持度的；

M[x]=Comp_Gen(D[x]，min_sup)；//函數 Comp_Gen(D[x]，min_sup)同min_sup比較，生成二階運算需要的候選數組；

Step3:++x；//侯選數據項集的支持度自加；

Step4://Apriori算法，用 L1*L2產生數據集 M[x]；

M[x]=M[x-1]*M[x-1]；

Step5://計算中間數據集M[x]各項支持度；

D[x]=SourceSet_Gen(M[x])；

Step6://生成頻繁x項集集合Frequent_Result[x]；

Frequent_Result[x]=Frequent_Result[x]Set_Gen(D[x]，min_sup)； }//函數 Frequent_ResultSet_Gen(DB[x]，min_sup)比較DB[x]中的數據與min_sup大小，篩選數據.

3 WEKA關聯規則應用實例

3.1 WEKA數據挖掘軟件簡介

WEKA是一款開源數據挖掘軟件，可以對數據進行預處理、分類、回歸、關聯規則等分析操作.基于WEKA平臺的關聯規則算法有 Apriori、PredictiveApriori，Apriori算法由找到的頻繁項集產生出同時滿足最小支持度設定和最小置信度數值的強關聯規則；PredictiveApriori算法則是將最小支持度和最小置信度變為預測精度.

本論文將根據Apriori和PredictiveApriori算法的挖掘結果來分析數據之間的關聯規則.

3.2 確定關聯規則挖掘對象階段

此次實驗數據是從我校教務系統下載，其中大學英語成績涉及的字段名稱有：姓名、學號、期末成績、總成績等；CET-4成績涉及的字段名稱有：姓名、學號、總分、聽力分數等.本研究通過數據庫技術將來自于多個數據源的學生成績合并成一個用于關聯分析的成績數據庫.運用Weka軟件挖掘“大學英語”四個學期的成績與CET-4考試成績之間的潛在聯系.

3.3 數據預處理

本次參與數據挖掘分析的原始樣本總數為3722個，經過數據清理、數據集成、數據規約等操作后，剩余樣本總數為3425，樣本的有效率達到92.02%.得到一個包含NUMBER、STU-NO、English1、English2、English3、English4、CET-4七個字段名的成績大表，如表1所示.

3.4 數據轉換

將數據文件類型轉換為WEKA軟件支持的CSV格式，然后在該軟件中將數據文件保存為ARFF格式.其次，采用離散化的方法將“NUMERIC”數據類型轉換成“NOMINAL”類型.將大學英語四個學期學生分數離散化為“a”（分數>=85分）、“b”（65分 <=分數 <85分）、“c”（分數 <65分）三個等級，將CET-4成績離散化為“pass”（分數>=425）、“nopass”（分數<425）兩個等級.離散化后的表格如表2：

表1 學生成績

表2 學生離散成績

3.5 WEKA關聯規則結果分析

3.5.1 使用Apriori算法對以上數據進行分析，將最小支持度和最小置信度分別設定為10%和90%，Apriori算法生成了 9個 L(1)、14個 L(2)、16個 L(3)、8個 L(4)以及 1個 L(5)，產生了以下規則：

1）English1=a English2=b English3=b 784==>CET-4=pass 758 conf:(0.97)

2）English1=a English3=b English4=b 790==>CET-4=pass 760 conf:(0.96)

3）English1=a English3=b 974==>CET-4=pass 937 conf:(0.96)

4）English1=a English2=b 906==>CET-4=pass 871 conf:(0.96)

5）English1=a English2=b English4=b 739==>CET-4=pass 710 conf:(0.96)

6）English1=b English2=b English3=b CET-4=pass 839==>English4=b 759 conf:(0.9)

分析以上的實驗結果，選取有用的關聯規則1-5，可以得出以下的結論.

English1成績為“a”并且English2和English3成績為“b”的學生784人中有758人通過了CET-4考試，置信度為97%.English1成績為“a”并且English3和English4成績為“b”的790人中有760人通過了CET-4考試，置信度為96%.English1成績為“a”并且 English3成績為“b”的學生974人中有937人通過了CET-4考試，置信度為96%.English1成績為“a”，并且English2成績為“b”的906人中，有871人通過了CET-4考試，置信度為96%.English1成績為“a”，并且 English2和 English4成績為“b”的 739人中，有710人通過了CET-4考試，置信度為96%.

3.5.2 運用PredictiveApriori算法進行分析，得到的規則如下：

1）English1=a English4=a 241==>CET-4=pass 240 acc:(0.99499)

2）English1=a English3=a 110==>CET-4=pass 109 acc:(0.99443)

3）English1=c English3=b English4=c 37==>CET-4=nopass 37 acc:(0.99278)

4）English1=c English4=c 105==>CET-4=nopass 99 acc:(0.93034)

根據上面的實驗結果，我們可以分析其中的意義：English1成績好，其他學期分數高或中等的學生中CET-4通過率也較高；English1成績差，其它學期成績中等或者較好的同學也很難通過CET-4考試.因此，可以得出English1的好差對CET-4的通過與否起到了決定性的作用.我們不難得到本樣本數據潛在的關聯規則：CET-4成績的好差與學生的英語基礎相關性最大，因為英語基礎成績較好的學生，第一學期的成績也較好，基礎好的學生CET-4通過率較高，基礎較差的學生CET-4通過率較低.

因此，同學們在英語學習過程中，要提高對《大學英語》學習的重視度，在第一個學期打好基礎；教師在教學過程中，要重視第一學期的學習，要結合各種教學手段，提高同學們英語學習興趣，幫助同學們提高CET-4成績；教學管理部門則可根據關聯挖掘結果，調整教學計劃，加大大學英語第一學期的教學力度，提高同學們的學習效果，從而進一步提高全校學生的CET-4成績.

〔1〕邵峰晶，于中清.數據挖掘原理與算法[M].中國水利水電出版社，2003.58-89.

〔2〕Jiawei Han，Micheline Kamber.數據挖掘:概念與技術(第二版)[M].北京:機械工業出版社.2007.151-153.

〔3〕王義,賈宇波,東興.基于關聯規則的數據挖掘研究[J].工業控制計算機，2011(03)：21-23.

〔4〕陳昌川.數據挖掘在大學英語考試中的應用研究[D].重慶:重慶大學,2009.