999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯規則的CET-4成績數據挖掘

2014-01-02 07:58:10
赤峰學院學報·自然科學版 2014年22期
關鍵詞:數據挖掘關聯規則

劉 靜

(阜陽師范學院,安徽 阜陽 236037)

1 引言

全國大學生英語四級考試(CET-4)是由國家教育部高等教育司組織安排的標準化、教學水平考試.該考試緊扣教學大綱,考試成績具有很高的信度和效度.在高校,CET-4考試受到了包括學生、任課教師和學校管理者在內所有人的高度重視.[5]

我校教務管理系統中存放著各種成績信息,學校目前所利用的僅僅是成績數據的提取,成績背后較為隱蔽的有用信息沒有被充分挖掘出來.針對這個問題,采用關聯規則中經典的Apriori算法,挖掘CET-4成績與《大學英語》期末考試成績的相關性,分析哪個學期的英語學習對CET-4成績影響最大,并總結出規律應用到教師的常規教學和同學們的日常學習中去.

2 基于關聯規則的Apriori數據挖掘算法

關聯規則挖掘,就是在數據列表中找出滿足最小置信度和最小支持度的規則,挖掘不同數據項集之間潛在的關聯規則.[1]在現有關聯規則挖掘中,最典型的算法是Apriori算法.該算法依據頻繁項集性質的先驗(Prior)知識命名,是一種通過多次掃描數據庫,來獲取支持度大于最小支持度的頻繁項集的廣度優先算法.[1]

該算法描述如下:

輸入:DB[1],min_sup;

輸出:頻繁x項集Frequent_Result[x]和頻繁x項集的支持度;

Function:

Step1://掃描得到所有頻繁1項集 Frequent_Result[1];

Frequent_Result[1]=Frequent_ResultSet_Gen(DB[1],min_sup);//函數SourceSet_Gen(M[x])負責掃描中間數組二階運算得到的D[x+1]中的數據,算出候選項的支持度;

x=1;While(Frequent_Result[x]!=Ф){

Step2://找出D[x]中大于最小支持度的;

M[x]=Comp_Gen(D[x],min_sup);//函數 Comp_Gen(D[x],min_sup)同min_sup比較,生成二階運算需要的候選數組;

Step3:++x;//侯選數據項集的支持度自加;

Step4://Apriori算法,用 L1*L2產生數據集 M[x];

M[x]=M[x-1]*M[x-1];

Step5://計算中間數據集M[x]各項支持度;

D[x]=SourceSet_Gen(M[x]);

Step6://生成頻繁x項集集合Frequent_Result[x];

Frequent_Result[x]=Frequent_Result[x]Set_Gen(D[x],min_sup); }//函數 Frequent_ResultSet_Gen(DB[x],min_sup)比較DB[x]中的數據與min_sup大小,篩選數據.

3 WEKA關聯規則應用實例

3.1 WEKA數據挖掘軟件簡介

WEKA是一款開源數據挖掘軟件,可以對數據進行預處理、分類、回歸、關聯規則等分析操作.基于WEKA平臺的關聯規則算法有 Apriori、PredictiveApriori,Apriori算法由找到的頻繁項集產生出同時滿足最小支持度設定和最小置信度數值的強關聯規則;PredictiveApriori算法則是將最小支持度和最小置信度變為預測精度.

本論文將根據Apriori和PredictiveApriori算法的挖掘結果來分析數據之間的關聯規則.

3.2 確定關聯規則挖掘對象階段

此次實驗數據是從我校教務系統下載,其中大學英語成績涉及的字段名稱有:姓名、學號、期末成績、總成績等;CET-4成績涉及的字段名稱有:姓名、學號、總分、聽力分數等.本研究通過數據庫技術將來自于多個數據源的學生成績合并成一個用于關聯分析的成績數據庫.運用Weka軟件挖掘“大學英語”四個學期的成績與CET-4考試成績之間的潛在聯系.

3.3 數據預處理

本次參與數據挖掘分析的原始樣本總數為3722個,經過數據清理、數據集成、數據規約等操作后,剩余樣本總數為3425,樣本的有效率達到92.02%.得到一個包含NUMBER、STU-NO、English1、English2、English3、English4、CET-4七 個字段名的成績大表,如表1所示.

3.4 數據轉換

將數據文件類型轉換為WEKA軟件支持的CSV格式,然后在該軟件中將數據文件保存為ARFF格式.其次,采用離散化的方法將“NUMERIC”數據類型轉換成“NOMINAL”類型.將大學英語四個學期學生分數離散化為“a”(分數>=85分)、“b”(65分 <=分數 <85分)、“c”(分數 <65分)三個等級,將CET-4成績離散化為“pass”(分數>=425)、“nopass”(分數<425)兩個等級.離散化后的表格如表2:

表1 學生成績

表2 學生離散成績

3.5 WEKA關聯規則結果分析

3.5.1 使用Apriori算法對以上數據進行分析,將最小支持度和最小置信度分別設定為10%和90%,Apriori算法生成了 9個 L(1)、14個 L(2)、16個 L(3)、8個 L(4)以及 1個 L(5),產生了以下規則:

1)English1=a English2=b English3=b 784==>CET-4=pass 758 conf:(0.97)

2)English1=a English3=b English4=b 790==>CET-4=pass 760 conf:(0.96)

3)English1=a English3=b 974==>CET-4=pass 937 conf:(0.96)

4)English1=a English2=b 906==>CET-4=pass 871 conf:(0.96)

5)English1=a English2=b English4=b 739==>CET-4=pass 710 conf:(0.96)

6)English1=b English2=b English3=b CET-4=pass 839==>English4=b 759 conf:(0.9)

分析以上的實驗結果,選取有用的關聯規則1-5,可以得出以下的結論.

English1成績為“a”并且English2和English3成績為“b”的學生784人中有758人通過了CET-4考試,置信度為97%.English1成績為“a”并且English3和English4成績為“b”的790人中有760人通過了CET-4考試,置信度為96%.English1成績為“a”并且 English3成績為“b”的學生974人中有937人通過了CET-4考試,置信度為96%.English1成績為“a”,并且English2成績為“b”的906人中,有871人通過了CET-4考試,置信度為96%.English1成績為“a”,并且 English2和 English4成績為“b”的 739人中,有710人通過了CET-4考試,置信度為96%.

3.5.2 運用PredictiveApriori算法進行分析,得到的規則如下:

1)English1=a English4=a 241==>CET-4=pass 240 acc:(0.99499)

2)English1=a English3=a 110==>CET-4=pass 109 acc:(0.99443)

3)English1=c English3=b English4=c 37==>CET-4=nopass 37 acc:(0.99278)

4)English1=c English4=c 105==>CET-4=nopass 99 acc:(0.93034)

根據上面的實驗結果,我們可以分析其中的意義:English1成績好,其他學期分數高或中等的學生中CET-4通過率也較高;English1成績差,其它學期成績中等或者較好的同學也很難通過CET-4考試.因此,可以得出English1的好差對CET-4的通過與否起到了決定性的作用.我們不難得到本樣本數據潛在的關聯規則:CET-4成績的好差與學生的英語基礎相關性最大,因為英語基礎成績較好的學生,第一學期的成績也較好,基礎好的學生CET-4通過率較高,基礎較差的學生CET-4通過率較低.

因此,同學們在英語學習過程中,要提高對《大學英語》學習的重視度,在第一個學期打好基礎;教師在教學過程中,要重視第一學期的學習,要結合各種教學手段,提高同學們英語學習興趣,幫助同學們提高CET-4成績;教學管理部門則可根據關聯挖掘結果,調整教學計劃,加大大學英語第一學期的教學力度,提高同學們的學習效果,從而進一步提高全校學生的CET-4成績.

〔1〕邵峰晶,于中清.數據挖掘原理與算法[M].中國水利水電出版社,2003.58-89.

〔2〕Jiawei Han,Micheline Kamber.數據挖掘:概念與技術(第二版)[M].北京:機械工業出版社.2007.151-153.

〔3〕王義,賈宇波,東興.基于關聯規則的數據挖掘研究[J].工業控制計算機,2011(03):21-23.

〔4〕陳昌川.數據挖掘在大學英語考試中的應用研究[D].重慶:重慶大學,2009.

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 美女内射视频WWW网站午夜 | 欧美精品1区| 久草视频福利在线观看| 超薄丝袜足j国产在线视频| 国产永久无码观看在线| 九色在线观看视频| 毛片a级毛片免费观看免下载| 伊人色在线视频| 亚洲成人精品在线| 亚洲va欧美va国产综合下载| 在线高清亚洲精品二区| 日本国产一区在线观看| 国产高清在线精品一区二区三区| 久久精品91麻豆| 亚洲国产成人久久77| 精品国产99久久| 久久狠狠色噜噜狠狠狠狠97视色 | 国产在线高清一级毛片| 91区国产福利在线观看午夜 | 国产真实二区一区在线亚洲| 免费观看无遮挡www的小视频| 国产精品午夜福利麻豆| 二级特黄绝大片免费视频大片| 91精品视频播放| 国产精品蜜臀| 女人18毛片一级毛片在线 | 国产一级做美女做受视频| 视频二区中文无码| 欧美综合成人| 在线观看免费国产| 天天躁夜夜躁狠狠躁图片| 91视频国产高清| 国产在线自乱拍播放| 色妞永久免费视频| 日韩精品专区免费无码aⅴ| 国产成人一区免费观看| 五月婷婷亚洲综合| 国产亚洲精品资源在线26u| 国产嫩草在线观看| 欧美激情第一欧美在线| 波多野吉衣一区二区三区av| 黄色在线不卡| 色窝窝免费一区二区三区| 亚洲成a人片| 一级一级一片免费| 亚洲精品无码抽插日韩| 老司机精品一区在线视频| 成人国产精品2021| 日韩第一页在线| 污网站在线观看视频| 自慰网址在线观看| 国产日产欧美精品| 国产综合在线观看视频| 亚洲成人精品久久| 一本一道波多野结衣一区二区 | 国产中文在线亚洲精品官网| 国产人在线成免费视频| 精品国产免费观看一区| 亚洲无码电影| 亚洲国产精品VA在线看黑人| a级免费视频| 九九线精品视频在线观看| 久久久精品久久久久三级| 第一页亚洲| 中文字幕资源站| 91小视频在线观看免费版高清| 青青青视频蜜桃一区二区| 不卡国产视频第一页| 国产综合网站| 国产精品私拍在线爆乳| 欧美激情视频在线观看一区| 日本国产在线| 中文字幕久久波多野结衣| 91无码网站| 婷婷激情五月网| 欧美成人国产| 最新国产在线| 欧美日韩国产高清一区二区三区| 97国内精品久久久久不卡| 在线免费看片a| 久久精品视频一| 2018日日摸夜夜添狠狠躁|