(渭南師范學院計算機學院;計算機工程技術中心 陜西 渭南 714000)
(一)數據挖掘概述
數據挖掘是指從數據集中識別出新穎的、有效的、潛在有用的以及最終可理解模式的高級處理過程。
(二)關聯規則概述
關聯規則屬于數據挖掘的一種,關聯規則挖掘是發掘支持度與置信度大于用戶設定的最小取值的有效性規則[2]。關聯規則挖掘分兩步:第一步找出所有頻繁項集,即找出所有出現頻率大于等于預定義的最小支持度的項集;第二步由頻繁項集產生關聯規則。
Aprior算法是Agrawal等人于1994年提出的一種挖掘顧客交易數據庫中項集間關聯規則的方法,此算法是一種基于兩階段頻繁項目集思想的遞推算法,它在分類上屬于單層、單維、布爾關聯規則,所有支持度大于最小支持度的項集稱為頻繁項目集,簡稱頻集[4]。
(一)算法的基本思想
Apriori算法步驟:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣;然后由頻集產生強關聯規則,規則應滿足最小支持度和最小可信度的要求。
(二)Apriori核心算法分析
為了生成所有頻集,使用遞推方法如下所示:
1.L1={large 1-itemsets};
2.for(k=2;Lk-1¹F;k++)do begin
3.Ck=apriori-gen(Lk-1);//新的候選集
4.for all transactions tÎD do begin
5.Ct=subset(Ck,t);//事務t中包含的候選集
6.for all candidates cÎCtdo
7.c.count++;
8.end
9.Lk={cÎCk|c.count³minsup}
10.end
11.Answer=Ck∪Lk;

(一)教學管理系統模塊
1.學生信息模塊。主要包括姓名、學生性別、出生日期、專業名稱、班級、籍貫、學號、特長等。2.教師信息模塊。主要包括招聘姓名、教師性別、工號、出生日期、籍貫、課程、教師職稱等。3.班級信息模塊。主要包括班級名、班級編號、輔導員、班級人數等。4.課程信息模塊。主要包括課程名、課程編號、教師編號、班級、學號、學分、教室號、上課時間等。5.成績信息模塊。主要包括課程號、課程名、學號、分數等。6.評價信息模塊。主要包括課程編號、課程名稱、班級、教師、學號、評價結果等。
(二)挖掘模塊具體實現
1.數據凈化。對教學管理系統中的信息數據進行處理,挖掘有用的數據。主要信息包括學生性別、班級人數、教室號、上課時間、課程名、專業名稱、班級、籍貫、特長、分數、教師職稱、評價結果等。表1給出了其中一條用戶的記錄。

表1 字段名含義
2.數據清理。數據清理是指對不完整的、不一致的、無用的和臟的記錄進行刪除,將處理后的有用的數據保存在數據表之中。
3.使用Apriori算法進行數據挖掘。使用Apriori算法對教學管理系統中有用的數據進行挖掘,輸入事務數據表、最小支持度和最小置信度,輸出頻繁項集。
4.模式分析。使用Apriori挖掘算法找出學生、教師和學校感興趣的模式和規則。關聯規則挖掘的任務是給定一個事物數據庫D求出所有滿足最小支持度和最小置信度的關聯規則。我們設定最小支持度為δ=10%,最小置信度為γ=25%。
可以看出:會計專業女生較多,周二3-4節課較多;從規則B可以看出:計科專業的男生較多,并且選修Java課程的人數較多,從規則C和D可以看出:21-40人的班級上課一般都安排在1號教學樓2層上課;從規則E可以看出:大多數數媒的男生都選修了周一1-2節的C++課程;從規則F可以看出:選修大學物理的男生較多。
數據挖掘技術是一門具有遠大前景的數據處理與數據分析技術,數據挖掘技術將會被應用于不同的行業中,同樣也會在教學管理中發揮不可估量的作用。本文利用Apriori算法對教學管理系統中的數據進行挖掘分析,從中發現各專業的選課情況和教室安排情況等有價值的信息。