李高菊(宿遷開放大學,江蘇 宿遷 223800)
數據挖掘在職業院校“學評教”體系中的應用
李高菊
(宿遷開放大學,江蘇 宿遷 223800)
在傳統的教學評價過程中,每個學校都積累了大量的評價數據,而學校只是對這些數據進行簡單的統計和查詢,在海量數據中存在的更有價值的信息并沒有得到真正利用。利用數據挖掘技術中的挖掘算法對評價數據和教師的個人信息進行梳理與分析,發現教師的性別、學歷等不會影響教學效果,而職稱、年齡則會影響教學效果。如何能在教學安排中做到統籌兼顧,是學校管理者在協調教學過程中的一個參照。
數據挖掘;關聯規則;Apriori算法和FP-Growth算法;學評教
隨著信息的快速增長,數據挖掘技術在信息資源開發方面的優越性越來越明顯,目前已經在電子商務、金融、商業等領域發揮著巨大的作用,它結合了信息化、統計等方面的技術支持著企業的快速發展。而在教育領域中目前其應用還只停留在萌芽階段。高校要想提高學校的教學管理水平,必須構建好自己的教學質量監控體系,這是提高教學質量的重要保障和有效途徑。
目前,在各高校對于現有數據信息中教師個人信息、最終教學評價信息與學生學習效果及未來就業方面的信息之間的關聯很少有人研究,高校管理者也沒有試圖去發現他們之間存在的關聯,或者說,現在僅僅是對數據作了最簡單、最原始的基本操作,如查詢、修改等,數據之間所蘊藏的聯系并沒有被發現,而數據表層的信息根本無法給教育行政管理人員提供決策參考。借助數據挖掘技術從海量數據中提取出有效信息,一方面完善了教學監控體系,另一方面可以從評教數據中挖掘出有用的規則,進而推進教師隊伍的建設。因此,數據挖掘將成為今后教學評價體系研究的熱點,也會是今后一段時間教育界研究的一大重點。
本文首先對評教的數據(或信息)進行處理,然后通過對比分析選擇合適的數據挖掘算法,最終找出數據間的關聯規則,從中挖掘出教師個人條件與教學最終效果之間的潛在聯系,總結出教學一般規律并發現影響教學效果的相關因素。經過綜合分析最終找出可以提高學校教學質量的思路和辦法,進而有效地指導教師改進教學。
數據挖掘,是指從龐大的數據集中尋找出有價值的知識的過程,通過挖掘操作能發現潛伏在數據內部、而用直觀方法或經驗根本看不出但非常有價值的信息,通常也稱為知識發現過程[1]。這類信息一般是用戶比較期待的,結論也是可以理解并易接受的。
2.1數據挖掘的方法與技術
數據挖掘的每種方法都有其適用的特定領域,主要包括關聯規則挖掘技術、決策樹方法、神經網絡方法、遺傳算法、粗糙集算法等[2]。而在現實生活的應用中,在一個復雜的數據挖掘系統中往往不是使用某種單一的挖掘算法,而是將多種數據挖掘方法結合起來,并且利用可視化技術最終實現。下面主要介紹一下關聯規則挖掘算法。
關聯規則的分析方法相對比較簡單,在生活中應用也非常廣泛。該算法是在1993年由R.A-grawal、Imielinski、Swam幾人最先提出的。它最主要的目的是找出被挖掘數據之間隱藏的不易被覺察的潛在聯系,即找出某一事件中潛在的規律和模式。就目前來看,關聯規則挖掘技術已較成熟,大部分用于對數據的關聯分析。Apriori和FP-growth算法都是常見的算法。Apriori算法的基本過程為:首先通過對數據的分析找出所有頻繁出現的項集,然后根據得到的頻繁項集總結出有用的關聯規則。許多演變的關聯規則頻繁項集的挖掘算法都是由它演變而來的。隨著數據量的逐漸加大以及人們在生活中對數據挖掘的有效利用,采用關聯規則挖掘算法找出數據間的關聯知識已成為人們非常關注的內容。關聯分析常被用來分析顧客的購買模式、產品生產模式等,最典型的例子就是購物籃分析。
2.2數據挖掘的過程
數據挖掘的過程其實就是知識發現的完整過程,它是由很多個步驟相互連接起來的[3]。一般情況下,它包括三個主要階段:第一是數據準備,第二是進行數據挖掘,第三是得出結論和解釋的階段。其實,知識的發現過程也是在這三個階段反復進行人機交互的過程。數據挖掘的知識發現過程(KDD)如圖1所示。

圖1 KDD的挖掘全部過程
3.1數據的準備
將評教獲得的數據作為訓練樣本集,并且把教學評價表Evaluation和教師信息表Teacher進行整合,整合后的數據表很大,但是有些字段比如教師姓名、班級編號、課程編號等與我們要挖掘的問題聯系不大,所以人為地將它們刪除。
3.2數據預處理
在評教的過程中,由于各種原因,很容易產生一些不符合要求的數據,若是不能及時地進行處理,勢必會對挖掘結果產生影響。所以必須對數據進行清理,數據清理就是消除原始數據集中存在的錯誤、包含的噪聲或有缺損的對象,只有這樣才能保證數據挖掘結果的準確性與合理性。比如對數據中填寫不完整的或有一屬性值為空的某一項記錄人為地將數據補填上,或者直接將該條記錄忽略等辦法。
對數據進行轉換的主要目的就是將數據轉換成能適合數據挖掘的描述形式,以便進行高效的數據分析[4]。在本系統中主要采用數據泛化的辦法,即將一個屬性取值范圍投射到一個特定區間之內,進行聚集和統一,防止給挖掘的結果帶來誤差。
首先,將教師的職稱進行泛化處理后得到表1的轉換值。

表1 教師職稱進行轉換的規則
其次,將教師的年齡進行離散化處理,得到五個階段,如表2所示。

表2 教師年齡進行轉換的規則
最后,再將教師所得評教分數按表3的轉換規則進行轉換。

表3 評教分數轉換規則
3.3關聯規則挖掘結果分析
(1)教師年齡與教學評價結果之間的關聯規則
利用FP-Growth算法對數據進行處理后,統計得到年齡與教學效果項集的支持度和置信度,如表4所示。

表4 統計年齡與教學效果項集得到支持度和置信度
如果設置最小支持度為5%,最小置信度為45%,那么從上面的項集中最終可以得到2個頻繁項集,如表5所示。

表5 滿足教師年齡與教學效果篩選條件的頻繁項集
從上面得到的結果可以看到,40~50歲之間(包括50歲)和50~60歲之間(包括60歲)的教師最終教學效果優秀,這也說明了隨著時間的推移,教師積累了豐富的教學經驗。
(2)教師學歷與教學評價結果之間的關聯規則
利用FP-Growth算法對數據進行處理,統計后得到學歷與教學效果項集的支持度和置信度,如表6所示。

表6 統計教師學歷與教學效果項集得到支持度和置信度
如果設置最小支持度為5%,最小置信度為45%,那么從上面的項集中最終可以得到3個頻繁項集,如表7所示。

表7 滿足教師學歷與教學效果篩選條件的頻繁項集
從上述所得的頻繁項集來看,學歷為博士和碩士的教師教學效果都為良好,本科學歷的教師教學效果為優秀。
(3)教師職稱與教學評價結果之間的關聯規則
利用FP-Growth算法對數據進行處理后,得出職稱與教學效果項集的支持度和置信度,如表8所示。

表8 統計教師職稱與教學效果項集得到支持度和置信度
如果設置最小支持度為5%,最小置信度為45%,那么從上面的項集中最終可以得到3個頻繁項集,如表9所示。

表9 滿足教師職稱與教學效果篩選條件的頻繁項集
從上面得到的結果可以看到,職稱的高低與教學效果也有直接的關系,正高、副高的教師教學評價都為優秀,中級職稱的評價為良好。
(4)教師性別與評價結果之間的關聯規則
利用FP-Growth算法對數據進行統計和處理后,得到性別與教學效果項集的支持度和置信度,如表10所示。

表10 教師性別與教學效果項集的支持度和置信度統計
假設設置最小支持度為5%,最小置信度為45%,那么從上面的項集中就找不到滿足要求的頻繁項集,也就是說教學效果與教師性別無必然聯系。
3.4結論
根據以上對學生評教的數據進行分析得出如下幾條結論:
(1)40~50歲之間的教師和50~60歲之間的教師最終教學效果都為優秀,這充分說明了時間的沉淀能夠使教師積累豐富的教學經驗。
(2)碩士或更高學歷的教師教學效果良好,本科學歷的教師教學效果為優秀。這說明在本校教師自身的學歷和所授課的內容與總評成績之間的聯系不大,經過分析判斷,可能是本科學歷的教師比較注重學生的實踐指導以及其他環節(如作業批改和輔導答疑)的原因。另外結合本校學生培養的要求,要想提高整體教學質量,就應更加注重實踐環節的教學。
(3)職稱的高低與教學效果也有直接的關系,正高、副高的教師教學評價都為優秀,中級職稱的教師評價也為良好。擁有高級職稱的教師,教學效果好,能夠得到學生的認可。因此,學校應加大高級職稱教師的引進力度,以優化師資結構,此外,學校有關部門應采取相應措施,以盡快提高教師的學歷層次,改善教師的職稱結構。
(4)從性別方面的項集中找不到滿足要求的頻繁項集,也就是說,教學效果與教師性別無必然聯系。
教學質量是學校的生命線,本文通過對評教系統中大量數據進行梳理,利用關聯規則挖掘算法,找出數據之間的關聯,即找出影響教學效果的多方面因素,可以為管理者提供決策指導。但也存在一定的不足,在今后的工作中還要進一步研究挖掘算法,使它在執行效率上有所提高,以進一步完善“學評教”系統,讓其成為促進教學工作的一大利器。
[1]孟衛平.數據挖掘在移動電子商務中的應用研究[J].現代商業,2010(24).
[2]王瑄.多最小支持度下的關聯規則研究[D].長春:長春理工大學,2008.
[3]宮輝力,趙文吉,李京.多源遙感數據挖掘系統技術框架[J].中國圖象圖形學報,2005(5).
[4]林建勤.基于Web的數據挖掘應用模式研究[J].貴州師范大學學報(自然科學版),2004(3).
The Application of Data mining In the “Student rating of teaching”system of Occupation colleges
LI Gao-ju
(Suqian Open University,Jiangsu Suqian 223800,China)
In the traditional teaching evaluation process,each school have accumulated large amounts of data,and the school is on these data were simple statistic and query. However,in vast amounts of data in the presence of more valuable information has not been really use.We use data mining technology in mining algorithm on the evaluation data and teacher's personal information were sorted out and analyzed and found that the teacher's gender,educational background will not affect the teaching effect,and the title,age will influence the teaching effect.How can the teaching arrangements so balanced,school managers in a reference to the coordination of the teaching process.
Data mining;Association rules;Apriori algorithm;FP-Growth algorithm;School teaching assessment
TP274
A
1673-2022(2016)03-0047-04
2016-06-20
李高菊(1980-),女,江蘇宿遷人,講師,碩士,主要從事計算機方面的教育教學研究。