吳肖肖
摘 要:本文主要基于關聯規則的性質屬性,選用Apriori算法,針對教師教學評估進行分析,挖掘教師的職稱、學歷與評估結果之間的關聯性,然后以此挖掘出隱含規律和潛在價值。
關鍵詞:數據挖掘 關聯規則 Apriori算法 教師教學評估
關聯規則實際上是基于頻繁模式的挖掘,其中比較經典的一個案例就是有關啤酒和尿不濕的關聯性分析。
“啤酒”和“尿布”兩個看上去沒有聯系的商品擺放在一起銷售、并獲得很好的收益,這種現象就是商品之間的關聯性分析。那么推及高校的教學管理,這種關聯的發現同樣也起到四兩撥千斤的作用,特別是針對于教師教學評估的關聯性分析,挖掘出隱含規律和潛在價值,為提高教師教學水平提供參考建議。
因此,本文通過針對教師教學評估分析來挖掘教師職稱、學歷與評估結果之間的關聯性,找出學生更喜歡哪類教師,是學歷高的還是職稱高的。
一、數據采集
數據采集就是根據用戶的需要,從原始數據里面抽取相應的數據建立數據挖掘庫,作為挖掘任務的操作對象。本案例的數據采集對象是2015-2016第一學期的教師評價表作為原始數據。所以選取了全?,F任專兼職教師84名,107門課程,145條記錄的教師評價表。通過學校的吉利教育中心信息化平臺,進入評教模塊,導出教師信息表和學生評教表2個Excel文件。
二、數據預處理
數據預處理主要是針對原始數據中存在的噪聲、重復等記錄以及復雜的結構等情況來進行噪聲消除、重復刪除、類型轉換等初步的整理,主要包括數據集成、數據清洗、數據選擇三個方面。
數據集成:本案例的教師信息表和學生評教表是分別導出,因為要用到教師的職稱、課程評分、學歷等字段,所以需要將兩個表合并到一起。
數據清洗:通過排序的方式,將本案例的原始數據中不完整的教師信息剔除。
數據選擇:因為是針對學歷、職稱和課程評分等信息挖掘,其他字段沒有意義,所以將教教師信息表中的性別、部門、出生年月等字段以及學生評教表的部門等字段刪除。
三、數據轉換
數據變換主要包括數據維數的降低,離散型與連續型數據之間的轉換,以及將數據進行分類分組來尋找數據特征等。本案例的教師課程評分是連續型的數據,而Apriori算法只支持離散型數據,所以需要將連續型數據轉換成離散型數據。本例采取的辦法是分為四檔,大于等于90分的為“優秀”;大于等于85分的為“良好”;大于等于80分的為“中等”;小于80分的為“一般”。以平均分為界,高于平均分的成績標記為1;低于平均分的成績記為0。
四、數據挖掘
確定算法是整個數據挖掘中最重要、最核心的一個步驟,其工作是根據挖掘任務尋找合適的算法,然后尋找合適的模式,最后給出這些模式合適的表示方式。本案例在SPSS Clementine工具里選用Apriori算法來建立模型。首先根據挖掘任務設計挖掘模型,簡稱“流1”。在“流1”中,首先,選取“教師評分匯總-轉換后”Excel表作為源文件節點;其次,選取“類型”為中間節點,以便與數據庫與模型之間建立連接;再次,選取“Apriori”算法為模型,與“類型”建立連接,其中由于用到了3個屬性,所以命名為“職稱&課程評分&學歷字段”,另外,選取“網絡”為模型,與“類型”建立連接,也命名為“職稱&課程評分&學歷字段”;最后選取“執行”分別得到“Apriori”算法模型和“網絡”圖形,通過模型評估與圖形表示來進行結果分析。
五、模型評估與圖形表示
1.模型評估
根據程序,點擊“執行”選項,在右上方“模型”界面中生成挖掘結果“職稱&課程評分&學歷字段”,將其拖入“流1”界面,點擊“類型”圖標,右擊選取“連接”出現連接箭頭圖標,然后點擊“職稱&課程評分&學歷字段”Apriori圖標,使得“類型”和“職稱&課程評分&學歷字段”建立連接。點擊“職稱&課程評分&學歷字段”Apriori圖標,得出挖掘結果一。
2.圖形表示
單擊“執行”按鈕,生成挖掘結果二。
六、結果分析
1.由挖掘結果一可知
(1)課程評分優秀的教師,職稱是講師,學歷是本科。
(2)課程評分優秀的教師,職稱是教授,學歷是本科。
(3)課程評分優秀的教師,學歷是碩士。
(4)課程評分優秀的教師,學歷是本科。
(5)課程評分優秀的教師,職稱是講師。
(6)課程評分優秀的教師,職稱是講師。
(7)課程評分優秀的教師,職稱是教授。
(8)課程評分優秀的教師,職稱是講師,學歷是碩士。
(9)課程評分優秀的教師,職稱是副教授。
(10)課程評分良好的教師,職稱是助教,學歷是本科。
另外,對于中等、一般等課程評分情況的挖掘結果沒有很好的展現,說明有些統計結果還是存在不小的誤差,可能的原因,比如有的學生打分不夠認真仔細。
2.由挖掘結果二可知
相互之間關聯越緊密,頻次越高,線條也就越粗,歸納起來有以下三個:
(1)講師、本科和優秀
(2)講師、碩士和優秀
(3)教授、本科和優秀
這個結果與前面規則生成的結論是完全相符的。
3.誤差分析
(1)原始數據不夠大。由于本案例只是針對2015-2016第一學期的教師評價數據挖掘,共涉及到84名教師,107門課程,145條記錄,規模不是很大。
(2)資料更新不及時。有些教師的資料不是最新的,比如職稱、學歷的變動還沒有及時更新,造成了挖掘結果的偏差。
(3)人為操作的失誤。由于對數據挖掘的理解不夠深入,在對原始數據的采集、預處理及轉換環節中容易產生誤差。
七、結論
1.從前項來看,職稱以講師為主,教授為輔;學歷以本科為主,碩士為輔。這個師資結構說明浙江汽車職業技術學院的骨干教師是以本科起點的講師為主,本科起點的教授和碩士起點的講師為輔。
2.從后項來看,評分結果以優秀居多,這個評價結果說明整體的教學效果還是可圈可點的。也從側面說明,不一定就是職稱高、學識深、教齡長的教師受歡迎,相比之下,年輕肯干接地氣的青年教師,更具活力,更受學生歡迎。從職稱是講師,學歷是本科或碩士來看,這個群體教師的特點主要一是年齡相近,縮短了和學生之間的差距和代溝,溝通方面沒有障礙;二是有些教師雖然職稱還不夠,但是在崗位上已經工作多年,積累了很多教學經驗,工作能力比較強。
本章基于關聯規則的性質屬性,選用Apriori算法,針對教師教學評估進行分析,挖掘教師的職稱、學歷與評估結果之間的關聯性。通過針對教師教學評估分析來挖掘教師學歷、職稱和評價結果之間的關聯性,找出深受學生歡迎的教師有哪些共同特點。