數據挖掘在計算機課程成績分析中的應用

2017-10-19 07:22:42和鐵行

浙江醫學教育 2017年5期

關鍵詞：數據挖掘關聯規則

和鐵行，王偉

(杭州醫學院，浙江，杭州 310053)

·教學研究與管理·

數據挖掘在計算機課程成績分析中的應用

和鐵行，王偉

(杭州醫學院，浙江，杭州 310053)

目的：尋找教務管理系統中海量數據之間的隱性關聯，以達到增強學生學習效率，促進教學水平提升，增強教學管理的有效性。方法利用數據挖掘關聯規則的改進型Apriori算法和聚類算法進行數據的挖掘。結果通過對數據挖掘進行統計分析后，發現用來挖掘的2015級120名專科生和2016級60名本科生計算機課程成績與入學基礎、授課時數之間有著隱藏的關聯性。結論成績的評定指標要具有可操作性和合理性，利用挖掘結果可以指導教師教學，有利于學生更有針對性地進行計算機課程的學習。

數據挖掘；Apriori算法；成績分析

Abstract:[Objective] To find the implicit association between the increasing amount of mass data in the education management system and to enhance students' learning efficiency, promote teaching level and improve the effectiveness of teaching management.[Method] According to Apriori algorithm, the modified form of data mining associated ruler, data miningwascarried out.[Result]Searching for the potential relationship among the data through statistical analysis, it is found that there are hidden correlations between the scores.[Conclusion] The evaluation indicators should be operational and reasonable. The results of mining could be used to guide teaching and help students in targeted computer learning.

Keywords:data mining; Apriori algorithm;analysis of the performance

高校在長期的教學過程中積累了大量的數據，這些海量的數據存放在學校的教務管理系統中。于是，將數據挖掘技術應用到成績方面成為教學管理的一個研究方向。本文利用數據挖掘中的關聯規則法和聚類算法對學生的成績及其影響因素做了深入的分析、總結和發掘，希望能對今后教師的日常教學、學生學習以及教學管理提供幫助。

1 數據挖掘及算法介紹

1.1 數據挖掘

數據挖掘(Data Mining，DM)[1]是利用計算機這一現代化工具，從模糊的、海量的、不完整的實際應用數據中，把隱含在其中的人們事先不知道的但又可能有用的信息和知識提取的過程，試圖發現隱藏在這些數據背后的關系是人們挖掘的目的，挖掘的結果是可以為人們提供更多有價值的信息。

1.2 數據挖掘算法

數據挖掘算法[2]是根據數據創建數據挖掘模型的一組試探法和計算。常用的數據挖掘算法有：分類算法、決策樹算法[3]、回歸算法、聚類分析算法、關聯規則等，這些算法有其各自適用的場景。如對植物葉子的分類就是典型的分類算法，對根據降雨、霧霾、氣溫等特征將自己的行為分類為出門和不出門則是典型的決策樹算法。

1.3 Apriori算法

從所有的項目集合中找出所有頻繁項目集合式Apriori算法的基本思想，找出的這些頻繁項目集合的頻繁性必須大于或等于預先設定好的最小支持度值(支持度表示項集{X,Y}在總項集里出現的概率，最小支持度是指出現X導致Y也出現的最小概率值。)然后由這些滿足最小支持度的頻繁項目集合來產生關聯性較強的規則，也即是強關聯規則，在滿足最小支持度的同時還要滿足預先設定好的最小置信度是強關聯規則的基本要求(置信度表示在先決條件X發生的情況下，由關聯規則”X→Y”推導出Y的概率。)。Apriori算法最開始是從最簡單的候選項集C1中開始篩選，找出符合條件的L1，然后由L1與自身連接便可產生候選項集C2,接著再對C2進行篩選，找出符合條件的L2，如此循環下去直到最后為空集為止。

本文用到的數據挖掘技術就是挖掘關聯規則的Apriori算法。

2 數據挖掘在學生成績分析中的應用

2.1 挖掘流程

確定挖掘的目標，即需要挖掘的計算機課程的學生成績，然后對這些挖掘的對象進行采集、預處理，進行初步挖掘，再逐層進行深度挖掘，最終建立數據間的關聯性，挖掘分析出各指標間的類。

2.2 系統流程

根據挖掘流程，設計出如圖1所示的挖掘系統流程圖，應用于實際的數據挖掘。

圖1 挖掘系統流程圖

圖1中，挖掘的數據來源于正方教務管理系統、百科園通用考試管理系統(計算機課程教學互動的軟件系統)和浙江省計算機等級考試數據庫；數據庫指的是主要存儲涉及學生信息的各種數據，該系統將學生的基本信息以及學生學習計算機課程的各種信息存儲在數據庫中；知識庫是經過數據挖掘后從中提取出來的規則，用來為決策人員作決策使用；數據挖掘是根據決策者提出的問題特點，確定挖掘的任務或目的，對數據庫中的相關數據進行精簡和預處理，再從精簡后的數據中挖掘出新的、有效的新知識，提供給基于計算機課程成績的有效數據挖掘，最終由它給決策者提供有效的知識；挖掘結果分析是通過分析最終的挖掘結果，找出有效數據之間的關聯，提供有實際意義的報告。

2.3 數據準備

本次研究選擇了我校2015級120名專科學生和2016級60名本科學生的基本信息(數據來源于校正方教務管理系統、百科園通用考試管理系統和浙江省計算機等級考試數據庫)、醫學計算機應用基礎課程的任課教師、課時情況、出勤率等信息(來源于聯創機房管理系統和百科園通用考試管理系統)，以及浙江省計算機等級考試的成績信息(來源于2016年秋浙江省計算機等級考試數據)。其基本信息如表1所示。

表1 計算機課程數據的基本信息表

2.4 數據預處理

表1中的數據中可能存在冗余、不完整、空值等情況，因此對收集到的數據在挖掘之前進行預處理，提高數據的質量，從而有助于建立高準確率的數據模型。數據預處理就是要刪除對挖掘的預測結果無關聯的數據，如學生的年齡、班級等信息。同時，基于數據挖掘的要求，還要將多張數據表進行合并整理，形成適合數據挖掘的數據表。

2.5 基于Apriori算法的數據挖掘

本次關聯規則分析的數據由我校2015級120名專科學生和2016級60名本科學生學生、計算機課程考試成績及相應的任課老師信息組成。共抽選出180條學生的記錄。經過整理后的初始信息表如表2所示。

表2 計算機課程初始信息表

(備注：課前基礎測驗在第一次實驗課中完成，評定按5級制；表中只列舉了部分信息)

為了簡化分析，接下來需要將數據進行抽象和離散化處理。學生專業信息處理為：藥學(A1)，護理(A2)，影像(A3)…學生課前基礎測驗在第一次實驗課中完成評定，分別用優秀(B1)，良好(B2)，中等(B3)，合格(B4)，不合格(B5)表示。教師職稱分別用正高(C1)，副高(C2)，中級(C3)，初級(C4)表示。學生上課課時數離散化為：>=8周(D1)，7周(D2)，6周(D3)，5周(D4)，<=4周(D5)。實驗作業根據得分情況離散化為：90～100為優秀(E1)，80～89為良好(E2)，70～79為中等(E3)，60～69為合格(E4)，低于60分為不合格(E5)。計算機課程考試成績離散化為：90～100為優秀(F1)，80～89為良好(F2)，70～79為中等(F3)，60～69為合格(F4)，低于60分為不合格(F5)。經過處理的信息表如表3所示。

表3數據預處理、離散化后的信息表

數據分析過程采用SPSS Clementine12.0中文版，以Apriori算法為基礎，設置最小支持度為0.35，取最小置信度為0.65，使用加權支持度計算函數(支持度公式為Support(X→Y)=P(X,Y)P(I)。由于考試分數的特性，設定λ為6，其他權值為3進行挖掘分析，生成頻繁項集(也稱為項集，如果項集的相對支持度滿足預定義的最小支持度閾值，則稱之為頻繁項集)和關聯規則(關聯規則是形如X→Y的蘊涵式，其中X和Y分別稱為關聯規則的先導和后繼，關聯規則XY，存在支持度和信任度。)。共獲得387條頻繁項集，296條關聯規則。部分關聯規則見表4。

表4 關聯規則表

根據前面設置最小支持度為0.35和最小置信度為0.65的閾值，從表4中A2，C3->F3的關聯規則可以推導出專業和教師的職稱對于學生成績的并沒有什么直接影響，從B5，D5-> F5、B4，E2->F4、D4，E3->F5這些關聯規則中我們可以推導出最終的成績和前面數據存在著很強的關聯性，入學基礎差、授課時數少、實驗作業情況中等以下的學生的課程通過率較低；而入學基礎好、授課課時數8周以上、平時作業完成良好的學生，課程考試成績就較高。因此，應當適當增加課時，對課時少的專業中實驗作業成績較差的學生教師應在課堂上給予更多關注，以利于提高課程的考試成績。

3 結論

本文利用數據挖掘技術中的關聯規則分析對計算機課程的成績進行了分析，分析的結果和課程結束后學生成績的分布結構相類似。學生所在專業以及教師的職稱對課程成績影響不明顯，兩者之間基本上不存在符合設定閾值的關聯。而學生課前的基礎、授課時數、實驗作業和最終成績存在著很強的關聯性。其分析結果可以幫助學生發現自己的薄弱環節，對于以后學習提供針對性的幫助。同時對教師教學方法的改進和學院對課程學時分配也有一定的指導意義。

[1]趙艷．Apriori算法在高職院校課程關聯性分析中的應用研究[J]．河北企業，2015.(9):10-11．

[2]婁巖．醫學大數據挖掘與應用．北京：科學出版社，2015.47-48．

[3]曾斯．數據挖掘技術在計算機等級考試成績中的分析研究[J]．電腦知識與技術，2015，(13)：14-15.

Applicationofdatamininginachievementanalysisofcomputercourses

HETiexing,WANGWei

(Hangzhou Medical College,Hangzhou 310053,China)

1672-0024(2017)05-0004-04

和鐵行(1980-)，男，河南周口人，本科，講師。研究方向：計算機基礎教學與科研

杭州醫學院校級課題(編號：2013XZA05)