摘 要:在學生成績管理系統中,學生成績是一個重要的組成部分,體現了教師的教學水平以及學生的學習情況。如何合理利用這些成績數據,從中找出能夠影響成績高低的因素,對提高教學質量有著非常重要的作用。利用數據挖掘的關聯規則算法可以科學的分析出影響成績變化的主要因素。
關鍵詞:成績分析;數據挖掘;關聯規則
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-7712 (2013) 20-0000-01
隨著高職院校的不斷擴招,生源質量在下降,生源的數量也在逐步出現萎縮。在這種情況下,如何有效的利用現有的教學資源,改善教學質量,使人才的培養質量得到進一步的提高,在逆境中成長,是每一所高職院校面臨的重大挑戰。
目前各個高職院校的教務管理基本上都是采用基于數據庫的教務管理系統軟件。教務軟件在這么多年的應用中積累了大量的數據,學生的成績信息在教務軟件的數據庫中就大量的存在。一般情況下,成績數據僅僅只是作為一種備份數據存放于數據庫中,大部分只是進行簡單的查詢修改操作等,對于數據之間潛在的聯系,影響成績的因素等這些信息,我們卻無從得知,并沒有做到充分的利用這些數據。
利用數據挖掘技術,我們可以從這些成績數據中挖掘出可以指導我們教學的,有意義的信息,主要表現在:(1)可以全面地認識學生的學習狀況。對學生學習成績的全面分析,不僅能夠獲得學生學習的整體情況,還可以了解學生對具體課程內容的掌握情況。(2)可以分析課程之間的相關性。分析各個專業的核心課程,可以了解學生對這些課程的理解情況,以及學生在這些課程中的得分情況,找出課程之間的聯系,還可以對排課情況進行指導。(3)可以分析入學成績對在校學習情況的影響。跟蹤學生在本專業的學習情況,結合入學的成績,找出入學成績對專業相關課程的影響情況,從而指導學生的專業學習。
一、數據挖掘的概念與技術
(一)什么是數據挖掘。數據挖掘是一門涉及面很廣的交叉學科,受到了各種不同領域的專家學者的關注,關于數據挖掘的定義也有非常多種,但歸納起來數據挖掘主要就是從大量的沒有經過處理的數據中發現未知的有價值的規律的過程。
(二)數據挖掘的過程。數據挖掘的過程一般由五個階段組成:(1)定義問題,明確數據挖掘的目的是什么。(2)數據準備,包括要選擇什么樣的數據以及對選擇到的數據如何進行預處理等。(3)數據挖掘,根據數據的特點,選擇合適的數據挖掘算法,在已經處理過的數據上進行數據挖掘。(4)結果分析,對數據挖掘的結果進行合理的解釋,給出能夠被用戶所接受的知識。(5)知識運用,將數據挖掘出來的結果應用到相應的領域中。
數據挖掘的過程并不是一個簡單的按流程完成任務的過程,在數據挖掘的過程中往往會出現循環往復,精益求精的過程。例如,在任務過程中發現之前選擇的數據不是很好或者對數據的預處理沒有達到我們的效果,那么這個時候我們就需要重新對數據進行選擇或者重新對數據進行處理,直到達到我們的效果。
(三)常用的數據挖掘方法。數據挖掘技術是一門交叉學科,充分結合了人工智能與機器學習的特點,因此如聚類分析,決策樹,統計分析等在機器學習,模式識別,人工智能等這些領域中的一些常規技術經過改進,大部分都可以作為數據挖掘的方法進行使用。模糊集方法,關聯規則方法,遺傳算法,神經網絡方法,覆蓋正例排斥反例方法,決策樹方法,統計分析方法和粗集理論方法等都是數據挖掘技術中常用的方法。
二、成績分析中的數據挖掘方法
成績分析中主要是采用關聯規則算法作為數據挖掘的方法。關聯是指兩個或兩個以上的事務間存在著某種的規律性,數據關聯是數據庫中普遍存在的可被發現且重要的知識。關聯規則算法就是從大量的數據中找出隱藏在其中的關聯數據的一種算法。把關聯規則算法應用于成績分析中,主要是要從這些成績數據中找出他們之間存在的關聯關系,找出影響成績變化的因素,分析入學成績對在校成績的影響主要體現在哪些方面,以及針對試卷中的得分情況,對學生容易失分的知識點進行總結,還能夠得出課程之間的相關性分析。
以下是與關聯規則挖掘中需要特別注意的幾個概念:(1)關聯規則。關聯規則是表示成X→Y的一個蘊含式,其含義為如果X在一個事務中出現,那么Y肯定也會在出現在同一個事務中,X就稱之為條件,而Y就為這個規則中的結果。(2)置信度和支持度。X→Y的置信度指的是同時包含X和Y的事務數與只包含X的事務數的個數的比值。X→Y的支持度指的是同時包含X和Y的事務數與事務總數的比值。置信度與支持度主要是為了驗證規則的可靠性與可用性。(3)最小置信度和最小支持度。最小置信度和最小支持度是關聯規則中依靠的兩個主要的評估準則。這兩個數值都是由用戶定義的。最小置信度表示了關聯規則中必須滿足的最低可靠度,。最小支持度則是表示數據集在統計過程中必須滿足的一個最低程度。而支持度只要比最小支持度大的非空集合我們都稱之為頻繁項集。(4)強關聯規則。強關聯規則就是同時滿足最小置信度和最小支持度的規則。
三、關聯規則挖掘過程
利用關聯規則進行數據挖掘的過程從本質來上說是找尋強關聯規則的過程,主要通過以下兩個階段來實現:(1)分析識別數據庫中的頻繁項集。在數據挖掘之前,先定義出最小支持度,再根據這個最小支持度,從原始數據集合中找出支持度不小于最小支持度的項集,即頻繁項集。(2)強關聯規則的產生。利用(1)中所產生的頻繁項集,來產生規則,這個規則必需滿足的條件是其置信度要大于或者等于最小置信度
四、結語
成績作為現代高職院校管理系統的一個重要組成部分,要充分利用起來,才能更好的指導教學,改善教學質量,提高人才培養的水平,提升學校聲譽。通過對海量的成績數據進行數據挖掘,可以更好的獲得相關數據之間的關聯關系,提高了成績分析的效率,保證了成績分析的科學性。
參考文獻:
[1]楊曉,張迎新.Apriori算法在消費市場價格分析中的研究與應用[J].北京工商大學學報(自然科學版),2009(3).
[2]唐新宇,陳曉明.最小支持度在教學質量評價系統中的數據挖掘應用[J].計算機與現代化,2012(8).
[3]韓家煒,堪博.數據挖掘概念與技術[M].北京:機械工業出版社,2007.
[作者簡介]吳梨梨(1983-),女,福建福州人,福州英華職業學院計算機系講師,福州大學在讀工程碩士,主要從事數據挖掘方面的研究。
[基金項目]2012年福建省教育廳A類社科研究項目,項目名稱:基于數據挖掘的高職院校學生培養模式評價與分析研究,項目編號:JA12499S。