鄧郁旭
( 銅仁學院 物理與電子科學系,貴州 銅仁 554300 )
數據挖掘在計算機教學中的應用
鄧郁旭
( 銅仁學院 物理與電子科學系,貴州 銅仁 554300 )
利用數據挖掘技術對在線答題系統中的錯題信息進行數據挖掘,從中發現有用的關聯規則,進而指導教師查找教學漏洞,提高教學質量。實驗證明提出的方法能有效找到各錯題之間的關聯信息。
關聯規則挖掘; 計算機教學; 在線答題系統
計算機教學存在知識點內容分散,但各知識點之間又存在著緊密的相互依賴關系的現象。學習是一個循序漸進的過程,各知識點之間存在關聯和前后順序關系。某個知識點未能掌握會影響后續幾個知識點的學習。隨著信息化在高校中的深入,不少高校已經開始使用網上教學系統。教師通過該系統向學生們發放試題,學生在線進行答題并提交答案。教師利用該系統可以查看作業的完成情況和錯題分布。雖然可以獲得有關錯題分布的詳細數據,但教師只能了解錯誤率高的題目,卻不能通過數據發現各種錯題之間潛在的聯系。
數據挖掘是對大量的、無規律的數據進行分析和處理,從中發現人們感興趣的、有潛在價值的規律,找到隱藏的模式。[1]其中的關聯規則挖掘可以根據事件出現的歷史信息進行挖掘,從而發現不同事物之間的潛在規律。網上教學系統利用關聯規則對錯題數據進行挖掘可以發現錯題之間潛在的聯系,從而找到學生中普遍存在的知識難點,進而指導教師彌補教學漏洞,提升教學質量。
若兩個或多個變量取值之間存在某種規律性稱為關聯。[2]一組數據中,各個字段之間存在著各種各樣的關系,這些關系就隱含在數據庫所包含的數據中,關聯規則挖掘的目的是找出這些隱藏的關聯。
關聯規則也稱為關聯模式,是形如X→Y的邏輯蘊含式,其中X和Y是關于數據庫中屬性取值的判斷。例如有這樣一條關聯規則:{尿布,牙刷}→{啤酒}(30%,2%),其含義是購買尿布和牙刷的顧客還將購買啤酒,30%和2%分別是該規則的置信度和支持度,支持度2%表示分析的全部事務中有2%同時購買了尿布、牙刷和啤酒,置信度 30%意味著購買尿布和牙刷的顧客中有30%的顧客也購買了啤酒。

則A→B稱為T中的強關聯規則。關聯規則挖掘就是在事務集合中挖掘強關聯規則。典型算法是Apriori算法。
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
該算法的基本思想是[3]:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然后使用第 1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里采用的是中規則的定義。一旦這些規則被生成,那么只有那些大于用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞推的方法。

從以往的教學經驗來看,兩道或多道出錯率高的題目往往具有某種客觀的聯系。對某道做錯的題目中知識點掌握得不好,往往也容易做錯相關知識點的其他題目。
學生通過網上答題系統進行聯機答題,將答案提交到系統。教師利用該系統對學生的答案進行評判,系統自動將錯題的題號和學生的學號記錄到系統數據庫中。從而在錯題數據庫中,每一個學生可以看成是一個事務,每一個事務包含該學生做錯的所有錯題題號。對錯題數據庫進行預處理后,可以方便地使用Apriori方法進行關聯規則挖掘,從而發現錯題之間的聯系,幫助教師找到出錯根源,進而及時糾正教學漏洞、調整教學方法,提高教學質量。
在利用Apriori方法進行關聯規則挖掘之前必須進行錯題數據的預處理。
(1)錯題信息整理
為方便通過Apriori方法進行關聯規則挖掘,需要將錯題信息采集到數據庫的表中。我們將錯題信息記錄到錯題表中,該表包含兩個屬性,分別為學生學號和錯題編號,每一個學生有唯一的學號,每一個題目有唯一的錯題編號,主鍵為全碼。
(2)大項集的搜索
利用Apriori算法和事先設定的最小支持數找到大項集。
(3)利用大項集產生關聯規則
對于每一個大項集L,檢查L的每個非空子集X,生成規則“X→L?X ”,它的支持度為Pr(L),置信度為Pr(L)/Pr(X ),只有那些不小于用戶給定的置信閾值的規則才被保留下來。根據大項集以及設定的支持度與置信度得到關聯規則。
本文利用某大學 2009級計算機專業學生課程的網上作業系統的答案數據作為實驗的數據源。該數據源中包含了該專業32名學生2個月的作業答題信息,記錄了每一個學生的每一個錯題。我們將該數據源進行初步的信息抽取,得到的錯題信息表,見表1。
通過Apriori算法,以具有相同學號的記錄為一個事務,從錯題信息表中計算大項集,計算結果見表2。

表1 錯題信息表

表2 大項集
通過表 2中的大項集和設定的置信閾值,得到了13條規則,見表3。

表3 關聯規則
對于表中的形如{T1,T5}→ T13的規則,該規則的支持度和置信度分別為35%和95%,這說明有70%的同學同時做錯了T1、T5和T13這三道題,其中有95%的做錯了T1和T5的同學同時也做錯了T13,這說明T1和T5中涉及的知識點沒有掌握好而導致T13出錯。教師應該以這些挖掘出的關聯規則為依據,找出導致出錯率高的教學盲點,并及時彌補,以提高教學質量。
教學中存在著大量可以用來提高教學質量的數據,數據挖掘技術可以找到這些數據之間隱藏的信息,從而發現某些對提高教學質量很有幫助的潛在規則。本文利用關聯規則挖掘技術對在線答題系統中的錯題信息進行了數據挖掘,得出了一些錯題之間相互存在的因果關系,幫助教師及時發現教學漏洞,提高教學質量。關聯規則挖掘中的置信度和支持度的設定對挖掘效果的影響很大,如果設置得過小,會產生大量的缺乏實際意義的規則;反之,如果設置得過大,又無法發現一些有用的規則。隨著實際應用的發展,置信度和支持度的設定還需要進一步探討。
[1] 史忠植.知識發現[M].北京:清華大學出版社,2002.
[2] Berry M J A,Linoff G S. Mastering Data Mining[M].New York:John Wiley and Sons Inc,2000.
[3] 陳安,陳寧,周龍驤.數據挖掘技術及應用(第2版)[M].北京:科學出版社,2007:61-65.
The Application of Data Mining in Computer Teaching
DENG Yu-xu
( Department of Physics and Electronic Science, Tongren University; Tongren, Guizhou 554300 China )
By using data mining technique to excavate information of wrong questions in the online answering system, it aims at discovering useful relevant rules to guide teachers to find teaching flaws and improve their teaching quality. Experiments show that the proposed methods can effectively find the relevant information among wrong questions.
relevant rules mining;computer teaching;online answering system
(責任編輯 王婷婷)
TP311.131 < class="emphasis_bold">文獻標識碼:A
A
1673-9639 (2011) 03-0142-03
2010-05-03
鄧郁旭(1978-),女,貴州銅仁人,計算機專業講師,研究方向:計算機應用。