李毅


摘 要:試卷分析是教學工作中的重要部分。傳統試卷分析側重借助統計方法從多個統計維度進行整體分析,缺乏對試卷知識點間關聯關系的挖掘。本研究基于學生答題數據,運用Apriori算法分析了試卷中各知識點間的隱含關聯關系。所得到的結論在幫助教師了解各知識點間的相互影響、改進教學方法,引導學生進行自主學習等諸多方面具有積極的作用。
關鍵詞:關聯規則;試卷分析;Apriori算法
一、引言
目前學校教學管理中,對學生試卷分析側重于借助統計手段得到相關的試卷統計數據,比如:最高得分、最低得分、平均成績、難度系數等一系列指標,缺乏針對考題知識點的評價,對學生取得這些成績的知識層面的原因較難深入了解,對教學支持作用存在局限性。多數教師在試卷講評環節中,對錯誤率高的題目進行重點講解,再結合自身經驗進行擴展延伸,這會導致試卷講解過于主觀。如何利用成績數據理性分析學生知識點掌握情況,找出知識點間關聯,是廣大教師共同關心的問題。
Apriori算法是經典的關聯規則挖掘算法之一,能夠探究事物間的關聯關系,建立關聯規則。本文使用Apriori算法,依據學生答題數據,分析出了試卷中各題目對應知識點間的關聯性,從而指導教師合理地開展教學。
二、關聯規則算法
1. 關聯規則算法的基本概念
關聯規則挖掘方法由R.Agrawal等人在1993年提出,用此算法可對商店顧客的購物數據進行分析,基本思想如下:
設I={i1,i2,…,im}是二進制集合,其中元素稱為項(item)。項的集合稱為項集(itemset),包含k項的集合為k-項集。記 D 為交易(transaction)T 的集合,這里交易T 是項的集合,并且T I。設 X 是一個I 中項的集合,如果X T,那么稱交易 T 包含 X 。
關聯規則形如X→Y,其中X I,Y I,并且X∩Y=。規則X→Y在交易數據庫D中的支持度(support)為交易集當中,同時包含 X 與 Y 的交易數與全部交易數的比值,記為support(X→Y)。
support(X→Y)=
支持度(support)能夠反映 X 與 Y 在同一時間內出現的概率。如果二者在同一時間出現概率較小,代表二者關系不大,若二者同一時間出現概率較大,那么說明二者是相關的。
規則 X→Y 在交易集中的置信度(confidence)為同時包含 X 和 Y 的交易數與包含X 的交易數比值,記為confidence(X→Y)。
confidence(X→Y)=
通過置信度(confidence)我們能夠判斷關聯性的強弱,如果置信度較高,那么X與Y的關聯性很強。
挖掘特定交易集D的相關規則問題,就是產生那些支持度和置信度分別大于最小支持度和最小置信度的關聯規則。
計算頻繁項集是關聯規則挖掘的關鍵,主要有兩種算法:R.Agrawal提出的Apriori算法,與Jiawei Han提出的FP-growth算法。本文采用Apriori算法計算頻繁項集,并對知識點的關聯性進行分析。
2. Apriori算法步驟
步驟一:確定最小支持度與最小置信度。
步驟二:對事務集D進行掃描,分析事務中出現的項目,如果首次遇到該項目,那么加入候選集C1,并將對應的計數置為1;如果該項數據已加入C1,則將其計數值加上1得到了候選1-項集。掃描C1,對于計數小于最小支持度的數據項集進行刪除,得到頻繁項集 L1。
步驟三:對 Lk-1 和 Lk-1 進行連接生成 Lk,得到所有長度為k的候選k-項集 Ck 。
步驟四:對 Ck 進行剪枝,刪除所有(k-1)-子集不全包含在Lk-1中的 Ck 中的數據項集。
步驟五:掃描事務集D中的所有事務,如果它包含 Ck 中的候選數據項集c,則將c的計數加1(初始值為0)。掃描 Ck 刪除那些出現計數小于最小支持度的數據項集,得到頻繁項集 Lk 。
步驟六:重復步驟三到步驟五,直到 Lk 為空。
步驟七:對 L1 到 Lk 取并集最終即為頻繁項集L。
三、 Apriori算法在試卷分析中的應用研究
1. 數據的準備
本文以某中學初一年級上學期期末數學考試卷面成績為數據基礎,結合學科知識結構及教學主要知識點分布。首先,對試卷各試題所包含的知識點進行統計,如表1所示。然后,對學生題目的作答成績進行錄入,如表2所示。
2. 數據的清理
重點檢查數據缺失的情況,對于成績的缺失,通常采用錄入平均值的方式。對學生答題情況進行記錄,客觀題采用“0”和“1”來描述學生試題的正確與否,主觀題以得分率進行記錄。針對試卷知識點的關聯分析中,那些難度過大或過小的題目會導致分析結果中體現對這些題目的關聯性過強,影響分析結果。因此需計算各題目的難易度,將過于簡單和困難的題目排除。
3. 數據離散化處理
由于關聯分析只能對處于區間數據進行分析,需要對數據進行離散化處理,通過離散化處理后,連續的數值會被區域數值代替。得分率小于等于0.5量化為0,得分率大于0.5量化為1,如表3所示。
利用Apriori算法對形如表3所示的數據進行關聯規則挖掘。當最小支持度下限設為0.5,最小置信度下限設為0.7時,產生如表4的部分挖掘結果。
4. 計算結果分析
以下為得到的部分關聯規則:
規則1:一元一次方程的應用=>數軸
此規則的意思是:在一元一次方程的應用知識點得分較高的學生對包含數軸知識點的題目得分也會高。這表明考察數軸知識點的題目會結合一元一次方程應用的知識,教師在講解數軸時,注意帶領學生回顧一元一次方程解法的相關內容。
規則2:有理數的混合運算=>頻數直方圖、用樣本估計總體
此規則的意思是:解有理數混合運算題目得分較高的學生在解包含頻數直方圖和用樣本估計總體的題目得分也較高。這說明掌握有理數混合運算是解包含頻數直方圖和用樣本估計總體知識點的基礎。
四、小結
實踐證明將Apriori算法應用到試卷知識點分析中,能夠幫助教師更加客觀地評價學生知識掌握情況,為教師調整教學安排與教學方法提供參考,從而提升教學質量。
參考文獻:
[1]沈學珺.大數據對教育意味著什么[J].上海教育科研,2013(9):9-13.
[2]陳明選,許曉群,王玉家.基于教育測評數據分析的教學優化研究[J].中國電化教育,2018(5):80-89.
[3]Agrawal R,hnielinski T,Swami A.Mining Association Rules Between Sets of Items in Large Databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data,New York:ACM,1993:207.
[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules[C].In Proceeding of the 20th International Conference on Very Large Database,1994:487-498.
[5]Jiawei Han,Jian Pei,Yiwen Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record,2000,29(2).
[6]倪海兒,裘曉華,魏丹毅.試卷質量評估與分析系統的構建與實現[J].寧波大學學報(理工版),2016,29(3):118-122.