

















[摘 要] 機器學習可幫助教師挖掘試卷中知識點之間的關系,檢測學生知識點掌握情況,為評價反饋提供支持。使用深度學習Apriori算法,通過模擬研究和實證研究,針對具有不同知識點結構的試卷進行挖掘分析。模擬研究發現:Apriori算法能針對知識點屬性復雜的試題進行知識點間關聯規則的挖掘,準確率較高;隨著樣本量的增加,挖掘的準確率增加。實證研究發現:Apriori算法可對中小學的語文、數學、小學科學、中學物理等學科的試卷進行知識點間關聯規則挖掘,但學科間挖掘結果有差異。經過粒度優化、刪除基礎知識點后,Apriori算法可較好挖掘中小學語文、數學剩余知識點間的關聯關系,但對跨學科的知識點關系挖掘有待提升。
[關鍵詞] 知識關聯規則;Apriori算法;學科;跨學科;不同知識點結構
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2024)05—009—015
一、問題緣起
測試有助于評價學生對學科的某一單元、某個學期、某個學年知識點的掌握情況。教師結合測試結果判斷學生知識點缺失情況,針對學生欠缺的知識點進行專題彌補,能夠有效提升教學效率。
已有研究利用數據挖掘的方式對試卷內在知識結構進行挖掘,常見算法包括決策樹、Apriori算法、聚類算法等。Bello等人通過分類算法和聚類算法(NB、KNN、C4.5、SVM、K-means)分析試卷,從海量的學習數據里面挖掘出潛藏在成績背后的知識結構、學生學習結果產出的原因,從而對教學提出建議[1]。Kahya采用新的K-means算法分析學生測試數據,找出學生某門科目學習的內在知識點關聯[2]。Tsytsarau M.等人則引入Bayesian 理論,提升學生成績挖掘的準確度[3]。
在我國,有研究者利用機器學習的算法對試卷中的內在知識關聯進行挖掘,并將得到的結果投入到教學應用中。如2016年,劉愛萍采用KNN算法,訓練預測因子,提高了數據挖掘的準確度和預測速度[4]。馬瑩等人基于知識關聯規則和聚類算法,挖掘影響學生成績的真實原因[5]。
在知識點關聯的挖掘研究中,Apriori算法是一種常見的算法,用來建立知識點間的關聯規則。早期,學者們基于分而治之的思想,采用蟻群算法,對Apriori算法結構進行優化[6]。2010年,有學者使用Apriori算法挖掘網絡平臺的學習成績[7]。2012年,白彥輝使用Apriori算法,對試題上的重點知識點、難點知識點進行了數據劃分,將每個知識點下的分數都劃分為三或四個等級,拓寬了知識點粒度,挖掘到學生的薄弱知識點[8]。2014年,黃藝坤使用MI-Apriori算法構建高頻集,進行學生群體劃分,通過矩陣壓縮建立項集索引表,挖掘出教學重難點,解決了自動組卷中的教學評價問題[9]。李志軍等人利用Apriori算法分析學生成績,找出了課程之間的隱含的聯系[10]。2018年,李毅使用Apriori算法,依據學生答題數據,分析出試卷中各題目對應知識點間的關聯性[11]。又有研究者針對2017年常州市某中學七年級的6套題目,根據知識點掌握程度,通過學生作答,挖掘兩者之間的深層次的關聯[12]。2017年,袁路妍、李鋒利用改進的關聯規則 Apriori 算法,減少無效比較的次數[13]。2018年,李毅在細致劃分數學試卷考查知識點的基礎上,運用Apriori算法分析了試卷中各知識點間的隱含關聯關系[11]。已有研究的算法均基于頻繁項集的查找,每運行一次算法就要遍歷一次數據,生成所有的項集集合,增加了計算的功耗,計算效率較低。自2020年,有學者通過對算法進行性能分析,在生成的集合中剔除非頻繁集合項,改善挖掘效率,提升Apriori算法的支持度和可信度[14]。
前人的學術成果為后續研究打下了堅實的基礎。但是,已有研究只針對單一學科,且沒有比較不同類型的知識結構情況的挖掘效果,缺乏大數據集的實證檢驗。因此,本研究開展模擬研究和實證研究,試圖探究Apriori算法對擁有不同知識點關聯的試卷挖掘的適用性。
二、Apriori算法在試卷知識點關聯中的應用研究
Apriori算法是關聯規則挖掘算法中最經典的算法。20世紀60年代,學者Hájek、Havel和Chytil提出了算法思想[15]。20世紀90年代,Agrawal 等人改善了算法。學者們對單層、多層、基于圖等關聯規則進行挖掘,實現了算法的具體操作。Apriori算法從大數據集中挖掘頻繁項集,找出關聯規則。
(一)Apriori算法的指標
Apriori算法有三個重要的判斷指標:支持度、置信度、提升度。
支持度(support)是一個用來表明頻繁項在整個項集中(D)出現的頻繁程度的指標。計算公式為:
Support(X)=count(X)/count(D) (1)
關聯規則支持度指的是X=gt;Y的支持度,等于集合X∪Y的支持度。表示集合X和集合Y中的項在全部的數據集中出現的概率。計算公式為:
Support(X=gt;Y)=Support(X∪Y)=count(X∪Y)count(D)" " " " " " (2)
關聯規則置信度(confidence)表明在X集合出現的情況下,Y集合出現的概率的大小,等于集合X∪Y的支持度和集合X的支持度的比例,從概率論的意義來說就是P(X|Y)=P(XY)/P(Y)。計算公式為:
Confidence(X=gt;Y)=Support(X∪Y)/Support(X)" " " (3)
關聯規則提升度(lift)可以用來判斷一個題項對另一個題項提升的程度。主要有兩個數值需要注意,一個是liftgt;1,表明這樣的關聯是存在意義的,也就是說一個題項跟另一個題項之間是存在正相關關系的。但如果要尋找有用的關聯,則需要liftgt;3。用概率論的思想來解釋lift,為P(X|Y)/P(Y)=(P(XY)/P(Y))/P(Y)。計算公式為:
lift(X=gt;Y)=confidence(X=gt;Y)/Support(X)" (4)
一般而言,支持度和置信度的值越大,關聯規則的可靠性越高。而提升度越大,表明兩者關聯關系越緊密。
(二)Apriori算法的運行
Apriori算法運行過程如圖1所示:
三、研究思路
(一)研究問題
第一,基于模擬研究,Apriori算法在不同樣本量條件下,針對擁有不同類型的知識點關聯規則的試卷的適用性如何?
第二,基于實證數據,Apriori算法在對擁有不同知識點關聯規則的語文、數學、小學科學、中學物理等試卷的適用性如何?
(二)研究步驟
研究一:基于認知診斷理論下的DINA模型,模擬在不同的樣本量、知識點屬性結構及個數條件下學生的作答反應,使用Apriori算法對知識點關聯規則及知識點間屬性層次結構進行驗證,判斷Apriori算法的準確度。
研究二:基于實證研究的數據,針對知識點關聯程度不同的語文、數學和科學試卷,Apriori算法推斷的知識關聯關系存在的差異,再針對“科學”學科在不同年級間的差異,進行詳細分析和比較。
本研究使用R軟件中的arules包對數據進行分析與挖掘。
首先需要對數據運行和清理,并將其轉化為Apriori算法可識別和運行的數據形式,生成試卷內知識點間關聯關系,并進行可視化處理。挖掘過程如圖2所示:
第一步:異常數據或特殊作答模式清理。查看數據集相關的統計匯總信息,通過計算項目答對率并繪制各題答對率分布圖,使用arules包中的sample函數對異常數據或特殊模式進行識別和清理,獲得可進一步分析關聯規則的挖掘庫。
第二步:對數據庫進行知識點關聯規則的挖掘。Apriori算法arules包中的apriori()函數默認參數值設定為支持度(support)=0.1,置信度(confidence)=0.8。為了避免參數設置不當而產生大量不可靠的規則,在實際數據分析中對支持度和置信度的參數進行適當調整,以便能夠挖掘到合理數量并且有意義的關聯規則。經上述過程可得到知識點的關聯規則,通常將規則劃分為三大類:
第一種有效規則(actionable),是指規則鮮明清晰、有價值;
第二種基本規則(trivial),是指規則是顯而易見的,直觀明確但價值不大;
第三種難以解釋規則(inexplicable),是指一些難以解釋的規則,需要進行額外的研究來判定。
同時,這種關聯規則可以實現可視化。如圖3所示,x軸代表的是支持度,y軸代表的是置信度。其中每一個關聯規則顏色的深淺,是由支持度和置信度這兩個度量值所對應的參數值和提升度lift的值來決定的。顏色越深表明提升度比較高,越淺表明有相關但并非強有效的規則。當知識點屬性過多的時候,支持度會比較低,關聯規則的挖掘是交互式的,需要不斷地檢查、優化。
第三步:進一步優化知識點關聯規則的挖掘。如果知識點關聯規則挖掘得不夠好,可以從知識點粒度屬性上進行優化,刪除一些簡單的知識點,重新挖掘關聯規則,得到有意義的關聯信息。
四、研究結果
(一)模擬研究
1. 研究問題
基于模擬研究,對比Apriori算法針對不同樣本量、不同知識點關聯規則的試卷的適用性如何?
研究方法如下:
第一步,模擬數據。根據認知診斷理論DINA模型(Deterministic Inputs,Noisy“and”Gate Model)(JunKer amp; Sijtsma,2001),構建單一知識點和復雜知識點的Q矩陣,使用R package使CDM中的DINA模型生成學生作答反應。
根據DINA模型的項目反應函數如下:
P(Yij=1|αk)=(1?si)[ηij]gi[1-ηij] (5)
其中,[ηij=k=1Kαqjkik]" (6)
研究重點關注兩個條件下,Apriori算法對試卷中知識規則挖掘的適用性。第一是知識點關聯的復雜程度,包括了一個單一知識點和兩個復雜知識點類型。第二是學生樣本數的多少,樣本數設置為50、500、1000、5000、10000等人數的條件。題目數設定為5道題和5個屬性,樣本參數中的猜測參數和失誤參數范圍為(0.1,0.3)。
具體說來:
(1)單一知識點是指知識點之間相互獨立,且知識點間為平行關系,也就是每個知識點的掌握與否并不影響其他知識點的掌握。那么,在驗證之前預先判定,知識點間無關聯,或者關聯強度不大,知識點關聯規則可能會出現無序狀態。圖4為第一種情況下的知識點屬性Q矩陣列表。
(2)復雜知識點的Q矩陣
復雜知識點有兩種子類。
第一種復雜知識點的Q矩陣見圖5。基于圖5,可能挖掘出來的知識點關聯規則包括:A4—gt;A1、A2;A5—gt;A4、A2、A1、A3。例如若要掌握知識點A4,需要先掌握知識點A1和A2,即不同知識點之間存在層級關系。
第二種復雜知識點屬性Q矩陣見圖6。基于圖6,可能挖掘出來的知識點關聯規則包括:A4—gt;A1、A2、A3;A5—gt;A4、A1、A2、A3。
基于上述知識點結構,分析在不同的樣本量下知識點關聯規則的規律。
第二步,利用Apriori算法進行探索,分析其生成的知識點關聯規則與假設是否一致,從而判斷算法的適用性。
2.研究結果
(1)單一知識點和復雜知識點條件下,知識關聯規則散點圖對比
研究對比了不同樣本量情況下Apriori算法在單一知識點和復雜知識點條件下的挖掘效果,通過散點圖可以直接觀察到知識點間的關聯關系。
由表1可知:
第一,對于單一知識點來說,單一知識點的散點分布較多,Apriori算法所生成的知識點關聯沒有規律;且隨著樣本數的增加,單一知識點的知識點之內產生了許多虛假的關聯。
第二,對于復雜知識點來說,隨著樣本量的增加,Apriori算法所估計出來的知識點間關聯規則越來越具有規律性。其中提升度(lift)值大于1的關聯規則較多。
(2)單一知識點和復雜知識點條件下知識關聯規則對比
研究發現,隨著樣本量的變化,單一知識點間沒有出現固定的關聯規則,表明知識點間不存在有意義的關聯;而隨著樣本量增加,復雜知識點的關聯規則呈現出穩定性和規律性。表2是不同模擬條件下,算法生成的知識關聯規則。
第一,在單一知識點條件下,知識關聯規則產生于support=0.2,confidence=0.6的參數條件。無論樣本量多少,Apriori算法所挖掘出來的知識點關聯規則均未呈現固定的結構。這表明,Apriori算法無法針對存在平行關系的知識點間挖掘出穩定的關聯結構。
第二,在復雜知識點條件下,知識關聯規則產生于support=0.1,confidence=0.4的參數條件下。如對于復雜知識點屬性結構一來說,知識關聯規則包括item5=gt;item1,item2,item3,item4=gt;item1,item2,item3。即若學生掌握了題目4或題目5的知識點,則大概率是已掌握了題目1、2、3所考查的知識點。這符合在數據模擬的時候對于題目之間關系的架構。同時,隨著樣本量的增多,Apriori算法進行知識點關聯規則挖掘的準確度也會增加。
(3)單一知識點和復雜知識點條件下知識關聯規則可視化對比
根據以上規則進行規則的可視化。以下是不同類型知識點生成的強關聯規則可視化:
在單一知識點條件下,不同樣本量下規則出現了無序的變化。而在復雜知識點條件下,屬性層級結構一和二的關聯規則可視化圖顯示,隨著樣本量增加,規則趨于穩定結構。
關于圓圈顏色深淺lift和圓圈support大小:顏色越深,說前因子集對后因子的提升力越強,影響程度越大;圓圈越大,表明前因子集和后因子集共同出現概率越高,關聯越強。基于模擬數據,屬性層級結構一和二結論是相同的,同樣item4和item5之間的關聯性較弱,但相較知識點層級結構一,層級結構二生成的關聯規則會有細微差別,代表知識點屬性層級結構的差別會帶來知識點關聯規則的差別。兩項研究均表明,Apriori算法可以驗證知識點關聯結構。
(二)實證研究
1. 研究問題
基于實證數據,對比Apriori算法對擁有不同知識點關聯規則的不同年級、不同學科(語文、數學、小學科學和中學物理等)的試卷的適用性如何?
2. 研究方法
第一步,利用算法對試卷進行知識關聯分析。
第二步,為了判斷知識關聯的準確性,經過與學科專家及一線教師的討論,對試題的層級結構和知識點屬性進行標定。
對某市六年級和九年級共計14600余名學生的教育質量監測評價試卷作答數據進行知識點關聯關系的研究。包括每個年級的語文、數學、科學(或物理)。其中,試題僅保留了客觀題,刪除了主觀題。并且對客觀題得分進行了二級計分轉換處理,以保證算法的可實施,提高結果的準確度。
3. 研究結果
(1)不同學科題目的掌握程度的描述性分析
圖7為該批學生對各部分知識點的掌握情況,即每道題目的正確作答概率。
可以發現,得分率較高的普遍是基礎知識點,知識點難度較低;得分率中等或較低的則是屬于同一層次類型的復雜知識點,知識點屬性層級較高,難度較大。
(2)不同學科知識點關聯規則的可視化展示
針對上述結果,采用可視化方式進行展示,可以更加直觀地得到學科知識點間的關聯關系。
散點圖顯示:
第一,不同學科的知識關聯規則存在差異。語文和數學學科所生成的知識關聯規則比較緊密,科學相對來說則比較分散。語文學科大部分規則的支持度在0.6以上,置信度在0.8以上;數學學科大部分規則的支持度在0.4以上;科學學科大部分規則的支持度在0.2以上。語文學科知識點間關聯性最強,數學次之,科學最低。
第二,不同年級的知識關聯規則存在差異。如小學科學和中學物理相比,在相似的支持度和置信度的條件下,中學物理的提升度大于1.6,而小學科學的提升度lift在1.04左右,說明中學物理知識點間生成了強有效的關聯規則。這是由于小學科學傾向于描述知識點,知識點偏基礎性,結構單一,知識點間呈平行結構;中學物理則要求較多定量分析、技能掌握、邏輯判別,知識點間環環相扣,緊密相連。
(3)知識點關聯規則挖掘優化分析
① 基于粒度優化分析的知識點關聯規則挖掘
為了深入挖掘知識關聯規則,基于粒度優化再次分析,通過刪除基礎知識點,找尋更加有意義的知識點關聯規則。研究發現,在高粒度的情況下,不同學科之間剩余知識點間的關聯狀況有所變化。
第一,在高粒度情況下,語文和數學學科的知識點關聯規則挖掘比較符合客觀認知,但是科學和物理的知識點關聯沒有語文和數學的強。
對小學語文學科來說,有一條知識規則,始終會影響其他知識點間的關聯,例如小學語文的第19個知識點。通過分析試卷發現,這個知識點需要學生調動日常生活背景進行推論。由表4可見,在沒有任何知識點與它產生關聯的情況下,support=0.9,confidence=0.9,lift=1;所以這是一條沒有意義的關聯項,應當將之刪除。與之關聯度較高的第9、27、24、28知識點均是基礎知識點。對于中學語文知識點結構,13、21、12、14、25知識點均為基礎知識點;對于數學學科來說,小學數學試卷中1、4、5、6知識點偏基礎內容,中學數學試卷1(1)、1(2)、2(7)題目涵蓋知識點難度較低。可見,Apriori算法能夠對不同難度層級的知識點進行明顯區分。中小學的語文、數學學科具有相似的知識點粒度分布狀況。但是,科學試卷刪除了基礎知識之后,其關聯規則變得非常奇怪。
第二,在高粒度情況下,不同年級的知識點關聯也存在明顯的差異。
科學在小學段和中學段的關聯有所不同。對小學科學試卷知識點進行分析發現,題目1(1)、1(2)、1(6)屬于基礎知識點,分別考查小學科學三年級下冊“動物的生命周期”、五年級上冊“種子發芽”、四年級下冊“食物”單元的科學概念,而食物的加熱這一科學概念又與我們的日常生活息息相關,所以體現了很高的支持度和關聯性。基于這一特性,它與其他知識點間頻繁產生關聯關系不能直接認定為與之相關的知識點間的關聯價值。同樣的,對中學物理來說,1(1)和2(1)分別考查沸騰現象和大氣壓強,沸騰現象雖然對于大氣、密度計算有知識規則高相關,但是,這個現象經過深入分析發現,沸騰、大氣壓強的答對率很高,因此它對所有題目都會有貢獻;除此之外,這個沸騰現象與大氣壓一樣,都是需要記憶的。
② 在細粒度條件下優化知識點關聯挖掘
為了找尋有意義的知識點關聯規則,在細粒度情況下研究不同學科知識點屬性的關聯。這里采用了關聯規則的可視化圖,其內容是與上圖的關聯規則對應的。
第一,細粒度優化后,科學學科出現了更多知識規則,但對語文、數學學科無太大改善。
在細粒度情況下,科學知識點關聯規則挖掘得到了優化,這可能是因為科學——單一知識點的結構居多,而物理作為一門相對成熟的學科,知識點結構具有較強的屬性層級關系,所以對科學學科來講是有一定程度的改善的。
第二,在細粒度情況下,不同年級的科學學科也存在很大差異。
通過降低支持度,除去頻繁出現的知識點,可以觀察到剩余知識點結構間有價值的信息。在細粒度下,科學學科間差異性依舊顯著。圓圈顏色深淺,即提升度(lift),以及圓圈大小,即支持度(support),體現了關系差異。顏色越深,說前因子集對后因子的提升力越強,影響程度越大;圓圈越大,表明前因子集和后因子集共同出現概率越高,關聯越強。而除去基礎知識后,中學物理知識點關聯強度明顯高于小學科學。
具體舉例來看,1(5)題考查了血液流動知識點,1(8)考查了沉和浮知識點,1(14)考查空氣壓縮這一知識點,與1(15)題考查的地球的運動知識點間形成了正相關,Lift=1.3。但是單從知識點字面意思來看,這些知識點間并不能構成理論意義上的強相關,小學科學知識點分布結構松散,這些關聯其實是偶然的。而中學物理則可發現知識點屬性可解釋的相關。例如,3(5)考查密度計算,3(4)考查物體質量的觀測,在物理學科中,密度計算就等于質量除以體積。相較于小學科學,中學階段知識點前后繼承性更強。這種關聯規則的發現,能夠為教師編制試卷,提升學生知識點掌握情況提供新的思路。科學知識點相較于其他兩門學科,學生知識點掌握分布差異性較大。
③ 基于提升度參數開展優化知識點關聯挖掘
為了進一步區分有用關聯規則和無用關聯規則,針對兩個年級三門學科形成的知識點關聯規則中liftgt;3的有用關聯規則進行挖掘。
想找出有用關聯規則,需要降低支持度和置信度,挖掘出不頻繁出現的知識點中所隱藏的、不易發現,但強有效的關聯規則。
從表7可見:語文學科和數學學科知識點提升度(lift)沒有科學學科高,但語文和數學知識點間關聯程度高,整張試卷知識點間的共線性很強。兩門學科存在許多知識點間得分的關聯,知識點掌握頻度也很高,所以強規則下的強有效關聯規則較少。而小學科學很多知識點間存在割裂現象,所以知識點掌握概率有高有低,低頻度知識點與其他知識點間可以發現一些平時發現不到的規則。中學物理知識點相對于小學科學知識點強度更高、范圍更廣,存在更有效的關聯。中學知識點強有效關聯規則生成參數中lift均大于3,而小學科學的均大于2,但是科學學科比語文和數學的lift參數值均高,從參數上體現了知識點關聯結構的分布。
五、結論
基于Apriori算法,開展模擬和實證研究,探索Apriori算法在挖掘試卷知識關聯規則的可行性。研究發現:
第一,在模擬研究中,Apriori算法能夠很好地驗證復雜知識的關聯關系。而單一知識點關聯規則的判斷,隨著樣本量增加,規則越來越呈現出不規律性。這說明,Apriori算法無法甄別出單一知識點所具有的點狀的知識規則。
第二,在實證研究中,Apriori算法可以得到不同學科間的知識點關聯規則,但科學學科的知識點關聯規則與語文、數學學科之間的規則具有比較明顯差異。語文和數學的關聯比較多,說明兩科試卷內部的知識點關聯的邏輯性和整合性較強;而小學科學知識點間結構性不強,更多考查基礎知識點,類似于單一知識點的結構,為此,Apriori算法無法很好地實現小學科學的知識點關聯規則的挖掘。
第三,通過粒度優化、更新提升度參數之后,Apriori算法可得到更加有意義的關聯,但對不同學科而言,優化算法的效果不同。對于知識關聯較強的語文、數學學科而言,優化無太大改善,但對科學學科而言,其知識點關聯規則的挖掘結果改善較大。
本研究還有很多不足。例如,模擬研究尚未考慮到更多復雜的知識點關聯的狀態,也沒有針對有關題目的答對率情況進行設置。又如,實證研究尚未能考慮到更多的學科,只能關注到每學科一套試卷,尚未能考慮到更多的學科范疇。未來,可以在答對率、樣本量等方面做出更多的嘗試。
參考文獻:
[1] Bello-Orgaz G,Menendez H,Okazaki S,et al. Combining Social-Based Data Mining Techniques to Extract Collective Trends from Twitter [J]. Malaysian Journal of Computer Science,2014,27(2):95-111.
[2] Yilmaz C A,Kahya Y P. Multi-channel Classification of Respiratory Sounds [C] // International Conference of the IEEE Engineering in Medicine amp; Biology Society. IEEE,2016.
[3] Tsytsarau M,Palpanas T. Survey on Mining Subjective Data on the Web [J]. Data Mining and Knowledge Discovery,2012,24(3):478-514.
[4] 劉愛萍.數據挖掘技術在高職院校學生成績分析中的應用[D].華僑大學,2016.
[5] 馬瑩,趙輝,崔巖.基于Hadoop平臺的改進KNN分類算法并行化處理[J].長春工業大學學報(自然科學版),2018,39(5):6.
[6] 宋潔,劉華,譚慶,等.蟻群算法在最大頻繁項集挖掘問題中的應用[J].計算機工程與設計,2008,(20):5290-5292.DOI:10.16208/j.issn1000-7024.2008.20.031.
[7] 朱艷麗,高國紅.Apriori算法研究及其在學生成績分析中的應用[J].福建電腦,2010,(1):147.
[8] 白彥輝.關聯規則挖掘在試卷分析系統中的應用[J].內蒙古民族大學學報(自然科學版),2012,27(2):159-161.
[9] 黃藝坤.改進的APRIORI算法在試卷系統數據挖掘中的應用[J].網絡安全技術與應用,2014,(09):37+40.
[10] 李志軍.Apriori算法在學生成績分析中的應用——以中職學生的考試成績為例[J].福建電腦,2016,32(008):148-149.
[11] 李毅.基于Apriori算法的試卷知識點關聯分析[J].新校園(上旬),2018,(07):52-53.
[12] 王小越,吳筱萌.基于知識點決策樹的學生學習成績預測研究——以七年級數學為例[J].數字教育,2020,6(05):70-74.
[13] 袁路妍,李鋒.改進的關聯規則Apriori算法在課程成績分析中的應用[J].中國教育信息化,2017,(17):62-65.
[14] 郝林倩.基于關聯規則的數據挖掘算法分析[J].太原學院學報(自然科學版),2020,38(03):42-45.DOI:10.14152/j.cnki.2096-191X.2020.03.009.
[15] Hájek P,Havel I,Chytil M. The GUHA Method of Automatic Hypotheses Determination [J]. Computing,1966,1(4):293-308.
Study on the Association Structure of Knowledge in Test Paper Based on Apriori Algorithm
Zhao Ningning1" Ye Nan2" Chen Xiaohan3" Wang Di4" Wen Hongbo3
1 School of Chinese Language and Literature of Beijing Normal University,Beijing,100875
2 Shenzhen Longgang Tongxin Experimental School,Shenzhen,Guangdong,518116
3 China Basic Education Quality Monitoring Collaborative Innovation Center,Beijing Normal University,Beijing,100875
4 Chaoyang District Educatioanl Science Academy,Beijing,100028
Abstract:In recent years,some researchers have used machine learning to mine the relationship among the items knowledge and provide support for teachers' feedback. This study is based on Apriori algorithm,through simulation and empirical research,mining and analyzing test papers with different knowledge point structures. The simulation study shows that Apriori algorithm can mine the association rules among knowledge points for the test questions with complex attributes of knowledge points,and has a high accuracy. With the increase of samples,the accuracy of Apriori algorithm in mining test papers with complex knowledge points increases. The empirical study finds that Apriori algorithm can mine the association rules among knowledge points in the test papers of Chinese,mathematics,primary school science,middle school physics in primary and secondary schools. And the mining results of association rules among disciplines are different. After optimizing the granularity and deleting the basic knowledge points,Apriori algorithm can mine the association relationship between Chinese and mathematics residual knowledge points in primary and secondary schools,and the mining of interdisciplinary knowledge points in primary schools needs to be improved.
Key words:Knowledge Association Rules,Apriori Algorithm,Disciplin,Interdisciplin,Differences in Knowledge Point Structure
(責任編輯:陳暢)