苗維誠 朱文婕
摘要:目的:研究物理實驗成績的影響因素.方法:采用數據挖掘的方法,針對目前實驗課教學現狀進行了分析,找出可能與成績有關的因素.應用Apriori算法對實驗成績和這些因素進行關聯性挖掘,建立強關聯規則,發現影響教學質量的關鍵因素.結果:通過數據挖掘發現教學評價、實驗報告和實驗成績三者關聯性最強.結論:通過提升教學水平,提高實驗報告質量,可以促進實驗成績的提升,同時也為實驗教學的改革提供了一條可行的思路.
關鍵詞:實驗成績;關聯規則;數據挖掘
中圖分類號:G642;TP311? 文獻標識碼:A? 文章編號:1673-260X(2019)01-0014-03
1 引言
物理是一門以實驗為基礎的學科,物理實驗是物理理論教學的重要補充.通過進行物理實驗,可以讓學生學會基本的實驗方法;使學生對抽象的物理概念有直觀的認識;同時可以鍛煉提升學生的各種能力,比如觀察能力、思維能力、創新能力、實踐能力等.
蚌埠醫學院開設醫用物理學實驗課程,每年實驗課時數1000余學時.在教學中發現,學生的物理實驗成績往往會低于預期,教學效果無法達到滿意.問題主要有:(1)學生缺乏獨立完成實驗操作的能力,對老師有很強的依賴性;(2)學生對實驗的現象和結果缺乏必要的思考、分析,研究問題的主動性不高.學生的實驗成績一方面能夠比較客觀真實地體現學生實驗課的學習效果,另一方面也能反映出老師實驗課的教學質量[1].為了改善醫用物理學實驗的教學現狀,提高學生的實驗成績,運用Apriori算法對學生實驗成績進行關聯規則挖掘,找出影響實驗成績的相關因素.
2 關聯規則介紹
數據挖掘(Data Mining)是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,通過某種特定方式分析,發現一些潛在的有用的信息.大量的事實證明,任何事情的發生一定程度上都會存在一定的相關性.某件事的發生很有可能會引起其他事情的發生,類似于蝴蝶效應.通過對所有事物背后的數據進行分析挖掘,如果能夠發現某些事情之間存在一種關聯規則,那么在以后就可以由一件事情的發生預測出相互關聯的其他事情的發生,這樣就能更全面地掌握事物的發展方向,也就是探尋關聯規則的意義所在[2].
關聯規則挖掘是最常用的數據挖掘方法之一,通過挖掘試圖從數據背后發現事物之間可能存在的關聯或者聯系.關聯規則的算法主要有數據準備、數據挖掘和強規則描述三個步驟,其中消耗時間最多的是數據準備的步驟,數據準備步驟又可以劃分為兩個子階段:選擇獲取數據和數據預處理.
2.1 關聯規則定義
關聯規則挖掘可以描述如下,設I={i1,i2,…,im}表示一個項集,D表示事務集,其中每一個事務t都表示一個項集,有t?哿I.每個事務都有一個唯一標識TID.如果X?哿t,就說事務t包括I的一個子集X.關聯規則是一種蘊含形式X?圯Y,其中X?奐I,Y?奐I,且X∩Y=?覫[3].這里首先要知道兩個概念:
(1)支持度(support):如果事務集D中,規則X?圯Y的支持度(0≤s≤1)指的是包含X∪Y的事務占全體事務的百分比.
(2)置信度(confidence):規則X?圯Y的置信度(0≤c≤1)指的是包含X∩Y的事務占項集X的百分比.
關聯規則挖掘任務是產生所有不小于用戶給定的最小支持度(minsup)和最小置信度(minconf)的關聯規則.
2.2 Apriori算法介紹
尋找滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集(frequent itemset).假設一個頻繁項集為L,如果頻繁項集L的所有超集都是非頻繁項集,那么稱L為最大頻繁項集(Maximal Frequent Itemset).由于最大頻繁項集中隱含著全部的頻繁項集,因此,可以將計算頻繁項集的問題轉化為計算最大頻繁項集.
Apriori算法是關聯規則挖掘的經典算法,算法的任務就是找出所有支持度不小于最小支持度的項集.Apriori算法挖掘項集可以分成兩個子任務:
(1)Apriori算法會對數據集進行多次遍歷,找出所有最大頻繁項集.在遍歷時遵循兩個定律,定律1:如果一個集合是頻繁項集,則它的所有子集都是頻繁項集.定律2:如果一個集合不是頻繁項集,則它的所有超集都不是頻繁項集.
(2)根據最大頻繁項集L,找出L的所有的非空集合.對于每個子集合a,生成如下規則a=>(L-a),然后根據最小支持度和置信度篩選所有規則[4].
3 Apriori算法在實驗成績分析中的運用
醫用物理實驗課包括預習、授課、實驗操作、課后總結等部分,學期結束得到實驗成績.從實驗課過程的這幾個步驟中獲取關聯規則的數據,數據分為學生對實驗的興趣,實驗預習情況,教師教學評分,實驗儀器操作情況,實驗報告書寫情況五個部分.使用Apriori算法,挖掘這五個因素和學生實驗成績的關聯性.
3.1 數據獲取
從2016級臨床專業的學生中隨機選取100名學生作為數據采集的對象,實驗興趣、預習情況、儀器操作情況的數據從《醫用物理學教學效果調查問卷》[5](問卷見參考文獻[5])中獲取,教師教學評價來自本學期學生對老師的教學測評分數,實驗報告書寫情況來自學生實驗報告的打分,再獲取學生本學期的實驗成績分數.
3.2 數據預處理及分析預測
由于Apriori算法只能針對布爾型數據進行分析,所以需要對獲取的數據進行一定的處理,把五個因素和實驗成績都分成高低兩個等級,處理得到100條數據,詳見表1.
(1)實驗興趣記為“A”,分為“Ay”表示學生對實驗有興趣,“An”表示學生對實驗缺乏興趣.經過處理,得到“Ay”有63條數據,“An”有37條數據.
(2)預習情況記為“B”,分為“By”表示認真預習,“Bn”表示沒認真預習.經過處理,得到“By”有40條數據,“Bn”有60條數據.
(3)教學評價記為“C”,分為“Cy”表示教學評價優秀,“Cn”表示教學評價一般.經過處理,得到“Cy”有71條數據,“Cn”有29條數據.
(4)儀器操作記為“D”,分為“Dy”表示儀器操作順利,“Dn”儀器操作出現問題.經過處理,得到“Dy”有53條數據,“Dn”有47條數據.
(5)實驗報告記為“E”,分為“Ey”表示實驗報告優秀,“En”表示實驗報告一般.經過處理,得到“Ey”有56條數據,“En”有44條數據.
(6)實驗成績記為“F”,分為“Fy”表示實驗成績優秀,“Fn”表示實驗成績一般.最終得到“Fy”有42條數據,“Fn”有58條數據.
根據B的比例4:6和F的比例4.2:5.8最接近,會認為學生預習的情況對最終的實驗成績影響最大.下面用Apriori算法去驗證猜想.
3.3 數據挖掘
使用Apriori算法對處理后的數據進行分析,設最小支持度為0.3,最小置信度為0.5,挖掘得到包含“Fy”的最大頻繁項集{Cy,Ey,Fy},和包含“Fn”的最大頻繁項集{Bn,En,Fn},詳見表2.再分別獲取所有強規則,詳見表3和表4[6].
3.4 結果分析
由表3得到一條強規則,對老師教學評價高,同時實驗報告完成出色的學生里,有68.1%的學生實驗成績優秀.且實驗成績優秀,同時對老師教學評價高的學生里,有91.4%的學生實驗報告完成出色.老師的教學和完成實驗報告的情況,對取得優秀的實驗成績關聯性較強.
由表4得到一條強規則,預習情況較差,同時實驗報告完成較差的學生里,有94.6%的學生實驗成績較差.不認真預習和寫實驗報告,會導致較差的實驗成績.
通過Apriori算法可以發現,學生預習情況和成績,兩者之間關聯性并不是最強的,教學評價,實驗報告和成績三者關聯性最強,這說明我們之前的猜測是不準確的.
進一步調研發現,是否認真預習和實驗成績優秀之間關聯性不強的原因在于,大學物理實驗主要以演示型、驗證型實驗為主,這種實驗普遍簡單.學生上課認真聽講,課后注意對實驗進行總結,不管是否預習,學生基本都能達到實驗要求,實驗成績都在中等以上.學生不預習實驗內容,又不認真寫實驗報告,多數情況下是學生對物理實驗課不夠重視,因此上課也不夠專心,導致實驗成績偏低.
4 總結
實驗教學面臨的現實問題是學生普遍重理論輕實驗,對物理實驗不夠重視,這直接制約了學生對實驗課的學習積極性.以Apriori算法得到的結果分析,實驗教學的改革可以從三方面入手:(1)教師提高教學水平,增加設計型、科研型實驗;(2)改革實驗報告書寫模式,設計論文式、開放式等新型實驗報告模式,從根本上提高學生書寫實驗報告的質量;(3)重視實驗的預習環節,使學生增加對物理實驗的興趣.
實驗課程的改革是一項系統工程,除了改善實驗環境,引進先進的實驗儀器,更要思考學生對于實驗態度的轉變,改革實驗教學方法.讓學生主導實驗的方式,能使實驗課的教學有更好的發展.
參考文獻:
〔1〕呂道文.《醫學物理實驗》的課程建設與教學改革研究[J].中國醫學物理學雜志,2009,26(6):1570-1572.
〔2〕馮俊,胥莉,閔蘭.基于Apriori算法的高校學生考試作弊動機分析與應對[J].西南師范大學學報(自然科學版),2017,42(2):174-180.
〔3〕吳信東,庫瑪爾.數據挖掘十大算法[M].北京:清華大學出版社,2013.
〔4〕樊妍妍.Apriori算法在個性化教學輔助系統中的應用[J].新鄉學院學報,2015,32(9):36-39.
〔5〕苗維誠.C4.5算法在提高物理實驗教學效果中的應用[J].赤峰學院學報(自然科學版),2017,33(12):14-15.
〔6〕陳輝,向偉忠,單健.關聯規則挖掘在教師教學評價系統中的應用[J].南華大學學報(自然科學版),2005,19(1):104-107,118.