苗維誠
(蚌埠醫學院 數理教研室,安徽 蚌埠 233030)
C4.5算法在提高物理實驗教學效果中的應用
苗維誠
(蚌埠醫學院 數理教研室,安徽 蚌埠 233030)
針對醫用物理學實驗課的教學現狀進行了問卷調查,應用決策樹C4.5算法對問卷的數據進行分析,發現影響教學效果的關鍵因素、建立決策樹模型,為實驗教學的改革提供思路和參考.
物理實驗;問卷調查;數據挖掘;教學改革
蚌埠醫學院開設醫用物理學實驗課程,每年實驗課時數1000余學時.為了切實提高學生的實驗水平和科學素養,將C4.5算法應用在提高醫用物理學實驗教學效果的研究中,為教學改革提供參考[1].
設D是類標記元組訓練集,類標號屬性具有m個不同值,m 個不同類 C(i=1,2,…,m),CiD 是 D 中 C 類的元組的集合,|D|和|CiD|分別是D和CD中的元組個數.對D中的元組分類所需的期望信息記為Info(D),也叫作D的熵,公式為:

假定按照屬性A劃分D中的元組,且屬性A將D劃分成v個不同的類,還需要計算D關于屬性A的熵EntropyA(D).

原來的信息需求與新需求之間的差定義為信息增益Gain(A),即:

將D劃分成對應于屬性A測試的v個輸出的v個劃分產生的信息,這個值記為SplitInfoA(D),公式為:

信息增益率(GainRatio)是C4.5算法的分枝準則,它選擇具有最高信息增益的屬性來作為節點N的分裂屬性[2].公式為:

2.1.1 問卷調查與分析.數據挖掘的原始數據來自《醫用物理學教學效果調查問卷》,問卷調查的對象為2016級臨床醫學專業的學生,共收回有效問卷296份,調查結果具有較強的代表性.(1)Q1對物理實驗是否感興趣?選擇“感興趣”占30%;“一般”占42%;“不感興趣”占28%.Q2實驗課的學習目標是?選擇“掌握實驗技能,提高綜合素質”占25%;“應付課程考試”占60%;“沒有目標”占15%.由Q1、Q2看到,對物理實驗課不反感的學生占到了70%以上,但是有明確學習目標的學生只有25%,大多數學生對于為什么要學習物理實驗并不清楚.由此把“學習目的”作為一個關鍵因素.(2)Q3上實驗課前您預習嗎?選擇“經常預習”占42%;“偶爾預習”占37%;“不預習”占21%.Q4若預習,所花時間為?選擇“10分鐘之內”占22%;“20分鐘左右”占42%;“30分鐘以上”占36%.由Q3、Q4看到,大約40%的學生有按時預習的習慣,進一步調研發現,每次預習時間都在20分鐘以上的學生大約只占總人數的30%.這里把經常預習且時間大于20分鐘的學生歸為“認真預習”,把“認真預習”作為一個關鍵因素.(3)Q5您認為在實驗課的學習過程中,以下哪個因素對您幫助最大?選擇“實驗教材”占16%;“教師的講解”占75%;“同學的幫助”占9%.由Q5看到,老師對學生的學習效果起到了決定因素.根據調查問卷和學校對教師教學評價中學生評價的數據,把“教學評價”作為一個關鍵因素.(4)Q6您在實驗過程中,有沒有遇到過問題?選擇“經常遇到”占76%;“偶然遇到”占18%;“沒有遇到”占6%.Q7若實驗過程中出現問題,您的做法是?選擇“獨立解決”占37%;“同學幫助”占27%;“立即向老師報告”占36%.由Q6、Q7看到,在實驗過程中遇到問題,只有37%的學生有獨立解決問題的意識,大部分學生面對困難總想找別人解決,自己的思維能力、實踐能力得不到鍛煉.這里把“實驗操作”作為一個關鍵因素.
2.1.2 數據預處理.通過分析問卷,已經提取出C4.5算法的四個決策屬性:“學習目的”“認真預習”“教學評價”和“實驗操作”.我們把學習目的分為“明確”和“不明確”兩類;認真預習分為“是”和“否”;教學評價分為“優”和“一般”;實驗操作分為“好”和“不好”.根據調查問卷、學生實驗報告和期末成績,三者的數據結合起來分析,得出實驗課教學效果的情況,把教學效果分為“好”和“一般”.對數據進行處理共獲得296條有效數據,將數據分為兩部分:訓練數據集220條,測試數據集76條.
首先計算樣本分類所需的期望信息量,即熵值.訓練數據集220條數據,教學效果好的有66條,一般的有154條;
由公式①得:

然后計算每一個決策屬性的信息增益率.
(1)屬性“學習目的”,由訓練集得,學習目的=“明確”有55條,其中50條教學效果好,5條教學效果不好.

學習目的=“不明確”有165條,其中16條教學效果好,149條教學效果不好;

由公式②計算其熵值為:

由公式③計算其信息增益為:

由公式④計算分裂信息:

最終公式⑤計算:

(2)屬性“認真預習”,認真預習=“是”有72條,其中46條教學效果好,26條教學效果不好;認真預習=“否”有148條,其中20條教學效果好,128條教學效果不好.

(3)屬性“教學評價”,教學評價=“優”有93條,其中51條教學效果好,42條教學效果不好;教學評價=“一般”有127條,其中15條教學效果好,112條教學效果不好.

(4)屬性“實驗操作”,實驗操作=“好”有61條,其中49條教學效果好,12條教學效果不好;實驗操作=“不好”有159條,其中17條教學效果好,142條教學效果不好.

由上面計算出的每個決策屬性信息增益率的值,來確定決策樹的根結點,生成決策樹,再對決策樹進行剪枝.剪枝采用自下而上的方式,最后生成一棵教學效果決策樹[5].
從決策樹可以得到分類規則如下:
IF學習目的=“明確”AND實驗操作=“好”THEN教學效果=“好”;IF學習目的=“明確”AND實驗操作=“不好”THEN教學效果=“一般”;IF學習目的=“不明確”AND實驗操作=“好”AND認真預習=“是”THEN教學效果=“好”;IF學習目的=“不明確”AND實驗操作=“好”AND認真預習=“否”AND教學評價=“優”THEN教學效果=“好”;IF學習目的=“不明確”AND實驗操作=“好”AND認真預習=“否”AND教學評價=“一般”THEN教學效果=“一般”.
IF學習目的=“不明確”AND實驗操作=“不好”AND認真預習=“是”AND教學評價=“優”THEN教學效果=“好”;IF學習目的=“不明確”AND實驗操作=“不好”AND認真預習=“是”AND教學評價=“一般”THEN教學效果=“一般”;IF學習目的=“不明確”AND實驗操作=“不好”AND認真預習=“否”THEN教學效果=“一般”.
由以上規則可以看出,要提高實驗課的教學效果,首先要使學生明確實驗課的學習目的,其次要提高學生實驗操作的主動性,激發學生發現問題、解決問題的能力,第三要使學生認真預習,最后要提高教師的教學水平.
〔1〕呂道文,魏杰,張擁軍.我院醫學物理學實驗現狀的調查與思考[J].中國醫學物理學雜志,2006,23(1):30,79-80.
〔2〕吳信東,庫瑪爾.數據挖掘十大算法[M].北京:清華大學出版社,2013.
〔3〕羅玉梅,白小東,何顯儒,周松,趙春霞.專業綜合實驗教學現狀問卷調查分析[J].高教學刊,2017(3):33-35.
〔4〕吳陳,林炎鐘.C4.5算法在高校老師評價中的應用研究[J].信息技術,2010(1):17-19.
〔5〕王黎黎,劉學軍.決策樹C4.5算法在成績分析中的應用[J].海南工程學院學報,2014,26(4):69-73.
G642.0
A
1673-260X(2017)12-0014-02
2017-09-13
校級重大教學改革項目(2016jyxm07)