張貴元
摘 要 在目前深化產教融合,推進職業教育的形勢下,職業化專業人才可持續培養已經成為趨勢,傳統的成績分析有一定的局限性。本文介紹了決策樹技術算法的原理,針對學生成績數據進行預處理和集成轉化,基于Microsoft SQL Server BI平臺運用決策樹算法對學生成績數據進行挖據分析。通過試驗結果分析,打破原有成績分析得局限,使現有數據體現更好的價值,從而輔助教學管理者做出相應決策,更好的提高教學質量。
關鍵詞 數據挖掘 Microsoft決策樹算法 成績分析
中圖分類號:TP311.13 文獻標識碼:A
0引言
在目前深化產教融合,推進職業教育的形勢下,職業化專業人才可持續培養已經成為趨勢,特別是2018年廣東省教育廳關于中職畢業生考取本科的政策,在此新政下中職學校的學生參加高職高考繼續深造學習是以后新的方向,新政下的深化教學改革,拓寬學生升學途徑,推動新的人才培養體系,健全學生需求導向的課程調整,統籌職業教育與升學的合理布局,是每個學校面臨的問題。而高職高考的必備條件是等級證書+文化基礎課程,那么提高等級證書的通過率是迫在眉睫。目前利用數據挖掘研究中職學校等級考證的較少,學校教務系統也沒有對學生各課程成績和技能證書通過時間以及通過率進行深層次分析。因此通過數據挖掘決策樹技術,研究英語等級考證通過率和其他因素之間的潛在關系,提高等級考試通過率,保證高職高考上線率,就顯得尤為重要。
1 Microsoft SQL Server BI 數據挖掘功能
本文應用決策樹技術對成績的分析是在Microsoft SQL Server BI平臺上完成。Microsoft SQL Server BI 平臺具有很強大的功能,涵蓋了常用的數據挖掘技術。它將數據挖掘技術以集成化,模塊化,系統化、界面化的方式簡潔的呈現出來,即使不具備很深的專業知識,也能夠很容易上手,簡單的操作,讓它具備更廣泛的應用市場。適合數據研究分析實驗,可以得到有效的數據研究結果。該智能平臺中包括了很多數據挖掘的算法,其中常用的決策樹、聚類分析、關聯規則、神經網絡等都可以選擇,并且在實驗過程中可以設置不同的參數來對比實驗結果。Microsoft SQL Server BI平臺除了內置的算法,還可以根據實際需求將設計好的算法程序以插件的形式導入 Microsoft SQL Server BI 平臺以滿足實驗的需求。
2 Microsoft 決策樹算法
在構建決策樹模型之前先闡述一下Microsoft 決策樹算法的基本理論基礎,Microsoft 決策樹算法它是集結了各種創建樹在一起的綜合性的算法。通過在樹中創建一系列拆分來生成數據挖掘模型。Microsoft 決策樹算法提供了三種信息獲取計分公式,第一種是信息量的均Shannon,第二種是使用K2先驗的Bayesian網絡,第三種是使用先驗統一Dirichlet分布的 Bayesian網絡。這三種都是經過論證,并且使用在數據挖掘領域的方法。在使用的過程中,我們可以設置不同的參數進行數據分析,對分析結果進行觀察求證,得到最優化的實驗結果。
Microsoft決策樹算法經過實踐,是一種速度快而且效率高的算法,并且兼容度高。這樣的優勢在于多個處理器可以協同處理數據,共同生成一個一致的模型。基于這些優點和特征,Microsoft決策樹分類器就是我們試驗中較為具有優勢的工具。并且在實驗的過程中我們通過設置COMPLEXITY_PENALTY 參數,增大它的值可以限制樹的增長。限制關聯模型中的項數以限制生成的樹的數量。增大MINIMUM_SUPPORT 參數的值可以避免過度擬合。
在Microsoft決策樹算法中樹的形狀和深度是由選擇的計分方法和參數的設定來決定的,參數的值不同引起節點拆分的位置也不同。因此,我們在試驗中要掌握各個參數屬性,通過設定不同的數值,去控制樹的增長、樹的形狀以及輸入和輸出屬性。
主要的參數如下:
2.1 Complexity_Penalty
Complexity_Penalty 該參數是一個浮點類型的參數,它的取值范圍是[0,1]之間。在實驗中,當設定的值接近0的時候,生成的樹會比較大,因為這樣的值對樹的增長限制比較小,反之,當設定的值接近1的時候,數據所創建的樹會比較小。
2.2 Minimum_Support
Minimum_Support 該參數是規定生成樹中最小節點的個數,參數默認值一般為10,根據實驗數據訓練集的數量來確定該參數值,訓練數據集中的事例越多該參數值越大,這樣設置實驗數據比較科學。
2.3 Score_Method
Score_Method 該參數是決定決策樹增長使用的方法。根據參數值的不同選擇不同的方法。當它的值為1的時候,使用信息熵來控制樹的增長;當它的值為3的時候,使用Bayesian with K2 Prior方法;當它的值為4的時候,使用 Bayesian Dirichlet Equivalent with Uniform prior(BDEU)方法。該參數的默認值是4,我們在試驗中可以通過設置不同參數來對比試驗數據結果的精確性。
3決策樹技術在學生成績分析中的應用
3.1數據預處理和集成
本文研究的是英語一級考試成績和學生其他成績之間的關聯關系。因此,把英語一級成績當成研究指標,為了達到實驗的完整性以及準確性,試驗數據采集,涵蓋了五個專業層次不同的學生三年在校的各科成績,通過分類手段選擇了200個左右的學生成績信息來當作數據挖掘的主要分析對象,經過預處理保留有效信息1354條。針對預處理后的1354條學生原始成績數據,結合試驗需求,需要對成績數據進行集成和轉化,由于本文分析學生英語一級成績和公共基礎課程、專業課程、專業類別、通過的時間等之間的關聯關系。因此,將學生的各科成績集成轉化為專業課平均成績、公共課平均成績、英語平均成績、英語一級成績、英語一級考試學期、專業類別等試驗所用的數據信息。
3.2構建和使用決策樹分類模型
創建決策樹模型,利用 Microsoft Visual Studio 打開“挖
掘模型”的界面,右鍵單擊“Microsoft_Decision_Trees”命令,打開“算法參數”選項窗口,在該窗口中設置算法參數,經過不同參數設置對比實驗結果,該實驗使用模型默認的參數得到的數據分析結果較準確。
使用微軟的程序開發工具集(Business Intelligence Development Studio, BI Dev Studio)按照界面的操作提示,能夠快速有效的完成實驗數據的數據挖掘分析。本文使用 BI Dev Studio部署SQL Server Analysis(SSAS)數據挖掘項目,使用該向導能快速地創建和使用決策樹模型進行數據挖掘,具體步驟如下:
(1)創新建數據源。創建新數據源的時候,要新建一個項目為 “Analysis Services 項目”,然后我們進入數據源向導窗口,在提供的選項中選擇“使用服務賬號”。
(2)創建數據源視圖。在“數據源視圖向導”窗口中選擇提前預處理過的實驗數據源,生成數據源的視圖。
(3)創建數據挖掘結構。創建數據挖掘結構的方法很簡單,只單擊“解決方案資源管理器”命令,在菜單選擇 “挖掘結構”命令,然后選擇“新建數據挖掘結構”命令完成操作,在“創帶有挖掘模型的挖掘結構”選項中根據實驗要求選擇算法,在這里我們選擇“Microsoft決策樹”。點擊“下一步”后在窗口中指定定型數據,最后完成數據挖掘結構的創建。
4決策樹算法挖掘學生成績結果分析
通過SQL Server 2008 BI利用算法對數據進行挖掘,得到實驗決策樹的模型圖和屬性關系的拓撲圖,如圖1所示。結合決策樹節點屬性數據,根據模型圖和關系拓撲圖得出英語一級成績和其它屬性之間的內在關聯關系。
4.1產生分類規則
Microsoft 的決策樹模型圖中從根節點到葉子節點代表了一條數據挖掘規則,通過分析模型而得出部分有效的規則,如下所示:
(1)通過學期>3.333 and專業不等于汽修,通過一級,概率=10%
(2)通過學期>3.333 and專業=汽修,通過一級,概率=11%
(3)通過學期<3.333 and專業=軟件與信息服務,一級不合格,概率=37%
(4)通過學期<3.333 and專業不等于軟件與信息服務 and專業不等于會計,通過一級,概率=21%
(5)通過學期<3.333 and專業=會計,通過一級,概率=42%
通過規則得知,通過學期對一級通過率有直接影響,專業屬性的不同一級通過率有很大差異性,結合節點“挖掘圖例”中的屬性詳情,找出一級成績和其他成績屬性的關聯,分析如下:
(1)在第二、三學期參加英語一級考試通過率是56%,而在第四學期以后參加英語一級考試通過率僅有10%左右。
(2)在第二、三學期軟件與信息服務專業的通過率較高為63%,會計專業為42%,其余專業總的通過率21%。
(3)在第二、三學期通過英語一級的學生入學成績、專業課程、英語平均成績都屬于中等水平以上。而不能通過的學生這幾個成績屬于合格或者以下。
(4)在第四學期以后參加英語一級通過的學生入學成績、公共課程成績、英語平均成績、專業課程成績屬于合格至中等水平。
4.2結果分析
在本文中把英語一級分數當作目標對象,分析其他方面對分數的作用。在對分數產生影響的各種條件里,學生最開始進入學校時取得的成績和英語平均成績的作用是最明顯的。這主要是由于進入學校時成績不錯的同學,各方面學習能力較強,可以自覺的進行學習,考試的分數也很高。而入學考試分數低的學生,由于分數較低就到了中等的職業學校,之前的學習不是很好,尤其是在英語以及數學方面比較明顯,所以英語考級達到標準的幾率也不是很高。公共課的分數又比專業性課程明顯,主要是因為在中職學校,特別是汽修數控專業,同學們都將專業課當作重點,對公共課程的要求不是很高,但是英語就屬于公共課的一種。由于我們學校專業的差異性以及“三二分段”中高職連貫培養的特殊性,進入二年級之后就要準備“三二分段”考試了,這些方面的考試考察的重要是同學們的專業能力以及技能。所以,在第四以及第四學期以后就不會進行更深入的英語學習,因此,這部分同學們在四學期以后,缺乏英語上的提升,考試達標的概率就會更低。汽修專業、數控專業、媒體傳播專業的同學在錄取分數不是很高,學習基礎較弱,第二、三學期考試通過率不高。計算機專業的同學合格率是最高的,計算機專業和東莞職業技術學院進行合作辦學,“軟件信息與服務”專業是中高職連貫培養,學生招生分數線較高,部分學生成績比高中的分數線還要高,學生綜合素質較高。會計專業女生多,招生成績也較好,因此在第二、三學期的考試中通過率也不錯,除了軟件與信息服務專業,其它幾個專業成績都比較好。
4.3數據挖掘結論和意見
因為我們學校的教學任務方向和專業屬性有很大程度上的關聯性,一些專業是“3+2”類型的,并且這種類型的學生占有很大比率,而其余專業進行高職考試的也很多,而參加高職高考的班級對于英語一級證書的需求迫切度更高,在對英語一級考試有影響的相關因素進行分析后,對課程進行合理穩定的調整操作。打破常規的統一模式,進行有差別,有針對的去安排。
(1)安排“三二分段”中高職連貫培養班級的課程時,因為學生的入學考試分數很高,基礎較好,因此,英語方面的教學依據學校的正常教學安排來完成,根據我們學校實際排課情況,即在前兩個學期正常進度進行英語教學,學生的英語考級都會被安排到第二第三學期,確保英語考級的分數能夠達標。
(2)非“三二分段”中高職連貫培養班級這些學生基礎稍弱,通過對這些同學在英語考級方面的要求以及教務管理系統對課程調整進行細致分析之后,可以根據專業實際需求在第一、二學期適當減少專業課程,增加英語課程課時(由于專業特征和學生的需求都不同,學校課程安排計劃是第1、2、5、6學期安排英語課程),保證這些專業的學生盡量在第二三學期通過英語一級考試,提升英語一級通過率。
(3)針對專業差異性,數控、汽修男生多,他們對實踐操作容易產生興趣,但是他們對英語這種基礎課程的學習興趣卻不是很濃厚。所以,在對性別、入學考試的分數等各方面因素進行了分析之后,主要針對汽修、數控等專業的學生,學校能夠為其分配教學水平以及專業水平較高的教師來幫助他們。并且,在日常教學里,還能夠在一二三學期里增加英語教學的頻率,平衡英語課和其他課程的差別,提升通過英語考級的人數比例。
5結束語
本文通過 Microsoft SQL Server BI 智能平臺的決策樹算法分析學生英語一級成績和其他成績以及通過學期之間的關系,挖掘出有用的規則,通過該算法對學生成績數據的分析,能夠精準的對成績做出正確有效的評估,為提高英語一級的通過率做出有效的決策支持。
參考文獻
[1] 鄧蓓蓓.基于信息增益的量化算法及其在決策樹中應用的研究[D].廣州:廣東工業大學,2016.
[2] 瞿花斌.數據挖掘的決策樹技術在高校畢業生管理中的應用[D].濟南:山東大學,2014.
[3] 李宣冬.C4.5 決策樹算法在素質教育學分成績分析與評價中的應用[J].中小企業管理與科技,2015.
[4] 李杰.數據挖掘技術在學生成績分析中的應用研究[D].西安:西安石油大學,2010.