林秀科+沈良忠

摘要:高校生源質量的下降使得學生順利畢業問題成為關注的焦點,該文以溫州商學院會計學專業學生的畢業情況為例,運用決策樹分類技術對學生的成績進行綜合分析,從中提取出決策樹分類規則,發現關鍵課程對學生畢業的影響,以便于高校提前對學生實施預警,減少學生無法畢業的情況。
關鍵詞:數據局挖掘;決策樹;C4.5算法;學業預警
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)35-0015-02
Analysis of the Influence of Student Achievement on Graduation Based on Decision Tree
LIN Xiu-ke, SHEN Liang-zhong
(School of Information Engineering, Wenzhou Business College, Wenzhou 325000, China)
Abstract: Decline in student quality makes students graduate problems become the focus, this paper takes the graduate students of accounting major of Wenzhou business school as an example, and uses the decision tree classification to analyze the student score comprehensively. The classification rules extracted from the decision tree indicates the influence of key courses for the graduate students. Therefore the college can implements early warning on these students and reduces the number of students unable to graduate.
Key words: Data Mining; Decision Tree; C4.5 Algorithm; Academic Early Warning
1 概述
近些年,隨著我國高等教育的迅速發展,高等教育已經進入了國際公認的大眾化教育階段。隨著高校招生規模的迅速擴大,學生的生源結構以及生源質量都發生了很大的變化。很多普通本科高校,特別是在高等教育大眾化階段出現的民辦高校,其學生都呈現出學習積極性不高、獨立思考和解決問題的能力偏弱,但是同時又表現出較好的活動組織能力和情商的特點。
作為一名大學生,經過四年的學習是否能夠順利取得畢業證書和學位證書,主要依據就是課程成績匯總處理之后得到的平均績點。如果平均績點低于學校的規定,那么學生將無法順利畢業,從而對學生的就業和未來發展造成很大影響。由于最終平均績點的計算在時序上有其滯后性,無法對學生進行及時的提醒和預警,因此有必要通過相關課程數據的分析對可能無法順利畢業的學生進行提前的預警,以保障學生的順利畢業。當前,高校對于學生成績管理也逐漸向信息化發展,學生成績的管理方式已由原來的紙質文件變成了現在的計算機管理。但是,大部分高校對于學生成績信息的綜合分析和挖掘還明顯不夠,例如可以通過數據挖掘相關技術對往屆學生成績進行分析,提煉出不同專業的學生學業預警規則,以此來指導學生的學習等。王芙蓉針對英語等級四級考試成績,利用SPSS Clementine 12.0作為數據挖掘工具分析得出聽力單項成績的高低對四級成績是否合格有很重要的作用,閱讀成績的作用僅次于聽力,寫作的影響程度最小[1]。范珣珣基于Weka軟件中的決策樹算法進行挖掘,發現學生高考成績、性別、對英語的學習態度、努力程度、與英語老師的關系和英語四級成績之間存在潛在的關系[2]。劉紅保用決策樹C4.5算法從成績分析,非成績分析,院校性質三方面加實現了對CET-4成績分類挖掘[3]。2017年,陳甲華以某大學信管專業學生成績數據為例,運用改進后的Apriori建立了大學成績關聯規則分析模型[4]。由此可見,數據挖掘技術在成績管理中已經有了一定的研究和應用,本文主要針對溫州商學院會計學院近年來的畢業情況,分析各個課程成績對學生畢業的影響。教師可以根據分析結果及時對學生實行預警并指導調整學生的學習狀態,同時也有助于教師及時調整教學策略,提高教學質量并對個別有無法順利畢業風險的學生進行高度關注。
2 決策樹算法
2.1 數據來源
本文以商學院教務系統中所保留的歷年來的會計學本科學生成績與畢業情況為研究對象,確保了數據的真實性。同時為保護個人隱私,刪除了學生姓名等重要身份信息,并對殘缺的數據予以刪除,最終保留906條數據。在課程選取上,剔除了大學體育,思想道德修養等考查類課程,保留了大學英語、高等數學以及各類專業基礎、必修等考試類課程。課程包括如大學英語、高等數學、管理學原理、西方經濟學、基礎會計、審計學、成本會計稅法、管理會計等等。具體數據如表1所示:
2.2 數據處理
為了方便數據的處理,本文直接把成績轉化為績點。分數在 [0,60)內績點為0,在[60,70)內績點為1.5,在[70,80)內績點為2.5,在[80,90)內績點為3.5,在[90,100]內績點為4.5。對于畢業情況,“Y”表示順利畢業,“N”表示結業或者延遲畢業。處理后的數據如表2所示:
2.3 決策樹構建
決策樹算法屬于數據挖掘中的分類算法,通過對某一帶有類標記的數據集的訓練,產生一棵二叉樹或者多叉樹。決策樹的構建過程中,最重要的就是分裂節點的選擇。ID3算法在樹的分裂節點上選擇具有最高信息增益的節點作為當前的分裂節點,因為該節點的分裂將使得分裂得到的結果劃分中的樣本分類所需的信息量最小[5]。ID3算法使用的公式如下所示:endprint