王鶯
摘 要 本文主要探討了把數據挖掘技術引用到學生綜合素質測評工作中,對學生相關數據進行分析,從中挖掘有用知識,為學校管理及輔導員工作決策提供有利幫助,進一步提高學生管理工作的實效性和針對性。
關鍵詞 輔導員 數據挖掘 C4.5算法
中圖分類號:G712 文獻標識碼:A DOI:10.16400/j.cnki.kjdkz.2016.03.006
Application of Data Mining Technology in Students'
Comprehensive Quality Assessment
WANG Ying
(Taizhou Vocational and Technical College, Taizhou, Zhejiang 318000)
Abstract This paper discusses the data mining technology to students' comprehensive quality evaluation reference work, the students analyze the relevant data, to dig a useful knowledge to help school management to provide favorable and counselors decision to further improve the effectiveness of student management and targeted.
Key words counselor; data mining; C4.5 algorithm
0 引言
推優入黨、各類評獎評優是高校輔導員工作的一個重要方面,各種榮譽名單的確定都是基于學生綜合素質評價為基礎展開的。但現大多數高校中輔導員人數缺口較大,致使其事務性工作過多,臨時性和瑣碎性工作占用了輔導員大量的時間與精力,輔導員無法做到對每個學生情況的全面真實了解,無法準確地了解學生的綜合素質水平。
伴隨著信息技術的廣泛應用,各高校都積累了大量的學生信息,如學生獎懲信息、學籍信息等。運用傳統的數據分析方法對高校學生管理問題進行研究,不能有效提取出數據中潛在的價值信息和規則,無法為學生管理工作提供決策依據。數據挖掘(Data Mining):就是從數據中“淘金”,從大量數據中獲取那些未知的、隱含的、有潛在價值的信息的過程。將數據挖掘決策樹分類方法應用于學生綜合素質評價中,能夠較為全面、公平、客觀地分析和掌握一個學生的發展狀況,能較為動態地了解學生的綜合素質水平,可幫助輔導員在獎學金名額分配、各類評獎評優、推優入黨、就業推薦等學生工作中更好地做決策,還可以研究學校應該培養哪些能力提高學生綜合素質,為輔導員學生教育工作指明方向。
1 數據挖掘技術在學生綜合素質評價中的應用
1.1 研究對象及挖掘目標
臺職院獎學金評定每學年一次,考慮學生信息完整性,研究對象定為大二、大三年級學生,研究的是大二、大三學生在上學年(即大一、大二)的數據。筆者服務于臺職院電信學院,故把2014/2015學年電信學院現大二、大三年級學生的相關數據作為重要處理對象,共計1251人。挖掘的目標是根據這1251位學生的綜合信息,以學生綜合素質的高低進行分類,獲取綜合素質高的學生的特點屬性,對這些特點屬性進行分析,進而針對性地對學生進行培養,使學生綜合能力得到提高,更適應社會發展需求。
1.2 數據采集
根據挖掘目標,需獲得以下信息:學生日常表現(通過學生系統日常登記記錄獲得)、學生獎懲信息(通過學生系統日常登記記錄獲得)、學生基本數據信息(通過學校教務管理系統獲得)、成績信息(通過學校教務管理系統獲得)、學生綜合評價(根據學生綜合素質評價標準計算得出,根據臺職院《學生手冊》規定,得分在80分以上的學生綜合素質認定為高,得分為60~79的學生綜合素質認定為中,60分以下的認定為低)。
學生綜合信息采集:學號、姓名、班級名稱、學生日常表現、學生綜合素質評價、學生獎懲評價。
學生基本數據信息采集:學號、姓名、班級名稱、專業、系別、性別、民族、籍貫、家庭地址、身份證號、學生干部等。
學生成績信息采集:學號、姓名、班級名稱、理論課平均成績、實踐課平均成績、課程總成績等。
1.3 數據預處理
(1)數據集成。我校學生在校期間使用同一學號,通過學號屬性,把信息合并成為一個學生綜合信息匯總表,字段:學號、姓名、班級名稱、專業、系別、性別、民族、籍貫、家庭地址、身份證號、聯系電話、是否學生干部、理論課平均成績、實踐課平均成績、課程總成績、學生日常表現評價、學生獎懲評價、學生綜合素質評價等。
(2)相關性分析。集成后的數據集包含多個屬性,其中一些屬性與挖掘任務無關,我們加以刪除,留下課程總成績、學生日常表現評價、學生獎懲評價、是否學生干部、學生綜合素質評價等5個屬性。
(3)數據轉換。對剩余5個屬性進行數據建模。將課程總成績的取值離散化為四個值:優(>=170)、良(140~169)、中(120~139),因學校規定參與各類獎學金評定、推薦入黨的學生必須為品學兼優學生,故不及格的數據、有處分記錄的數據會被刪除。
(4)數據清洗。數據清洗,主要是將數據庫中重復的記錄行刪除。將退休學的學生信息刪除,對空缺值進行手工填補,因數據基本來自教務系統,且都是在校學生的重要數據,工作量不大。
經以上步驟,數據庫中可作為數據挖掘樣本的完整記錄共計有1251條,選擇48條記錄作為測試集,剩余1203條紀錄作為訓練樣本集。生成學生綜合素質評價總表如表1。
表1 學生綜合素質評價總表(訓練樣本集)
1.4 用C4.5算法創建決策樹
本文選擇學生日常表現評價、是否學生干部、學生獎懲評價、課程總成績四個屬性作為建立學生綜合素質評價分類決策樹模型的依據,利用C4.5算法,構造出決策樹模型如圖1所示:
圖1 學生綜合素質決策樹
1.5 分類規則生成
根據圖1,提取決策樹規則,用 IF-THEN 形式表示如下:
(1)IF(課程總成績=優) AND (是否學生干部=是) THEN 學生綜合素質=高。
(2) IF(課程總成績=良) AND (是否學生干部=是) AND (學生日常表現評價=優) THEN學生綜合素質=高。
(3)IF(課程總成績=良) AND (是否學生干部=是) AND (學生日常表現評價=差) THEN學生綜合素質=低。
(4)IF(課程總成績=良) AND (是否學生干部=否) AND (學生獎懲評價=中) THEN學生綜合素質=低。
(5)IF(課程總成績=中) AND (學生日常表現評價=優) THEN學生綜合素質=高。
(6)IF(課程總成績=中) AND (學生日常表現評價=中) AND (學生獎懲評價=良) THEN 學生綜合素質=低。
(7)IF(課程總成績=中) AND (學生日常表現評價=中) AND (學生獎懲評價=中) THEN 學生綜合素質=低。
(8)IF(課程總成績=中) AND (學生日常表現評價=差) THEN 學生綜合素質=低。
1.6 結果分析
評價學生綜合素質高的一條重要標準是學生課程總成績。如果課程總成績高(表示學科知識掌握好)且是學生干部,綜合素質高。如果課程總成績良好,是學生干部且在校日常表現優秀,學生綜合素質高。如果課程總成績中等而在校日常表現優秀,學生綜合素質高。
對結果分析,給予學生培養工作以下指導意見:學生應以學業為主,著重知識的積累,注重實踐育人。其次,學生是否為學生干部也較重要,代表學生在校期間有無擔任社會工作,學生溝通、交際等能力在校是否得到鍛煉,作為輔導員,更應注重學生社會實踐能力的鍛煉,多組織一些技能比賽、辯論賽、社團活動等。還有一個可評價學生綜合素質的因素是學生在校日常表現情況,學生在校日常表現優秀,代表他在學習態度、服務意識、公寓表現等方面表現較為突出,這種勤懇、踏實的作風是目前企業單位所要求的,所以應給予肯定。
2 結束語
研究表明將數據挖掘技術應用于學生數據的分析,并將這些分析結果協助學生管理工作決策是可行的,通過對大量的學生學籍信息、成績信息、學生獎懲信息等個人信息數據的分析和理解,建立數據倉庫,并結合數據挖掘算法,挖掘出影響學生綜合素質的關鍵因素及規則,實現了為學生管理工作者在對學生各類評獎評優、學生入黨考察及畢業推薦等工作決策中提供科學依據的目標,最大化地做到“以學生為本”。
參考文獻
[1] 熊平.數據挖掘算法與Clementine實踐[M].北京:清華大學出版社,2011.
[2] 薛恩軍.決策樹技術在學生成績分析中的應用[D].碩士學位論文,內蒙古大學,2008.
[3] 俞磊.基于數據挖掘的閩江學院學生管理系統設計與實現[D].碩士學位論文,電子科技大學,2013.
[4] Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986.1(1):81-106.