李瑩 羅嬌敏 閔芳
南京航空航天大學金城學院信息工程系
基于數據挖掘的高校教學評估系統的研究
李瑩 羅嬌敏 閔芳
南京航空航天大學金城學院信息工程系
對于高等院校來說,如何從眾多的成績數據中選取對于教育決策分析有用的信息,成為一個亟需解決的問題。本文通過深入研究數據挖掘的經典算法,尋找適合的算法,建立數據挖掘模型。然后以學院中某個專業的歷史數據為研究對象,搭建數據倉庫,設計整體架構。經過多次的調研和實踐,最終確定采用聚類分析進行實施。將學生通過聚類而不是分數段分為五類,然后通過課程組、整體成績趨勢等多種方式加以分析,通過直觀的數據圖標加以呈現,更加準確及時的了解教學情況,以輔助教學。
數據挖掘 K-means算法 教學評估 聚類分析
作為多年從事教育工作的筆者,常年面對學院產生的大量數據,例如學籍管理、學科管理、招生、就業、教職工管理等系統,其中包含了眾多能夠反饋出學院教學狀況的信息,但是由于其數據量實在龐大,且涉及的部門眾多,單純靠人力來解讀較為困難。因此,如何從數據中“掘金”,是本文討論的主要問題。
本文設計的教學評估系統總體由三層結構組成:數據層、邏輯層和表示層。表示層主要負責數據的輸入輸出,作為界面展示;數據層負責數據的預處理;邏輯層則提供專業的數據分析和挖掘。
本文選取的是某高校信息工程專業的課程成績及設置,期望以該專業說明數據挖掘對高校數據分析的過程。由于不同專業間課程差異較大,核心課程各異,數據處理必須分不同專業進行,這也是教育領域數據挖掘較大的難點之一。但是其數據處理的思路與算法思想基本相同,僅是數據預處理的時候需要根據專業特色來制定。建議該預處理的過程尋求各專業內部人士給出參考意見,收集本專業中的核心課程。同時還需要其了解專業的課程設置和學生情況,如近年來是否存在較大課程改革,學生學籍調動等,以免產生較大誤差及噪聲數據。
最終選取的是信息工程專業的核心課程(共16門),形成兩張關系表。其中“數據信息表”存放的是課程信息,定義專業課程的名稱,學時,學分,課程類別,課程類型和考試方式等信息。而“成績信息表”則存放了學生的成績信息,將原有的教務數據進行數據重構,一行元組代表一個學生所有專業的成績情況,每個屬性代表一門專業課程的最終成績,統一采用百分制。這樣處理學生數據的原因是根據聚類的特性,將一個學生數據看成多維空間的一個數據點,成績的差異可以通過計算數據點的距離絕對值,則根據該距離的遠近可以可以實現學生的聚類。
經過多次調研和實踐,最終選用聚類分析中K-means算法來完成分析。聚類分析屬于無指導學習,其挖掘不需要預先定義的類標簽,而是通過大量數據找到其分布規則。由于數據來源于真實的教育背景,其數據存在一定的噪聲(如退學、留級導致的數據缺失等),預處理需要將這些數據刪除。
在算法實踐方面,選用WEKA作為算法分析工具,WEKA是當今較為先進的機器學習算法及數據預處理工具。由新西蘭懷卡托大學開發,JAVA實現,幾乎可運行在所有主流的操作平臺。WEKA為預處理以及后處理提供了統一的方法,可以指定學習算法應用于給定的數據源,同時將不同的學習方案計算的結果給出評估。
K-means算法是基于劃分的聚類,嘗試找出最小平方誤差函數值的K個劃分。算法復雜度為O(nkt),其中n是數據集的數目,k是簇數目,t為迭代次數。算法需要預先指定簇數目k,而對于教務數據,由于學生的成績好壞基本分成五大類,簇數目很好確定。同時,算法較容易受到“噪聲”和孤立數據的影響,少量的誤差數據會對計算的結果產生極大影響,這也是教務數據需要進行較復雜的人工指導下的預處理的原因。
綜上所述,對于學生成績選用K-means算法來進行聚類是較為合適的,根據成績的絕對值差距將學生分為五類。通過主觀觀察和分析簇中心、簇占比等一系列數據,確定合適的算法參數(seed值等)作為先驗知識,最終選取合適的聚類結果,再采用柱狀圖的方式加以直觀的展示。
多次對比試驗后,發現以下信息:
①一般情況下,平方誤差的多少是評判聚類好壞的標準,該數據越小說明簇內數據距離越小,則簇內數據越接近,即學生的成績越接近。因此在判定不同參數條件下聚類的好壞,該數據作為最重要的評判依據。
②為了找到更合適的聚類,在其他參數不變的情況下,更改隨機種子值(seed值)。seed值是聚類隨機選取的種子,一般在10%以內。基于本文的數據集為769條,seed值一般控制在80以下。隨著seed值的改變,聚類的表現相對較穩定,有存在著一定的浮動。但為了得到最為合適的聚類結果,還是需要人為選擇最合適的seed值。
③在seed值選為70的時候,產生了0%的聚類。究其原因是發現了單條記錄作為孤立點被判為單獨的簇,該簇占比太小,因此約等于0%。該條記錄有三門課程為零分,但其他課程分數較正常,推測可能為學生換專業的原因導致。為什么僅在seed值為70的時候發現這種情況?由于K-means算法參數中的seed的選擇與輸入數據的順序直接關聯,因此該算法很大程度下會依賴于數據的輸入順序。
④通過觀察簇中心,在學生成績預處理合適的情況下,能夠獲得了較佳的聚類效果。但是如果數據預處理不夠合理,可能會因為數據缺失等嚴重影響聚類效果。
綜合考慮以上的聚類結果,對seed值不同產生的不同聚類表現,最終選擇的數據結果參數如下:簇數目numClusters=5,seed=40。
最終聚類結果:聚類“0”為成績最好的學生,占比17%,課程平均分89分;聚類“2”成績次之,占比21%,課程平均分79分;聚類“4”成績居中,占比25%,課程平均分68分;聚類“1”成績較差,占比22%,課程成績平均分56分;聚類“3”成績最差,占比15%,課程平均分43分。
該學生劃分也可以作為其他數據挖掘的分析依據,以下分別從課程組和整體成績趨勢來做分析:
5.1 按課程組分析
數學類課程組共四門必修課,通過對比數據可以發現,優秀學生各科表現都比較好,這也表示出數學類課程對于個人素質的體現。對于學院在新生選拔時選取數學作為考核科目,是較為合適的。
然而對于“差”和“較差”這兩類學生來說,《高等數學(II)(下)》和《概率論與數理統計(II)》成績則出現了明顯下滑,這種下滑在其它簇的學生中并未出現,說明若這一階段數學課程出現掛科,應引起學生和老師足夠重視,督促學生端正學習態度,加重學習時間的投入。
分析專業課程,可以發現《信號與系統》和《數字電路》這兩門課程在五類學生中都出現了明顯下滑,說明該課程的學習具有一定的難度,輔導員和班主任在指導該門課程的時候可以對學生提出特別提示,學生學習時也要格外的加強學習!
5.2 整體成績趨勢分析
將成績按照學期劃分后,可以發現一些重要的信息。如大一上學期,學生的總體成績不錯,尤其是高等數學。成績優秀的學生,四年來的成績基本保持穩定,基本為90分上下;而成績較差的學生,從大二上學期開始,成績就明顯發生了嚴重下滑,也就是該階段成績拉大了差距。而在大三上學期,這類學生有明顯提升了成績,基本與大一一致。數據表明,學生在大學后學習態度有明顯的變化過程,針對這一變化,輔導員和班主任有必要對學生加以警示和指導,以更好的提升教學質量!
隨著信息技術的發展,當今社會早已步入“大數據時代”,數據挖掘技術的研究和應用不斷出現且日趨成熟,作為新技術傳播者的高校更不能落后。筆者有多年高校的工作經驗,結合具體的學院教學數據利用數據挖掘技術進行深入研究,使用K-means算法完成數據預處理和聚類,通過數據重構后的數據分析,將根學生分成五大類,而不是簡單的分數段判別方式,進而評定教學質量。最后,根據不同學生在不同階段的成績情況,給出了課程學習的指導建議。
但是目前的工作還存在著很多不足之處,本文僅就單專業完成數據分析,要形成供整個學院指導用途的系統,還需要完善專業課程的數據處理信息。另外還可以考慮融入更多的數據挖掘技術,如關聯規則挖掘,神經網絡,決策樹分析等,為學院提供更多的決策支持。
[1]Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005
[2]Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203~212
[3]王珊,薩師煊著. 數據庫系統概論[M]. 北京:高等教育出版社. 2006. [22]王珊,薩師煊著. 數據庫系統概論[M].北京:高等教育出版社. 2006
[4]S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998
[5]陳曦,王執銓著. 決策支持系統理論與方法研究綜述[J].控制與決策. 2006(9):961~968
[6]G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999
[7]任明侖,楊善林. 智能決策支持系統:研究現狀與挑戰[J].系統工程學報. 2002(5):430~440
[8]維克托.邁爾.舍爾伯格,肯尼思.庫克耶(英)著.大數據時代[M].浙江人民出版社.2013
[9]朱德利.就業信息的數據挖掘及其分析[J].重慶師范大學學報(自然科學版)2014. (31)120~125
[10]毛海軍,唐煥文著. 智能決策支持系統(IDSS)研究進展[J]. 小型微型計算機系統
2015年江蘇省高等教育教改研究“獨立學院計算機類專業人才培養模式研究與實踐”(課題編號:2015JSJG564)。
李瑩(1983-),女(漢),湖南省常德市,講師,碩士,主要研究方向為算法設計與分析,數據庫原理,人工智能等。
羅嬌敏(1984-),女(漢),江西省高安市,講師,碩士,主要研究方向為操作系統,系統安全,計算機網絡等。
閔芳(1980-),女(漢),江蘇省宜興市,講師,碩士,主要研究方向為數據安全,虛擬化存儲,數據結構等。