基于數據挖掘的高校教學評估系統的研究

2016-03-27 20:18:11李瑩羅嬌敏閔芳

數碼世界 2016年12期

關鍵詞：數據挖掘課程學生

李瑩羅嬌敏閔芳

南京航空航天大學金城學院信息工程系

基于數據挖掘的高校教學評估系統的研究

李瑩羅嬌敏閔芳

南京航空航天大學金城學院信息工程系

對于高等院校來說，如何從眾多的成績數據中選取對于教育決策分析有用的信息，成為一個亟需解決的問題。本文通過深入研究數據挖掘的經典算法，尋找適合的算法，建立數據挖掘模型。然后以學院中某個專業的歷史數據為研究對象，搭建數據倉庫，設計整體架構。經過多次的調研和實踐，最終確定采用聚類分析進行實施。將學生通過聚類而不是分數段分為五類，然后通過課程組、整體成績趨勢等多種方式加以分析，通過直觀的數據圖標加以呈現，更加準確及時的了解教學情況，以輔助教學。

數據挖掘 K-means算法教學評估聚類分析

1 問題提出

作為多年從事教育工作的筆者，常年面對學院產生的大量數據，例如學籍管理、學科管理、招生、就業、教職工管理等系統，其中包含了眾多能夠反饋出學院教學狀況的信息，但是由于其數據量實在龐大，且涉及的部門眾多，單純靠人力來解讀較為困難。因此，如何從數據中“掘金”，是本文討論的主要問題。

2 教學評估系統的架構

本文設計的教學評估系統總體由三層結構組成：數據層、邏輯層和表示層。表示層主要負責數據的輸入輸出，作為界面展示；數據層負責數據的預處理；邏輯層則提供專業的數據分析和挖掘。

3 高校數據的預處理

本文選取的是某高校信息工程專業的課程成績及設置，期望以該專業說明數據挖掘對高校數據分析的過程。由于不同專業間課程差異較大，核心課程各異，數據處理必須分不同專業進行，這也是教育領域數據挖掘較大的難點之一。但是其數據處理的思路與算法思想基本相同，僅是數據預處理的時候需要根據專業特色來制定。建議該預處理的過程尋求各專業內部人士給出參考意見，收集本專業中的核心課程。同時還需要其了解專業的課程設置和學生情況，如近年來是否存在較大課程改革，學生學籍調動等，以免產生較大誤差及噪聲數據。

最終選取的是信息工程專業的核心課程（共16門），形成兩張關系表。其中“數據信息表”存放的是課程信息，定義專業課程的名稱，學時，學分，課程類別，課程類型和考試方式等信息。而“成績信息表”則存放了學生的成績信息，將原有的教務數據進行數據重構，一行元組代表一個學生所有專業的成績情況，每個屬性代表一門專業課程的最終成績，統一采用百分制。這樣處理學生數據的原因是根據聚類的特性，將一個學生數據看成多維空間的一個數據點，成績的差異可以通過計算數據點的距離絕對值，則根據該距離的遠近可以可以實現學生的聚類。

4 聚類算法應用分析

經過多次調研和實踐，最終選用聚類分析中K-means算法來完成分析。聚類分析屬于無指導學習，其挖掘不需要預先定義的類標簽，而是通過大量數據找到其分布規則。由于數據來源于真實的教育背景，其數據存在一定的噪聲（如退學、留級導致的數據缺失等），預處理需要將這些數據刪除。

在算法實踐方面，選用WEKA作為算法分析工具，WEKA是當今較為先進的機器學習算法及數據預處理工具。由新西蘭懷卡托大學開發，JAVA實現，幾乎可運行在所有主流的操作平臺。WEKA為預處理以及后處理提供了統一的方法，可以指定學習算法應用于給定的數據源，同時將不同的學習方案計算的結果給出評估。

K-means算法是基于劃分的聚類，嘗試找出最小平方誤差函數值的K個劃分。算法復雜度為O（nkt），其中n是數據集的數目，k是簇數目，t為迭代次數。算法需要預先指定簇數目k，而對于教務數據，由于學生的成績好壞基本分成五大類，簇數目很好確定。同時，算法較容易受到“噪聲”和孤立數據的影響，少量的誤差數據會對計算的結果產生極大影響，這也是教務數據需要進行較復雜的人工指導下的預處理的原因。

綜上所述，對于學生成績選用K-means算法來進行聚類是較為合適的，根據成績的絕對值差距將學生分為五類。通過主觀觀察和分析簇中心、簇占比等一系列數據，確定合適的算法參數（seed值等）作為先驗知識，最終選取合適的聚類結果，再采用柱狀圖的方式加以直觀的展示。

多次對比試驗后，發現以下信息：

①一般情況下，平方誤差的多少是評判聚類好壞的標準，該數據越小說明簇內數據距離越小，則簇內數據越接近，即學生的成績越接近。因此在判定不同參數條件下聚類的好壞，該數據作為最重要的評判依據。

②為了找到更合適的聚類，在其他參數不變的情況下，更改隨機種子值（seed值）。seed值是聚類隨機選取的種子，一般在10%以內。基于本文的數據集為769條，seed值一般控制在80以下。隨著seed值的改變，聚類的表現相對較穩定，有存在著一定的浮動。但為了得到最為合適的聚類結果，還是需要人為選擇最合適的seed值。

③在seed值選為70的時候，產生了0%的聚類。究其原因是發現了單條記錄作為孤立點被判為單獨的簇，該簇占比太小，因此約等于0%。該條記錄有三門課程為零分，但其他課程分數較正常，推測可能為學生換專業的原因導致。為什么僅在seed值為70的時候發現這種情況？由于K-means算法參數中的seed的選擇與輸入數據的順序直接關聯，因此該算法很大程度下會依賴于數據的輸入順序。

④通過觀察簇中心，在學生成績預處理合適的情況下，能夠獲得了較佳的聚類效果。但是如果數據預處理不夠合理，可能會因為數據缺失等嚴重影響聚類效果。

綜合考慮以上的聚類結果，對seed值不同產生的不同聚類表現，最終選擇的數據結果參數如下：簇數目numClusters=5，seed=40。

5 聚類下的教學評估體系

最終聚類結果：聚類“0”為成績最好的學生，占比17%，課程平均分89分；聚類“2”成績次之，占比21%，課程平均分79分；聚類“4”成績居中，占比25%，課程平均分68分；聚類“1”成績較差，占比22%，課程成績平均分56分；聚類“3”成績最差，占比15%，課程平均分43分。

該學生劃分也可以作為其他數據挖掘的分析依據，以下分別從課程組和整體成績趨勢來做分析：

5.1 按課程組分析

數學類課程組共四門必修課，通過對比數據可以發現，優秀學生各科表現都比較好，這也表示出數學類課程對于個人素質的體現。對于學院在新生選拔時選取數學作為考核科目，是較為合適的。

然而對于“差”和“較差”這兩類學生來說，《高等數學(II)（下）》和《概率論與數理統計(II)》成績則出現了明顯下滑，這種下滑在其它簇的學生中并未出現，說明若這一階段數學課程出現掛科，應引起學生和老師足夠重視，督促學生端正學習態度，加重學習時間的投入。

分析專業課程，可以發現《信號與系統》和《數字電路》這兩門課程在五類學生中都出現了明顯下滑，說明該課程的學習具有一定的難度，輔導員和班主任在指導該門課程的時候可以對學生提出特別提示，學生學習時也要格外的加強學習！

5.2 整體成績趨勢分析

將成績按照學期劃分后，可以發現一些重要的信息。如大一上學期，學生的總體成績不錯，尤其是高等數學。成績優秀的學生，四年來的成績基本保持穩定，基本為90分上下；而成績較差的學生，從大二上學期開始，成績就明顯發生了嚴重下滑，也就是該階段成績拉大了差距。而在大三上學期，這類學生有明顯提升了成績，基本與大一一致。數據表明，學生在大學后學習態度有明顯的變化過程，針對這一變化，輔導員和班主任有必要對學生加以警示和指導，以更好的提升教學質量！

6 結束語

隨著信息技術的發展，當今社會早已步入“大數據時代”，數據挖掘技術的研究和應用不斷出現且日趨成熟，作為新技術傳播者的高校更不能落后。筆者有多年高校的工作經驗，結合具體的學院教學數據利用數據挖掘技術進行深入研究，使用K-means算法完成數據預處理和聚類，通過數據重構后的數據分析，將根學生分成五大類，而不是簡單的分數段判別方式，進而評定教學質量。最后，根據不同學生在不同階段的成績情況，給出了課程學習的指導建議。

但是目前的工作還存在著很多不足之處，本文僅就單專業完成數據分析，要形成供整個學院指導用途的系統，還需要完善專業課程的數據處理信息。另外還可以考慮融入更多的數據挖掘技術，如關聯規則挖掘，神經網絡，決策樹分析等，為學院提供更多的決策支持。

［1］Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005

［2］Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203～212

［3］王珊，薩師煊著. 數據庫系統概論[M]. 北京：高等教育出版社. 2006. [22]王珊，薩師煊著. 數據庫系統概論[M].北京：高等教育出版社. 2006

［4］S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998

［5］陳曦，王執銓著. 決策支持系統理論與方法研究綜述[J].控制與決策. 2006(9):961～968

［6］G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999

［7］任明侖，楊善林. 智能決策支持系統：研究現狀與挑戰[J].系統工程學報. 2002(5):430～440

［8］維克托.邁爾.舍爾伯格，肯尼思.庫克耶（英）著.大數據時代[M].浙江人民出版社.2013

［9］朱德利.就業信息的數據挖掘及其分析[J].重慶師范大學學報（自然科學版）2014. (31)120～125

［10］毛海軍，唐煥文著. 智能決策支持系統（IDSS）研究進展[J]. 小型微型計算機系統

2015年江蘇省高等教育教改研究“獨立學院計算機類專業人才培養模式研究與實踐”（課題編號：2015JSJG564）。

李瑩（1983-），女（漢），湖南省常德市，講師，碩士，主要研究方向為算法設計與分析，數據庫原理，人工智能等。

羅嬌敏（1984-），女（漢），江西省高安市，講師，碩士，主要研究方向為操作系統，系統安全，計算機網絡等。

閔芳（1980-），女（漢），江蘇省宜興市，講師，碩士，主要研究方向為數據安全，虛擬化存儲，數據結構等。