999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的高校教學評估系統的研究

2016-03-27 20:18:11李瑩羅嬌敏閔芳
數碼世界 2016年12期
關鍵詞:數據挖掘課程學生

李瑩 羅嬌敏 閔芳

南京航空航天大學金城學院信息工程系

基于數據挖掘的高校教學評估系統的研究

李瑩 羅嬌敏 閔芳

南京航空航天大學金城學院信息工程系

對于高等院校來說,如何從眾多的成績數據中選取對于教育決策分析有用的信息,成為一個亟需解決的問題。本文通過深入研究數據挖掘的經典算法,尋找適合的算法,建立數據挖掘模型。然后以學院中某個專業的歷史數據為研究對象,搭建數據倉庫,設計整體架構。經過多次的調研和實踐,最終確定采用聚類分析進行實施。將學生通過聚類而不是分數段分為五類,然后通過課程組、整體成績趨勢等多種方式加以分析,通過直觀的數據圖標加以呈現,更加準確及時的了解教學情況,以輔助教學。

數據挖掘 K-means算法 教學評估 聚類分析

1 問題提出

作為多年從事教育工作的筆者,常年面對學院產生的大量數據,例如學籍管理、學科管理、招生、就業、教職工管理等系統,其中包含了眾多能夠反饋出學院教學狀況的信息,但是由于其數據量實在龐大,且涉及的部門眾多,單純靠人力來解讀較為困難。因此,如何從數據中“掘金”,是本文討論的主要問題。

2 教學評估系統的架構

本文設計的教學評估系統總體由三層結構組成:數據層、邏輯層和表示層。表示層主要負責數據的輸入輸出,作為界面展示;數據層負責數據的預處理;邏輯層則提供專業的數據分析和挖掘。

3 高校數據的預處理

本文選取的是某高校信息工程專業的課程成績及設置,期望以該專業說明數據挖掘對高校數據分析的過程。由于不同專業間課程差異較大,核心課程各異,數據處理必須分不同專業進行,這也是教育領域數據挖掘較大的難點之一。但是其數據處理的思路與算法思想基本相同,僅是數據預處理的時候需要根據專業特色來制定。建議該預處理的過程尋求各專業內部人士給出參考意見,收集本專業中的核心課程。同時還需要其了解專業的課程設置和學生情況,如近年來是否存在較大課程改革,學生學籍調動等,以免產生較大誤差及噪聲數據。

最終選取的是信息工程專業的核心課程(共16門),形成兩張關系表。其中“數據信息表”存放的是課程信息,定義專業課程的名稱,學時,學分,課程類別,課程類型和考試方式等信息。而“成績信息表”則存放了學生的成績信息,將原有的教務數據進行數據重構,一行元組代表一個學生所有專業的成績情況,每個屬性代表一門專業課程的最終成績,統一采用百分制。這樣處理學生數據的原因是根據聚類的特性,將一個學生數據看成多維空間的一個數據點,成績的差異可以通過計算數據點的距離絕對值,則根據該距離的遠近可以可以實現學生的聚類。

4 聚類算法應用分析

經過多次調研和實踐,最終選用聚類分析中K-means算法來完成分析。聚類分析屬于無指導學習,其挖掘不需要預先定義的類標簽,而是通過大量數據找到其分布規則。由于數據來源于真實的教育背景,其數據存在一定的噪聲(如退學、留級導致的數據缺失等),預處理需要將這些數據刪除。

在算法實踐方面,選用WEKA作為算法分析工具,WEKA是當今較為先進的機器學習算法及數據預處理工具。由新西蘭懷卡托大學開發,JAVA實現,幾乎可運行在所有主流的操作平臺。WEKA為預處理以及后處理提供了統一的方法,可以指定學習算法應用于給定的數據源,同時將不同的學習方案計算的結果給出評估。

K-means算法是基于劃分的聚類,嘗試找出最小平方誤差函數值的K個劃分。算法復雜度為O(nkt),其中n是數據集的數目,k是簇數目,t為迭代次數。算法需要預先指定簇數目k,而對于教務數據,由于學生的成績好壞基本分成五大類,簇數目很好確定。同時,算法較容易受到“噪聲”和孤立數據的影響,少量的誤差數據會對計算的結果產生極大影響,這也是教務數據需要進行較復雜的人工指導下的預處理的原因。

綜上所述,對于學生成績選用K-means算法來進行聚類是較為合適的,根據成績的絕對值差距將學生分為五類。通過主觀觀察和分析簇中心、簇占比等一系列數據,確定合適的算法參數(seed值等)作為先驗知識,最終選取合適的聚類結果,再采用柱狀圖的方式加以直觀的展示。

多次對比試驗后,發現以下信息:

①一般情況下,平方誤差的多少是評判聚類好壞的標準,該數據越小說明簇內數據距離越小,則簇內數據越接近,即學生的成績越接近。因此在判定不同參數條件下聚類的好壞,該數據作為最重要的評判依據。

②為了找到更合適的聚類,在其他參數不變的情況下,更改隨機種子值(seed值)。seed值是聚類隨機選取的種子,一般在10%以內。基于本文的數據集為769條,seed值一般控制在80以下。隨著seed值的改變,聚類的表現相對較穩定,有存在著一定的浮動。但為了得到最為合適的聚類結果,還是需要人為選擇最合適的seed值。

③在seed值選為70的時候,產生了0%的聚類。究其原因是發現了單條記錄作為孤立點被判為單獨的簇,該簇占比太小,因此約等于0%。該條記錄有三門課程為零分,但其他課程分數較正常,推測可能為學生換專業的原因導致。為什么僅在seed值為70的時候發現這種情況?由于K-means算法參數中的seed的選擇與輸入數據的順序直接關聯,因此該算法很大程度下會依賴于數據的輸入順序。

④通過觀察簇中心,在學生成績預處理合適的情況下,能夠獲得了較佳的聚類效果。但是如果數據預處理不夠合理,可能會因為數據缺失等嚴重影響聚類效果。

綜合考慮以上的聚類結果,對seed值不同產生的不同聚類表現,最終選擇的數據結果參數如下:簇數目numClusters=5,seed=40。

5 聚類下的教學評估體系

最終聚類結果:聚類“0”為成績最好的學生,占比17%,課程平均分89分;聚類“2”成績次之,占比21%,課程平均分79分;聚類“4”成績居中,占比25%,課程平均分68分;聚類“1”成績較差,占比22%,課程成績平均分56分;聚類“3”成績最差,占比15%,課程平均分43分。

該學生劃分也可以作為其他數據挖掘的分析依據,以下分別從課程組和整體成績趨勢來做分析:

5.1 按課程組分析

數學類課程組共四門必修課,通過對比數據可以發現,優秀學生各科表現都比較好,這也表示出數學類課程對于個人素質的體現。對于學院在新生選拔時選取數學作為考核科目,是較為合適的。

然而對于“差”和“較差”這兩類學生來說,《高等數學(II)(下)》和《概率論與數理統計(II)》成績則出現了明顯下滑,這種下滑在其它簇的學生中并未出現,說明若這一階段數學課程出現掛科,應引起學生和老師足夠重視,督促學生端正學習態度,加重學習時間的投入。

分析專業課程,可以發現《信號與系統》和《數字電路》這兩門課程在五類學生中都出現了明顯下滑,說明該課程的學習具有一定的難度,輔導員和班主任在指導該門課程的時候可以對學生提出特別提示,學生學習時也要格外的加強學習!

5.2 整體成績趨勢分析

將成績按照學期劃分后,可以發現一些重要的信息。如大一上學期,學生的總體成績不錯,尤其是高等數學。成績優秀的學生,四年來的成績基本保持穩定,基本為90分上下;而成績較差的學生,從大二上學期開始,成績就明顯發生了嚴重下滑,也就是該階段成績拉大了差距。而在大三上學期,這類學生有明顯提升了成績,基本與大一一致。數據表明,學生在大學后學習態度有明顯的變化過程,針對這一變化,輔導員和班主任有必要對學生加以警示和指導,以更好的提升教學質量!

6 結束語

隨著信息技術的發展,當今社會早已步入“大數據時代”,數據挖掘技術的研究和應用不斷出現且日趨成熟,作為新技術傳播者的高校更不能落后。筆者有多年高校的工作經驗,結合具體的學院教學數據利用數據挖掘技術進行深入研究,使用K-means算法完成數據預處理和聚類,通過數據重構后的數據分析,將根學生分成五大類,而不是簡單的分數段判別方式,進而評定教學質量。最后,根據不同學生在不同階段的成績情況,給出了課程學習的指導建議。

但是目前的工作還存在著很多不足之處,本文僅就單專業完成數據分析,要形成供整個學院指導用途的系統,還需要完善專業課程的數據處理信息。另外還可以考慮融入更多的數據挖掘技術,如關聯規則挖掘,神經網絡,決策樹分析等,為學院提供更多的決策支持。

[1]Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005

[2]Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203~212

[3]王珊,薩師煊著. 數據庫系統概論[M]. 北京:高等教育出版社. 2006. [22]王珊,薩師煊著. 數據庫系統概論[M].北京:高等教育出版社. 2006

[4]S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998

[5]陳曦,王執銓著. 決策支持系統理論與方法研究綜述[J].控制與決策. 2006(9):961~968

[6]G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999

[7]任明侖,楊善林. 智能決策支持系統:研究現狀與挑戰[J].系統工程學報. 2002(5):430~440

[8]維克托.邁爾.舍爾伯格,肯尼思.庫克耶(英)著.大數據時代[M].浙江人民出版社.2013

[9]朱德利.就業信息的數據挖掘及其分析[J].重慶師范大學學報(自然科學版)2014. (31)120~125

[10]毛海軍,唐煥文著. 智能決策支持系統(IDSS)研究進展[J]. 小型微型計算機系統

2015年江蘇省高等教育教改研究“獨立學院計算機類專業人才培養模式研究與實踐”(課題編號:2015JSJG564)。

李瑩(1983-),女(漢),湖南省常德市,講師,碩士,主要研究方向為算法設計與分析,數據庫原理,人工智能等。

羅嬌敏(1984-),女(漢),江西省高安市,講師,碩士,主要研究方向為操作系統,系統安全,計算機網絡等。

閔芳(1980-),女(漢),江蘇省宜興市,講師,碩士,主要研究方向為數據安全,虛擬化存儲,數據結構等。

猜你喜歡
數據挖掘課程學生
數字圖像處理課程混合式教學改革與探索
探討人工智能與數據挖掘發展趨勢
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
為什么要學習HAA課程?
趕不走的學生
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
學生寫話
學生寫的話
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国模极品一区二区三区| 尤物视频一区| 青青极品在线| Jizz国产色系免费| 人与鲁专区| 日韩无码真实干出血视频| 青青久久91| 欧美成人aⅴ| 国产精品人成在线播放| 久热这里只有精品6| 国产网站在线看| 久久免费视频6| 亚洲欧美另类久久久精品播放的| 亚洲 成人国产| 人妻无码一区二区视频| 好久久免费视频高清| 国产毛片一区| 综合社区亚洲熟妇p| 久久99精品久久久久久不卡| 国产一在线观看| 亚洲天堂网视频| 伊人色综合久久天天| 午夜福利免费视频| 日韩毛片免费视频| 国产亚洲一区二区三区在线| 成人欧美日韩| 久久久噜噜噜| 久久综合久久鬼| 欧洲亚洲欧美国产日本高清| 福利在线免费视频| 啪啪免费视频一区二区| 亚洲欧美自拍中文| 久久99精品久久久久纯品| 国产欧美日韩在线在线不卡视频| 国产高清毛片| 国产永久无码观看在线| 国产剧情国内精品原创| 日韩毛片基地| 人妻丰满熟妇αv无码| 亚洲第一国产综合| 免费A级毛片无码无遮挡| 成人蜜桃网| 国产成人你懂的在线观看| 91在线国内在线播放老师| 日本国产一区在线观看| 五月天久久综合| 国产精品大白天新婚身材| 久久精品一卡日本电影| 国产一级视频久久| 国产丝袜91| 久久天天躁狠狠躁夜夜躁| 亚洲天堂高清| 成人无码区免费视频网站蜜臀| 国产亚洲精品97AA片在线播放| 色国产视频| 毛片视频网址| 久久人妻xunleige无码| 伊人无码视屏| 99久久免费精品特色大片| 日韩区欧美国产区在线观看| 久久久久免费看成人影片 | 久久99国产综合精品女同| 热思思久久免费视频| 毛片免费观看视频| 国产资源免费观看| 免费国产福利| 国产微拍精品| 婷婷中文在线| 91精品在线视频观看| 伊在人亚洲香蕉精品播放| 国产激情无码一区二区三区免费| 免费a级毛片视频| 久久久噜噜噜久久中文字幕色伊伊 | 免费看a毛片| 亚洲国产AV无码综合原创| 亚洲永久免费网站| 伊人天堂网| 亚洲永久免费网站| 无码AV日韩一二三区| 亚洲伊人天堂| 午夜老司机永久免费看片| 一本大道香蕉久中文在线播放|