楊靈芝,劉海明,袁也婷
(滄州職業技術學院,河北 滄州 061001)
高職教育數據挖掘探討與實踐研究
楊靈芝,劉海明,袁也婷
(滄州職業技術學院,河北 滄州 061001)
結合高職院校教育大數據,分析并探索適合教育數據挖掘的工具和算法,對學生成績數據進行簡單挖掘,發現適合學生學習規律的課程體系,為教育管理者和教師提供良好的指導措施。
數據挖掘;大數據;實踐
隨著信息化時代的到來,云計算、大數據、物聯網、移動互聯網等新技術已經慢慢滲透到人們生活的各個方面,這些新技術極大改變了信息技術的體系架構和應用模式,大數據是當今信息互聯時代的最重要特點。越來越多不同領域的專業人士發現,投入大量的資金、技術和人才,充分發掘大數據中隱藏的有價值的信息,能夠進一步推動信息社會的快速發展。
所謂數據挖掘,是從巨量數據中發現并找出有使用價值的知識。使用靈活的挖掘工具,借助成熟的發掘模型,采用數據挖掘相關規則,參照挖掘流程,最終發現一些有價值有意義的規律,了解各種數據之間的聯系或模式。傳統的數據挖掘與大數據時代數據挖掘的本質是相同的,不同在于數據的結構發生變化,數據量由海量變為巨量,結果分析由因果性變為相關性分析。隨著學校教育信息智能化管理的實施,教育數據呈明顯增長趨勢,學生學習情況、教師授課情況、教師考核情況、學生就業信息等越來越多的數據充斥在學校信息化管理中。要在巨量教育數據中尋找影響學生學習主動性的因素,發掘影響教師教學積極性和執教能力的原因,就需要采用專門的數據挖掘工具,選取適當的挖掘算法,進行多種挖掘,以便從中發現隱藏規律,從而為提升學校人才培養質量、培養骨干教師和深化教學改革提供有力依據。
現有的信息資源包含學生管理系統中學生基本信息、成績信息,考勤管理系統中學生上課出勤情況,教師管理系統中授課情況、教師個人基本信息、職稱信息、科研情況,就業管理系統中學生就業情況、就業區域,在線學習系統中學生學習情況、提交作業,等等,所有這些數據信息都將作為教育數據挖掘的基礎數據源。決策樹分類方法,能夠將影響教師測評結果的各種因素以樹形顯示出來,并發現學生是影響教師測評的至關重要因素。關聯規則方法,能夠尋找出影響教師教學質量的一些規律,比如參加培訓、參加比賽等,從而提升教師執業能力水平。聚類分析方法,將學生學習、出勤、考試、課程、作業等情況相似的歸為一組,從中找出共性規則。預測方法,對學生整體學習行為或個人學習發展趨勢作出合理預測,等等。對于一些非結構數據,可以使用R語言數據挖掘工具架構。
在高職院校學生信息管理系統中,學生的學習情況是由多方面因素(成績、學習態度、考勤、課程設計成績、參加比賽情況、課前預習情況、作業提交情況)綜合評定的。從學生管理系統、考勤管理系統中抽取出學生基本信息、專業課成績信息、學生出勤信息、學生參加比賽信息等相關數據,去掉無關信息,構建學生學習情況信息表。
以通信技術專業學生數據為例,選取該專業核心課程數據,從系統中導出所需要的數據并進行抽取,得到最終的學生學習情況信息表,如表1所示。

表1 學生評價挖掘信息表Tab.1 Student evaluation mining information form
通過分析發現每項指標都是連續數值,結合關聯算法要求,需要將上表信息離散化,同時轉化為Weka能夠識別的字段名稱。具體過程如下:第一,7項相關聯因素分別用peacetime,attendance,mobile communication,microwave measurement,RF optimization, graduation design,skills contest來表示,其中前6項均將成績分為優、良、中、及格、不及格5個等級,優為90分以上,良為80~90分,中為70~80分,及格為60~70分,不及格為60分以下,分別用A、B、C、D、E來表示。第二,參加比賽情況按照比賽級別分為國家級、省級、市級、校級和無參賽,分別用A、B、C、D、E來表示。將上述信息表進行預處理,轉換得到表2。

表2 離散化后學生評價挖掘信息表Tab.2 Discretized student evaluation mining information form
經過數據預處理后,進行學生評價信息的數據挖掘實驗。啟動Weka軟件,進入Explorer界面,選擇preprocess選項卡,打開離散化后的數據表格,其中表格格式要求是.csv或者.arff,觀察數據表中數據情況,包含7個屬性1 896條數據信息。選擇Associate選項卡中的最常用的Apriori算法,設定最小支持度閾值0.1,最小置信度閾值0.8,在挖掘結果界面中生成了3個頻繁項集,20條規則。然后改變Apriori算法的最小支持度、最小置信度和生成規則條數3個參數,繼續進行挖掘實驗,通過多次修改參數設置,從最終多次挖掘結果中選出幾條對學生學習行為習慣中有價值的規則進行分析,進一步提出整改措施,輔助教師更好的投入到教學工作。挖掘結果分析如下:第一,attendance=B Microwave measurement=B 17 ==> Graduation design=B 15
文章使用Weka中Apriori算法對學生的學習行為習慣進行挖掘分析,從學生學習角度找出影響學生畢設及技能的幾點規則,包含學習習慣的養成、技能大賽的參與情況及專業核心課程的引導等。這些挖掘結果為教育管理者和教師提供了良好的指導措施,對學生的培養和教師素質的提升給出了明確的建議。
[1] 魏順平.學習分析技術:挖掘大數據時代下教育數據的價值[J].現代教育技術,2013,23(02):5-11.
[2] 牟智佳,俞顯,武法提.國際教育數據挖掘研究現狀的可視化分析:熱點與趨勢[J].電化教育研究,2017,38(04):108-114.
Discussionandpracticeresearchofdatamininginhighervocationaleducation
YANG Ling-zhi, LIU Hai-ming, YUAN Ye-ting
(Cangzhou Vocational and Technical College, Cangzhou 061001, China)
This paper analyzes tools and algorithms suitable for educational data mining in combination with the big data of education in higher vocational colleges. It makes a simple excavation of the students’ grade data and finds a curriculum system that suits students’ learning rules and provides good guidance for education managers and teachers.
Data mining; Big data; Practice
2017-10-15
楊靈芝(1982-),女,研究生,講師;
劉海明(1982-),男,本科,講師;
袁也婷(1983-),女,本科,講師。
TP311.13
B
1674-8646(2017)23-0062-02