任鎖平
(陜西職業技術學院 教務處,陜西 西安 710100)
近年來隨著信息技術的快速發展,產生越來越多的數據,然而這些數據中隱含著很多無法用眼睛觀察的信息,數據挖掘技術能夠通過對大量的數據進行分析、挖掘,尋找數據背后的關系,幫助人們正確的進行決策判斷。
而隨著國民經濟的轉型,職業教育也迎來了良好的發展機遇,如何更好的實現職業教育的內涵式發展,是每一位職教工作需要考慮的。高職教育質量監控評價系統正是在這個背景下誕生的一種評價工具。但是僅僅靠評價系統難以做到真實而有效的評價,借助數據挖掘技術,實現對評價系統中產生的大量數據進行挖掘、分析,探尋數據背后的隱含意義,并幫助管理部門進行正確的決策和判斷,有效提升高職教育教學質量,加快實現職業教育現代化。
近年來數據挖掘技術引起了廣泛關注,其主要原因在于信息技術與互聯網的迅猛發展,大量基礎數據的產生,人們需要了解這些數據背后的隱藏內容,因而誕生了數據挖掘的概念及技術。
數據挖掘(Data Mining,DM)一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標[1]。同時它也被認為數據庫中知識發現(KDD)的一個環節,大多數情況下認為數據挖掘比數據庫中知識發現是兩個等同概念,但數據挖掘更加注重于算法分析來探尋海量數據背后的隱含知識的目標。數據挖掘結合了統計學、計算機學科等多學科,支持多種數據格式的挖掘,無論是結構化的還是非結構化的數據都可以通過處理后進行數據挖掘,有較高的應用價值。
數據挖掘的功能主要有兩方面:描述和預測[2]。描述功能主要是用來數據之間的共同特點及聯系,主要包括數據分類、聚類分析、匯總與歸納、偏差檢測等;而預測功能主要是通過對現有數據分析來預測未知的數據,主要包括有統計方法、關聯規則、決策樹與回歸、序列模式等。
數據挖掘的過程主要包括:確定對象、數據準備、模型建立、數據挖掘與結果分析等步驟,具體如圖1[3]所示。
數據挖掘過程中算法是其核心內容,以SQL Server2008為例,如圖2所示。SQL Server2008中提供的數據挖掘算法主要有以下幾種:決策樹、聚類分析、Naive Bayes、關聯規則、順序分析和聚類分析、時序、神經網絡、線性回歸、邏輯回歸等。
圖1 數據挖掘的一般過程Fig.1 The general process of data mining
圖2 SQL Server2008創建數據挖掘結構Fig.2 SQL Server2008 create data mining structure
隨著現代職業教育的快速發展,職業教育信息化也將成為助力現代職業教育快速發展的重要手段。2012年教育部成立職業院校信息化教學指導委員會,也標志著職業教育信息化步入快速發展的軌道,教育信息化包括很多方面,不僅僅是教學的信息化,還包括教育管理的信息化等,而現階段的職業教育信息化更多的進行事務處理,利用數據挖掘技術進行數據分析還很少,利用數據挖掘進行教育信息化數據進行分析,將成為教育信息化發展的重要方向。
目前,數據挖掘在電子商務、醫療、金融、交通等方面取得了廣泛應用,并促進了其快速發展。而數據挖掘在職業教育方面也必將能夠解決教育教學管理中的問題,促進職業教育信息化的快速發展,實現現代職業教育建設。
教學質量監控評價系統主要目的在于實現形成相互銜接的多元評價機制和質量預警機制,依托數字化校園網絡平臺,實現信息及時交換、傳輸、匯總、分析和反應,形成涵蓋人才培養全過程、全方位、多元參與的教學質量監控評價平臺。評價主體包括有政府、學校、教師、學生、行業企業、第三方、家長等,各主體在登錄頁面通過身份驗證進行客觀評價,最終通過對數據的挖掘分析,為提高教育教學質量提供決策支持。詳細流程圖如圖3[4]所示。
圖3 教學質量監控評價系統流程圖Fig.3 Flow chart of evaluation system of teaching quality monitoring
2.2.1 功能需求概述
基于數據挖掘技術的高職教學質量監控評價系統具備不同用戶通過身份驗證進行系統登錄,實現數據的收集或評價,系統門戶首頁包括登陸模塊、資源和課程的展示,各類大賽的視頻及資料展示,企業、行業、教師、政府等對學院課程、教材、人才培養方案、課程標準評價展示等。系統同時支持手機端訪問和使用,隨時隨地可使用系統進行評價或者資源的使用。系統提供權限管理、信息上傳、下載、刪除、修改、更新、數據導出(提供多種類型的數據導出)項目添加等功能,同時為方便配合SQL Server2008數據庫進行數據挖掘,對數據輸入進行限定,方便后期數據處理。同時系統要實現數據自動備份功能,提高系統安全性。
2.2.2 系統總體設計
基于數據挖掘技術的高職教學質量監控評價系統設計上充分考慮不同用戶的需求和條件,采用B/S模式架構,具有靈活性和方便性,對客戶端的硬件要求低等特點。數據庫采用SQL Server2008,由于它具備SQL Server Analysis Service組件,故而在數據挖掘方面減少了大量的數據采集和整理的工作,提高了工作效率。系統開發技術采用J2EE,開發語言采用JAVA。數據備份采用日、周、月策略進行備份。具體如表1所示。
表1 系統主要實現技術Tab.1 System main implementation techniques
在硬件方面,考慮后期產生的數據量較大,為長期實現系統正常運行和使用,服務器配備了4*E7-4820的CPU,256GB內存,8TB硬盤,完全能夠滿足系統正常運行和要求。
本系統結構設計融合了基于B/S模式的CMS(內容管理系統)系統和MIS(管理信息系統)系統,基于B/S的MIS系統是本系統結構中設計中的重要部分,系統涉及的大部分功能均在MIS系統中實現,同時由于其基于B/S模式,簡化了操作流程和使用門檻,提高了系統的可用性和實用性。在CMS系統中主要設計了新聞通知、學院榮譽、行業、企業評價機構簡介、家長評價等信息。而基于B/S模式的MIS中設計了各主體評價的評價內容、評價標準、評價方法等設計,同時針對高等職業教育的特色,添加了企業針對學生實習和帶隊教師的評價標準及方法。
數據庫設計是系統較為重要的部分,由于本系統設計中存在CMS和MIS兩個不同的管理系統,因此在數據庫設計上也有所不同,而最重要的則是MIS系統中的數據庫設計,文章以MIS系統中行業用戶的數據庫設計描述數據庫的實現。
行業用戶評價主要是針對學院人才培養方案的設計合理性進行評價,行業用戶名的基本信息用HY-Users用戶表來保存用戶基本信息,如單位名稱、用戶名、密碼、聯系電話、地址等。結構如表2所示。
表2 用戶表Tab.2 Industry user table
其中單位名稱是指行業名稱,而聯系人則是指該行業評價學院人才培養方案的聯系人,用戶備注信息主要是備注該行業是針對某一院系或某一大類專業。
SQLServer2008數據庫中,數據挖掘主要是依靠Analysis Services來實現的。其中包含了數據挖掘解決方案中需要用到的大部分工具和模型。與其他數數據庫比較具有以下幾個特點[5],一是多個挖掘模型之間進行交叉驗證,在相同結果之間的模型之間進行對比,有利于決策者做出更加明智的決斷,例如在高職教學質量監控評價系統中對學生成績分析,一般的分析往往只能看到結果,無法對原因進行分心,通過交叉驗證可以探尋具體的原因;二是算法上的改進,在時序算法中除了基于ARTxp算之外,新增加了一種基于ARIMA算法,兩種算法并無優劣之分,前者適于短期預測,后者適于長期預測;三是數據挖掘模型中實現鉆取,但鉆取功能有一定的限制,并非所有的算法都支持鉆取功能。
SQLServer2008數據庫在高職教學質量監控評價系統中進行數據挖掘時需要根據實際情況進行數據的收集、整理、模型選擇、分析等。以最常見的評教舉例,以往的評教僅僅是得到一個評教結果,其造成結果的原因無法知道。為了能夠發現教師本身素質與學生評教結果之間的內在聯系,選用關聯規則結構進行數據挖掘,其采用了Apriori算法進行挖掘,探尋內在聯系。具體的步驟分[6]為:首先準備評教結果數據,包含了評教結果與教師的各項基本信息,其次是進行關聯規則挖掘,例如將準備好的數據進行教師學歷、職稱、分類,總評分為有、良、中、及格幾個等級,采用基于Apriori算法對數據進行處理,得出關聯規則,其中可設0.2位最小支持度,再次利用支持度算法求出每個子項集的支持度,最后在得出的頻繁項集,設置置信度為0.3,根據算法求出每一項關聯規則的置信度[7],并對結果進行分析解釋,得出結論,用以改進和提高教育教學質量。
隨著信息技術的不斷發展,數據挖掘技術的不斷成熟,基于數據挖掘技術來解決高職教學質量監控與評價系統將會為重要的教育管理評價技術,為教育管理者提供決策判斷,也必將推動現代職業教育的快速發展。
[1]百度百科.數據挖掘 [EB/OL].[2015-01-28].http://baike.baidu.com/view/7893.htm.
[2]鄭碧嶷.基于數據挖掘技術的高校輔助決策系統設計與實現[D].北京:北京工業大學,2013.
[3]吳建蘭.基于數據倉庫的教學質量監控評價系統[D].泉州:華僑大學,2005.
[4]中國高職高專教育網.陜西職業技術學院“國家示范性高等職業院校建設計劃”骨干高職院校建設方案.[EB/OL].[2014-12-28].http://61.164.87.131/web/articleview.aspx?id=20121225104748212&cata_id=gspf.
[5]IT專家網.在SQL Server 2008 R2上實現人工智能數據挖掘[EB/OL].[2014-12-28]http://database.ctocio.com.cn/analysis/385/9416385.shtml.
[6]張震.基于數據挖掘技術的教學質量評價系統研究[D].合肥:合肥工業大學,2006.
[7]丁留寶.PQDIF文件生成方法及在多操作系統下的實現[J].陜西電力,2014(7):83-87.DING Liu-bao.The method and implementation of creating PQDIF file in different operating systems[J].Shaanxi Electric Power,2014(7):83-87.