周日輝
關鍵詞:教育信息化;數據挖掘;教務管理;軟件工程;關聯挖掘
1 教育數據挖掘技術
教育領域的信息化腳步是影響目前教育信息數據的快速增長的重要原因。面對如此龐大的教育資源數據,充分運用數據挖掘技術把數據背后一系列有用的知識深度挖掘出來,比如隱藏的規律,相互影響的因素,相互關聯的成分等,并且在一定程度上加以靈活地二次運用,這不單只是教育資源的充分利用,對于教育資源的決策者、教育工作者、學生來說,更是一個福音,這也是教育數據挖掘技術出現的原因[1]。
教育過程數據挖掘和學習分析技術是目前數據挖掘技術在教育領域中研究應用的兩大主要方向。教育過程數據挖掘是在大數據環境下,通過利用數據挖掘和機器學習等方法[2],對教與學過程中所產生的數據剖析,可以實現對學習行為和學習過程進行量化建模,進而揭示教學規律。其關鍵任務需要解決教育過程中的幾大問題,如何調整教學順序適應不同學生,影響優異學習成績的因素,預示學習質量的學生行為,在線學習環境的優化等。而學習分析技術是為探索新的學習模式,為理解和優化學習模式以及學習情境,一般通過對實驗對象以及學習環境的數據進行監測、匯總與分析。其主要應用是監測和預測學生的學習成績,及時有效地發現問題、做出干預、規避風險。
2 需求分析
2.1 功能性與非功能性需求
基于數據挖掘技術的教務綜合管理平臺以高職院校作為研究切入點與服務對象,為其教育管理者、教師、學生等提供一個綜合數據分析平臺,在實現基本教務功能的基礎上,運用統計學方法及數據挖掘中的關聯規則挖掘算法進行成績分析[3],挖掘成績之間的相關性模式并對這些模式進行二次使用,具體主要的功能性需求描述如下:
1) 考慮到平臺的實用性,基本確定使用范圍主要為教學管理人員(管理員)、教務分析人員(分析員),以及校內教師用戶。通過深入使用范圍內的群體進行調研和訪談,結合系統在功能表現上的各種約束條件,基本可以確認管理員的使用需求,以用戶管理、系統管理、教務管理及成績數據管理為主,分析員進行成績關聯規則挖掘以建立知識庫為主,教師用戶以成績查詢、上傳、數學統計分析以及二次使用挖掘模式為主。
2) 平臺以學生成績數據為基礎數據,與成績數據相關的一些基本教務功能要求可以實現,利用數據庫技術進行學生成績數據的增、刪、改、查。為方便大批量成績數據的添加可使用文件上傳和編輯添加兩種方式。對于存放在數據庫中的歷年成績數據,為適應使用者的使用目標,通過設置精確或模糊的多種條件,把范圍小到學生個人,大到整個專業的各學期階段成績數據進行查詢并展示。
3) 針對查詢得到的成績數據結果,對特定科目進行常規數學統計對比分析。利用不同的圖表形式,縱向和橫向對比成績的各分數段比率、優秀率、及格率、平均分、最高分,最低分、標準差、超平均分比率等統計信息。縱向對比是通過比較同一專業不同年級的情況實現,橫向對比是通過比較同一學年不同專業或不同班級的情況實現。如此統計比較可以一方面讓教學人員充分了解當前自身的教學質量情況及學生對科目的學習情況,通過兩向對比獲取教學建議,另一方面通過圖表化統計對比獲知的信息可以引導進一步地關聯挖掘分析成績數據之間規律。
4) 平臺為探索學生成長成才的因素及因素之間的聯系,建立抽象模型,把各種人才培養分析的因素“成績化”,包括學科成績、素質成績、發展能力成績三種類型。通過此模型可以把握人才培養分析的多個維度。
5) 平臺利用關聯規則分析算法進行數據挖掘工作[4],首先提供用戶進行準備數據的選擇,為確保通過挖掘算法能夠最終挖掘出有利用價值的模式信息,通過界面用戶選擇有效條件,從數據庫中獲取成績數據,此有效條件主要從數量及質量上體現;然后能夠實現對準備數據的預處理,預處理主要工作是把成績數據從分數值、連續型的數據轉化為離散型數據,并通過界面展示預處理結果;最后對預處理結果數據進行關聯規則挖掘,界面展示得到成績數據中的強關聯規則并確認是否存檔。
6) 平臺對于已存檔于數據庫中的強關聯規則基礎庫可進行二次利用[5],實現根據學生現有的成績狀態進行預測,預測后續的成績狀態,從而規避劣勢課程成績的發生,或者根據現有成績狀態進行溯因,查找可能導致此狀態的原因(當前成績狀態),從而方便教學人員調整教學順序或策略。
作為對功能性需求的補充,在對平臺進行需求分析的過程中,還識別到一些非功能性的需求,用于描述系統性能或運行情形的要求和約束等。主要內容包括:
1) 響應的實時性,平臺要求對用戶在界面上的操作能夠實時響應,對于操作引起的數據庫上數據的變更,能實時地反映在后續操作上。
2) 數據的準確性,由于平臺中的數據要為數據挖掘工作提供準備數據的支持,所以在數據的錄入、修改、保存的過程中,需要在每個環節上設定條件規范數據的合理性,保證數據完整、準確。
3) 平臺針對不同用戶類型設置相應權限,保證系統的安全性及可靠性,此外系統設計上使用B/S模式,允許多用戶同時通過網絡使用系統對數據進行不同操作。
2.2 用例圖
針對前文關于平臺系統的需求描述,系統使用的角色有管理員、分析員以及教師用戶三類,對系統核心的功能需求建立用例圖,如圖1所示。
3 系統的設計
3.1 系統架構
基于數據挖掘技術的教務綜合管理平臺的架構設計是符合MVC[6](模型Model-視圖View-控制器Controller)模式的B/S(Browser/Server)解決方案,遵循“統一管理平臺,統一操作界面”的總體設計思路,從系統架構功能邏輯上劃分為表示層、業務邏輯層、數據層及基礎層四層體系結構作為構建應用的基礎,其中以業務邏輯層即中間層作為架構的核心,以下對整體的設計思路作闡述。
表示層,B/S解決方案使得用戶終端的訪問及操作在Web瀏覽器上進行,程序的運行及數據庫的訪問等在服務器上完成,統一簡約風格的操作界面,菜單管理和輸入顯示的邏輯清晰明了,結合操作便捷靈活的H5頁面設計,界面適配不同尺寸及分辨率終端,讓操作體驗更具人性化和便捷性。
業務邏輯層,是系統技術架構實現的功能和管理核心,實現用戶面對系統的基本應用功能,基本應用包括基礎的系統管理、操作日志管理及權限管理,教務管理實現學院基礎信息的完善,其中學科管理維護學院人才培養分析的參數“學科成績化”模型,學生成績管理維護本系統的成績樣本基礎庫及進行數學統計分析,核心應用業務對成績數據進行關聯挖掘分析,功能以Weka數據挖掘引擎為基礎[7],并改進其技術支撐,Tomcat中間件服務器作為應用服務器。
數據層,實現數據存儲、查詢和共享,靈活的數據庫存放及讀取操作,數據庫進行合理的邏輯分區,通過多源數據接口實現與學院原教務系統的信息共享, 以方便業務邏輯層使用,此外構建學生原始成績數據文件庫,ARFF文件庫[7],以方便核心業務關聯挖掘功能的實現。
基礎層,包括有物理網絡及云服務器等相關設備,負責數據傳輸,以及作為系統底層網絡硬件平臺基礎。
以上為系統的技術架構,其邏輯結構圖如圖2 所示。
3.2 系統功能模塊
根據前述對平臺的需求分析,結合系統架構功能邏輯,對本系統各功能需求進行梳理,在進行系統開發過程中,將按以下功能模塊圖進行設計,具體見圖3。
系統的功能模塊主要分成四個模塊、系統管理、教務管理、學生成績管理及基于關聯規則挖掘的成績分析。
1) 系統管理模塊:包括用戶管理、角色管理、菜單管理、操作日志管理、數據庫備份還原等系統相關的日常維護管理功能,其中用戶管理及角色管理對管理員、分析員、教師用戶三類用戶信息及權限設置進行管理。
2) 教務管理模塊:包括專業管理、年級管理、班級管理,學科管理以及學生信息管理,對學生簡單的個人基本學籍信息情況數據進行維護,教師任課管理維護各學期分配給教師用戶的教學任務信息,學科管理根據需求分析,將學科進行分類,各項學科成績根據實際情況均定為100分制,在模型中成績數據包括學科成績、素質成績、發展能力成績三種類型。
3) 學生成績管理模塊:功能主要包括管理學生成績數據的基本操作。如,成績數據的上傳錄入;教師用戶在規定格式文件中,登記本學期擔任學科班級的成績,并通過系統上傳至數據庫中;成績查詢編輯:管理員對需重錄成績進行修改,用戶均可查詢學生的成績數據,教師用戶可查詢本人擔任學科班級成績;成績統計分析:分析員及教師用戶對查詢的成績數據進行數學統計分析,并圖例展示。
4) 基于關聯規則挖掘的成績分析模塊:這是整個系統最核心的業務模塊,分成成績關聯挖掘分析子模塊和成績預測及溯因子模塊。前者包含對成績數據樣本完整的數據挖掘流程,后者是對系統的關聯規則知識庫進行查詢。
3.3 系統用例分析與設計
根據需求分析,系統用例較多,本節僅以關聯挖掘用例為例進行分析。用例分析包括用例的功能描述、用例的交互過程和用例的類(邊界類、控制類、業務類、實體類)分析與設計。
關聯挖掘用例功能描述:分析員在完成數據預處理工作后對數據預處理結果文件利用關聯挖掘算法以獲得強關聯規則的工作。
關聯挖掘用例交互過程:關聯挖掘屬于基于關聯挖掘成績分析功能里最重要的一個子過程,分析員用戶在獲得預處理數據文件ARFF文件后,讀取文件并轉換成事務集合,根據設定的“最小支持度上限”“最小支持度下限”“最小置信度”“支持度增量”“最優規則數量”以及“優化算法的支持度峰值”運行改進Apriori算法[8]獲取關聯規則結果頁面顯示,并保存至數據庫關聯規則表中。
關聯挖掘用例的類分析和設計。
1) 邊用界戶類界:面關類聯)挖,該掘類的負邊責界顯類示為關A聯sso規cia則tio列nI表nte以r?及獲取關聯挖掘各項參數。
2) 控制類:頁面類MiningAction.java對邏輯對象Apriori.java進行調用,負責接收對象傳遞數據及領域對象數據的轉換。
3) 業務類:Apriori.java類是挖掘算法的核心類,執行Apriori算法運算流程,為實現算法功能對邏輯對象Instances.java、AprioriItemSet.java以及Association? Rules.java 進行調用;Instances.java 類調用邏輯對象PreproResultData.java,該類的作用是從數據源中向程序讀入所有數據記錄,通過實現此類,生成算法所需的事務集Instances并返回;PreproResultData.java類讀取本地ARFF文件并解釋成數據源;AprioriItemSet. java類是改進Apriori算法的頻繁項集類[9],處理挖掘頻繁項集的主體工作并返回頻繁項集集合;Associa? tionRules.java類是Apriori算法的關聯規則類,從頻繁項集集合中生成關聯規則并返回,調用邏輯對象RulesResult.java。
4) 實體類:規則結果類RulesResult.java可實例化存儲各條關聯規則的序號、規則前件、規則后件、參數信息、備注信息等屬性的規則結果對象。
4 結束語
綜上所述,在大數據時代的背景下,在教育領域,僅提供普通事務處理的傳統信息管理平臺已經不能滿足日新月異的教學場景需求,利用數據挖掘技術在傳統的教務管理平臺進行功能拓展,構建具備決策支持的教務綜合管理平臺符合教育信息化的發展趨勢。文章根據高職院校的教學實踐進行需求分析,對目標系統進行設計,為推進該方面系統技術的實施應用做出努力。