基于數據挖掘的英語教學分析系統(tǒng)的設計與實現

2011-12-31 00:00:00付希

教育界·上旬 2011年21期

【摘要】通過將數據挖掘算法即關聯(lián)規(guī)則中的Apriori以及分類中的ID3決策樹，編碼實現。對積累于我校教務系統(tǒng)中的某專業(yè)的英語學習相關數據進行統(tǒng)計挖掘和分析，實現基于數據挖掘的英語教學分析系統(tǒng)。

【關鍵詞】數據挖掘英語教學分析

一、引言

隨著計算機網絡的普及，各地高校的教務管理系統(tǒng)也如雨后春筍般興起，這些系統(tǒng)的出現為師生及教務管理員提供了極大的便利。隨著使用時間的增長，系統(tǒng)中會累積大量的數據，例如師生的信息、學生的選課記錄、學生的成績等。這些大量的數據的背后往往存在某些潛在的聯(lián)系，這些聯(lián)系對決策支持、教務分析等都會有極大的幫助。而數據挖掘技術就是用來分析潛藏在大量數據中的特殊對應關系的技術領域。

二、數據挖掘概述

（一）數據挖掘定義

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

（二）數據挖掘步驟

1. 問題定義

分析明確采用什么樣的算法，期望獲得什么樣的結果。

2. 數據準備

三個步驟：數據選取、數據預處理、數據變換。

數據選取指的是從數據庫中選擇要用來進行挖掘的數據。在本系統(tǒng)中所需的數據表大致如下：

學生基本信息表；

學生四六級考試信息表；

學生期末考試成績表；

教師信息表；

學生課程記錄表；

教師任課信息表。

數據預處理一般可能包括消除噪聲、推導計算缺值數據、消除重復記錄，完成類型轉換等。如在學生基本信息表中，生源地這一屬性有部分值出現空缺，這樣的記錄就應該被清洗掉。

數據變換的主要目的是消減數據維數或降維，即從初始特征中找出真正有用的特征，以減少數據挖掘時要考慮的特征或變量個數。比如學生信息表中，聯(lián)系方式或電話號碼不是系統(tǒng)使用數據的目標，故而可以不被抽取出來。

3. 數據挖掘

根據問題定義選擇算法，對準備好的數據進行挖掘獲得結果。

三、系統(tǒng)設計與實現

（一）系統(tǒng)架構設計

系統(tǒng)基于Web設計，采用B/S模式及MVC架構。MVC架構的優(yōu)勢在于“分而治之”，能夠一次實現多處重用。V是視圖，代表的是用戶交互界面；M是模型，是業(yè)務流程/狀態(tài)的處理以及業(yè)務規(guī)則的制定，模型接受視圖請求的數據，并返回最終的處理結果；C是控制，從用戶處接受請求，并將模型與視圖匹配完成用戶的請求。

（二）系統(tǒng)結構流程

歷史數據采集→轉換→集成數據倉庫；

顯示界面（任務設置，結果返回）←→數據挖掘模塊/數據統(tǒng)計。

（三）系統(tǒng)功能模塊實現

１. 用戶模塊

系統(tǒng)的用戶僅限于教務管理人員，故無需使用角色的設計，本模塊中只需負責添加、刪除用戶及修改密碼的管理。

２. 數據統(tǒng)計模塊

主要實現將數據倉庫中相關數據作統(tǒng)計然后用Jfreechart顯示給用戶。JFreeChart是JAVA平臺上的一個開放的圖表繪制類庫，可生成餅圖、柱狀圖、散點圖、時序圖、甘特圖等。通過圖片顯示，用戶可以直觀的獲取信息。系統(tǒng)中考慮及實現的統(tǒng)計因素主要包括學生信息、師資信息、平時英語成績、四六級考試成績以及四級參考時英語學習時間。

３. 數據挖掘之關聯(lián)分析模塊

若兩個或多個變量的取值之間存在某種規(guī)律性，就稱為關聯(lián)。進行關聯(lián)規(guī)則挖掘的算法較為經典的是Apriori。挖掘關聯(lián)規(guī)則主要包含以下兩個步驟：1.頻繁項集產生：根據預先設置的支持度，發(fā)現所有的頻繁項集；2.規(guī)則的產生：根據所獲得的頻繁項集及設置好的置信度，產生相應的強關聯(lián)規(guī)則。

假設有集合X、Y、D、I，一個關聯(lián)規(guī)則就是X→Y的蘊涵表達式；其中X#8834;I，Y#8834;I且X∩Y=Φ。規(guī)則X→Y在交易數據集D中成立，具有支持度s，其中s是D中交易包含X∪Y的百分比即概率P（X∪Y）。若D中包含X的事務同時也包含Y的百分比是c，規(guī)則X→Y在交易數據集D中具有置信度c即條件概率P（Y|X）。實現該算法，采用的是javabean，通過遍歷，在支持度這一條件的設定下，完成頻繁項集的產生；通過遍歷、置信度的設立，完成強關聯(lián)規(guī)則的產生。

系統(tǒng)中進行挖掘的相關因素包括四六級分數細節(jié)、平時成績、四六級成績、學生信息、師資結構等。

４. 數據挖掘之決策分析模塊

決策分析依賴于分類及預測。決策分析基于信息論是自頂向下的遞歸方式構造決策樹，ID3是經典的實現算法。其實現步驟主要包括兩個過程：1.根據屬性特征，使數據分類；2.根據形成的類別，對新數據進行預測。

在系統(tǒng)中，決策樹的分類則是四六級考試通過情況。通過挖掘提供各種影響學生參加四六級考試得分的因素，可能包括生源地、入學成績、性別、師資、大學英語學習時間等因素預測學生的考試成績。

四、總結

在挖掘過程中發(fā)現：

完成大學英語學習與通過四級考試關聯(lián)性不強；

四六級考試中聽力與寫作翻譯存在關聯(lián)性；

四級分數在425-500之間的，六級不容易通過；

男生與不容易通過四級存在關聯(lián)；

四級通過情況主要決定因素為平時成績，次要因素為師資情況；

六級通過情況主要決定因素為四級成績，次要因素為生源。

需要注意的是，上述挖掘結果的會因數據樣本的差異而存在著不同，支持度及置信度的設置改變結果也會有變異，數據源若作進一步的擴充，會得出有關英語教學更全面的結論。

教育界·上旬2011年21期

教育界·上旬的其它文章: 《房屋建筑學》教學改革探索與實踐; 對運動休閑的重新界定; 談中職計算機專業(yè)教學中如何貫徹就業(yè)導向原則; 試談職高語文課程的教學模式與方法; 企業(yè)運營模式在應用型大學辦學模式中的運用; 淺析馬克思主義大眾化面臨的問題及對策