【摘 要】通過將數據挖掘算法即關聯規則中的Apriori以及分類中的ID3決策樹,編碼實現。對積累于我校教務系統中的某專業的英語學習相關數據進行統計挖掘和分析,實現基于數據挖掘的英語教學分析系統。
【關鍵詞】數據挖掘 英語 教學分析
一、引言
隨著計算機網絡的普及,各地高校的教務管理系統也如雨后春筍般興起,這些系統的出現為師生及教務管理員提供了極大的便利。隨著使用時間的增長,系統中會累積大量的數據,例如師生的信息、學生的選課記錄、學生的成績等。這些大量的數據的背后往往存在某些潛在的聯系,這些聯系對決策支持、教務分析等都會有極大的幫助。而數據挖掘技術就是用來分析潛藏在大量數據中的特殊對應關系的技術領域。
二、數據挖掘概述
(一)數據挖掘定義
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
(二)數據挖掘步驟
1. 問題定義
分析明確采用什么樣的算法,期望獲得什么樣的結果。
2. 數據準備
三個步驟:數據選取、數據預處理、數據變換。
數據選取指的是從數據庫中選擇要用來進行挖掘的數據。在本系統中所需的數據表大致如下:
學生基本信息表;
學生四六級考試信息表;
學生期末考試成績表;
教師信息表;
學生課程記錄表;
教師任課信息表。
數據預處理一般可能包括消除噪聲、推導計算缺值數據、消除重復記錄,完成類型轉換等。如在學生基本信息表中,生源地這一屬性有部分值出現空缺,這樣的記錄就應該被清洗掉。
數據變換的主要目的是消減數據維數或降維,即從初始特征中找出真正有用的特征,以減少數據挖掘時要考慮的特征或變量個數。比如學生信息表中,聯系方式或電話號碼不是系統使用數據的目標,故而可以不被抽取出來。
3. 數據挖掘
根據問題定義選擇算法,對準備好的數據進行挖掘獲得結果。
三、系統設計與實現
(一)系統架構設計
系統基于Web設計,采用B/S模式及MVC架構。MVC架構的優勢在于“分而治之”,能夠一次實現多處重用。V是視圖,代表的是用戶交互界面;M是模型,是業務流程/狀態的處理以及業務規則的制定,模型接受視圖請求的數據,并返回最終的處理結果;C是控制,從用戶處接受請求,并將模型與視圖匹配完成用戶的請求。
(二)系統結構流程
歷史數據采集→轉換→集成數據倉庫;
顯示界面(任務設置,結果返回)←→數據挖掘模塊/數據統計。
(三)系統功能模塊實現
1. 用戶模塊
系統的用戶僅限于教務管理人員,故無需使用角色的設計,本模塊中只需負責添加、刪除用戶及修改密碼的管理。
2. 數據統計模塊
主要實現將數據倉庫中相關數據作統計然后用Jfreechart顯示給用戶。JFreeChart是JAVA平臺上的一個開放的圖表繪制類庫,可生成餅圖、柱狀圖、散點圖、時序圖、甘特圖等。通過圖片顯示,用戶可以直觀的獲取信息。系統中考慮及實現的統計因素主要包括學生信息、師資信息、平時英語成績、四六級考試成績以及四級參考時英語學習時間。
3. 數據挖掘之關聯分析模塊
若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。進行關聯規則挖掘的算法較為經典的是Apriori。挖掘關聯規則主要包含以下兩個步驟:1.頻繁項集產生:根據預先設置的支持度,發現所有的頻繁項集;2.規則的產生:根據所獲得的頻繁項集及設置好的置信度,產生相應的強關聯規則。
假設有集合X、Y、D、I,一個關聯規則就是X→Y的蘊涵表達式;其中X#8834;I,Y#8834;I且X∩Y=Φ。規則X→Y在交易數據集D中成立,具有支持度s,其中s是D中交易包含X∪Y的百分比即概率P(X∪Y)。若D中包含X的事務同時也包含Y的百分比是c,規則X→Y在交易數據集D中具有置信度c即條件概率P(Y|X)。實現該算法,采用的是javabean,通過遍歷,在支持度這一條件的設定下,完成頻繁項集的產生;通過遍歷、置信度的設立,完成強關聯規則的產生。
系統中進行挖掘的相關因素包括四六級分數細節、平時成績、四六級成績、學生信息、師資結構等。
4. 數據挖掘之決策分析模塊
決策分析依賴于分類及預測。決策分析基于信息論是自頂向下的遞歸方式構造決策樹,ID3是經典的實現算法。其實現步驟主要包括兩個過程:1.根據屬性特征,使數據分類;2.根據形成的類別,對新數據進行預測。
在系統中,決策樹的分類則是四六級考試通過情況。通過挖掘提供各種影響學生參加四六級考試得分的因素,可能包括生源地、入學成績、性別、師資、大學英語學習時間等因素預測學生的考試成績。
四、總結
在挖掘過程中發現:
完成大學英語學習與通過四級考試 關聯性不強;
四六級考試中聽力與寫作翻譯存在關聯性;
四級分數在425-500之間的,六級不容易通過;
男生與不容易通過四級存在關聯;
四級通過情況主要決定因素為平時成績,次要因素為師資情況;
六級通過情況主要決定因素為四級成績,次要因素為生源。
需要注意的是,上述挖掘結果的會因數據樣本的差異而存在著不同,支持度及置信度的設置改變結果也會有變異,數據源若作進一步的擴充,會得出有關英語教學更全面的結論。