






摘 要: 為了提升獨立學院的辦學質量,以獨立學院教務系統數據為研究對象,以優化的Apriori算法為主要思想,開發了基于學生預警和教師教學效果預測新型功能的數據挖掘系統。能實現對可能不及格的學生和可能教學效果不理想的課程老師及早提示,大幅消除對后續課程的影響并減少不及格人數,對提升獨立學院的整體教學效果起到重要作用。
關鍵詞: 數據挖掘; 效果預測; 教務管理; Apriori算法
中圖分類號: TN911?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2016)17?0136?04
0 引 言
數據挖掘是一種能從海量數據中智能提取到有價值并關聯信息與知識并有效支持決策的一種技術,在某些普通本科高等院校教學管理中已有應用[1],然而由于獨立院校歷史短暫,學生數據相比較少,通過文獻檢索,并沒有文章研究過數據挖掘技術在獨立學院課程預測中的應用。
本文基于數據挖掘理論[2],采用優化的Apriori算法[3]為主要方法,以我院萬名學生的學生教務系統數據庫為數據源,智能分析出學生不同課程考試成績之間的關聯性,在原有教務系統的功能上增加了學生成績預警,教師教學效果預測兩個功能,這樣學生在學習一門新的課程的時候,就會得到一些預警信息,如前期某些課程沒有學好會不會對本門課程的學習造成很大影響,同樣,教師在教授這門課程的時候,系統也會給出一個統計報告,給出前期相關課程的班級總體情況,如果按照一般教學有可能會得到一個什么樣的教學效果,對本專業后續課程會帶來何種影響,這樣老師在教學過程中就會注意前期知識點的影響,及時補救,就能大大減少學生不及格的情況,提升教學質量。
2 系統架構與設計
2.1 系統總體架構
系統主要采用微軟的.NET開發工具Microsoft Visual Studio 2010中的Business Intelligence Development Studio為開發環境,采取標準三層架構[5]設計開發,表示層主要實現教務系統的一般功能,學生主要可以查詢成績,教師教務員等權限可以錄入、修改、刪除、統計成績,本系統表示層增加了對于可信度與置信度的最小設定,并可設定課程相關度的預警因子[6],學生登錄后可以自動對可能學不好的課程做預警提示,教師登錄后可自動預測教師即將教授課程的預測統計表。業務邏輯層主要實現關聯挖掘算法,主要采用優化之后的Apriori算法,能快速對關聯數據實現挖掘,并將結果反饋到表示層。數據層主要對采用Sqlserver 2010以及配套的Data Mining實現原始數據存儲,挖掘數據庫[4]的建立,關聯規則庫的抽取。三層架構如圖1所示。
2.2 數據庫的邏輯結構設計
系統運行的原始數據存儲在SQLServer 2010物理數據庫中,其設計符合一般數據庫原理,達到了BC范式[7],消除了插入刪除更新異常以及數據大量冗余等問題,其包含了學生基礎信息表,課程基礎信息表,學生選課成績表,教師信息表,教室信息表等11張二維表,并存儲了總共約5 000萬條元組的數據量,創建關聯規則庫[8],設定最小的支持度與置信度[9],采用優化Apriori算法創建相對應的關聯規則二維表,通過關聯規則對原始數據進行篩選處理,得到了以學號為主關鍵字的學生成績信息等匯總數據表,為數據挖掘做前期鋪墊。
3 數據挖掘實例分析
3.1 前期數據準備
以我校某院09級(1)班54名計算機師范專業同學為研究對象,選取理工科課程成績數據為例,通過相應的數據挖掘算法分析,找到各科課程成績的內在關聯,為學生的學習,老師的教學提供數據決策支撐,為方便表述,表1中高等數學1的成績表示為GDSX1,計算機導論成績表示為JSJDL,網頁編程成績表示為WYBC,線性代數成績表示為XXDS,表1給出了以學號為主鍵的大學四年成績匯總表。
3.2 數據篩選及轉換
該班54名學生中有1名學生考入強化部,1名學生轉專業轉入商學院,后續課程無關聯,因此從挖掘數據庫中排除,得出有效選課成績元組1 664條(平均每學期選取了4門理工科課程),統計大學所有課程成績,為數據挖掘方便需要對數據進行格式化處理,為以后該專業學生的學習做數據預警和老師教學效果做出預測,考慮到了獨立學院學生的特殊性,自覺性比一般本科院校學生差,不及格率更高,90分以上學生較少,本文對成績等級區分做了細化處理,成績與等級關系如表2所示。
對表1和表2數據進行轉換統計,得出如表3所示的成績等次統計表。
根據表3,對照Apriori算法設定最小支持度[10]為0.2,班級總人數為52名,那么最小支持人數必須達到52×0.2即10.4名,如果這門課程所在等次的人數不足10.4名時,則需排除在數據挖掘庫中,因此設定最小支持度為0.2時選取的數據如表4所示。
分析表4可知,很多課程經過篩選之后仍然存在兩個以上的等級,不滿足算法惟一性的要求,需要對所有數據進行進一步處理,按照表4所列課程從左到右的順序掃描,依次重新進行數據賦值轉換,即GDSX1課程等級C轉換成L1,GDSX1課程等級E轉換成L2,JSJDL課程等級A轉換成L3,JSJDL課程等級C轉換成L4,WYBC課程等級A轉換成L5,WYBC課程等級B轉換成L6,其余依次轉換,最后以學號為主鍵,建立了大學四年8個學期的總挖掘數據庫如表5所示。
3.3 關聯規則表的生成
通過多次調整,設置數據挖掘時支持度Support[≥]0.7,置信度Confidence[≥]0.6時,選取改進Apriori算法,得到103條關聯規則見表6。
3.4 關聯結果對于學生與教師的應用
3.4.1 學生預警功能建立
學生登錄教務系統之后,除了能看到自己以往成績、課表外信息外,還能獲得一些成績預警信息,例如某生這學期將學習數據庫原理這門課程,而以往學習的面向對象程序設計課程只考了53分,依據表6的關聯規則,如果學生不引起注意,那將有91%的可能性不及格,對于類似該生這種情況,系統將自動發出預警提示,給出一些避免不及格的建議,應該主動去補習面向對象程序設計這門課程,如果數據庫原理再不及格,對于以后的.NET語言程序設計也會造成重大影響,長此以往將無法取得學位,甚至畢業都困難,這樣學生就知道學不好這門課程是受到前面哪些課程的影響。
3.4.2 教師教學效果預測
任課教師登錄教務系統之后,除了能看到自己的教學任務外,還能看到任課班級學生情況,系統會自動根據設定的置信度因子對大于置信度因子的數據預測不及格人數的多少,對學生大學四年課程影響程度。例如某數據庫原理教師登錄,系統會自動給出本課程所有學生信息,并給出將會對本課程造成相應的預測信息及本課程將會對其他課程造成的影響,最后給出本課程對學生大學四年課程影響程度及關聯程度,如果預測不及格率(根據置信度[≥]0.8統計)人數占比大于等于40%則為嚴重,大于等于20%為一般,大于等于0%則為輕微,如果預測影響后續課程門數(根據置信度[≥]0.8統計)大于等于5門則為嚴重,大于等于3門則為一般,大于等于0門則為輕微,教師將會看到統計表如表7所示。
如果影響等級、關聯等級都比較高,教師就不能按部就班的去教學,應該考慮到獨立學院學生的基礎性、自覺性都較弱,應該注重給學生去引導和補習前序課程的缺失,系統一方面已對學生做了課程預警,又能提醒教師主動適應學生去教學,雙管齊下,這樣教學效果能得到大幅提升。
4 結 語
以獨立學院萬人學生成績為藍本,采用了優化的Apriori算法對其數據進行轉換挖掘,得出關聯規則,為學生的學習提出預警功能,為教師的教學做出教學效果預測,從而指引教師的教學與學生的學習,有助于提高教學質量,提高學生的畢業率與學位授予率。
參考文獻
[1] GILBERT S, LYNCH N. Brewer′s conjecture and the feasibility of consistent, available, partition?tolerant Web services [J]. ACM SIGACT news, 2002, 33(2): 51?59.
[2] BACA R, KRATKY M. TJDewey: on the efficient path labe?ling scheme holistic approach [C]// Proceedings of 2009 International Workshops of Database Systems for Advanced Applications. Brisbane: Springer, 2009: 6?20.
[3] 劉美玲,李熹,李永勝.數據挖掘技術在高校教學與管理中的應用[J].計算機工程與設計,2010,31(5):1129?1133.
[4] 梁盾.數據挖掘算法與應用[M].北京:北京大學出版社,2007:35?42.
[5] 鄭偉.一種基于粗糙集理論的特征選擇方法[J].河北北方學院學報(自然科學版),2009,25(1):32?35.
[6] 董彩云.數據挖掘及其在高校教學系統中的應用[J].濟南大學學報(自然科學版),2004,18(1):39?42.
[7] 魏萍萍,王翠茹,王保義,等.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程,2003,29(11):87?89.
[8] 朱迪茨.實用數據挖掘[M].北京:電子工業出版社,2004:67?77.
[9] 楊陽,李明東.數據挖掘在提高學生成績中的應用[J].通化師范學院學報,201l,11(4):238?241.
[10] 羅曉芳.基于模糊評價的學生綜合素質挖掘方法[J].南昌大學學報(理科版),2006(6):613?615.