崔薛騰
(長春大學教務處,吉林長春130022)
大數據環境下的高校成績預警算法研究*
崔薛騰
(長春大學教務處,吉林長春130022)
在高校學生成績預警研究中,傳統的分析是使用統計匯總方法,這種方法挖掘出的規律不夠深入,并缺乏明確的指導原則.該文以教務成績信息和數據挖掘理論為基礎,重點研究了大數據環境下的高等院校成績預警算法設計與優化,提出了一種基于關聯分析技術的預警機制,保證預警系統知識庫規則的豐富、科學和完備.通過對某高校同一專業學生的成績進行預警知識挖掘,獲得了預警規則集,進而幫助學生對課程的未來成績走向進行預測,并相應地調整學習計劃,為教學管理提供有效的決策支持.
大數據;教育;數據挖掘;關聯分析;成績預警
大數據時代的到來為世界帶來了一場全面的革命,對社會的進步和變革起到了巨大的推動作用.大數據具有數據量大、種類繁多、價值密度低的特性,如何對大數據進行更加有效、快速的存儲、采集、處理和分析成為當前研究的重點.其中,教育領域在大數據研究方面也遇到了前所未有的挑戰和機遇.隨著我國高等教育改革的不斷深入和發展,網絡教學、移動教學、社交網絡及高校各類信息系統的使用,促進了學生、教師數據量的快速激增,尤其在學校的教務系統中,存在著大量的教學信息數據[1].但是,這些數據目前大多處于沉睡的狀態,沒有得到有效的利用,而且隨著數據量的持續增加,很多前期數據被當作垃圾數據清理掉,造成巨大的信息資源浪費.因此,如何充分利用此類數據,將數據轉化成促進教學效果的知識和信息,幫助教務管理者和教師進行教學決策、課程優化等服務,是大數據時代教務工作者必須重視的問題.
高等院校在教學運行過程中,學生的成績管理是教務工作關注的重點.課程成績不僅是學生個人學習能力的體現,可以為學生選擇研究方向、工作方向提供參考,還是高校教學質量的重要反映,對高校加強教學管理、調整教學方式和方法具有重要的指導意義.隨著大數據時代的到來,高等院校在教務管理系統的研發和應用方面有了快速的發展,并積累了海量的教務管理和教學過程數據.高校的教學管理工作者一直致力于通過分析此類數據促進高校教務管理能力和管理水平,但是,常用的方法都是通過傳統的統計匯總完成的,這種方法挖掘出的規律不夠深入,并缺乏明確的指導原則,在大數據環境下這些分析方式的缺陷更加突出.基于上述觀點,本文基于數據挖掘算法對大數據環境下的高校成績預警模型進行了研究和構建.高校成績預警模型通過對大學生的課程成績進行分析,能夠挖掘出學科課程間的聯系,并結合實際成績數據獲取預警信息,幫助學生對課程的未來成績走向進行預測,然后根據預測結果制定相應的方案,為教學管理提供有效的決策支持.
所謂預警,是指在事件發生前對事件發生的潛在可能性進行預測并提供警示信息的過程.在大數據環境下,基于現有的數據和知識,預警可以通過數據挖掘技術對事物的發展規律進行總結和分析,描述、預測事物的發展趨勢,然后與目標閾值進行對比,判斷是否發出必要的信號和警示,以便事件主體有充足的時間采取適當的處置對策[2-3].
隨著我國教育信息化、網絡化的發展和應用,從積累的大數據倉庫中提取有用的成績預警規則并建立一套預警系統成為教育工作者的重要研究方向.基于教務系統中的成績數據,自動預警系統能夠自動構建預警模型并應用模型提供必要的預警信息,這種從真實數據提取的知識具有更高的應用價值.本文首先對基于數據挖掘算法的成績預警系統框架進行簡要的介紹,如圖1所示.

圖1 成績預警系統框架
成績預警系統包括成績數據導入、數據預處理、知識挖掘建模、參數設置、成績預警、預警信息輸出等模塊,以及一個預警知識庫組成.其中,知識挖掘建模模塊是系統的重要核心,它能夠基于用戶預置參數和教務系統成績數據挖掘出預警規則和知識,并將這些知識存儲到預警知識庫內.因為教務系統數據是不斷變化的,因此,預警系統需要從數據庫中定期更新成績數據,構建新的預警模型,形成新的預警規則和策略.
針對監測數據,成績預警系統能夠根據知識庫的規則和事先制定的預警閾值來判斷是否發出預警.最后的預警模塊和信息輸出模塊能夠對外提供一系列的控制接口,進而與其他系統聯動完成整個成績預警過程.
2.1 成績預警規則介紹
成績預警規則是對被預警課程成績與前期已修課程成績間關聯或依賴關系的反映,被預警課程成績能夠根據關聯課程成績進行預警[4-5].預警系統主要應用關聯分析技術產生預警規則,在教務管理的過程中,系統首先將監測數據處理成標準的數據格式,然后根據數據特征從預警知識庫中提取相應的預警規則,并將預警規則和監測數據對比:首先在規則集的前項中查找監測數據,若均無法匹配,則使用下一條規則重新比對;若匹配成功,則根據事先的策略產生綜合預警信息.
2.2 基于關聯分析技術的成績預警算法
關聯分析技術,是指從數據集中挖掘頻繁項集的技術,它形成一系列形如X→Y的規則,其中,X代表發生前項事件,Y代表預警事件.關聯分析產生的規則稱為關聯規則.關聯分析通過提取滿足支持度、置信度要求的規則對事件的前后項關系進行預測.
支持度:表示在所有的事務中,項集{X,Y}出現的概率大小.如下所示:
Support(X→Y)=P(X,Y)=P(X∪Y)
置信度:表示發生事務X的前提下,由“X→Y”得到Y的概率大小.即在所有包含X的項集內,包含Y的概率,如下所示:
Confidence(X→ Y) = P(Y|X) =P(X,Y)/P(X)=P(X∪Y)/P(X)
基于教務系統大數據的成績預警模型主要以關聯分析技術為基礎進行構建.但是,由于傳統的關聯分析算法會產生很多無用的、冗余的關聯規則,這些規則會對最終的預警結果產生很大的影響,顯著降低預警的精度.因此,在實際應用過程中,對算法流程進行了一定的約束和優化:
(1)最小支持度.支持度是項集在數據集中出現的概率,反映了數據項集的普遍規律.在數據挖掘過程中,要保證所分析出的規則和規律具有普遍性,因此需要對最小支持度進行限制,這樣才能使得到的結果具有現實意義.
(2)最低置信度.置信度的大小代表了預測結果的準確度,如果最低置信度設置得較小,會將準確度較低的規則都納入到關聯規則中來,從而顯著降低預測的效果.同時,也會增加建模的硬件壓力和時間.
(3)后件約束.通常,算法中不對關聯規則的前件和后件屬性進行約束.但是,在進行高校學生成績預警的過程中,要求規則的后件必須為限定條件下的項集元素.也就是說,需要對預警規則的后件進行一定的約束.約束后不僅能夠保證算法的正常運行,還能將無效規則剔除,從而提高算法的運行效率.
(4)順序約束.在關聯分析中,規則的前件和后件順序沒有固定的限制和要求.但是在學生成績預警時,后件課程需要發生在前件課程之后,這是課程大綱和業務需求所決定的.因此,在本文的算法設計過程中,需要加入前后件事件的時間順序約束.
本文設計的成績預警模型主要基于Apriori算法.通過算法分析和上述限制條件的約束,最終得到的規則和實際情況相比是比較符合的,可以把這些預警規則添加到規則庫內.Apriori算法得到的規則較多,但是有用的規則比例較低.本文經過優化后的算法能夠實現定向的數據挖掘,在有約束的前提下獲取讓用戶更感興趣的知識.算法描述如下所示:(其中:D1代表事務集,D2代表預警項集,L代表頻繁項集,C代表候選集,Rules代表預警規則集,seq代表項順序集,minsup代表最小支持度,minconf代表最小置信度)
Input:D1,minsup,minconf,D2,seq
Output:成績預警規則Rules
①初始化頻繁項集L1
②while(all Lk-1≠?)
a.產生新候選集Ck;
b.根據minsup分割Ck;
c.遍歷Ck中的全部候選項并對計數;
d.選擇Ck中支持度大于minsup的集合作為Lk;
③end
④while(all Lk)
a.對于同時屬于L和D2的子集lk,要求lk滿足:x∈(Lk-lk),y∈lk,有(x,y)∈seq;
b.while(all lk)
置信度=support(Lk)/support(Lk-lk);
if置信度≥minconf
Rules=Rules∪{(Lk-lk)→lk};
end
c.end
⑤end
隨著我國高校規模的迅速擴大和學生數量的不斷增加,我國高等教育的發展水平取得了很大的進步.隨著在校學生的增長,高等院校的教育質量和教學成果受到了廣泛的關注.通過高等院校的培養,大學生能否順利畢業,能否滿足就業的需求成為社會關注的焦點.因此,高校教學工作要加強對學生學習水平的考核與管理,這樣才能保證學生學習的質量和教師教學的效果.然而,由于我國高校的辦學方式主要是自主管理,所以課程的數量和種類變化很大,使得對高校學生的管理和培養更加困難,嚴重影響了大學生的發展[6].
通過上文的介紹,預警規則模型能夠通過對教務系統數據庫成績數據的分析,挖掘數據中的潛在規律,建立成績預警知識庫,以輔助學校的教學管理和教務決策工作.這樣就能夠通過提前預警,幫助學生及早發現學習中的問題,進而通過改正問題提高學習的質量,另外也能夠幫助教師優化教學流程,完善教學體系,提高高校教育的系統化、合理化、科學化.為了對預警規則的有效性進行驗證,需要將高校教務系統中的成績數據代入模型,通過預警模塊產生預警信息,然后通過對比預警信息與實際成績確定模型分析效果.
下文以某高校同一專業87位學生的23門專業課程成績為例進行數據建模,模型將學生在大一期間的課程作為項集前件,在大二期間的課程作為項集后件,目的是建立預警規則,通過學生大一課程的成績對其大二課程成績進行判斷和預警.模型最小置信度為0.6,最小支持度為0.3,最終模型得到了30條預警規則.部分規則如表1所示:

表1 部分預警規則
表1列出了部分模型挖掘出的預警規則.例如,高等數學A2與概率論與數理統計A、線性代數A之間的關聯性較強,這幾門課程均屬于數學基礎課程,課程相互之間必然存在一定的關聯.而且在大部分的課程培養方案中,高等數學通常作為最基礎的課程首先開設.因此,當學生出現“高等數學A2-不及格”的情況時,預警模型就會對后續的概率論與數理統計A和線性代數A進行預警,讓學生提前引起重視,合理調整學習計劃,也讓教師在教學過程中能夠更多關注此類學生.
另外,高等數學A2與數字電子技術、大學外語Ⅲ之間也具有顯著的關聯性.這個規律在課程內容上雖然不是很明顯,但卻是一條具有統計意義的規律,這些課程在學生的理解方式、學習方法方面可能具有相似的部分.相對于很多顯而易見的規則,這些看似不相關的規則更加重要,因為它們能夠為教務管理工作者和教師提供更多的信息和啟發,加深對學生、課程的理解,促進教務工作摒棄以往根據主觀判斷進行決策管理的方式,提高教務管理的系統性、科學性.
大數據對社會的進步和變革起到了巨大的推動作用,教育領域在大數據研究方面也遇到了前所未有的挑戰和機遇,如何充分利用大數據,將數據轉化成促進教學效果的知識和信息,幫助教務管理者和教師進行教學決策、課程優化等服務,是大數據時代教務工作者必須重視的問題.本文以數據挖掘理論和高校成績預警現狀為基礎,對高等院校成績預警算法進行了設計和優化,提出了一種基于關聯分析技術的預警機制,通過對某高校同一專業學生的成績進行預警知識挖掘,獲得了預警規則集.根據預警規則集就可以形成預警信息,進而指導教務管理工作者、教師和學生作出合理的決策,提高學習的質量和效果.
[1]張慶利,李文斐.淺談提高本科教學質量[J].高教探索,2003,19(1):27.
[2]柳炳祥.基于數據挖掘的危機管理及其預警方法研究[D].南京:東南大學,2003.
[3]羅堯成,陳敬良,姚儉.我國高校課程與教學改革三十年:歷程、經驗與瞻望[J].中國高教研究,2009,24(2):11-14.
[4]Agrawal R,Imielinskia T,Swami A.Mining Association Rules between Sets of Items in Large Databases[C].Acm Sigmod Record.Washington D.C,1993:207-216.
[5]盧炎生,楊芬,趙棟.帶單調約束的關聯規則挖掘[J].計算機工程,2004,30(15):78-80.
[6]胡華平,張怡,陳海濤,等.面向大規模網絡的入侵檢測與預警系統研究[J].國防科技大學學報,2003,25(1):21-25.
(責任編輯:王前)

圖6 提示信息
綜上所述,我們可以從Word文檔中要轉換為演示文稿中第一張幻燈片標題文字的段落開始,將該段落之前不需要轉換的文字刪除,同時將該段落及其下面要轉換為演示文稿中各張幻燈片標題文字的各段文字都設置成“標題1”樣式,把要轉換為幻燈片的1級文本、2級文本、3級文本等的各段文字設置成“標題2”“標題3”“標題4”等樣式,并放置在對應的已設置成“標題1”樣式文字段落的下面,然后進行轉換就可以了.
參考文獻:
[1]孫偉.計算機應用基礎Win 7+Office 2010[M].北京:化學工業出版社,2015.
[2]王杰.PPT轉Word三妙招[J].電腦知識與技術,2014(04).
[2]何勇.親密無間——Word2000與其他Office程序間的合作[J].電腦技術,2001(02).
(責任編輯:岳朋)
TP274
1008-7974(2016)06-0075-04
10.13877/j.cnki.cn22-1284.2016.12.024
2016-08-09
吉林省教育科學“十三五”規劃課題(ZD16022)
崔薛騰,男,吉林長春人,教師.