馮曉林 王歲花
摘要:本研究深入剖析了灰色馬爾科夫模型在高校招生中的應用,由于高校生源變動的隨機性、波動性以及復雜性,給招生預測工作帶來了很多瓶頸。為了更準確地預測招生人數,我們將試圖把灰色動態預測與馬爾科夫預測模型融為一體,對高校招生人數進行預測。選取河南師范大學部分新生歷年錄取入學情況為研究對象,采用數據收集法、實驗分析法、灰色馬爾科夫模型等技術發掘數據中隱藏的規律和模式,從而為高校招生工作提供科學的依據。
關鍵詞:教育數據挖掘;灰色馬爾科夫模型;高校招生
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2019)24-0044-03
近年來,隨著我國科學技術的高速發展,教育事業步入了新的征程,各類高校都由傳統的數字校園向高層次的智慧校園轉型。教育信息化也成功應用在了高校的管理、科研、學習、評價等領域,教育數據也隨之海量地增長。如何從海量的信息中挖掘出對教育工作者以及學習者有價值的信息,為高校招生提供科學的數據支持?在這種背景下便催生了教育數據挖掘。
教育數據挖掘是從已經生成的數據集中挖掘出隱含在其中的規律。這些數據具有不完全、有噪聲、不確定、包含各種存儲形式等特點[1]。應用數據挖掘一般要經歷以下幾個階段:數據收集、數據篩選、找到目標數據、預處理、已處理數據、數據分析、結果分析、做出決策。具體流程如圖1所示。經常用到的數據處理方法有:BP神經網絡模型、支持向量機、灰色動態預測、馬爾科夫模型等。BP神經網絡適應于樣本比較大的數據預測,具有精度高、預測準的特點。在應用的過程中,一般分為訓練和測試兩個階段。訓練階段的主要目的是從訓練樣本中提取隱含規律,形成訓練集,供測試階段解決問題使用[2];測試階段就是用測試數據來驗證訓練出來的模型,看是否符合訓練規律。支持向量機(SVM)是以VC維理論為基礎,利用最大間隔算法去近似地實現結構風險最小化原理,是目前比較流行的新型機器學習方法。灰色動態預測模型不適用于長期的、隨機性、波動性較大的數據預測,但是它可以揭示事物的發展規律。馬爾科夫預測模型可以用于隨機性、波動性較大的動態過程,能對隨機波動數據列進行中長期的預測[3]。
由于高校招生人數受到生源、政策、師資、管理等眾多外界因素的影響,且這些因素難以精準量化,是一種小樣本,具有不確定性和非線性變化的特點,因此它的預測不能只靠單一的預測方法,我們試圖把灰色動態預測與馬爾科夫預測模型融合為一體,取長補短,克服單一預測的弊端,最終達到精準預測。
一、數據采集
數據準備階段,原始數據采用河南師范大學2012年—2018年在豫理科一批的實際錄取人數,從學校招生網站和線下招生宣傳獲取相關信息,以Excel格式提供,根據數據挖掘主題所需的數據,統計出在豫理科一批考生中的“計劃招生數”、“實際錄取數”、“省控線”、“最高分”、“最低分”、“平均分”等屬性,如圖2所示。
二、建立灰色馬爾科夫模型
當灰色動態預測結果比實際結果大,則修正式中的分母加減號應為正號;當灰色預測結果比實際結果小,則修正式中的分母加減號應為負號;當灰色預測結果與實際結果基本接近時,則不用修正。
三、灰色馬爾科夫預測模型的應用
1.高校招生灰色動態模型。選取2012年—2018年河南師范大學本科理科一批在豫實際招生人數為研究對象(如表1),可以觀察出,本科一批實際錄取人數從中長期來看,有增加的趨勢,但是復雜性、波動性也比較大。
由于實際招生人數受很多外界因素的影響,具有一定的復雜性和波動性,但是它有一定的時間連續性,因此可以依據實際招生人數隨時間的變化規律,預測未來實際招生人數。
2.馬爾科夫預測原理修正灰色預測值。灰色動態預測從總體上能夠反映出高校實際招生人數的發展趨勢,但是又受到生源、地方政策、管理等眾多外界條件因素的制約,且這些因素具有隨機性、非線性、波動性及復雜性的特點,不能如實反映實際預測結果,必須要對相應的預測結果進行修正。依據馬爾科夫預測原理,通過對招生人數的增減與灰色動態預測結果相比較,來劃分招生人數預測的馬爾科夫動態模型,并依據劃分的結果計算招生人數的轉移概率矩陣,進而修正灰色動態預測結果。按照預測結果與實際結果之間的誤差之比,將實際錄取人數劃分為三種狀態:低估(0.2—0.5)、較為準確(0.5—0.8)、高估(0.8—1.1),根據這三種狀態確定2012—2018年河南師范大學本科理科一批在豫實際錄取人數分布和出現年數(如表2)。
依據2010年—2018年河南師范大學本科理科一批在豫實際錄取人數建立轉移概率矩陣。以MATLAB7.0軟件為平臺,按照3*3矩陣排列原始數據,計算轉移概率矩陣的結果如下:
在馬爾科夫(Markov)預測模型中,轉移概率矩陣P可有效地反映隨機因素的波動程度,彌補GM(1,1)預測模型帶來的局限性[6]。根據馬爾科夫預測經驗以及2018年河南師范大學本科理科一批在豫實際錄取人數所處的狀態區間可以得到,2018年處于第二種狀態,屬于灰色預測值與實際值相比較為準確狀態,不用修正,因此2019年的馬爾科夫值為2902;由以上轉移概率矩陣P的第二行的最大值確定2020年本科理科一批在豫實際錄取人數,處于第一種狀態區間,選取第一種狀態區間的誤差中值為修正數,對灰色動態預測結果進行修正,得到2020年本科理科一批在豫實際錄取人數馬爾科夫修正值3427;再由以上方法,轉移概率矩陣P確定2021年本科理科一批在豫實際錄取人數的狀態,依據轉移概率矩陣P第一行中的最大值,判定2021年的誤差狀態為第一種狀態區間,經計算灰色馬爾科夫預測值為5267。
四、結論
基于學校招生人數的特點,將GM(1,1)灰色動態預測與馬爾科夫預測模型融合為一體,能夠取長補短,克服各自單一預測的短板,發揮各自的特長,對一維時間序列模型的中長期預測,具有良好的效果。研究認為,河南師范大學本科理科一批在豫實際錄取人數呈指數型增長趨勢,整體上來看,學校的招生人數均增長迅猛,根據2012年—2018年的實際招生人數預測值擬合度,預計近幾年河南師范大學本科招生還將繼續保持增長的態勢。
參考文獻:
[1]柴艷妹,雷陳芳.基于數據挖掘技術的在線學習行為研究綜述[J].計算機應用研究,2018,35(05):1287-1293.
[2]許程.機器學習的主要策略與基本結構[J].科技資訊,2010,(03):185.
[3]陳煥珍.基于灰色馬爾科夫模型的青島市糧食產量預測[J].計算機仿真,2013,30(05):429-433.
[4]盛驟.概率論與數理統計[M].北京:高等教育出版社,2010.
[5]趙素霞,牛海鵬.基于灰色馬爾科夫模型的河南省耕地壓力狀況研究[J].干旱區資源與環境,2015,29(08):46-51.
[6]李克昭,李志偉,趙磊杰.馬爾科夫理論的優化灰色模型預測建模[J].測繪科學,2016,41(08):1-5.