999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

預測性大數據分析在高校招生中的應用研究

2017-11-29 08:28:09鄧廣彪廣西民族師范學院數學與計算機科學學院崇左532200
微型電腦應用 2017年11期
關鍵詞:模型

鄧廣彪(廣西民族師范學院 數學與計算機科學學院,崇左 532200)

預測性大數據分析在高校招生中的應用研究

鄧廣彪
(廣西民族師范學院 數學與計算機科學學院,崇左 532200)

在大數據時代,高校招生工作要占領制高點,需要采用數據分析方法把握學校招生狀態。通過預測性大數據分析方法對招生數據進行分析,根據分析結果對發現的問題及時整改并預測未來的發展狀況,才能真正做到基于數據進行決策。對常用的預測性數據分析方法進行介紹,結合高校招生工作的應用進行分析,使用SAS EG建立新生報到預測模型,對2016年錄取新生報到情況進行預測,通過預測結果與實際報到情況對比驗證了模型的有效性。

數據分析; 招生; 邏輯回歸; SASEG

0 引言

在大數據時代,網絡及移動技術的發展使得人們產生、收集數據非常便利,可目前狀況卻是人們在生活中常被大量的數據圍繞并淹沒,如何從數據中提取知識進行決策卻一直困擾著相關工作人員,采用簡單且實用的分析技術從數據中獲取知識是一個普遍待拯救的問題。在大數據時代,很多人想用高深的算法從大量雜亂無章的數據中獲取有用的知識來進行決策,其實這是一個誤區,因為數據越多越雜則導致噪聲越多,從數據中提取知識進行決策的難度就越大[1]。在文獻[2]中提出對于小企業、小單位要做到大數據小應用,不能以高深的算法和TB級以上的數據才算大數據,只要能綜合利用身邊的數據提取知識進行決策,就是屬于大數據的應用。因此,收集日常工作相關數據進行分析決策,是每個單位、每個行業在大數據時代必須要掌握的基本技能,這樣才能在大數據時代不迷失方向,使數據真正發揮決策作用。

對于高校招生來說,每年都有大量各省份各專業考生錄取數據及新生報到情況,可這些數據目前在很多高校僅作為基礎數據導入各種管理系統中存儲,僅在需要時進行查詢統計,沒能為招生工作提供決策依據發揮作用。其實對于這些數據,可以建模分析各專業的招生情況是否存在差異,是什么原因導致這種差異;也可以根據歷史報到數據建立新生報到模型,預測所錄取考生未來的報到情況;更可以使用時間序列對歷年招生人數建立模型,預測未來招生人數變化趨勢。通過這些預測性數據分析,在招生中就能做到有把握、有目的、有方向的工作,從而保證學校得到穩定的高質量生源。

1 數據的計量尺度

在數據分析中,很多分析軟件對數據的計量尺度是敏感的,因此需要弄清每個變量的計量尺度,才能明白該數據用何種類型進行表示,進而知道采用何種方法對這些數據進行分析。數據的計量尺度有定類、定序、定距和定比4種[3],其中定類和定序屬于分類型數據,定距和定比是屬于連續數值型數據。定類尺度是描述數據的分類情況,這些類別之間無高低大小之分,如招生數據中的性別、民族等。定序尺度也是描述數據的分類情況,但是所分的類別固有大小或順序區分,如招生數據中的層次,有研究生、本科、專科等高低類別。定距和定比兩種尺度在數據分析中一般不做特別區分,指的是連續的數值型數據,有大小、順序區分,分布的范圍較廣,如招生數據中的投檔成績、錄取人數等。另外,在數據分析過程中,定類和定序數據很少用漢字表示,一般都會轉換成數值表示,如性別中男用1、女用2,招生層次研究生用1、本科用2、專科用3表示等等,因此在做數據處理時要做好數據計量尺度的區分。

2 常用的預測性數據分析方法

2.1 方差分析

當自變量是分類數據、因變量是連續數值型數據時使用方差分析來判斷自變量的不同水平是否對因變量有顯著影響[4],如錄取考生中不同專業的考生在錄取分數上是否有顯著影響,以此作為依據來判斷本校的哪些專業是當年錄取的熱門專業。在方差分析時,主要通過計算總離差平方和SST、組間離差平方和SSM、組內離差平方和SSE,然后計算F統計量并根據顯著性水平來判斷各組之間是否有顯著差異,最后通過決定系數來判斷模型的解釋力度。

假設分類數據有m個水平(組),每個水平有ni個數據,每個數據用xij表示,則得式(1)~(3)。

(1)

(2)

(3)

根據SST、SSM、SSE可計算F統計量和決定系數R2,得式(4)、(5)。

(4)

(5)

其中m表示水平數,n表示總記錄數。

根據給定的顯著性水平查找臨界值,如果F大于臨界值則說明各水平之間有顯著差別,根據相關軟件輸出的系數可構造預測模型。依據的值可判斷模型的解釋力度,R2越大說明模型越好。

2.2 線性回歸

線性回歸用于自變量和因變量都是連續數值型數據,這些數據散點圖落在一條直線附近,通過這些歷史數據建立回歸方程對未來數據進行預測的方法[5],如在招生中可根據歷年考生錄取數量與新生報到數量建立線性回歸模型,用該模型來預測新生報到率。線性回歸可用如式(6)表示:

y=β0+β1x1+β2x2+…+ε

(6)

其中β0為方程的截距,x1、x2、……為自變量,β1、β2、……為相關自變量對應的系數,ε為擾動項。若模型只有一個自變量,則一元線性回歸模型為式(7)。

y=β0+β1x1+ε

(7)

針對一元線性回歸,根據所給的樣本,使用最小二乘估計法可計算出β0和β1,則可得到線性回歸方差式(8)、(9)。

(8)

(9)

為確保方程的有效性和可用性,需要根據樣本數據以及擬合的方差計算方程的擬合優度R2并使用F檢驗對方程進行檢驗、使用t檢驗對方程的系數進行檢驗,如式(10)~(12)。

(10)

(11)

(12)

根據計算結果,R2越接近1說明方程擬合得越好。根據給定的顯著性水平,F大于臨界值則說明方程有效,t大于臨界值則說明方差的系數有效。

2.3 邏輯回歸

邏輯回歸是線性回歸的變形,當因變量為只有兩個取值的是否型、自變量為分類或連續型數據時可以使用邏輯回歸構造回歸方程來對因變量取值的概率進行預測[6],如在招生數據中,可以使用高考分數、專業、層次等因素來預測新生的報到情況。邏輯回歸與線性回歸類似,區別為線性回歸方程左邊直接為數值型的因變量,而邏輯回歸方程左邊為因變量擬合值取值概率的邏輯函數,邏輯回歸方程為式(13)。

(13)

其中pi表示第i個事件發生的概率,βi為自變量xi的回歸系數。

2.4 列聯表分析

當自變量和因變量都是分類變量時,可以使用列聯表分析兩個變量之間的相關性,如在招生中判斷性別或民族等是否對專業錄取有影響則可使用列聯表進行分析判斷。在列聯表分析中,將自變量放入行、因變量放入列,行列交叉的位置則計算自變量當前分類值與因變量當前分類值出現的次數(或百分比),最后通過計算單元格期望頻數和卡方(x2)值來判斷兩個分類變量之間是否存在相關性,如式(14)、(15)。

期望頻數=行總計×列總計÷樣本總數

(14)

(15)

其中R為行數,C為列數,Obsij表示該單元格的實際頻數,Expij表示該單元格的期望頻數。

如果期望頻數等于觀測頻數則說明兩個分類變量之間不存在相關性,如果大于臨界值則說明兩個分類變量之間存在相關性。

2.5 時間序列

根據2017年11月27日和2018年4月26—27日兩次鄱陽湖湖區的水體垂直巡航觀測數據,觀測區域主要在主湖區及松門山以北的主航道(圖1a),考慮湖區水流條件變化、河流匯入以及人類活動變化等影響因素,分別設置了1701#~1711#等11個、1801#~1820#等20個站點,其中,星子站日均水位分別為 9.50、11.78 m左右。站點空間分布如圖 1所示。

時間序列分析一般是針對連續數值型數據,分析這些數據隨著時間變化的規律,并根據這些變化規律對未來的發展進行預測[7],如在招生工作中,可以利用歷年的招生錄取的人數,采用時間序列建立模型預測未來的招生人數。對于一個時間序列,通常包括如下四方面內容:

長期變動趨勢(T):指序列有持續上升、下降或停留在某一水平的趨勢,反映了事物主要發展的情況,是時間序列中重要的研究內容。

季節變動(S):指序列是否有按周、月或季度的變化周期。

循環變動(C):一般是指長期(一年以上)受非季節因素影響的變動。

不規則變動(I):指時間序列中受偶然因素影響無法進行預測的部分。

因此,時間序列有如下3種模型:

加法模型:Y=T+S+C+I

乘法模型:Y=T×S×C×I

混合模型:Y=T×S+I

進行時間序列基本預測的方法:(1)逐步回歸法:數據有明顯趨勢但無季節效應時使用;(2)指數平滑法:數據沒有固定趨勢并且波動較大時使用;(3)Winters乘法:數據有季節效應且隨著時間的變化季節效應增大時使用;(4)Winters加法:數據有季節效應且隨著時間的變化季節效應不變時使用。

ARMA和ARIMA法:如果時間序列平穩,可以使用ARMA法建模;如果時間序列不平穩,可以通過差分后將數據轉換為平穩時間序列后建模,則使用的是ARIMA法。

3 使用邏輯回歸建立新生報到預測模型

雖然每個學校甚至每個專業每年的報到率都相對穩定,但是根據報到率只能得到一個可能會到校報到的人數,但對于具體是哪些人可能不會報到則無法相對準確掌握,導致對新生各項工作開展不能完全按計劃進行。因此對錄取到的考生判斷其未來報到的情況是每個學校在錄取考生后需要相對準確掌握的數據,特別是對于報到率不是非常高的學校,預測每個錄取考生是否報到的情況對于宿舍安排、專業分班等有著很好的指導作用。

由于因變量“是否報到”只有0(不報到)、1(報到)兩個取值,因此采用邏輯回歸來建立新生報到模型,并以該模型對未來錄取的考生進行預測其報到情況。

3.1 數據變量說明

新生錄取數據的變量有很多,根據經驗選取變量來建立模型,如表1所示。

由于每年分數線都不同,在分析成績是否影響報到時不直接采用投檔成績,而采用投檔成績減去當年分數線的形式,使得模型能夠適應每年錄取的數據。由于全校的專業數量太多,根據歷年情況,師范類專業的報到率普遍較高,而理工科類專業的報到率偏低,因此將專業按師范類、非師范理工科類、非師范文史類進行區分。

3.2 建模及結果分析

在進行邏輯回歸前,先在SAS EG中使用列聯表分析每個分類自變量與因變量是否報到之間的相關性,經過分析發現性別、政治面貌、考生類別這3個變量與是否報到的相關性不大,因此在建模時把它們剔除。

使用SAS EG進行邏輯回歸建模時,對于自變量是否進入模型采用“逐步選擇”的方法進行選擇,進入模型、保留在模型中的顯著性水平均設置為0.05,經過軟件建模發現是否少數民族、層次無法進入模型,如圖1所示。

表1 變量及取值說明

圖1 模型選擇的變量

最后保留在模型中的自變量有錄取專業順序、成績與分數線差、科類、年齡、投檔志愿這5個變量作為主效應,整個建模過程的ROC曲線變化,如圖2所示。

圖2 建模的ROC曲線變化

根據圖1所示的P值,進入模型的5個變量對影響是否報到都具有極顯著的統計學意義。根據圖1的評分和圖2的ROC曲線變化情況,發現錄取專業順序、成績與分數線差這兩個變量對考生是否報到有較大的影響,這與實際情況是一致的,因為有部分未錄取到意向專業或高考成績分數較高的考生,會選擇復讀來年考一個更好的到學校。根據圖2所示最后建立模型ROC曲線下的面積為0.881,說明該模型對原始數據擬合時有88.1%左右的考生能夠正確預測該考生是否報到的情況。

使用上述建立的模型,對2016年錄取非藝術體育類2 825名考生的報到情況進行預測。經過模型預測結果與實際情況比較,能正確預測報到的有2 347人,正確預測不報到的有179人,預測準確率為89.4%,模型的預測效果還不錯,說明邏輯回歸所建立的模型對預測新生報到情況有一定的指導作用。

4 總結

大數據小應用是當前大數據時代小企業、小單位對所擁有數據進行決策的出路,掌握預測性數據分析方法是正確在該道路上行走的基本技能。本文對方差分析、線性回歸、邏輯回歸、列聯表分析、時間序列這五種常用的預測性數據分析方法的使用過程、使用場合及在招生中的應用進行說明,指出針對自變量、因變量不同數據類型該采用何種分析方法進行分析。為驗證預測性數據分析方法的有效性,使用SAS EG6.1根據歷年招生數據、報到數據建立新生報到模型,并使用該模型對2016年錄取的考生進行報到情況預測,通過實際情況統計驗證該模型的有效性,說明預測性數據分析方法在招生工作中能起到決策作用。

[1] 胡小明. 大數據應用的誤區、風險與優勢[J]. 電子政務,2014,(11):80-86.

[2] 李軍.大數據:從海量到精準[M].北京:清華大學出版社,2014.

[3] 曹正鳳.從零進階!數據分析的統計基礎[M].北京:電子工業出版社,2015.

[4] 田應福,張釗,朱曉坡. 方差分析的兩個重要問題及其解決方法[J].統計與決策,2013,(16):7-9.

[5] 王勝.基于線性回歸的適應性排名算法研究[J].計算機應用研究,2015,32(9):2684-2686.

[6] 劉力銀.基于邏輯回歸的推薦技術研究及應用[D]. 成都:電子科技大學,2013.

[7] 湯震,劉珂. 基于小樣本時間序列的數據挖掘技術研究[J].微型電腦應用,2014,30(12):18-19.

ResearchontheApplicationofPredictiveDataAnalysisinCollegeEnrollment

Deng Guangbiao
(School of Mathematics and Computer Sciences, Guangxi Normal University for Nationalities, Chongzuo 532200)

While occupying the heights of the college enrollment in the era of big data, data analysis needs to be used to grasp the status of college enrollment. The method of the predictive data analysis can do some timely rectification for the problems found. The analysis results can forecast the future development, can help to make decisions based on data. Common predictive data analysis methods are introduced, and used to analyze the college enrollment. It establishes a predictive model for the freshmen’s enrollment by using the SAS EG, and predicts the 2016 freshmen’s enrollment. The validity of the model is verified by the comparison between the predictive data and the actual enrollment data.

Data analysis; Enrollment; Logistic regression; SAS EG

2015年度廣西高校科學技術研究項目(KY2015LX539)

鄧廣彪(1982-),男,瑤族,廣西荔浦,講師,碩士,研究方向:數據挖掘、大數據分析.

1007-757X(2017)11-0020-04

TP311.13

A

2017.04.22)

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产黄色免费看| 亚洲码一区二区三区| 久草视频精品| 青青操视频在线| 欧美影院久久| 亚洲无码熟妇人妻AV在线| 亚洲中文字幕97久久精品少妇| 亚洲另类国产欧美一区二区| 97青草最新免费精品视频| 国产流白浆视频| 在线日韩日本国产亚洲| 香蕉视频在线观看www| 曰韩人妻一区二区三区| 97视频在线精品国自产拍| 成人综合在线观看| 强奷白丝美女在线观看| 日韩小视频在线播放| 任我操在线视频| 不卡午夜视频| 亚洲最大福利网站| 日本精品视频一区二区| 国产白浆一区二区三区视频在线| 国产福利一区在线| 国产传媒一区二区三区四区五区| 五月天久久综合| 免费可以看的无遮挡av无码| 亚洲国产精品一区二区高清无码久久 | 人妻一本久道久久综合久久鬼色| 亚洲色图欧美| 久久精品这里只有精99品| 国产91在线免费视频| 免费毛片网站在线观看| 亚洲日韩精品无码专区| 日韩欧美国产中文| 亚洲av成人无码网站在线观看| 五月激激激综合网色播免费| 日本久久久久久免费网络| 国产网友愉拍精品视频| 久草视频中文| 久久精品亚洲中文字幕乱码| 国产微拍一区二区三区四区| 欧美精品另类| 99国产在线视频| 国产精品成人免费综合| 亚洲国产成人精品无码区性色| 亚洲水蜜桃久久综合网站| 亚洲精品免费网站| 谁有在线观看日韩亚洲最新视频 | 亚洲人成网7777777国产| 国产色婷婷视频在线观看| 日韩在线永久免费播放| 成人免费视频一区| 18禁黄无遮挡免费动漫网站| 天天综合天天综合| 国产熟睡乱子伦视频网站| 亚洲综合一区国产精品| 亚洲动漫h| 国产乱子伦精品视频| 欧美在线导航| 国产成熟女人性满足视频| 极品国产一区二区三区| 欧美成人午夜视频| 久久综合一个色综合网| 欧美一级大片在线观看| 欧美色99| 亚洲一区二区在线无码| 欧美日韩中文字幕在线| 国产一级毛片yw| 亚洲成人在线免费观看| 亚洲女人在线| 伊人久久综在合线亚洲2019| 一级全免费视频播放| 亚洲无码视频喷水| 毛片基地美国正在播放亚洲 | 在线日韩日本国产亚洲| 欧美日本在线观看| 欧美国产日韩在线播放| 久久综合伊人77777| 黄色在线不卡| 色噜噜在线观看| 国产一在线| 在线永久免费观看的毛片|