999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Python在學院招生數(shù)據(jù)分析中的應(yīng)用

2018-01-04 11:35:20葉惠仙
計算機時代 2018年11期

葉惠仙

摘 要: 在大數(shù)據(jù)的今天,Python豐富的工具包在科學計算、文件處理、數(shù)據(jù)可視化等領(lǐng)域越來越凸顯其價值。使用Python對學院招生的生源地信息數(shù)據(jù)進行篩選,清洗,統(tǒng)計、分析得到可視化圖像數(shù)據(jù)。通過這些數(shù)據(jù),采用算法對下一年學院招生數(shù)進行預(yù)測,給招生管理提供數(shù)據(jù)支持,也為學院長遠的招生規(guī)劃提供參考。

關(guān)鍵詞: Python; 招生; 生源地; 算法; 行為預(yù)測

中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2018)11-102-05

Abstract: In big data's today, Python's rich toolkits are increasingly highlighting their value in areas such as scientific computing, file processing, and data visualization. Use Python to filter, clean, statistical, and analyze the data of the students' enrollment information to obtain visual image data. With these data, algorithm is used to predict the number of college enrollment in the next year, providing data support for enrollment management, and also providing reference for the college's long-term enrollment plan.

Key words: Python; enrollment; student source; algorithm; behavior prediction

0 引言

Python是目前市面上用于大數(shù)據(jù)分析的優(yōu)先選擇,Python數(shù)據(jù)分析功能強大、全面,從數(shù)據(jù)抽取、收集整理、分析挖掘及展示,都可以在同一種 Python里實現(xiàn),避免了開發(fā)程序的切換,Python的數(shù)據(jù)挖掘能力和產(chǎn)品構(gòu)建能力兼而有之,是跨平臺且開源的技術(shù)、成本又小。南大教育基金會通過數(shù)據(jù)分析出被受資助的學生對像,就直接將補款打入學生餐卡,而學生無需填表,不用審核,而避免了“假”貧困生;Knewton利用大數(shù)據(jù)分析來幫助學生設(shè)計個性化課程,讓課程和教科書能夠適應(yīng)每個學生的差異,學生可以按照自己的節(jié)奏來控制學習進度,面不受到周圍其他學生的行業(yè)影響[1]。

大數(shù)據(jù)正在成為促進組織創(chuàng)新、產(chǎn)業(yè)升級和經(jīng)濟發(fā)展的強大驅(qū)動力。其中,教育領(lǐng)域被認為是一個大數(shù)據(jù)的重要應(yīng)用領(lǐng)域,研究大數(shù)據(jù)應(yīng)用與教育領(lǐng)域的深度融合,是我國教育發(fā)展的現(xiàn)實需求和未來趨勢。

1 Python在數(shù)據(jù)分析中的應(yīng)用

數(shù)據(jù)時代,通過數(shù)據(jù)分析挖掘數(shù)據(jù)的價值,Pythony就是很好的選擇,它包含了Numpy、Pandas、Matplotlib、Scipy 、Ipython等主要數(shù)據(jù)分析庫,當掌握并熟悉了這些數(shù)據(jù)分析庫的使用方法后,對于一個幾千萬行的csv數(shù)據(jù)的處理用Pandas只需要不到十秒,而且使用的代碼行更少[2]。大數(shù)據(jù)技術(shù)將要做的數(shù)據(jù)及面臨的問題定義為測量、收集、分析和報告,從而對招生資源以及安排力度進行重新調(diào)整,對歷年在招生過程中產(chǎn)生的海量數(shù)據(jù)進行解釋和分析,以評估學院進展,預(yù)測未來表現(xiàn),發(fā)現(xiàn)潛在的問題,大數(shù)據(jù)實質(zhì)上是對應(yīng)用者在應(yīng)用過程中所產(chǎn)生的海量數(shù)據(jù)進行系統(tǒng)性的分析,以實現(xiàn)掌握規(guī)律及預(yù)測行為表現(xiàn)的目的。本文采用的技術(shù)路線如圖1所示。

2 基于python的學院招生生源地大數(shù)據(jù)分析

伴隨近8年來全國高考報名人數(shù)總體的下降,錄取規(guī)模的持續(xù)增加,錄取率呈快速增長態(tài)勢,隨著高校錄取率的不斷提高,延緩了高考參與人數(shù)下降的造成的影響,錄取率是有上線的,從2020年開始每年100%的入學率,也很難再保持每年700萬以上的大學畢業(yè)生數(shù)量了。那么也就意味著學校招生供應(yīng)總量也會很快下降,以后不僅社會招生難度在加大,學校招生也會進入到白熱化。未來10年,對生源的爭奪會愈演愈烈,所以要對生源地數(shù)據(jù)分析提前布局,了解我院生源分布情況,在提高學院自身的辦學水平的同時開展長遠的招生規(guī)劃[3]。

當前福建省高考生源正也呈現(xiàn)下降的趨勢如表1所示。家長和考生都更加傾向于知名度高的名牌高校,高校尤其是農(nóng)林院校之間的生源競爭正在日趨白熱化,招生工作面臨著各種各樣的挑戰(zhàn),學生的個性化選擇與高校傳統(tǒng)專業(yè)設(shè)置之間的不匹配導(dǎo)致很多專業(yè)無人問津,學生錄取后不報到的現(xiàn)象日益嚴重。如何在這場巨大的、徹底的、顛覆性的變革中有效地利用大數(shù)據(jù)發(fā)掘招生數(shù)據(jù)的相關(guān)性,尋找到招生的新途徑,使高校招生工作更具有實效性與科學性。現(xiàn)對我院 2010、2011、2012、2013、2014、2015、2016、2017年所有入學新生相關(guān)數(shù)據(jù)進行分析,并從中發(fā)現(xiàn)規(guī)律并找到有用的信息,用來掌握本院的招生宣傳方式的側(cè)重點。表1為我省2010年—2018年高考考生數(shù)。

本文基于python的學院招生生源地大數(shù)據(jù)分析—以福建農(nóng)業(yè)職業(yè)技術(shù)學院為例,在學院歷年招生信息數(shù)據(jù)中,使用Python工具作為數(shù)據(jù)分析與挖掘軟件,分析學生報到的高考生源地各地區(qū)報名情況,把生源地形成圖例進行對比與分析。

2.1 用python來做我校招生數(shù)據(jù)的科學分析

在眾多的數(shù)據(jù)中,python提供了功能強大的三大模塊:Numpy、Pandas以及Matplotlib。numpy提供了多維數(shù)組對象 ndarray,能直接對數(shù)組執(zhí)行數(shù)學和元素級別的運算;Pandas主要提供快速便捷地處理結(jié)構(gòu)化數(shù)據(jù)的大量數(shù)據(jù)結(jié)構(gòu)和函數(shù)。matplotlib用于繪制數(shù)據(jù)圖表, ipython能夠極大提高python的編程速度,還用于交互式數(shù)據(jù)處理。Scipy內(nèi)有用于解決科學計算中各種標準問題域的各種包[4],本文用到的是ipython的Jupyter Notebook作為IDE。提取出所需的數(shù)據(jù),并將它可視化。

2.1.1 讀取我校原始數(shù)據(jù)

如圖2為我校招生原始的EXCEL格式的一部分數(shù)據(jù),對我校自2010年至2017年在福建省各城市及省外的招生人數(shù)、各年招生總?cè)藬?shù)進行讀取。首先導(dǎo)入matplotlib、pandas、numpy模塊,讀取數(shù)據(jù)代碼,代碼如下:

#coding:utf-8

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

import string

from pylab import *

df=pd.read_csv('data.csv',delimiter=',')

df.columns=['num','name','sex','addre','mail','tele',

'address','major','colle']

2.1.2 讀取數(shù)據(jù)代碼

def city(cy):

num=0

bools=[]

for i in df.addre:

if i.find(cy)!=-1:

bools.append(True)

else:

bools.append(False)

a=df [bools]

for x in list(a['addre']):

if cy in x:

num+=1

return num

2.1.3 以地區(qū)城市為判斷進行篩選、計算并用可視化實現(xiàn)

mpl.rcParams['font.sans-serif']=['SimHei']

plt.style.use('ggplot')

plt.figure(figsize=(24,12))

plt.plot(x,y),

plt.xlabel(u'地區(qū)')

plt.ylabel(u'人數(shù)')

plt.title(u'各城市招生情況')

plt.legend()

plt.title(u'招生人數(shù)')

plt.ylabel(u'人數(shù)')

plt.xlabel(u'年份')

plt.bar(x,y,fc='c')

結(jié)果如圖4所示:

由圖4可知,在每年的招生人數(shù)中,福州地區(qū)的人數(shù)近幾年來都是最多,而廈門與省外的人數(shù)都較少,原因可能是我校處于距福州市區(qū)40公里的南郊相思嶺校區(qū)及在市區(qū)內(nèi)另有一個校區(qū)的原因,地理位置在招生中起到了一定的相對優(yōu)勢,離家里近,假期回家方便;從這個因素就可得出在招生力度上這兩個區(qū)域應(yīng)為重點;而廈門的人數(shù)少,可能是因為廈門本身在經(jīng)濟上與福州不相上下,且又是個旅游城市。省外的招生人數(shù)較少,原因可能是高職校是普通的院校,若是普通專業(yè)特色性又不強,吸引外省的考生的誘因就沒那么強,故也是招生人較少的原因。 泉州、漳州與南平這三個市區(qū)報考的人數(shù)相當,我市泉州,漳州是良好的水果生產(chǎn)基地,如平和的蜜柚,莆田的枇杷,龍眼都極具代表性。南平地區(qū)的食用菌,蓮子等農(nóng)業(yè)類的生產(chǎn)也極具特色,這也利于農(nóng)業(yè)院校招生。故這三個地區(qū)是我院招生宣傳的重點所在。

2.2 對2018年生源地招生人數(shù)預(yù)測

Python為我們提供了一個機器學習模塊:sklearn,scikit-learn是Python的一個開源機器學習模塊,它建立在Numpy、Pandas、Scipy和matplotlib模塊之上能夠為用戶提供各種機器學習算法接口,可以讓用戶簡單、高效地進行數(shù)據(jù)挖掘和數(shù)據(jù)分析。本次預(yù)測采用KNN算法加樸素貝葉斯算法。

2.2.1 KNN算法

K最近鄰(k-Nearest Neighbor,KNN)分類算法,當測試對象的屬性和某個訓(xùn)練對象的屬性完全匹配時,便可以對其進行分類。KNN是通過測量不同特征值之間的距離進行分類。它的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于該類別,其中K通常是不大于10的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象[5]。該方法在定義類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。在KNN中,通過計算對象間距離作為各個對象之間的非相似性指標,避免了對象之間的匹配問題,在這里距離使用曼哈頓距離公式如公式⑴所示:

同時,KNN通過依據(jù)K個對象中占優(yōu)的類別進行決策,而不是單一的對象類別決策。

2.2.2 樸素貝葉斯分類算法

貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。而樸素貝葉斯分類是貝葉斯分類中最見的一種分類方法。它依據(jù)研究對象的某些特征來推斷出該研究對象屬于該研究領(lǐng)域的哪個類別[6]。樸素貝葉斯分類算法它的核心是貝葉斯公式如公式⑵所示:

同時樸素貝葉斯能多處理多分類任務(wù),適合增量式訓(xùn)練,尤其是數(shù)據(jù)量超出內(nèi)存時,可以一批批的去增量訓(xùn)練。

from sklearn import neighbors

from sklearn.naive_bayes import GaussianNB

from sklearn.naive_bayes import MultinomialNB

導(dǎo)入算法庫代碼

for i in df.city:

city_num[]

num_d[]

city_num_g[]

num_d_g[]

knn=neighbors.KNeighborsClassifier()

train_x=[]

train_y=[]

test_x=[]

test_y=[]

cou=int(len(city_num))

train_x=city_num[0:cou]

train_y=num_d[0:cou]

test_x=city_num[cou:]

test_y=num_d[cou:]

train_x1=city_num1[0:cou]

train_y1=num_d[0:cou]

test_x1=city_num1[cou:]

test_y1=num_d[cou:]

設(shè)置訓(xùn)練集代碼

if sum(tra1)/len(tra1)>=9:

print '學院在'+ `i`+'招生300人以上的機率為90%~100%‘

elif sum(tra1)/len(tra1)>=8:

print '學院在'+`i`+'招生300人以上的機率為80%~89%‘

elif sum(tra1) / len(tra1)>=7:

print '學院在'+`i`+'招生300人以上的機率為70%~89%‘

elif sum(tra1) / len(tra1)>=6:

print '學院在'+`i`+'招生300人以上的機率為60%~69%'

else:

print '學院在'+`i`+'招生300人以上的機率很小

print '學院2018年招生的人數(shù)為‘+n+以上

2018我院生源地招生信息情況與招生總數(shù)預(yù)測代碼結(jié)果如下:

學院在福州招生300人以上的機率為90%~100%

學院在泉州招生300人以上的機率為90%~100%

學院在莆田招生300人以上的機率為60%~69%

學院在廈門招生300人以上的機率很小

學院在三明招生300人以上的機率為90%~100%

學院在龍巖招生300人以上的機率為60%~69%

學院在漳州招生300人以上的機率為70%~79%

學院在南平招生300人以上的機率為80%~89%

學院在寧德招生300人以上的機率為90%~100%

學院在外省招生300人以上的機率很小

學院2018年招生的人數(shù)為2350以上。

由此可見,學院由于地處福州,一些經(jīng)濟較落后的城市考生,會有較大的機率選擇。福州省會城市的地理位置是吸引考生的原因之一,學院可在莆田、龍巖和廈門加強宣傳。而對于外省,由于地理位置及學院本身是高職院校,知名度及影響力不足,故招生人數(shù)相對較少且是一種常態(tài),則可從學院辦學理念及創(chuàng)新模式上提高省外考生報考量。而對于泉州,漳州,南平,寧德等地區(qū)需要常態(tài)化的招生宣傳。

3 大數(shù)據(jù)分析在教育方面展望

高校招生工作應(yīng)借助各種信息平臺的力量實現(xiàn)借力打力,更應(yīng)該把數(shù)據(jù)信息收集及處理放在首要位置,助力于高校推廣宣傳、計劃投放、專業(yè)設(shè)置、學生錄取等招生過程的改進。

學院招生規(guī)模能促進學校與生源、企業(yè)用人單位的雙向溝通,增強學校向心力和凝聚力,塑造優(yōu)秀的學校文化。不少院校采取自主招生的辦法,在當下有“二元制”招生模式,這樣做容易將生源融入到校園文化,因為學校文化是學校的靈魂,它是一種以價值觀為核心對全體師生進行學校意識教育的微觀文化體系[7]。學校管理人員和生源認同學校文化,不僅會自覺學習掌握科技知識和技能,而且會增強主人翁意識、質(zhì)量意識、創(chuàng)新意識。從而培養(yǎng)大家的敬業(yè)精神、革新精神和社會責任感,形成上上下下自學科技知識,自覺發(fā)明創(chuàng)造的良好氛圍.故高職院校招生工作還可以從以下幾個方面進行改進。

⑴ 高職院校擴大招生計劃和轉(zhuǎn)變辦學模式。

⑵ 完善招生制度,提升招生效率的策略。

⑶ 增強高職院校自身內(nèi)涵建設(shè)。

⑷ 根據(jù)專業(yè)設(shè)置進行單獨招生。

⑸ 加強就業(yè)指導(dǎo),以就業(yè)促招生。

⑹ 突出職業(yè)特色,深化教育教學改革,明確學校發(fā)展定位。

通過大數(shù)據(jù)進行招生分析,能夠為每一所院校創(chuàng)設(shè)一個量身定做的環(huán)境和個性化的招生規(guī)程,還能創(chuàng)建一個早期預(yù)警系統(tǒng)以發(fā)現(xiàn)潛在的風險,為學院的多年招生提供一個富有挑戰(zhàn)性而非減少的招生規(guī)模。因此,有識之士預(yù)言未來的學院招生也將是大數(shù)據(jù)驅(qū)動的新時代。我們應(yīng)該積極迎接這個新時代,感知和記錄更大規(guī)模和更多種類的數(shù)據(jù),并且通過對這些數(shù)據(jù)的分析和處理,深度挖掘蘊含其中的核心價值。

4 總結(jié)

本文從應(yīng)用視角出發(fā)詮釋Python的概念內(nèi)涵,通過梳理,把握大數(shù)據(jù)在教育領(lǐng)域應(yīng)用的態(tài)勢。在實踐解析方面,結(jié)合我院歷年校招生信息數(shù)據(jù),實現(xiàn)大數(shù)據(jù)應(yīng)用驅(qū)動下的我院招生生源地數(shù)據(jù)分析。大數(shù)據(jù)招生數(shù)據(jù)的分析應(yīng)用遠不止這些,可對學生報到率做出分析,可對區(qū)域生源做出分析,可對報考院校原因進生分析,本文只從報考考生生源地一個角度利用Python來分析我院學生生源地情況,以及預(yù)測我院的招生人數(shù)。進而找到今后招生工作的宣傳重點,及發(fā)現(xiàn)可挖掘數(shù)據(jù)。這些應(yīng)用只是大數(shù)據(jù)應(yīng)用的冰山一角,今后可從多個角度對學院的招生,管理及其他方面用大數(shù)據(jù)技術(shù)分析提取更多有關(guān)于教育的信息,為學校的發(fā)展貢獻微薄之力。

參考文獻(References):

[1] 聶晶.Python在大數(shù)據(jù)挖掘和分析中的應(yīng)用優(yōu)勢[J].廣西民族大學學報(自然科學版),2018.1(24).

[2] 劉海濤,林燕妮.大數(shù)據(jù)時代語言研究的方法和趨向[J].新疆師范大學學報(哲學社會科學版),2018.39(1):72-83

[3] 鄧廣彪.預(yù)測性大數(shù)據(jù)分析在高校招生中的應(yīng)用研究[J].微型電腦應(yīng)用,2017.33(11)

[4] 朝樂門,邢春,曉張勇.數(shù)據(jù)科學研究的現(xiàn)狀與趨勢[J].計算機科學,2018.1:1-13

[5] 陳偉,李紅,王維.一種基于Python的K-means聚類算法分析[J].數(shù)字技術(shù)與應(yīng)用,2017.10:118-119

[6] MatchingTools: A Python library for symbolic effective field theory calculations Juan C. Criado Computer Physics Communications,2018.227.

[7] 韓志豪.人工智能背景下的Python教學探索[J].計算機時代,2018.7:76-81

主站蜘蛛池模板: 青青青伊人色综合久久| 亚洲无码高清一区二区| yjizz国产在线视频网| 欧美亚洲欧美| 欧美日韩国产一级| 欧美日韩动态图| 四虎精品国产永久在线观看| 国产va在线| 精品国产三级在线观看| 最新国产麻豆aⅴ精品无| 中文字幕在线免费看| 亚洲免费黄色网| 另类重口100页在线播放| 亚洲欧美国产视频| www精品久久| 国产福利小视频在线播放观看| 第一页亚洲| 亚洲精品天堂自在久久77| 婷婷色在线视频| A级毛片高清免费视频就| 免费A∨中文乱码专区| 日本不卡免费高清视频| 欧美精品xx| 超碰91免费人妻| 欧美精品成人| 国产精品亚洲片在线va| 日本三级精品| 福利在线不卡| 高清色本在线www| 高清久久精品亚洲日韩Av| 全午夜免费一级毛片| 久久亚洲天堂| 日本免费福利视频| 日本欧美成人免费| 精品久久香蕉国产线看观看gif| 日韩第一页在线| 日本欧美中文字幕精品亚洲| 直接黄91麻豆网站| 国产在线观看99| 人人艹人人爽| 亚洲二区视频| 国产原创自拍不卡第一页| 国产一区二区免费播放| 国产美女免费网站| 精品久久国产综合精麻豆| 成人免费午夜视频| 国产精品女同一区三区五区 | 国产二级毛片| 国产又粗又猛又爽视频| 成人在线欧美| 精品国产污污免费网站| 色亚洲成人| 日本成人精品视频| 日韩免费成人| 国产精品第页| 日韩中文精品亚洲第三区| 国内99精品激情视频精品| 亚洲视屏在线观看| 91蝌蚪视频在线观看| 国产美女在线观看| 国产精品香蕉在线| 伊人天堂网| 国产白浆视频| 久久人搡人人玩人妻精品一| 久久性视频| 麻豆国产精品| 性视频一区| 麻豆精品久久久久久久99蜜桃| 一级一级特黄女人精品毛片| 最新午夜男女福利片视频| 日韩精品一区二区三区swag| 亚洲成网777777国产精品| 亚洲天堂网在线视频| 中文字幕丝袜一区二区| 成人在线亚洲| 污网站在线观看视频| 日韩国产精品无码一区二区三区| 热这里只有精品国产热门精品| 妇女自拍偷自拍亚洲精品| 成人免费午间影院在线观看| 国产菊爆视频在线观看| 国产不卡网|