999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高職學生就業因素分析與就業預測模型構建

2022-01-21 10:29:50熊露露王方士
現代計算機 2021年33期
關鍵詞:數據挖掘高職學生

熊露露,王方士

(1.新疆鐵道職業技術學院,烏魯木齊 830011;2.浩藍環保股份有限公司,廣州 200010)

0 引言

2019年國務院印發的《國家職業教育改革實施方案》中指出要把職業教育擺在教育改革創新和經濟社會發展中更加突出的位置。據中國青年報統計,2020年高職畢業生已達到385萬人,畢業生人數的快速增加,使高職畢業生就業形勢嚴峻,越來越多的高職畢業生面臨著一畢業就失業的危機,這與國家大力發展職業教育的初衷并不相符。如何提高高職學生的就業率是十分迫切和重要的工作,通過挖掘影響高職學生就業的因素,學校可以據此優化就業指導方案,修訂人才培養方案;學生可以利用就業預測模型,對能否順利就業進行預測,針對就業的需要進行積極的準備,從而提高高職院校學生的就業率。本研究以異構數據源為研究對象,利用決策樹算法,不但可以建立切實可行的高職學生就業狀況預測模型,還能夠分析得到影響高職學校畢業生就業的關鍵因素。

1 相關研究

近年來,國外內有很多學者對影響學生就業因素和就業預測模型進行了研究。程昌品等人[1]采用信息增益比的決策樹算法對畢業生就業進行了預測,唐燕等人[2]利用C4.5決策樹算法和隨機森林算法對醫藥院校畢業生建立了就業預測模型,李琦[3]運用基于HMIGW和XGBoost的畢業生就業預測算法,為畢業生的就業預測提供了很大的幫助。對高校利用數據挖掘進行就業指導分析發現:數據挖掘技術在高校就業工作的指導作用已經引起了越來越多的關注,然而大多數已有研究存在數據樣本量較低、樣本分布不均衡、對高職畢業生就業預測研究較少等問題。因此本研究采用決策樹算法建立高職畢業生就業預測模型,以期為高職院校的招生、學生培養和畢業生就業提供決策依據,提高高職學生就業率。

基于數據挖掘算法的異構數據源知識發現遵循科學領域邏輯框架內的知識發現研究[4],在知識處理流程中關注數據規范,其中機器學習等方法是實現高效領域知識發現的一條必經之路。

2 數據預處理

2.1 數據來源

本研究以某高職院校的畢業生就業數據和成績數據為研究對象。從學校招生就業系統中提取2016—2020年畢業生就業數據4078條記錄,從教務管理系統中提取相應畢業生3年6學期成績數據24468條記錄。畢業生就業數據包含姓名、身份證號、學號、性別、民族、民族代碼、專業代碼、政治面貌、院系、班級、所屬校區、專業、就業情況、畢業時間等26個屬性列,每個畢業生每學期成績數據包含學號、姓名、科目等10個屬性列。

2.2 數據清洗

2.2.1 就業數據

本研究選擇了就業數據中對預測模型影響較大的學生就業的屬性信息,故用人工抽取的方式保留了主要屬性列,去除不必要屬性列,經過提取最終保留7列屬性。

2.2.2 成績數據

每個畢業生包括了6學期的成績,將每個學生的所有成績計算了平均值,這樣成績數據從原來的24468條減少到了4078條。最終成績數據包含學號,平均成績兩列屬性。

2.2.3 數據集成

將經過處理后的就業數據和成績數據,通過“學號”進行關聯合并,合并后的數據集作為樣本數據,以學號作為關鍵字段,每個樣本數據包含8個屬性列(性別、民族、政治面貌、專業、所屬校區、畢業時間、平均成績、就業情況)。

2.2.4 文本數據數值化

為了便于數據挖掘模型的建立,本研究將定性數據均改為數值型數據[5],例如,性別屬性列中,設“男”為2,“女”為1;就業情況屬性列中,設“能就業”為1,“不能就業”為-1等。

2.2.5 數據歸一化

運用最大-最小規范化,使屬性列的數據取值范圍為[0,1]。

經過上述步驟,數據呈現可處理狀態,最終得到4078條數據。如表1所示。

表1 處理后的研究數據(部分)

3 高職學生就業預測模型構建

經過數據預處理后,為了降低預測模型的泛化誤差,先將數據樣本按照7∶3的比例分為訓練集數據和測試集數據,訓練集數據2852條,測試集數據1226條;再對訓練集數據采用10折交叉驗證的方法來訓練模型,具體操作是將訓練集數據等分為10個互斥子集,每次選擇其中的9∕10作為訓練集,剩下的1∕10作為驗證集,此操作重復10次,將10次測試結果的均值作為模型的預測結果。將“性別”、“民族”、“政治面貌”、“專業”、“所屬校區”、“畢業時間”、“平均成績”7列屬性作為輸入值,將訓練集中“就業情況”作為最終的分類結果(分類結果為“就業”和“未就業”兩種情況)。

決策樹是應用統計、機器學習和數據挖掘領域的監督學習算法[6]。主要用于分類和預測模型,不僅可以獲得準確的分類結果,而且可以根據其樹狀結構解釋內部數據分類過程[7]。一般一個決策樹包含一個根結點、若干個內部結點和若干個葉結點;葉結點對應于決策結果,其他每個結點對應于一個屬性測試,根結點包含樣本全集,從根結點到每個葉結點的路徑對應了一個判定測試序列。常用的決策樹算法有ID3,C4.5,CART算法,其中C4.5算法有兩個明顯的優勢,一是能夠更有效的處理連續屬性,二是可以解決ID3算法出現的過擬合問題。本研究采用C4.5算法構建決策樹模型,利用信息“增益率”來選擇最優劃分屬性。C4.5算法的計算過程如下。

3.1 計算樣本集的初始信息熵

“信息熵”是度量樣本集合純度最常用的指標。

假設D為樣本集合,D中第k類樣本所占的比例為Pk(k=1,2,…|γ|),則D的信息熵如公式(1)所示。

3.2 計算樣本數據集的分裂熵

假定屬性a有V個可能的取值{a1,a2,…av},若使用a來對樣本集D進行劃分,會產生V個分支結點,其中第v個分支結點包含了D中所有在屬性a上取值av的樣本,記為Dv。考慮到不同的分支結點所包含的樣本數不同,給分支結點賦予權重,結合公式(1),樣本數據集的分類熵計算方法如公式(2)所示:

3.3 計算屬性a的信息增益

為了確定屬性a能否有效降低整體“信息熵”,a屬性的信息增益可定義為:

3.4 計算屬性a的信息增益率

為了解決信息增益可能造成的過度擬合問題,C4.5算法采用信息增益比來選擇最優劃分屬性。屬性a的固有值定義為:

屬性a的信息增益率定義為:

C4.5算法選擇Gain_ratio(D,a)最大的屬性a*作為根結點,對a*的不同取值對應的D的V個子集遞歸調用上述過程生成a*的子節點,從而生成一棵樹。

使用Python軟件,利用sklearn模塊中的DecisionTreeClassifier進行數據挖掘。為避免決策樹分支過多而出現過擬合,利用5折交叉驗證法驗證當決策樹的最大深度max_depth設置為5,min_samples_split為10時,能夠較好地擬合訓練集數據,且能較好地預測測試集數據。利用sklearn.feature_selection中的SelectKBest特征選擇函數,得到屬性列的重要程度如圖1所示。

圖1 影響高職學生就業因素得分柱形圖

橫坐標表示實際訓練數據的屬性列名稱,縱坐標表示屬性的得分值,分值越高,屬性越重要。從圖中可知,特征得分大小排序結果為:畢業時間2020>民族>性別>成績>專業>所屬校區>政治面貌,這與決策樹算法得出的結論一致。由此可知,影響高職畢業生就業的最重要因素是畢業時間2020年,2020年作為劃分數據的根結點,與該年的疫情影響有一定關系;其次,民族屬性很重要,原因是從2017年開始,該高職學校的畢業生少數民族與漢族的比例從50%開始逐年增加;性別屬性也較為重要,這與用人單位對于理工院校的用人需求以男生為主有關。

利用決策樹挖掘的規則為:畢業時間在2017—2019年的學生除了少數所在系部為鐵路工程的女生外基本都能成功就業;2016年成績低于75.82分的女生均不能就業,成績高于75.82分且所在系部為運營管理的女生均能就業;2020年,少數民族學生成績低于73.37分的學生均不能就業,成績高于77.7分的少數民族男生均能就業,成績高于77.37分所在系部為機車車輛的女生均能就業,2020年,漢族男生所在系部為機車車輛且成績高于70.78分均能就業,非機車車輛的漢族男生均能就業。

4 模型評價

為了確定利用決策樹算法建立的高職學生就業預測模型的實用性,以四格表為數據基礎,運用查準率(precision)、召回率(recall)、正確率和F值[8]和精確度5個評價指標對決策樹算法的性能進行評價,其中精確度借鑒F值的調和平均值計算方法,定義為正確率和F值的調和平均值[9]。

本研究中TP(true positive)為真正例,即實際結果為“就業”,數據挖掘結果也為“就業”的樣本數;TN(true negative)為真負例,即實際結果為“未就業”,數據挖掘結果也為“未就業”的樣本數;FP(false positive)為假正例,即實際結果為“未就業”,數據挖掘結果為“就業”的樣本數;FN(false negative)為假負例,即實際結果為“就業”,數據挖掘結果為“未就業”的樣本數。

查準率越高,算法的敏感性越好;召回率越高,算法的靈敏度越好,正確率越高,說明算法準確度越高;精確度越高,說明算法的精確度越好;F值越大,說明算法的整體性能越好[10]。

根據決策樹算法建模,采用樣本總體的30%作為測試集進行測試,分別計算相應的評價指標,計算結果如表2所示。

表2 決策樹算法性能指標

從表2可知,決策樹算法建立的高職學生就業預測模型的F值為0.9026,精確度為0.8702,說明該算法較好地實現了數據挖掘和分類預測。

5 結語

大數據時代,數據是寶貴的資源,如何運用數據挖掘算法對其進行有效的挖掘和分析從而指導我們的工作至關重要。本研究運用決策樹算法挖掘了影響學生就業的關鍵因素,從實驗結果發現影響高職學生就業的主要因素為畢業時間,其次是民族、性別、成績和專業;其中畢業時間、性別、民族這些關鍵因素屬于客觀因素,學生不能改變,但是學習成績是可以通過努力提高的。學生要順利就業的成績要求為:女生成績高于75.82分,少數民族男生成績高于77.37分,漢族男生的成績要高于70.78分;相對于漢族學生,用人單位對少數民族學生的學習能力要求更高,所以少數民族學生想要順利就業除了學習好國家通用語言文字以外,要努力提高自己的學習能力。因此學校在制定人才培養方案時,需要提高對少數民族學生學習能力的要求;相對于男生而言,就業單位選擇女生時不僅僅有學習成績還有專業的要求,學校在考慮招收女生時應該適當的對女生就業率高的專業擴大招生。通過對高校數據挖掘發現學校與企業簽訂訂單協議這種方式能夠保證高的就業率,因此學校今后可以考慮增加訂單培養的規模。

利用決策樹建立的學生就業預測模型,對未畢業學生就業情況進行預測,可以使學校有針對性的調整招生、就業指導方案,幫助學生端正就業觀念,學生可以根據預測結果及時調整自己的學習狀態,制定合理的職業生涯規劃,最終提高高職畢業生的就業率。

猜你喜歡
數據挖掘高職學生
探討人工智能與數據挖掘發展趨勢
高職應用文寫作教學改革與創新
活力(2019年21期)2019-04-01 12:18:24
趕不走的學生
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
學生寫話
學生寫的話
一種基于Hadoop的大數據挖掘云服務及應用
高職人才培養模式創新探討
基于GPGPU的離散數據挖掘研究
海峽影藝(2012年1期)2012-11-30 08:15:44
主站蜘蛛池模板: 精品福利视频网| 真实国产精品vr专区| 久久午夜夜伦鲁鲁片不卡| 永久成人无码激情视频免费| 91丝袜乱伦| 国产无码精品在线播放| 红杏AV在线无码| 免费看的一级毛片| 欧美精品成人| 国产在线拍偷自揄观看视频网站| 国产区福利小视频在线观看尤物| 国产h视频在线观看视频| 国产黑丝一区| 精品三级在线| 国产成人8x视频一区二区| 91娇喘视频| 欧美无专区| 亚洲黄网在线| 国产欧美日韩另类| 日本在线免费网站| 国产福利拍拍拍| 亚洲 日韩 激情 无码 中出| 欧洲极品无码一区二区三区| 亚洲va欧美va国产综合下载| 国产乱子伦一区二区=| a级毛片免费在线观看| 亚洲乱码在线视频| 尤物午夜福利视频| 国产99视频精品免费观看9e| 国产理论最新国产精品视频| 免费国产一级 片内射老| 午夜精品福利影院| 国产裸舞福利在线视频合集| 亚洲天堂高清| 成人午夜久久| 国产精品成人观看视频国产| 亚洲一区网站| 2021国产乱人伦在线播放| 日韩无码真实干出血视频| 色成人综合| 99热免费在线| 青青草原国产免费av观看| 美女内射视频WWW网站午夜| 久久 午夜福利 张柏芝| 欧美日韩北条麻妃一区二区| 国产精品视频第一专区| 亚洲伊人天堂| 99精品一区二区免费视频| 91在线视频福利| 成年人国产视频| 日韩毛片免费| 久久99蜜桃精品久久久久小说| 欧美一区二区三区国产精品| 91麻豆精品视频| 亚洲无码高清免费视频亚洲 | 欧美人与动牲交a欧美精品| 国内精品久久九九国产精品| 久久精品人人做人人爽97| 婷婷伊人久久| 亚洲欧美另类视频| 久青草免费在线视频| 国产成人亚洲无码淙合青草| 福利一区三区| 精品国产一区91在线| 最新国产成人剧情在线播放| 日韩 欧美 小说 综合网 另类| 就去吻亚洲精品国产欧美| 日韩资源站| 国产欧美视频在线观看| 日韩AV无码免费一二三区| 国产人成午夜免费看| 伊人久久大香线蕉成人综合网| 99久久精品国产综合婷婷| 露脸真实国语乱在线观看| 青青草原国产| av无码久久精品| 中文字幕亚洲专区第19页| 又黄又湿又爽的视频| 中文字幕一区二区人妻电影| 亚洲中文在线看视频一区| 免费国产在线精品一区| 欧美不卡视频在线观看|