劉中國 蔣浩杰 丁國勇



摘? 要: 大學生就業去向的影響因素是復雜多樣的。本研究以某財經高校金融學院為案例,來探究學生學業表現對學生就業的影響。通過采集應屆畢業生的在校學習成績和就業信息數據,應用教育數據挖掘中的人工神經網絡、決策樹和貝葉斯網絡等算法,得出學生學業表現的不同對學生選擇具體行業以及職位時有一定的影響。相關研究成果對于高校專業培養模式改革及學生引導有一定的參考價值。
關鍵詞: 教育數據挖掘; 學業表現; 就業去向; 神經網絡; 決策樹; 貝葉斯網絡
中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)04-86-05
Abstract: The factors influencing the employment destination of college students are complex and diverse. In this study, taking the school of finance in a financial university as a case, through collecting the academic performance and employment information data of fresh graduates, and using artificial neural network, decision tree and Bayesian network algorithms in educational data mining, we explore the impact of students' academic performance on students' employment. Relevant research results have certain reference value for the reform of professional training mode and student guidance in universities.
Key words: educational data mining; academic performance; graduation destination; neural networks; decision tree; Bayesian network
0 引言
大學生就業情況一直是社會關注的重點。據2021年全國大學生就業報告,2021年我國高等院校畢業生數量已達到909.4萬,較2020年增長4.1%。大學生的學業情況與就業去向存在一定的關聯性,大學生會依據自身學業表現選擇就業單位,就業單位在招聘大學生時會考慮學生的學業表現、實習經驗以及證書獲取等情況。本文欲利用江蘇省某高校生就業實際數據來探究大學生就業去向與其在校期間課程成績、四六級成績、以及所獲取的相關證書的關系,以期為學校人才培養模式改革、學生發展等提供一些實證參考。
1 文獻回顧
國內外已有一些學者使用教育數據挖掘方法來探究學業表現對就業去向的影響。Ann Warner研究學生就業、教育和健康相關特征與學期成績之間的關系[1],通過學生學業上的表現預判其每學期GPA高低。作者以美國南部四所大學學生的學業表現數據為研究樣本,發現衛生保健專業學生的GPA高于非衛生保健專業學生。Hanna Soroka-Potrzebna探究證書對于就業的影響[2],在大學生就業過程中,擁有相關專業的證書,則可以提高自身在就業中的核心競爭力。
關于學生的學業表現對就業去向的影響,目前有不同的研究方案與研究成果。吳漢卿[3]認為大學生在校學習成績作為學生智力、學習態度等因素的直觀結果,較為準確地反映學生的整體水平。王酈玉[4]就大學生就業情況開展實證研究,構建二元Logit模型進行回歸分析,分析學生的性別、家庭背景、在校期間學業成績與學生就業情況的關聯性。李夢竹[5]研究發現,在畢業去向上盡管積極的在校表現能夠預測更優的畢業去向,但出生于弱勢階層的大學生卻傾向于就業,而優勢階層的大學生更傾向于深造。馮沁雪[6]研究了我國高校畢業生專業興趣對就業質量的影響,考察了成績和學用匹配在其中發揮的中介效應,分析了影響隨時間變化的趨勢。程詩婷[7]基于對C9高校博士畢業生相關數據的分析發現,博士生教育階段的學習結果并未對其就業去向形成顯著影響。胡德鑫[8]通過實驗發現,與其他學科相比,工科博士畢業生選擇學術職業的比例占50%以上,另有近一半的畢業生選擇到企業或黨政機關單位就業,呈現出多元化發展趨勢。Sara Morsy[9]提出學習淺線性模型,通過學生的知識狀態和目標課程之間的相似性來預測學生的成績。Byungsoo Kim[10]提出DPA,一種帶有判別預訓練任務的遷移學習框架,用于學習成績預測。
2 數據預處理
2.1 數據選取
本論文選用的數據來源于江蘇省某高校金融學院432名應屆畢業生的學業成績表、四、六級通過詳情表以及考取證書詳情表。該校金融學院包括信用管理、金融學、投資學、保險學四個專業。在處理模型所需要的輸入數據時,由于學號、姓名等屬性值是為了標識出學生的惟一性,對挖掘結果不產生影響,故本文首先排除了這些屬性值的影響。通過觀察可知學業成績表具體包含專業課程、通識課程、基礎課程以及體育課程等課程的所有成績,并且課程成績是按照百分制計分,本文以學業成績表中的各科成績作為模型輸入變量。
2.2 數據規范
在對教務原始數據進行相關處理時,按照以下規則對各科目成績展開分類,并劃分為四個類別。90分到100分之間的成績劃分在第一類;80分到90分之間的成績劃分在第二類;70分到80分之間的成績劃分在第三類;將0分到70分之間的成績劃分在第四類。將處理后的課程成績數據作為模型的輸入值,將學生的畢業去向類別作為模型的輸出。在模型處理完相關數據后,模型會自動生成相關結果報告。
本文在處理數據時,將畢業生的七個就業方向歸類為兩個就業類別。首先合并體制內就業的學生與去向非金融企業的學生,將其就業類別稱為“非對口專業就業類”。在該類別中所有學生的就業單位不是與專業對口的金融單位,故合并選擇證券公司、保險公司、貿易公司、投資公司以及國有銀行與股份制銀行的畢業生,并將其就業類別稱為“對口專業就業類”。
3 實驗分析
3.1 實驗準備
3.1.1 算法介紹
決策樹是監督學習算法的一種,主要應用于分類問題。決策樹從數據中挑選具有區分性的變量,將數據集拆分為兩個或兩個以上的子集合,一步一步拆分,最終形成了一棵“樹”,“樹”的每個葉子節點代表該分支最終的預測結果。人工神經網絡模型中,信息從輸入層開始輸入,每層的神經元接收前一級輸入,并輸出到下一級,直至輸出層。并且任何層的輸出都不會影響同級層,可用一個有向無環圖表示。
3.1.2 建模流程(如圖1所示)
⑴ 輸入、輸出變量的設置:依據實驗要求將規范后的數據作為模型的輸入變量。并根據實驗目的,在模型中設置相應的目標變量以探究不同數據組之間的關系。
⑵ 數據集的劃分:將數據樣本中百分之七十的數據劃分成訓練集,將百分之三十的數據劃分成測試集。如果模型結果出現過擬合現象,則考慮使用其他比例的訓練集與測試集數據。例如將數據樣本中百分之六十的數據劃分成訓練集,將百分之四十的數據劃分成測試集。
⑶ 選定實驗算法:通過對多次實驗結果的精度與模型所生成的結果報告的對比分析,本文考慮選用決策樹C5.0模型、神經網絡模型、貝葉斯網絡模型三個模型展開相關實驗。
⑷ 模型調參:在調用不同的算法做數據分析與預測的過程中,依據輸入數據的特征,本文對實驗中的相關參數進行調配以達到更好的效果。
⑸ 結果可視化:在算法對數據分析、預測完畢之后,我們將選用分析模塊對算法生成的結果做可視化的分析。通過表格的形式展示結果,以給用戶帶來更直觀的體驗。
3.2 實驗過程
3.2.1 實驗一、研究學生各類型的平均成績、四、六級成績、考證情況對就業去向的影響
⑴ 數據準備
通過調研432名應屆畢業生以下課程類目中所有科目的平均分,來探尋哪些類型的課程在學生畢業去向選擇起著重要的影響。將經過分類處理后的專業課、專業主干課、專業選修課、通識課、通識選修課、學科基礎課、實踐課、體育課、英語四級、英語六級等各科成績作為模型的輸入變量,學生的畢業去向分類數據作為模型的輸出變量。
⑵ 調用模型
將上述實驗一數據準備模塊中的科目成績作為輸入數據,調用圖1所示的相關模型,進行數據分析。
⑶ 實驗報告一
各類型平均成績、四、六級成績、考證情況對學生就業去向影響(每個類別中的柱狀圖依次按照1.神經網絡、2.決策樹、3.貝葉斯網絡順序排列)
報告分析:
圖2是利用決策樹C5.0模型、神經網絡模型、貝葉斯網絡模型這三個模型得到的各類型科目重要性比較圖。該實驗的報告結果顯示:學科基礎類別下的科目與專業課類別下的科目以及相關證書的考取對學生的畢業去向有著重要的影響。決策樹C5.0模型、神經網絡模型、貝葉斯網絡模型這三個模型對學科基礎類別的成績與對專業課類別的成績所預測重要程度值都達到0.2以上。決策樹C5.0模型、貝葉斯網絡模型對于證書獲取所預測的重要程度值達到0.2,并且神經網絡模型對其所預測的重要程度值也接近0.2。說明學生應該把握好學科基礎類目、專業課類目中所有科目的學習,以及考取專業所要求的證書。這三個模型對英語四級成績、實踐課成績、體育成績所預測的重要程度值相較與前者來說,數值較小,即意味著其對于學生畢業去向的影響程度較小。
3.2.2 實驗二、探究學生所有專業課程、基礎課程成績對就業去向的影響
⑴ 數據準備
通過調研432名應屆畢業生專業課程以及基礎課程中所有科目成績,來探究哪些科目對于學生在選擇就業方向上有重要的影響。首先我們從教務數據庫中獲得金融工程、金融企業會計、國際結算、信用管理學、保險學、商業銀行業務與經營、證券投資學、金融前沿問題,這八門專業課程成績,以及會計學、貨幣銀行學、宏觀經濟學、微觀經濟學、管理學、國際貿易這六門基礎課程成績。然后將所有成績進行分類處理,最后將分類處理后的數據作為模型的輸入值。
⑵ 調用模型
將上述實驗二數據準備模塊中的科目成績作為輸入數據,調用圖1所示的相關模型,進行數據分析。
⑶ 實驗報告二
學生專業課程成績對第一類就業去向的影響(每個類別中的柱狀圖依次按照1.神經網絡、2.貝葉斯網絡、3.決策樹順序排列)。
結果分析:
圖3為利用決策樹C5.0模型、神經網絡模型、貝葉斯網絡模型得到的各科目專業課成績對第一類就業去向重要性比較圖。這三個模型對于預測就業類別一的學生專業課程的重要性程度有重要意義。通過決策樹 C5.0模型、神經網絡模型、貝葉斯網絡模型所預測金融企業會計、金融工程、商業銀行學、保險學這四門課程重要程度值都達到0.15以上。說明這四門課程對于學生未來在非對口專業單位就業有著重要影響。該結論表明:想在非對口專業單位就業的學生應該在眾多門類的專業課上合理分配時間,著重把握重要課程,為將來的就業做好知識積累。
⑷ 實驗報告三
學生專業課程成績對第二類就業去向的影響(每個類別中的柱狀圖依次按照1.神經網絡;2.貝葉斯網絡;3.決策樹順序排列)。
結果分析:
圖4為利用決策樹C5.0模型、神經網絡模型、貝葉斯網絡模型得到的各科目專業課成績對第二類就業去向重要性比較圖。通過決策樹C5.0模型、神經網絡模型、貝葉斯網絡模型所預測金融企業會計、金融前沿問題、商業銀行學、證券投資學這四門課程的重要程度值大部分達到0.15以上,其余也都接近于0.15。說明這四門課程對于學生未來在對口專業單位就業有著重要的影響。這對于未來在專業領域相關的公司單位就業的學生有著積極的引導作用,該類學生應積極努力學好相關課程知識。
3.3 實驗三、預測學生畢業去向
3.3.1 數據準備
通過使用432名應屆畢業生的專業課程類目中所有科目成績以及課程基礎類目的所有科目成績作為模型的輸入數據,來預測學生畢業去向。我們將經過分類處理后的保險學、商業銀行業務與經營、證券投資學、國際金融學、中央銀行學、會計學、貨幣銀行學、宏觀經濟學、微觀經濟學、管理學、國際貿易等科目成績作為模型的輸入值,學生的畢業去向分類數據作為模型的輸出值。
3.3.2 調用模型
以上述科目成績作為實驗三的輸入數據,調用圖1所示的相關模型進行數據預測。
3.3.3 實驗結果
如表2所示,三種算法的測試集正確率都在80%以上,這說明三種算法的預測效果都較為良好,其中正確率最高的算法是神經網絡,為85.85%。從精確度、靈敏度和F1值這三個指標來看,神經網絡相較與決策樹、貝葉斯網絡有比較好的預測值。說明在本論文所探究的數據關系中,神經網絡更具適用性。
4 結論與建議
4.1 結論
通過以上三個層面分析與預測學生的學業表現與畢業去向的相關性。首先是從學生的各個類型課程角度來探究,哪些類型的課程對學生的畢業去向有重要的影響。探究的結果對學校將來調整教學方案有著重要的作用,學校可以著力加強相關類型課程的建設。然后將實驗報告一所得結論中有重要影響的兩大類課程體系詳細展開討論,探究兩大類型中的所有科目對學生畢業去向的影響大小。從而將重要影響因素確定在具體的課程上,引導學校大力發展有重要影響作用的課程。
4.2 建議
首先在課程分類層面上,根據實驗結果顯示可知學科基礎類別與專業課類別中的所有課程以及相關證書的考取是重要變量。學科基礎類別中會計學、貨幣銀行學、宏觀經濟學等課程是金融學院的學生們了解自己專業知識的基石,只有在打好此基礎之上,才能游刃有余的學習更加高深的專業知識以及運用專業知識來解決實際問題。專業課中的金融工程、金融企業會計、公司金融、國際結算等課程是學生們間接了解未來工作的通道,掌握專業課程中的相關技能幫助學生們在未來面對實際專業問題時,能更好的面對與解決。學生們也就應該積極的考取專業相關證書,這在未來就業的時候是自我競爭力的一部分體現。對于想要應聘證券、基金、保險等行業的同學們應當在學校就讀期間積極考取對應崗位的資格證書,這是行業招聘的門檻。
其次對于去向第一類就業單位的同學,應該注重學習好金融企業會計、金融工程、商業銀行學、保險學這四門專業課程以及貨幣銀行學、國際貿易、管理學這三門基礎課程。學生們通過學習相關的基礎課程知識,可以了解到如何調節國內生產要素的利用率,改善國際間的供求關系,調整經濟結構,增加財政收入。學生在學好本專業的同時也獲得了一定的學習能力,培養出一定的學習素養,為將來在非金融崗位上奉獻力量做鋪墊。也為將來在公務員系統、非金融公司工作所需要的能力做一定的積累。
最后對于去向第二類就業單位的同學,應該注重學習好金融企業會計、金融前沿問題、商業銀行學、證券投資學專業課程以及國際貿易、宏觀經濟學、微觀經濟學、會計學這四門基礎課程。通過金融相關專業課程的學習,學生可以掌握金融學基本知識和理論、金融運作和金融市場的基本知識與基本技能;熟悉國際金融規則、慣例及WTO的運行機制;通曉中國對外金融管理政策法規,了解當代金融市場的發展狀況;運用現代化科技手段,進行現代金融業務操作。幫助自我提升專業能力。在應聘投資、貿易公司、證券、基金與保險公司、國有銀行、股份制銀行金融崗位時,更具有競爭力。
參考文獻(References):
[1] Ann Warner, The relationship among BSN students'?employment, educational,and healthrelated characteristics and semester grades: A multi-site study[J].Journal of Professional Nursing
[2] Hanna Soroka-Potrzebna, The importance of certification in project management in the labor Market,University of Szzcecin, Al. Papie?a Jana? II 22a, Szczecin 70-453, Poland.
[3] 吳漢卿.基于粗糙集的大學生學習與就業關系分析[J].計算機技術與發展,2017,27(5):188-191
[4] 王酈玉,張敏,劉雪珂.性別、家庭背景、學業成績對就業的影響[J].合作經濟與科技,2021,16(37):90-93
[5] 李夢竹.階層背景對大學生在校表現及畢業去向的影響研究[J].當代教育科學,2018(6):88-92
[6] 馮沁雪,曹宇蓮,岳昌君.專業興趣會影響就業質量嗎?—基于2009-2019年高校畢業生就業調查的實證研究[J].教育與經濟,2021,37(4):56-64
[7] 程詩婷,廖文武.多元化就業與博士生教育—基于C9高校數據的實證分析[J].研究生教育研究,2020,5(59):24-30
[8] 胡德鑫,金蕾蒞,林成濤,等.我國頂尖研究型大學工科博士職業選擇多元化及其應對策略——以清華大學為例[J].中國高教研究,2017(4):72-77
[9] Sara Morsy,George Karypis.Sparse Neural Attentive Knowledge-based Models for Grade Prediction[J]//International Conference on Eduacational Data Mining 2017,2017
[10] Byungsoo Kim, Hangyeol Yu,Dongmin Shin, Youngduck Choi.Knowledge Transfer by Discriminative Pre-training for Academic Performance Prediction[J]//International Conference on Eduacational Data Mining 2018,2018
*基金項目:全國教育科學“十三五”規劃教育部重點課題“教育大數據背景下高校學生學業表現建模研究”(課題號:DIA180378)
作者簡介:劉中國(1997-),安徽滁州人,碩士研究生,主要研究方向:教育數據挖掘。