999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邏輯回歸分類算法的大學生就業去向模型研究

2023-03-22 07:41:12譚英王闖
創新創業理論研究與實踐 2023年3期
關鍵詞:分類大學生模型

譚英,王闖

(江漢大學生命科學學院,湖北武漢 430056)

隨著每年應屆大學畢業生數量的增長,又適逢我國經濟發展的轉型時期,對大學生就業指導工作的要求也逐年增高[1]。2022 屆高校畢業生規模達1 076 萬人,同比增加167 萬,規模和增量均創歷史新高[2],迫切需要對大學生的就業選擇進行科學有效的引導。

高校畢業生存在職業生涯決策困難、就業意向的實現率較低等問題[3],傳統的大學生幫扶主要采取談心談話的方式,具有一定程度的主觀性。2021 屆全國普通高校畢業生就業創業工作網絡視頻會議提出,要更好地發揮就業反饋作用,力促質量提升[4]。對已經畢業的大學畢業生信息進行深入分析,挖掘掩藏在數據背后的特征和規律,將有助于準確發現影響大學生就業去向的主要因素。對畢業大學生進行信息分析首先依賴于大學生基礎數據的把握,然而大學生的各類信息是復雜、多維度的,需要整合多方面的資源并采用可靠的技術方法。

近年來,人工智能技術取得了突飛猛進的發展,其中機器學習理論和方法已被廣泛應用于解決工程應用和科學領域的復雜問題。機器學習包括無監督學習、監督學習和強化學習等類型。由于畢業生的就業去向大多數是確定的,可以采用監督學習的方法構建學生就業去向的模型,為來年畢業生就業去向的選擇提供參考。綜上,應用機器學習理論可以作為大學生就業指導工作的新方法,它可以預測學生選擇某種就業去向的成功率,幫助學生縮短就業迷茫期,減少慢就業學生比例。

1 研究綜述

監督學習是機器學習中最常用也是最成功的機器學習類型之一,解決的問題主要有兩種,分別叫作分類與回歸,對大學生就業選擇的模型構建屬于分類問題。監督學習算法包括K 鄰近、線性模型、樸素貝葉斯分類器、決策樹、決策樹集成等。K 臨近是一種簡單的機器學習算法,但是預測速度慢且不能處理具有很多特征的數據集,因此在實踐中往往不會用到。決策樹易出現過擬合、泛化性能很差的情況,在實際的使用過程中,大多數會采取決策樹集成的方法。

線性模型是在實踐中廣泛使用的一類模型,幾十年來被廣泛研究,它既可以應用于回歸問題,也可以用于分類問題,最常見的兩種線性分類算法是Logistic回歸(logistic regression)和線性支持向量機(linear support vector machine,線性SVM),線性模型的訓練速度非??欤A測速度也很快。這種模型可以推廣到非常大的數據集,對稀疏數據也很有效。

樸素貝葉斯分類器是與線性模型非常相似的一種分類器,它通過單獨查看每個特征來學習參數,并從每個特征中收集簡單的類別統計數據,它的訓練速度往往更快,但泛化能力要比線性分類器稍差。

隨機森林是解決決策樹過擬合問題的一種方法,它本質上是許多決策樹的集合,其中每棵樹都和其他樹略有不同,可以對每棵樹的結果取平均值來降低過擬合,但對于維度非常高的稀疏數據,隨機森林的表現往往不是很好[5]。

1.1 國外研究現狀

國外對于大學生就業選擇方面的研究文獻較少,在方法上以回歸分析為主。STONER,J.C.通過對四年制中西部研究機構的住院助理進行調查,利用定性數據分析方法評估了研究變量(情緒衰竭、自我感喪失、個人成就感)在不同性別、工作年限、是否繼續雇傭中群體之間的差異,并探討了它們之間的關系[6]。Peter A Bamberger 等人研究了學生飲酒行為對就業的影響,采用邏輯回歸分析方法,假設正常數量和頻率的飲酒,以及酗酒(HED)對畢業后的就業概率產生不利影響,收集了來自美國4 所不同地理位置大學的827 名畢業生的數據,發現正常飲酒對畢業后就業的可能性沒有負面影響,但酗酒對求職有顯著的負面影響[7]。Dernat等人報告了一項關于農村獸醫學生在教育過程中職業選擇的研究結果。根據社會表象理論,研究了學生在課程中構建的代表性項目是如何受到其生涯的社會空間因素(包括童年和工作地點)的影響[8]。Arranz N 等人以安達盧西亞大學1 053 名本科生為樣本,研究大學生的創業意向以及大學生在創業過程中所感受到的障礙。該研究采用回歸分析的方法,發現經濟障礙、缺乏經驗和培訓是學生創業的主要障礙[9]。

Mohammed 研究影響學生就業選擇的不同就業因素的相對重要性,探討了影響就業選擇的因素。這項研究是在大學的會計專業本科生中進行的,采用主成分分析法,發現起薪、獨立工作能力和未來前景是影響大學生就業選擇的最主要變量[10],該方法是機器學習中無監督學習的經典方法。

1.2 國內研究現狀

國內對大學生就業去向的研究主要包括兩個方面的內容,一是大學生就業意愿的研究,一是實際的大學生就業去向數據。在方法的使用上,對于就業意愿的研究多以傳統的回歸分析方法為主,周駿宇用二分變量邏輯回歸的方式對影響大學生是否愿意“先就業后擇業”的因素進行了分析[11],朱生玉、周曉蕾基于我國中西部地區10 個省份的數據,并運用回歸分析方法,對影響我國大學生就業期望的因素進行分析[12],在指標的選擇上二者都包括了個體、家庭背景和學科背景。

機器學習理論被更多地運用于實際的大學生就業去向的模型構建中,劉哲、趙志剛利用決策樹,對遼寧省內部分高校的畢業生信息進行了分析,通過分類規則尋找影響畢業生就業單位性質的主要因素,在指標的選擇上考慮了學生成績和學生基礎信息,但未考慮學生個人興趣等指標[13]。李冬梅、路春艷、張雅惠以哈爾濱商業大學經濟學院2017 級畢業生信息為基礎,根據其數據特征模擬數據庫,分析非學生的實際就業信息,準確率達到62.3%[14]。夏朋斌基于校園大數據(如:一卡通信息、成績信息、就業信息等),對學生在校行為進行分析和計算,最后利用隨機森林算法建立大學生就業預測模型,構建的預測模型準確率達70.8%[15]。李路瑤以層次聚類策略為技術支撐,架構出一種就業去向短期預測系統,該方法是無監督學習的經典方法[16]。孫怡帆等使用機器學習領域的Lasso-logistic 算法,構建了精準度高達70%以上的畢業生去向的預測模型[17]。

2 數據的來源與處理

2.1 數據的來源

本研究選擇了來自武漢某省屬高校某學院2014-2017 級(即2018-2021 屆畢業生)的相關數據,數據來源于學院學生工作辦公室、學校教務系統、學校就業管理系統和問卷調查。由圖1可以看出2018年-2021年,學院大學畢業生人數呈逐年上漲趨勢,大學生的主要就業去向仍然是升學或者就業。不同年份中的大學生去向有細微的變化,反映在2018年、2019年有少部分學生畢業選擇創業而近兩年選擇創業學生減少,與之相反,近兩年選擇自由職業的學生增多,由于非升學和協議就業的學生人數較少,很難進行統計分析,所以不在本研究范圍內,僅選取協議就業和升學作為研究對象。由于很難對已經畢業的學生做問卷調查,本研究選取2021 屆畢業學生進行研究分析。

圖1 從2018-2021 屆畢業生就業去向柱形圖,不同顏色代表不同就業去向人數

2.2 分類指標的選取和數據處理

大學生的就業去向受性別、家庭經濟背景、學科背景、城鄉背景等多種因素影響[12],也有學者從個體屬性特征、家庭環境、學習背景和學生人力資本因素四方面來考查大學生就業期望的內在影響關系[18],本研究在已有的研究成果上,從個體屬性、家庭環境、學習背景、在校表現這四個方面選取了10 個指標,構建了學生就業去向模型構建的指標體系(見表1),其中6 個指標為定性指標,4 個指標為定量指標。

表1 學生就業去向模型構建指標

根據學生工作辦公室已有的數據和問卷調查數據,確定定性指標的分類,其中性格的測定采用霍蘭德職業性格測試的方法,選用北森生涯職業測評問卷,根據性格測試分數,將學生的主要性格分為研究型(I)、藝術型(A)、社會型(S)、企業型(E)、傳統型(C)、現實型(R)六個維度(表2)。

表2 定性指標分類

學生的助學金等級、平均學分績點、獲得社會獎勵和綜合獎勵為定量指標,其中畢業后的平均學分績點經過教務系統查詢獲得,其余的指標計算方式按照學生大學四年獲得相應獎勵或者助學金等級進行計算。在對各項綜合獎勵和社會實踐獎勵的賦值中,對學生在校期間的獲獎難度進行賦值,后進行累加。對助學金等級的賦值中,對不同等級的助學金進行不同分數賦值,然后將各年度的助學金分數取平均數。通過以上方式,在一定程度上能夠更加科學地衡量學生的定量指標(見表3)。

表3 定量指標計算方法

在指標的選擇過程中,有一個需要注意的問題是各指標不應有顯著相關性,為了避免上述問題,將學生獲得綜合獎勵和平均學分績點進行了相關性分析,通過Pearson 相關性分析得知,學生獲得綜合獎勵和平均學分績點的相關系數為0.40,屬于弱相關,這是由于本校在獎學金評定時按照綜合測評成績進行評定,學習成績占綜合測評成績的70%,且體測成績不達標的學生無法獲得高等級的獎學金或者無法獲得獎學金,故學生的平均學分績和獲得綜合獎勵可以同時作為分類指標。

2.3 各項指標的單因素分析結果

為了初步了解各單個因素對學生就業選擇的影響,分別對各分類指標和定量指標進行了卡方檢驗和T 檢驗。對各項分類指標進行的卡方檢驗顯示,不同性格類別和學生是否入黨對學生最終是否考研有較大的相關性(見表4),入黨的學生和研究型性格的學生更傾向于考研。

表4 不同定性指標對于大學生就業選擇影響的卡方檢驗結果

通過對各個定量指標的T 檢驗可以看到,學生獲得綜合獎勵和平均學分績點對于學生進一步深造有著非常重要的影響,而學生是否在社會實踐活動中獲得獎勵則對就業去向沒有影響(見表5)。

表5 不同定量指標對于大學生就業去向影響的學生T 檢驗結果

為了更加直觀地觀察各定量指標對學生就業選擇的影響,本研究繪制了箱線圖,平均學分績點高、獲得綜合獎勵多的學生更多地考取了研究生(見圖2),值得注意的是家庭困難情況在統計上雖然對學生沒有顯著的影響,但是在實際的工作中仍然能夠看到家庭困難情況對學生有一定程度的影響。

圖2 不同定量指標下的就業去向箱線圖:a)基于平均學分績點,b)基于綜合獎勵,c) 基于助學金等級,d) 基于社會實踐獎勵

通過對四個定量指標做熱力圖并聚類,可以看到不同就業去向的學生的家庭困難情況、獲得綜合獎勵、獲得社會實踐獎勵和平均學分績點情況(見圖3)。通過圖3可以看到,2021年選擇協議就業的學生中獲得綜合獎勵的學生有一半獲得過助學金,而往年家庭困難的學生的升學率比非困難的學生升學率更高,這在一定程度上說明了家庭困難情況對學生就業選擇的影響是隨時間變化的。因此,本研究認為,對學生就業去向的建模應該基于同一年度的數據,而不應該橫跨多個年份。

圖3 不同年度基于不同就業去向的定量指標熱力圖:a)2021,b)2020年,c) 2019年

3 模型的構建

3.1 邏輯回歸(Logistic Regression)和線性支持向量機(SVM)模型

本研究調用Python 語言的scikit-learn 項目完成,Logistic 回歸在linear_model.LogisticRegression 中實現,線性支持向量機在 svm.LinearSVC(SVC 代表支持向量分類器)中實現。

3.2 隨機森林(Random Forest)和樸素貝葉斯 (Naive Bayes) 模型

隨機森林是機器學習算法的經典代表,采用RandomForestClassifier,首先對數據進行自助采集,然后選擇特征個數,確保隨機森林的每棵樹不同。

scikit-learn 中實現了三種樸素貝葉斯分類器:GaussianNB、BernoulliNB 和MultinomialNB,本研究采用GaussianNB 進行。

4 模型的評價、對比和檢驗

4.1 模型的評價

本研究采取了邏輯回歸(Logistic Regression)分類算法對大學生的就業去向進行了識別,將樣本分為10組,其中9 組作為訓練集,構建大學生就業去向識別模型,剩余一組作為測試集,運用混淆矩陣方法測試所構建模型的精準度和誤差率,通過計算得知,在對125 個畢業生的就業去向識別過程中,有4 個學生預測為升學但實際選擇了就業,還有15 名學生預測為就業但實際上選擇了升學(見表6)。

表6 邏輯回歸(Logistic Regression)混淆矩陣

4.2 模型的對比

為了對邏輯回歸(Logistic Regression)構建的模型進行橫向對比,本研究還采取了線性支持向量機(SVM)、隨機森林(Random Forest)和樸素貝葉斯 (Naive Bayes)這三種分類算法,對大學生的就業去向進行了識別,并應用以下指標對各個模型進行評價。

AUC:Area Under the Curve,ROC 曲線(受試者工作特征曲線)與橫坐標之間的面積。

準確率(accuracy):正確預測的正反例數/總數(分母為定數)。

精確率(precision):也稱查準率,正確預測的正例數/預測正例總數。

召回率(recall):也稱查全率,正確預測的正例數 /實際正例總數(分母為定數)。

F_1 值(F_1 score):是精確率與召回率的調和平均值。

通過分析,邏輯回歸(Logistic Regression)分類算法較其他三種算法有較好的表現,精準率和召回率均在85%以上,表明基于邏輯回歸分類算法的模型具有更好的分類效果(見表7)。

表7 各個模型識別效果評價

4.3 邏輯回歸(Logistic Regression)模型的合理性檢驗

從均勻分布的角度來看,AUC 的一致性作為聚合分類效果的衡量辦法是被證實的,因此就四種模型AUC 的一致性進行了計算(見表8),表8顯示了行中模型的得分高于列中模型得分的概率,較小的數字表示差異可以忽略不計的可能性。通過計算可以看到,采用邏輯回歸(Logistic Regression)和線性支持向量機(SVM)的方法預測的結果具有較高的相似性,達到了82.8%,也進一步證實可以優先選擇邏輯回歸分類算法(Logistic Regression)構建大學生就業選擇的模型。

表8 各個模型的AUC 一致性比較

5 討論

5.1 整合多方面資源,構建就業去向評估體系

對大學畢業生就業去向的模型構建依賴對學生大學四年詳細的數據,目前很多高校雖然已經建立了學生信息化管理平臺,但在具體的使用過程中,各管理部門與學院之間未能實現數據共享,導致院系工作層面缺乏統一的工作平臺[19]。與此同時,高校也缺乏對大學生數據的深入分析,很多隱藏的高價值信息未能得到發掘與利用,少數研究者采用較為簡單的規則運算或者較少的指標進行了分析[15,20],總體而言,目前高校對于大學生數據的利用率不理想。

本研究整合了學校、學院各個平臺的學生數據,并結合問卷調查對學生職業性格進行了調查,但是由于條件的限制,對學生各方面的數據還掌握得不夠全面,如在學生個人屬性中沒有考慮價值觀和興趣,在家庭背景中沒有考慮城鄉差異,在學生在校表現中主要依賴獲獎情況,缺乏對學生在校行為的分析和計算,也沒有對學生受處分情況予以考慮。

5.2 線性模型對大學生就業去向有更好的預測能力

本研究通過和另外幾個機器學習算法的比較,發現邏輯回歸分類算法(Logistic Regression)和線性支持向量機(SVM)相較其他的分類算法準確度更高,可靠性也較強,且二者預測的一致性也較高。究其原因,可能是因為這兩個算法均屬于線性模型,線性模型更加適合于變量和結果之間可能存在線性關系的情況。通過查閱文獻發現,在對腫瘤的判斷、就業去向預測等領域中,線性模型相比隨機森林更具優勢[17,21]。

比較邏輯回歸分類算法(Logistic Regression)和線性支持向量機(SVM),從目標函數來看,區別在于邏輯回歸采用的是logistical loss,SVM 采用的是hinge loss。這兩個損失函數的目的都是增加對分類影響較大的數據點的權重,減少與分類關系較小的數據點的權重。在本研究中,由于特征變量相對于樣本量來說比較大,采用邏輯回歸,相較于線性支持向量更具有優勢[22]。

5.3 模型僅適用于本學院的就業去向預測

由于影響大學生就業去向的因素非常復雜,模型是否合理,將直接影響給予的擇業建議的準確性。本研究的數據是根據本學院大學生的數據分解生成的,適用于本學院近1-2年學生就業去向的預測。由于不同學校層次、專業、地理位置的差異,本模型不適用于其他學校或者學院學生就業去向的預測,但其他高校在模型構建的方法上可以采用邏輯回歸分類等線性模型。

在實際的就業指導工作中,教師應在深入了解大學生實際情況的基礎上進行就業指導。另外,畢業生的就業選擇是一個不斷變化的過程,需要不斷的試錯,調整自己的職業期望,找到屬于自己的發展路徑。隨著經濟和社會的發展,大學生就業選擇將發生變化,指標也會發生相應改變,分類方法和手段也會日益豐富,尤其是高校信息技術的運用,可獲得的學生指標將會更加精細,分類結果將會更加精準。

6 結語

本研究構建了大學生就業去向模型,并將其應用于所在學院的就業指導工作中,具體結論如下。

6.1 整合多個部門的數據是就業去向模型構建的基礎

模型構建的基礎是數據,在數據的采集工作中,需要整合方方面面的學生數據,盡可能地用數據對每一個大學畢業生進行翔實的“畫像”。本研究中大學生就業去向信息數據庫依據本校招就處、教務系統、學生工作辦公室以及問卷調查的數據建立。

6.2 確定就業去向評估體系是建立就業去向模型的重要工作

大學生就業去向的評估需要選取合適的參數,本研究從個體屬性、家庭環境、學習背景、在校表現四個方面建立了基于大學生就業去向的指標體系,實際的工作中還可以考慮學生興趣、價值觀、學生行為分析等多方面因素。

6.3 邏輯回歸算法具有較好的大學生就業去向預測能力

本研究采用邏輯回歸(LR)分類算法構建了大學生就業去向模型,同時用線性支持向量機(SVM)、隨機森林(Random Forest)和樸素貝葉斯 (Naive Bayes)做對比,驗證幾種模型的優劣。相比于線性支持向量機、隨機森林和樸素貝葉斯,邏輯回歸分類方法具有更高的訓練精度,評價結果最為理想,能有效地應用于學生就業去向模型的建構中,為大學生就業去向的指導提供技術參考。

猜你喜歡
分類大學生模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
帶父求學的大學生
數據分析中的分類討論
教你一招:數的分類
大學生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲精品午夜天堂网页| 久热精品免费| 免费可以看的无遮挡av无码| 国产精品私拍99pans大尺度 | 91综合色区亚洲熟妇p| 婷婷激情五月网| 亚欧乱色视频网站大全| 久久美女精品| 免费无码AV片在线观看中文| 国产一级裸网站| 高清码无在线看| 日本高清免费不卡视频| 中文字幕不卡免费高清视频| 久久国语对白| 久久免费观看视频| 91视频首页| 特级毛片免费视频| 色悠久久久| 精品国产香蕉伊思人在线| 亚洲av无码成人专区| 美女内射视频WWW网站午夜 | 亚洲男人的天堂在线观看| 国产午夜福利亚洲第一| 国产亚洲精品无码专| 日韩精品欧美国产在线| 午夜色综合| 亚洲一级毛片在线观播放| 日韩欧美高清视频| 五月婷婷欧美| 国产精品欧美激情| 亚洲bt欧美bt精品| 国产丝袜第一页| 思思99思思久久最新精品| 伊在人亚洲香蕉精品播放| 欧美全免费aaaaaa特黄在线| v天堂中文在线| 五月婷婷激情四射| 极品国产在线| 3344在线观看无码| 成年人福利视频| 久久久久久久久18禁秘| 2020精品极品国产色在线观看| 国产精品毛片一区| 国产主播福利在线观看| 九九线精品视频在线观看| 影音先锋丝袜制服| 中文字幕永久在线观看| 亚洲AV一二三区无码AV蜜桃| 色婷婷国产精品视频| 亚洲天堂视频在线免费观看| 免费日韩在线视频| 欧美福利在线| 色婷婷色丁香| 黄色不卡视频| 91小视频版在线观看www| 欧美日韩精品一区二区在线线| 亚洲 成人国产| 国产主播喷水| 福利国产在线| 国产91小视频| 亚洲AV无码乱码在线观看裸奔| 亚洲美女操| 欧美天堂在线| 国产成人精品一区二区免费看京| 精品三级在线| 欧美在线导航| 亚洲第一区欧美国产综合| 婷婷色中文网| 欧美一区二区自偷自拍视频| 在线观看精品自拍视频| 丁香五月婷婷激情基地| 亚洲有无码中文网| 国产亚洲欧美在线中文bt天堂| 国产精品制服| 国产日本一线在线观看免费| 亚洲天堂视频网| 久久99久久无码毛片一区二区| 国产日本视频91| 欧美成人国产| 国内精品视频| 久久激情影院| 五月婷婷导航|