999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的信息化人才工作變更行為研究

2021-11-22 03:24:56王有剛楊浩杰張子振
呼倫貝爾學院學報 2021年5期
關鍵詞:信息化模型

王有剛 楊浩杰 張子振

(安徽財經大學 安徽 蚌埠 233030)

在大數據時代背景下,從事數據科學工作的信息化人才,是數據時代急需的關鍵性人才,他們的工作至關重要。信息化人才在城市建設和企業(yè)發(fā)展中起重要作用。人力資源管理部門利用獲取的數據使用集成學習模型,對信息化人才的數據進行分析,預測他們的工作變更意愿,可以更有效的幫助企業(yè)組織實現對信息人才的管理和配置,進一步提高企業(yè)人力資源管理的效率。本文使用了kaggle競賽網站的從事數據科學的信息人才工作變更數據,構建了集成學習模型,并對模型的預測能力進行了評估。

根據已有的數據,運用機器學習的一系列算法和Stacking模型融合的思想將Adaboost、XGboost、LightGBM四種集成模型作為第一層基學習器,第一層四個基學習器依次訓練,產生的數據作為樣本使用第二層的簡單的邏輯回歸模型訓練再預測,從而得到完整的Stacking模型預測結果,相比于之前單個模型,進一步提高了模型的預測準確度。通過該模型可以輔助人力資源管理部門對信息人才的工作變更意向進行有效的預測。目前,對企業(yè)確定員工就業(yè)意向方面的問題有許多研究,主要根據員工工作質量、員工工作滿意度、工作壓力、工作績效管理等方面預測員工就業(yè)和離職傾向。Esch等探討了求職者對人工智能支持的求職系統的看法以及這些觀點是否會影響他們在這種情況下申請工作的可能性。[1]Li等通過對求職者在互聯網發(fā)布的求職簡歷,提出了一種結合五因素人格問卷、支持向量機(SVM)和多準則決策(MCDM)的方法來提高招募合適人選的質量。支持向量機用于預測求職者的適應度,MCDM用于評估求職者的工作績效。[2]Tzeng等利用臺灣的三家醫(yī)院的護士的數據,以工作動機、工作滿意度及壓力程度作為預測因子,使用支持向量機(SVM)預測護士離職意愿。[3]Sumathi等同樣根據在泰米爾納德邦初級衛(wèi)生保健中心工作的醫(yī)護人員中進行的調查,包括醫(yī)務人員和護士,探討了不同工作相關經驗對組織支持感的影響。[4]Ma等探討了在軟件開發(fā)的生命周期中,軟件開發(fā)人員的離職問題,并構建了一種方法來量化與開發(fā)商流動相關的不確定風險,包括辭職和更換。他們基于信息熵理論,建立了TRSD的風險度量模型,可以用來度量每個開發(fā)者的離職風險水平和正在進行的軟件項目的整體風險[5]。

通過對以上研究的分析,以上學者大多數使用特定的模型方法來評估員工或求職者的就業(yè)意向,評估方法相對單一,而且相比較下單個模型評估指標相對單一,穩(wěn)定性較差,可能存在對數據噪聲處理欠佳等情況,魯棒性較差。本文使用XGboost、Adaboost、LightGBM四個集成學習算法,并在此基礎上使用Stacking模型融合的思想進一步提高了模型的泛化能力和預測精度。使用GridSearchCV(網格搜索)對模型進行調參,以Accuracy、f1-score、AUC值作為評價指標,可以更加精確和全面的評估模型的預測能力,從而進一步優(yōu)化了員工求職意向模型的預測能力。

1 算法介紹

1.1 XGboost算法介紹

XGboost是基于梯度提升樹的思想由梯度提升樹(Gradient Boosting Decision Tree,GBDT)改進而來,在此基礎上引入了二階導數和正則化[6],相比之下有效提升了模型的預測精度并且可以防止過擬合。在決策樹的分裂過程上采用貪心算法,尋求局部最優(yōu)。

通過貪心算法尋求局部最優(yōu)解,每次迭代尋找出使損失函數降低最大的分類回歸樹(Classification And Regression Tree,CART)樹,用泰勒展開對目標函數進行近似。[6]XGboost使用正則項作為樹的復雜度衡量標準,樹的復雜度由每棵樹的深度,內部節(jié)點的個數和葉子節(jié)點的個數衡量。

1.2 Light GBM算法介紹

輕量級梯度提升機(Light Gradient Boosting Machine,LightGBM)采用了基于Histogram optimization(直方圖優(yōu)化)的決策樹算法[6],占用的內存更低,數據分隔的復雜度更低。直方圖算法將每個特征值離散成k個離散值,放入直方圖bin中,構造寬度為k的直方圖。利用直方圖對訓練數據進行遍歷,統計每個離散值,可以很大程度的減少數據運算量。在進行特征選擇時,根據直方圖的離散值,可以更快的遍歷尋找出最優(yōu)分割點。[6]一個葉子的直方圖由它的父親節(jié)點的直方圖與它兄弟節(jié)點的直方圖做差得到,利用這個方法,LightGBM可以在構造一個葉子的直方圖后(父節(jié)點在上一輪就已經計算出來了),用非常微小的存儲代價和計算代價得到它兄弟葉子的直方圖,在速度上可以得到進一步的提升。

在直方圖算法基礎上,LightGBM進行進一步的優(yōu)化。多數GBDT工具,如極端梯度提升(EXtreme Gradient Boosting,XGboost)使用的是按層生長 (level-wise)的決策樹生長策略,而LightGBM使用了帶有深度限制的按葉子生長 (leaf-wise)算法。leaf-wise每次從當前所有葉子中,找到分裂增益最大的一個葉子,然后分裂,如此循環(huán)。深度限制是為了防止長出過深的決策樹,在保證精度的基礎上防止過擬合。

1.3 Adaboost算法介紹

自適應增強(Adaptive Boosting,Adaboost)算法,可以看作是一個加法模型,主要將關注點放在被錯誤分類的樣本上,減小上一輪被正確分類樣本的權值,提高被錯誤分類樣本的樣本權值。采用了CART分類樹作為弱分類器。Adaboost算法的自適應性表現在于,每輪訓練上一個弱分類器的分錯誤的樣本權值會被加強,加強權值后該樣本會再次被用來訓練下一個弱分類器,每輪訓練都用之前分錯的樣本訓練新的分類器,產生新的樣本權值,直到達到預定的錯誤率或者指定的迭代次數。是一個弱分類器不斷提升的過程,不斷的訓練,逐步提高分類器對數據的分類能力。

1.4 Stacking模型融合

Stacking是一種模型融合的思想,對模型進行集成堆疊的一種策略,可以進一步提升模型的預測精度。[7]Stacking分為兩層模型結構,第一層使用XGboost作為第一個基模型,進行五折交叉驗證,每次將其中四折作為小訓練集訓練XGboost模型,剩下一折作為測試集并記錄下該折測試集的預測結果,之后這四折訓練出來的XGboost模型要對整個測試集進行預測。這個流程進行五次,五次生成的預測結果求平均,作為測試集,五次訓練集的預測結果加和作為后面的訓練集。后面的兩個模型分別利用上一層模型生成的訓練集和測試集重復進行五折交叉驗證,保持五折的數據的一致,這個流程再重復三次,最后生成的三個預測結果代入第二層進行訓練。[8]

第二層為了防止過擬合,第二層采用相對容易邏輯回歸模型,這也是Stackingclassifier默認的第二層模型。將上一層的四個結果作為驗證集,帶入第二層邏輯回歸模型進行再訓練,得出Stacking模型融合的輸出結果。

圖1 Stacking模型融合

2 實證分析

2.1 探索性數據分析(EDA)

EDA探索性數據分析是一種對未知數據集了解分析的有效手段。通過對原始數據集作圖、制表、計算特征量等手段探索分析數據內部的結構和規(guī)律,了解數據集的總體情況。本文的數據來源與Kaggle上的信息人才工作變更意愿的公共數據集,19158個原始數據作為訓練集,2130個數據作為測試集。通過特征分析,去除噪聲特征,使用XGboost輸出特征重要性,篩選保留11個最顯著的特征,本文選取的特征有:

city-development-index:工作所在城市發(fā)展指數,gender:性別;relevent-experience:有無工作經驗;enrolled-university:大學就讀情況;education-level:教育水平;major-discipline:主修專業(yè);experience:之前工作經驗年數;company-size:就職公司規(guī)模;company-type:就職公司類型;last-new-job:距離上一份工作多長時間;training-hours:工作的培訓時間。

2.1.1 數據集統計性描述

使用pandas模塊的describe()函數生成的原始數據統計性描述,包括數據集樣本的總數,各個特征數據預處理后的最大值、最小值、std(標準差)等。

表1 數據集統計性描述

2.1.2 繪制箱線圖

箱線圖主要反應原始數據的分布特征和離散情況,上下兩條線分別表示最大值和最小值,中間兩條線組成一個矩形代表數據四分位極差,分別由數據的上四分位數和下四分位數構成,中間的線段表示數據分布的中位數,邊界外的突出的點表示異常值。從圖中可以看出城市發(fā)展指數高的城市,從事數據科學工作者相對不愿意變更自己的工作。可能因為城市相對發(fā)達,從事數據挖掘工作收入更高,同時工作生活環(huán)境以及企業(yè)文化更好。

圖2 城市發(fā)展指數與target的箱線圖

2.1.3 繪制熱圖

通過熱圖,我們可以看出數據之間的相關性,相關性強,對應色塊顏色也就相對越深。可以非常直觀的看出,城市發(fā)展指數是影響員工考慮是否變更工作的最重要的因素。從事數據科學的相關經驗和他們任職的公司也具有很高的相關性,根據常識在這一行業(yè)經驗更加豐富的員工,往往會進入更大待遇更好的公司工作。同時相關的工作經驗、公司規(guī)模、大學就讀專業(yè)也對員工是否變更工作有比較強的影響。

圖3 數據集分布熱圖

2.1.4 繪制直方圖

通過直方圖可以看出,從事數據工作的人才大部分都就職于私人企業(yè),只有少數就職于政府部門或者公共服務部門,這份工作男性占大多數,存在一定的男女不均衡現象。數據科學這類工作應該是順應時代發(fā)展的熱門高薪工作,但是人才卻大量聚集在私企,某種程度上說明政府信息化建設的不足。

圖4 直方圖

2.2 數據預處理

由于原始數據存在大量缺失值,我們使用眾數或者平均數對缺失值進行填充,之后把數據集中object類型的數據替換成int或者float類型的數據,方便之后模型對數據集做出預測。

2.2.1 SMOTE采樣

從箱線圖的分析結果得出,target具有長尾分布,這意味著數據集非常不平衡。約80%的從事數據挖掘的人才沒有變更工作的考慮,而20%的有變更工作的考慮。采用SMOTE(Synthetic Minority Oversampling Technique)合成少數類過采樣技術。對少數量的樣本進行分析模擬,將模擬后產生的數值填充到原始數據集中,從而解決數據集的不平衡問題,進一步提升模型的預測效果。

2.2.2 one-hot編碼

one-hot編碼又稱一位有效編碼,將連續(xù)的不易于機器學習模型使用的原始分類數據,轉化成二進制的易于模型使用的二進制向量表示。本文調用pandas.get-dummies方法對“relevent-experience”“training-hours”“city-development-index”等不易被分類模型處理的連續(xù)型特征離散化處理,方便后續(xù)使用。

2.3 參數調整

本文使用sklearn上的GridSearchCV(網格搜索)進行調參。該方法是由網格搜索和參數驗證兩部分組成,網格搜索是在指定的參數范圍內進行參數調整,使用調整后的參數訓練模型,遍歷范圍內所有的參數,嘗試所有的可能性,直到尋找到驗證集得分精度最高的參數。這個方法非常耗時,適合較小的數據集和少參數的情況。不同的模型,參數也不同,本文展示調參效果最好的XGboost算法,調參結果如表2:

表2 XGboost調參說明及調參結果

表3 調參結果對比

2.4 模型預測結果評估

表4 模型預測報告

表4來源于混淆矩陣,TruePositive(TP)表示將正類預測為正類;TrueNegative(TN)表示將負類預測為負類;FalsePositive(FP)表示將負類錯誤預測為正類;FalseNegative(FN)表示將正類錯誤預測為負類。Accuracy用于評價模型預測的準確度。計算公式為:

(1)

而評估一個模型好壞,不僅基于準確度得分,而且還得參考查準率(precision)、召回率(recall),計算公式為:

(2)

(3)

precision-0、recall-0分別表示模型預測的無意愿變更工作人才的查準率和召回率,precision-1、recall-1則表示模型預測的希望變更工作人才的查準率和召回率。

f1-score指標綜合考慮了precision和recall,可以更全面的反應模型的預測能力,計算公式如下:

(4)

ROC(Receiver Operating Characteristic)曲線和AUC值用于評價一個二分類器的優(yōu)劣,ROC曲線用于模型正確的識別正例的比例與錯誤的把負例判斷為正例的比例之間的權衡。AUC值是ROC曲線下面圍成的面積,衡量模型的準確率。對于以上四個模型的預測效果,根據AUC值判斷,Stacking>XGboost>LightGBM>Adaboost。四個模型的ROC曲線以及AUC值分別如下:

圖5 ROC曲線

2.5 模型結果

本文用了f1-score、Accuracy和AUC值三個方面綜合評估五個模型對于從事數據科學工作者變更行為的預測能力,Stacking模型融合整體表現更優(yōu)秀,在2130個測試數據中,預測結果顯示1712人無變更工作的意愿、418人有變更工作的意愿。模型預測準確率達到了0.8386,f1-score達到了0.8408,AUC值達到了0.9105。各個方面都說明了模型融合相比于單個集成模型預測能力和泛化能力得到了進一步的提升。

3 總結與建議

本文通過建立集成學習模型,對現信息化人才的數據進行分析預測,運用數理統計工具,分析了影響信息化人才工作變更的關鍵因素。模型具有較高的預測精度和泛化能力,可以有效幫助人力資源部門了解信息化人才工作真實意愿。本研究工作可以幫助城市和企業(yè)的人力資源管理部門更有效地進行人才管理配置,提供理論參考依據。

3.1 城市主動吸引信息化人才

通過對數理統計圖表的分析,得知城市發(fā)展指數對從事數據挖掘工作的信息人才影響最大。從箱線圖我們可以得出結論,城市發(fā)展指數高于0.85時,員工不變更工作的可能性更大。城市發(fā)展和人才去留是相輔相成的。高新技術人才可以更好地幫助城市發(fā)展,而城市發(fā)展地更好,人才也更愿意留在城市之中。對于城市管理者來說,想要不在信息時代落伍,需要出臺一些福利政策,主動吸引信息化人才的加入。基礎設施建好的同時,城市的生態(tài)文明建設也要跟上腳步才能留住人才。

3.2 重視有經驗的信息化人才

注重信息化人才培養(yǎng)的同時,也要注重對有豐富工作經驗的信息化人才尊重與保護。現代企業(yè)要做好知識管理,有豐富工作經驗的信息化人才就是企業(yè)寶貴的知識財富。在工作中對這類人才要給予足夠的重視,他們豐富的工作經驗可以幫助城市和企業(yè)在信息化建設過程中少走許多彎路,同時還有助于新的信息人才培養(yǎng)。這些人往往能夠成為未來信息化建設中流砥柱。

3.3 注重培養(yǎng)女性信息化人才

直方圖可以明顯反映出,從事數據科學工作的女性人數遠遠少于男性,部分原因可能是個人興趣。城市和企業(yè)出臺一些針對女性信息化人才的優(yōu)惠政策,如相對小的工作壓力、安排合理的孕假、給予一些工作補貼等。更多女性信息人才的加入到城市和企業(yè)信息化建設工作中可能會帶來更好的成果和更高的效率。所以對于城市和企業(yè)要更加注重培養(yǎng)一些女性信息化人才。

3.4 政府部門和公益部門也要吸引信息化人才的加入

從直方圖可以看出,大多數信息人才都就職于私企。如,騰訊、阿里這樣的企業(yè)信息化建設就非常靠前。對于國家和社會來說,信息化建設應該是全方位的,政府部門和一些公益組織也應該積極的吸引信息化人才的加入,更好地利用信息技術手段服務于國家發(fā)展建設和人民生活水平的提高。

猜你喜歡
信息化模型
一半模型
月“睹”教育信息化
月“睹”教育信息化
重要模型『一線三等角』
幼兒教育信息化策略初探
甘肅教育(2020年18期)2020-10-28 09:06:02
重尾非線性自回歸模型自加權M-估計的漸近分布
“云會計”在中小企業(yè)會計信息化中的應用分析
活力(2019年21期)2019-04-01 12:16:40
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
信息化是醫(yī)改的重要支撐
主站蜘蛛池模板: 亚洲成aⅴ人片在线影院八| 东京热一区二区三区无码视频| 日本少妇又色又爽又高潮| a毛片基地免费大全| 国产亚洲欧美另类一区二区| 国产福利不卡视频| 58av国产精品| 亚洲AV色香蕉一区二区| 国产乱人激情H在线观看| 麻豆国产在线不卡一区二区| 99久久精品免费看国产电影| 毛片视频网| 成年av福利永久免费观看| 精品国产电影久久九九| 精品无码一区二区三区电影| 日韩人妻少妇一区二区| 国产成+人+综合+亚洲欧美| 欧美劲爆第一页| 国产精品第| 亚洲无码精品在线播放| 日韩色图在线观看| 亚洲欧美成人在线视频| 91香蕉国产亚洲一二三区 | AV老司机AV天堂| 福利在线不卡一区| 日韩专区第一页| 99视频精品全国免费品| 国产人成午夜免费看| 国产青青草视频| 国产在线观看91精品| 亚洲第一成网站| 91欧美亚洲国产五月天| 国产美女丝袜高潮| 亚洲综合香蕉| 国产在线小视频| 亚洲综合久久一本伊一区| 91亚洲精选| 国产91小视频在线观看| 国产午夜精品一区二区三| 国产真实自在自线免费精品| 欧美成人一区午夜福利在线| 国产欧美视频一区二区三区| 伊人网址在线| 亚洲无码高清视频在线观看| 成人福利视频网| 67194亚洲无码| 亚洲无码日韩一区| 亚洲精品无码久久毛片波多野吉| 欧美全免费aaaaaa特黄在线| 欧美亚洲欧美| 亚洲精品爱草草视频在线| 另类欧美日韩| 日本少妇又色又爽又高潮| 无遮挡一级毛片呦女视频| 欧美成人免费午夜全| 国产麻豆福利av在线播放| 97精品久久久大香线焦| 免费看av在线网站网址| 国产成人综合久久精品下载| 欧美视频在线不卡| 亚洲av无码专区久久蜜芽| 精品無碼一區在線觀看 | 99re在线视频观看| 伊人久久大香线蕉综合影视| 国产女人在线| 全午夜免费一级毛片| av大片在线无码免费| 91小视频在线观看| 这里只有精品国产| 国产AV无码专区亚洲精品网站| 女人18毛片久久| 国产乱子精品一区二区在线观看| 亚洲三级影院| 97久久精品人人做人人爽| 国产www网站| 欧美全免费aaaaaa特黄在线| 亚洲天堂色色人体| 亚洲综合专区| 日韩无码黄色网站| 亚洲天堂区| 日韩不卡免费视频| 看你懂的巨臀中文字幕一区二区 |