999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的大學生簡歷數據分析

2022-01-14 07:20:16湯英洹王佳玟
科技創新與應用 2022年2期
關鍵詞:大學生信息模型

李 俊,鄭 陽,湯英洹,王佳玟

(湖南工程學院 電氣與信息工程學院,湖南 湘潭411104)

就業是最大的民生,而高校畢業生是國家的重點人才資源,因此促進畢業生高質量就業成為高校的重要任務[1]。據統計,2021 屆畢業生人數達到909 萬[2],比2020屆畢業生人數多出35 萬,大學生就業形勢日益嚴峻。對此,有針對性地提高大學生就業率是有必要的。作者通過日常工作和研究各類文獻發現大學生從制作簡歷到就業,時間間隔短,一些學生沒來得及等到教師指導就已經找到工作,簽訂三方協議。這樣會導致部分學生走彎路,簽了并不適合自己的工作崗位,不利于學生的高質量就業。本文提出一種新的方式,輔助教師對畢業生進行就業指導,提高工作效率。總體流程為,首先收集大學畢業生就業指導課提交的電子簡歷,再建立數據提取模型將簡歷數據以結構化的形式保存在數據庫中,最后建立工作推薦模型,為每個畢業生推薦適合自己的工作,促進大學生高質量就業。

1 基于機器學習的簡歷數據分析總體框架

基于機器學習的簡歷數據分析總體包括三大部分,首先是電子簡歷信息的抽取,其次是簡歷信息的數據挖掘,最后是工作推薦模型的評估。如圖1 所示收集電子簡歷后,利用Python 編寫程序建立簡歷信息抽取模型,將單個簡歷中的個人基本信息(姓名、性別、電話、出生日期、畢業時間等)、求職意向、實習經歷、組織活動經歷、獲獎證書等信息提取出來,放入MongoDB 數據庫中進行儲存。將學生的簡歷數據都存入數據庫后,編寫Python 程序依次讀取每份簡歷的信息,進行特征選擇和預處理后,實現基于內容的互惠就業推薦算法[3],將簡歷中的信息與企業招聘需求信息進行相似度計算[4],再進行個人和企業的匹配推薦。如學生簡歷中的實習信息能夠展現出學生的工作能力和相關企業的勝任力。企業招聘信息展示工作內容的部分是招聘職位信息中的“職位描述”。企業在進行人才選拔時,通常會考慮到學生的實習經歷是否與工作職位所匹配,如果在同一條件下,那匹配度高的簡歷必定會受到企業人力資源部門的重視。建立工作推薦模型后,需要對模型進行評估,將數據集分為兩部分,一部分占總數的80%為訓練集,另一部分占總數的20%為測試集,模型先通過訓練集的數據進行訓練學習,再通過測試集來測試模型的預測準確率。評估完成后可以將模型應用于大學生就業指導中。

圖1 簡歷數據分析總體流程圖

2 建立數據抽取模型提取電子簡歷數據

提取電子簡歷的數據主要有兩種方法,一種是基于規則的提取方法[5],通過編寫正則表達式確定規則進行提取,這種方法提取信息的準確率高,適合簡歷中的個人基本信息提取;另一種是基于統計的提取方法[6],這種方法會結合全文的詞語關系,提取信息的準確率也較高,適合簡歷中的實習經歷、組織及活動經歷、獲獎證書等信息提取。針對電子簡歷中不同區域的數據不同,選擇不同的提取方法,作者通過Python 調用pandas、numpy、re 等庫將兩種自然語言抽取方法結合起來,用于抽取電子簡歷中的數據。

2.1 大學生電子簡歷信息特征分析

為了建立完善的簡歷抽取模型,首先需要對大學生的簡歷數據類型進行分析。通過查閱相關資料和審閱大量學生簡歷,發現大學生簡歷的內容主要有個人基本信息、教育經歷、求職意向、實習經歷、項目經驗、組織及活動經歷、獲獎證書和其他信息八個模塊。如表1 所示,每個模塊都包含了不同的屬性信息,如個人基本信息模塊包括學生姓名、性別、電話、出生日期、畢業時間等屬性信息,組織及活動經歷模塊包括組織名稱、擔任職務、時間、組織活動內容等屬性信息。分析得出八個簡歷模塊中有個人基本信息、教育經歷、獲獎證書三個模塊的規則性比較強,利用基于規則的數據提取方法比較合適,而實習經歷、組織及活動經歷、項目經驗等模塊用基于統計的數據提取方法更合適。

表1 簡歷模塊和屬性信息定義

2.2 大學生電子簡歷數據信息預處理

在對簡歷信息特征進行分析后,還需要對電子簡歷數據信息進行預處理。第一步,利用Python 編寫程序,將電子簡歷上的數據信息轉化為文本信息的形式,保存到CSV 文件中,這樣減少了不同簡歷帶來的不同格式影響;第二步,利用Python 的pandas 庫函數的read_csv 方法讀取CSV 文件信息,導入re 庫編寫正則表達式將空格、感嘆號等標點符號去除;第三步,利用Python 的segment 方法來實現NLP 分詞,對去除了標點符號的文本數據進行進一步處理,這里NLP 分詞還會同步執行命名實體識別和詞性標注,命名實體識別能將文本數據中的命名實體識別出來,如簡歷中的專業、姓名、地址名等,而詞性標注可以給句子里的詞語進行詞性標注;第四步,由于簡歷文本信息中也會存在形容詞、助詞等沒有意義的詞,所以對其進行去停用詞操作是有必要的,作者編寫Python 程序依次遍歷NLP 分詞后的詞語,與哈工大停用詞表進行比對,如果出現了停用詞則去除。

2.3 大學生電子簡歷信息抽取模型建立

建立簡歷信息抽取模型前,還需要對文本信息進行分塊,將同一模塊屬性信息歸為一類,作者使用的是SVM 算法[7],利用Python 編寫程序,從sklearn 機器學習庫導入SVM 支持向量機模塊,設置SVM 分類器中的decision_function_shape 參數為ovo 實現一對一分類,即對任意兩個類別之間進行劃分,這樣提高分塊的準確性,最后通過調用accuracy_score 方法計算準確率。

利用SVM 算法分完塊后,根據特征分析的結果,作者采取基于規則和基于統計模型相結合的方法建立簡歷信息抽取模型。首先,作者將利用正則表達式構建抽取規則,對簡歷模塊中的個人基本信息、教育經歷、獲獎證書和求職意向四個模塊中的屬性信息進行提取,如姓名、專業、學校和GPA 等屬性。提取完規則性強的模塊后,作者將利用HMM 算法模型[8]抽取實習經歷、活動經歷和項目經驗等模塊的屬性信息,由于Python 的機器學習庫里面包含的HMM 算法模型已不能使用,所以作者從hmmlearn 庫中導入hmm 方法,實現對規則性弱的文本信息的提取,如實習經歷中的實習內容、實習成果等。

大學生電子簡歷信息抽取模型建立后,作者收集300 份大四畢業生簡歷用于檢測模型的準確率,如圖2所示,簡歷數據抽取準確率測試情況,從表中可以看出個人基本信息和教育經歷模塊的平均準確率、平均召回率和平均F1 值,明顯比實習經歷的三個值高,說明正則表達式提取的信息較為準確,而實習經歷、組織及活動經歷等文本信息因為含有實習內容、活動內容、組織及活動取得的成果等復雜信息,提取的信息準確率較低,有待改進HMM 算法模型。簡歷數據抽取模型中各個簡歷模塊的平均準確率、平均召回率和平均F1 值在80%以上,說明模型整體上準確率較高。

圖2 簡歷數據抽取準確率測試情況

3 建立大學生工作推薦模型

大學生工作推薦模型的建立能給大學就業指導相關教師提供輔助決策,有利于教師更好地因材施教,針對每個學生的特點提出適合該學生的職業發展路線,進行全方位的就業指導。作者通過簡歷數據抽取模型將學生簡歷的數據提取到MongoDB 數據庫中,為后續模型的建立提供數據源。

3.1 建立用人單位招聘信息庫

為了讓每份簡歷數據與用人單位匹配,還需要建立用人單位招聘信息庫。作者利用網絡爬蟲從學校就業網站、智聯招聘等平臺上爬取企業招聘信息,主要爬取的字段有公司名、崗位名、薪資待遇、工作內容和地點等。經研究發現大多數網站上的招聘信息都保存在網頁的json 字符串中,這樣首先通過調用Python 的requiests、beautifulsoup4 庫,編寫網絡爬蟲程序提取數據,再利用json 模塊的loads 方法對json 字符串進行解析。最后將爬取完的數據保存至MongoDB 數據庫。

3.2 基于內容的互惠就業推薦算法

由于傳統的推薦算法并沒有綜合應聘者和崗位之間的關系,而是單純地用傳統推薦算法導致匹配準確率很低[9],如有些學習成績一般、項目經驗少、能力較弱的學生匹配到工作崗位要求高、實力強的企業,這樣會導致學生投遞簡歷后,收不到企業的回復,而造成一定程度上的心理壓力。對此,作者使用隨機森林算法[10]構建互惠就業推薦模型,互惠就業推薦是綜合了學生和企業的需求來進行匹配的[11]。

如表2 所示,學生意向對應招聘崗位信息的不同屬性值,將學生滿意度設置為X1,選擇企業地點、崗位名稱、企業類型和崗位薪資水平四個特征屬性作為學生滿意度屬性,利用Python 調用sklearn 機器學習庫的RandomForestClassifier 方法,利用隨機森林算法計算學生的滿意度,并設置權重為W1。同理,作者選取政治面貌、學歷、專業和薪資水平作為企業滿意度屬性,設置為X2,利用隨機森林算法計算出X2值,設置權重為W2。總滿意度X 的計算公式為:

表2 招聘崗位信息和學生意向屬性值對應圖

計算完一份簡歷數據與一條招聘信息的X 值后,作者編寫for 循環遍歷每條招聘信息,計算出該份簡歷與每條招聘信息的X 值,再將X 值從大到小排列后輸出前五個值,這五條招聘信息更適合這份簡歷的學生。通過觀察發現匹配度高的幾條招聘信息都有共同的特征,如求職意向為電氣工程師、意向工作地點為浙江、意向工作性質為民營企業、意向薪資區間為4K-7K 的學生匹配出的五條招聘信息都是浙江當地電氣類的名企,招聘崗位、薪資待遇都比較符合學生簡歷所寫。

3.3 大學生工作推薦模型評估

基于隨機森林算法的互惠就業推薦模型建立后,還需要進行測試評估。作者通過計算MAE 平均絕對誤差,RMSE 方均根誤差來評估推薦模型的準確率[12]。為了進行對比,作者用傳統推薦算法實現了基于內容的推薦就業模型。在數據方面,由于目前沒有標準的簡歷推薦數據集,因此作者針對200 名大四學生做了問卷調查,收集簡歷電子版和投遞的崗位信息,以這些數據信息作為實驗數據集,其中160 份數據作為訓練集,40 份作為測試集。

運行簡歷數據抽取模型提取簡歷數據到MongoDB數據庫Data1 中,編寫程序從Data1 庫中讀取電子簡歷訓練集數據,再運行基于隨機森林算法的互惠就業推薦模型和傳統推薦算法模型,兩個模型訓練完成后,使用測試集數據分別進行測試,并計算MAE 平均絕對誤差值和RMSE 方均根誤差值。如圖3 所示,從圖中可以明顯看出互惠就業推薦模型和傳統推薦模型的MAE 值都是先下降后上升最后趨于穩定狀態的,而經過實驗兩種模型的RMSE 值趨勢也和MAE 值一樣,并且互惠就業推薦模型的RMSE 值更低,相比傳統推薦模型有一定的優勢。

圖3 MAE 值對比折線圖

4 結論

在本文中,作者建立了簡歷數據抽取模型,能夠快速地提取學生的電子簡歷數據,并以結構化的形式保存在數據庫中,為教師查閱簡歷節省了大量時間,教師能清晰地看到每個學生的簡歷關鍵點,有更多的時間用來指導學生就業。而后續作者建立的基于隨機森林算法的互惠就業推薦模型能有效地為學生提供合適的就業方向。兩種模型結合使用,能讓教師更全面地了解學生就業需求,有針對性地進行就業指導。

猜你喜歡
大學生信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
帶父求學的大學生
大學生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
讓大學生夢想成真
中國火炬(2013年7期)2013-07-24 14:19:23
他把孤兒院辦成大學生搖籃
中國火炬(2010年9期)2010-07-25 11:45:09
主站蜘蛛池模板: 全免费a级毛片免费看不卡| 无码精油按摩潮喷在线播放| 亚洲Va中文字幕久久一区| 热99re99首页精品亚洲五月天| www欧美在线观看| 日韩麻豆小视频| 国产不卡国语在线| 久久精品一品道久久精品| 青青草国产精品久久久久| a级毛片视频免费观看| 亚洲一级色| 在线毛片网站| 日韩国产一区二区三区无码| 日韩福利在线视频| 国产69精品久久久久妇女| 国产亚洲日韩av在线| 欧美中文字幕一区| 国产欧美日韩综合在线第一| 亚洲一区黄色| 国产91精品久久| 亚洲日本中文字幕乱码中文 | 久久semm亚洲国产| 国产乱人伦偷精品视频AAA| 久久成人18免费| 国产精品2| 欧美劲爆第一页| 日韩欧美网址| а∨天堂一区中文字幕| 无码'专区第一页| 欧美一区二区啪啪| 成人精品午夜福利在线播放| 波多野结衣无码中文字幕在线观看一区二区 | 国产成人久久综合一区| 美女无遮挡拍拍拍免费视频| 999在线免费视频| 国产网站黄| 日韩美毛片| 91精品国产丝袜| 亚洲69视频| 亚洲成人www| 亚洲天天更新| 九九线精品视频在线观看| 日韩在线第三页| 国内精自视频品线一二区| 国产91蝌蚪窝| 91最新精品视频发布页| 亚洲欧美成人综合| 久久96热在精品国产高清| 无码一区中文字幕| 亚洲第一色网站| 99精品国产电影| 免费va国产在线观看| 激情无码视频在线看| 成人免费一区二区三区| 强乱中文字幕在线播放不卡| 永久免费av网站可以直接看的| 精品成人免费自拍视频| 一级毛片免费不卡在线| 天天躁日日躁狠狠躁中文字幕| 97影院午夜在线观看视频| 日韩黄色在线| 国产精品欧美激情| 波多野结衣无码视频在线观看| 国产精品成人免费视频99| 欧美成a人片在线观看| 日韩美毛片| 国产 在线视频无码| 亚洲女人在线| 欧美a在线| 国产亚洲欧美日本一二三本道| 97视频精品全国在线观看| 26uuu国产精品视频| 不卡色老大久久综合网| 欧美中文一区| 日本一本在线视频| 91九色国产在线| 国产精品思思热在线| 亚洲国产精品VA在线看黑人| 精品无码国产一区二区三区AV| 国产精品密蕾丝视频| 国产亚洲高清视频| 国产亚洲高清在线精品99|