劉祺彬 高祥蘭 何鳳琴 李新元



摘??要:?在不違反相關(guān)協(xié)議準(zhǔn)則的情況下,通過爬蟲技術(shù)獲取智能制造崗位數(shù)據(jù),并對其進(jìn)行清洗與脫敏處理. 應(yīng)用Jieba中文分詞工具、K-means聚類算法與隱含狄利克雷分布(LDA)模型,將崗位名稱分為6類,將技能集分為8類. 最后,構(gòu)建需求矩陣并歸一化處理,得到各技能集對崗位簇的重要程度,為專業(yè)選擇、課程建設(shè)與從業(yè)人員發(fā)展提供參考.
關(guān)鍵詞:?智能制造;?大數(shù)據(jù)分析;?K-means;?隱含狄利克雷分布(LDA)模型;?需求評估
中圖分類號:?TP 3-05 ???文獻(xiàn)標(biāo)志碼:?A ???文章編號:?1000-5137(2024)02-0236-05
Research on intelligent manufacturing positions and skill requirements based on big data
LIU Qibin1,?GAO Xianglan2*,?HE Fengqin1*,?LI Xinyuan1
(1.College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 201418,China;?2.School of Digital Science,?Shanghai Lida University,?Shanghai 201609,?China)
Abstract:?Without violating relevant protocol guidelines,?the intelligent manufacturing job data was obtained by crawler technology,?which was cleaned and desensitized in this paper. By Jieba Chinese text segmentation,?as well as clustering algorithms such as?K-means clustering algorithm and latent Dirichlet allocation (LDA)?model,?job titles were categorized into six clusters. Besides,?skills were classified into eight clusters. Finally,?a demand matrix was constructed and normalized,?revealing the importance of each skill set to job clusters. The research was able to provide reference of choosing majors,?curriculum development and the professional development of practitioners.
Key words:?intelligent manufacturing;?big data analysis;?K-means;?latent Dirichlet allocation (LDA)?model;?demand assessment
目前,許多院校開設(shè)了與智能制造相關(guān)的專業(yè),然而學(xué)生對智能制造的了解不足,院校開設(shè)的課程也與市場需求存在差距[1],導(dǎo)致學(xué)生畢業(yè)后,無法滿足崗位要求. 本文作者采用大數(shù)據(jù)方法,分析智能制造行業(yè)的信息和技能要求,以期解決人才培養(yǎng)與崗位需求不匹配的問題.
1 ?研究框架
研究框架如圖1所示,通過Requests爬蟲框架獲取智能制造相關(guān)崗位信息,并對其進(jìn)行數(shù)據(jù)清洗和脫敏處理,利用Jieba中文分詞工具與K-means聚類算法對崗位簇進(jìn)行分析,并參考智能制造技術(shù)圖譜,結(jié)合隱含狄利克雷分布(LDA)模型,分析智能制造相關(guān)領(lǐng)域的技能集,通過構(gòu)建崗位簇與各技能集之間的需求矩陣,全面評估各智能制造崗位簇對不同技能集的需求程度.
2 ?數(shù)據(jù)來源及清洗
2.1 數(shù)據(jù)來源
采用前程無憂招聘網(wǎng)站的網(wǎng)絡(luò)數(shù)據(jù)作為數(shù)據(jù)來源,使用Python編程語言的Requests模塊,按照相關(guān)協(xié)議和準(zhǔn)則,在不對Web服務(wù)器和客戶端造成壓力的情況下,抓取前程無憂網(wǎng)站上與智能制造相關(guān)的崗位信息. 檢索包含如工業(yè)物聯(lián)網(wǎng)、工業(yè)軟件等智能制造領(lǐng)域關(guān)鍵詞的崗位標(biāo)題或描述,篩選相關(guān)崗位信息. 最終獲取了8 257條合法公開的招聘信息,包括崗位名稱、企業(yè)名稱、工作地點、學(xué)歷要求、所處行業(yè)與崗位要求等內(nèi)容.
2.2 數(shù)據(jù)清洗與脫敏
鑒于爬蟲程序的缺陷以及部分企業(yè)在招聘網(wǎng)站上發(fā)布的信息存在不規(guī)范的情況,同時為了確保數(shù)據(jù)的質(zhì)量與私密性,需要對數(shù)據(jù)進(jìn)行如下步驟的清洗與脫敏處理:
(1)?刪除招聘信息中重復(fù)的內(nèi)容,剔除企業(yè)名稱或崗位簡介包含“智能制造”但實際崗位為其他行業(yè)的信息.
(2)?若某個崗位的所需技能與智能制造無關(guān),那么剔除該條招聘信息.
(3)?對企業(yè)名稱進(jìn)行屏蔽處理,統(tǒng)一設(shè)為“****有限公司”,以保護(hù)隱私.
(4)?將工作地點統(tǒng)一到市級,例如,“上海-浦東新區(qū)”被簡化為“上海”,便于后續(xù)統(tǒng)計,同時防止招聘企業(yè)具體位置信息外泄.
通過清洗與脫敏處理,最終保留6 801條有效數(shù)據(jù).
本研究采用Jieba分詞工具[2]來準(zhǔn)確識別中文語句中的詞匯,并過濾無效詞,解決中英文書寫方式不同所導(dǎo)致的誤識別問題. 對于研究對象中的專業(yè)名詞,如“圖像處理”?“控制算法”等,Jieba分詞工具可能無法完全識別,因此需要輸入相關(guān)的專業(yè)名詞,建立附加詞庫來輔助識別. 此外,崗位名稱中的形容詞和通用性較高的名稱后綴(如“高級”?“資深”等)雖然出現(xiàn)頻率高,但實際意義較低,需要建立停用詞庫,讓Jieba分詞工具自動過濾這些詞,以消除對后續(xù)研究的影響. 通過以上處理方法,可以優(yōu)化信息的處理效果,提高識別的準(zhǔn)確性.
3 ?數(shù)據(jù)分析
3.1 崗位簇識別
采用K-means聚類算法對智能制造崗位進(jìn)行分類. 首先,使用Jieba分詞工具的lcut_for_search模式對崗位名稱進(jìn)行分詞,得到包含所有關(guān)鍵詞匯的信息. 根據(jù)詞頻制作崗位名詞詞典,并利用詞袋模型,將崗位名稱轉(zhuǎn)化為86維的向量,每個向量表示崗位名稱中是否包含詞典中的詞匯(1表示包含,0表示不包含). 采用手肘法[3]求得合理的聚類數(shù)量為6,通過K-means算法對向量化后的崗位名稱進(jìn)行聚類,以實現(xiàn)對智能制造崗位的明確分類.
表1展示了經(jīng)過K-means聚類的智能制造崗位分類結(jié)果,每個崗位簇中截取最熱門的10項,將智能制造崗位分為6大類:行業(yè)顧問、機(jī)械工程師、產(chǎn)品工程師、項目經(jīng)理、軟件工程師、電氣工程師.
3.2 技能集識別
基于“能崗匹配”原理[4],不同性質(zhì)的崗位對應(yīng)不同的能力需求. 同時,各類型崗位對技能集合的依賴程度也存在差異. 為了分析各類技能在智能制造崗位中的需求情況,采用LDA進(jìn)行技能聚類[5].
參考文獻(xiàn)[6],創(chuàng)建技能詞典,并將其作為LDA的輸入,通過計算困惑度來獲得最優(yōu)的主題數(shù). 表2展示了崗位要求中出現(xiàn)次數(shù)前50的技能.
根據(jù)困惑度大小,技能集主題數(shù)設(shè)置為8,分別為:嵌入式技術(shù)、工業(yè)設(shè)計、測試維護(hù)、機(jī)器學(xué)習(xí)、電氣控制、信息化管理、軟件開發(fā)和生產(chǎn)過程,具體結(jié)果如表3所示.
3.3 需求矩陣設(shè)計
通過LDA對技能集合進(jìn)行劃分,輸出每一個技能集從屬于不同崗位的概率分布,可理解為該技能集對崗位的重要程度,概率數(shù)值越大,則越重要.通過構(gòu)建需求矩陣來展現(xiàn)不同技能集對崗位的重要程度.
6類崗位簇對應(yīng)8類技能集,得到一個6×8的矩陣. 將矩陣歸一化處理,得到需求矩陣,如表4所示.
定義技能集q對于崗位簇p的重要程度為
,當(dāng)
<0.5時,q對p不重要;當(dāng)0.5≤
<1.0時,q對p的重要程度較低;當(dāng)1≤
<1.5時,q對p比較重要;當(dāng)1.5≤
<2.0時,q對p非常重要;當(dāng)
≥2.0時,q對p極其重要. 由此,需求評估結(jié)果如表5所示.
4 ?結(jié)論
由于對智能制造崗位的認(rèn)識不夠清晰,高校的人才培養(yǎng)與勞動力市場需求存在信息不對稱的問題.本研究采用大數(shù)據(jù)方法對智能制造行業(yè)進(jìn)行分析,并得出以下結(jié)論:
(1)?智能制造崗位可大致分為行業(yè)顧問、機(jī)械工程師、產(chǎn)品工程師、項目經(jīng)理、軟件工程師及電氣工程師共6類. 崗位所涉及技能可大致分為嵌入式技術(shù)、工業(yè)設(shè)計、測試維護(hù)、機(jī)器學(xué)習(xí)、電氣控制、信息化管理、軟件開發(fā)與生產(chǎn)過程等8個技能集.
(2)?根據(jù)需求評估結(jié)果表明,信息化管理技能對行業(yè)顧問最為重要,工業(yè)設(shè)計技能對機(jī)械工程師最為重要. 產(chǎn)品工程師與項目經(jīng)理所需技能較多,對測試維護(hù)、機(jī)器學(xué)習(xí)與生產(chǎn)過程均有技能需求. 軟件工程師更注重嵌入式技術(shù)與軟件開發(fā)技能,電氣工程師則注重電氣控制技能.
值得注意的是,本研究的數(shù)據(jù)來源僅為前程無憂網(wǎng)站數(shù)據(jù),結(jié)論也僅適用于國內(nèi)智能制造市場. 為更全面了解智能制造行業(yè)的人才需求情況,未來的主要工作方向是拓展數(shù)據(jù)來源范圍,逐步納入德國、日本及美國等智能制造大國的行業(yè)數(shù)據(jù),以進(jìn)行全球性的研究.
參考文獻(xiàn):
[1] 孫尚琪,?秦立光,?潘海軍. 新工科背景下學(xué)科交叉中的問題與解決思路研究:?以智能制造專業(yè)為例?[J]. 科技風(fēng),?2023(31):55-58.
SUN S Q,?QIN L G,?PAN H J. Research on problems and solutions in interdisciplinary crossings under the background of new engineering discipline:?taking im major as an example [J]. Science and Technology Wind,?2023(31):55-58.
[2] 曾小芹. 基于?Python 的中文結(jié)巴分詞技術(shù)實現(xiàn)?[J]. 信息與電腦,?2019,31(18):38-39,42.
ZENG X Q. Implementation of Chinese Jieba segmentation technology based on Python [J]. Information and Computer,?2019,31(18):38-39,42.
[3] 吳廣建,?章劍林,?袁丁. 基于K-means 的手肘法自動獲取K值方法研究?[J]. 軟件,?2019,40(5):167-170.
WU G J,?ZHANG J L,?YUAN D. Research on the Elbow method for automatically determining the value of K?based onK-means[J]. Software,?2019,40(5):167-170.
[4] 傅美芬. 基于能崗匹配的人力資源優(yōu)化配置?[J]. 中國商論,?2018(16):189-190.
FU M F. Optimization of human resource allocation based on job matching [J]. China Business Review,?2018(16):189-190.
[5] 陸振昇,?馬超. 基于LDA模型的專利文本主題分析:?以國內(nèi)元宇宙領(lǐng)域為例?[J]. 科技和產(chǎn)業(yè),?2023,23(11):?85-88.
LU Z S,?MA C. Topic analysis of patent text based on LDA model:?a case study in the domestic metaverse field [J]. Science Technology and Industry,?2023,23(11):85-88.
[6] 周曉軍,羅軍,?白麗,?等. 關(guān)于智能制造技術(shù)研究現(xiàn)狀及未來趨勢的探討?[J]. 中國設(shè)備工程,?2023(21),?36-37.
ZHOU X,?LUO J,?BAI L,?et al. Discussion on the current research status and future trends of intelligent manufacturing technology [J]. China Equipment Engineering,?2023(21),36-37.
(責(zé)任編輯:包震宇,郁慧)
DOI:?10.3969/J.ISSN.1000-5137.2024.02.014
收稿日期:?2023-12-23
作者簡介:?劉祺彬(1998—),?男,?碩士研究生,?主要從事機(jī)器學(xué)習(xí)與AI算法工程應(yīng)用方面的研究. E-mail:1000513394@smail.shnu.edu.cn
* 通信作者:?高祥蘭(1975—),?女,?講師,?主要從事大數(shù)據(jù)商務(wù)管理及機(jī)器學(xué)習(xí)方面的研究. E-mail:gaoxianglan@lidapoly.edu.cn;何鳳琴(1977—),?女,?副教授,?主要從事流體控制技術(shù)、?大數(shù)據(jù)和人工智能應(yīng)用方面的研究. E-mail:?hfq@shnu.edu.cn
引用格式:?劉祺彬,?高祥蘭,?何鳳琴,?等. 基于大數(shù)據(jù)的智能制造崗位與技能需求研究?[J]. 上海師范大學(xué)學(xué)報?(自然科學(xué)版中英文),?2024,53(2):236?240.
Citation format:?LIU Q B,?GAO X L,?HE F Q,?et al. Research on intelligent manufacturing positions and skill requirements based on big data [J]. Journal of Shanghai Normal University (Natural Sciences),?2024,53(2):236?240.