999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據技術的AI崗位需求分析研究*

2021-09-22 14:32:10徐正麗文博奚謝梅英
廣西科學 2021年3期
關鍵詞:模式識別技能

徐正麗,文博奚,謝梅英,蔡 翔**

(1.桂林電子科技大學,廣西桂林 541004;2.廣西建設職業技術學院,廣西南寧 530007; 3.南京信息工程大學,江蘇南京 210044)

0 引言

近年來,我國人才市場出現供需失配的結構性矛盾,尤其是在人工智能領域。準確感知并描述勞動力市場的需求是解決該問題的重要手段。人工智能(AI)技術已成為全球新一輪科技革命和產業變革的著力點,對于推動產業轉型升級至關重要,越來越多的公司把AI視為競爭力的關鍵要素[1]。根據2017年Gartner的統計顯示,到2021年,AI預計將創造230萬以上相關崗位,但人才缺口卻非常嚴重[2]。由于AI是應用領域非常廣泛和快速發展的新技術[3],人力資源管理部門對AI領域的專業認知更新卻比較緩慢,對AI崗位職責及所需技能的認知往往是模糊、主觀和過于簡化的理解[4],甚至會將“AI”與“大數據”“機器學習”“深度學習”等概念混為一談[5]。AI崗位內容的廣泛性及所需工作技能的復雜多樣性[6,7]給準確把握AI崗位的需求帶來很大的挑戰。

為準確感知并描述勞動力市場對AI的需求,本研究采用大數據分析手段,對AI崗位簇的工作角色及所需技能進行類型學研究,為基于大數據分析AI崗位簇的角色及其所需技能需求提供了一個結構化框架,可有效提升人力資源管理部門的科學決策水平,同時促進高校提高AI人才培養的針對性。

1 算法框架

本算法主要包括4個部分:第一步,使用網絡爬蟲技術從招聘網站爬取AI相關崗位的招聘信息,然后實施數據清洗;第二步,利用K-means聚類與專家判斷相結合的方法,分析AI的崗位簇;第三步,利用概率主題模型(Latent Dirichlet Allocation,LDA)與專家判斷相結合的方法,分析AI相關領域的技能集;第四步,通過構建崗位簇與各技能集之間的需求矩陣,評估工作技能集對工作崗位簇的重要性,從而更準確地把握工作AI各崗位簇對工作技能的需求程度(圖1)。

圖1 算法步驟

2 數據來源及清洗

2.1 數據來源

選擇智聯招聘作為數據來源。相比其他招聘網站,智聯招聘的招聘崗位頁面HTML結構的標準化程度高,數據可獲取性較好,Web抓取可行性更高[8]。在2019年3月-2019年5月期間,采用WebCollector爬蟲框架對智聯招聘網站在2018年全年的招聘崗位標題、崗位描述或崗位要求中包含關鍵詞“AI”的崗位信息進行抓取,最終獲得10 656條與AI相關的招聘信息。獲取的招聘信息包括招聘信息ID、公司名稱、招聘崗位名稱、崗位要求、薪酬、工作地點、工作年限要求、學歷要求、信息公布時間等內容。

從需求時間看,2018年AI崗位人才需求旺盛,呈現爆發式增長態勢,盡管7月份達到最高峰(正值我國應屆畢業生的畢業時間),但是下半年對AI的需求是上半年的5.29倍(圖2)。從需求地域看,2018年AI專業人才需求主要集中在一線城市(北京、上海、廣州、深圳)以及15個新一線城市(成都、杭州、武漢、南京、長沙、天津等)。這些經濟發達城市AI產業發展迅速(圖3)。從學歷要求看,2018年AI領域對本科學歷的需求最大,一定程度上表明了企業對AI應用開發的需求旺盛,而對AI研發人才的需求要小(圖4)。

圖2 2018年智聯招聘發布的AI崗位招聘數

圖3 2018年AI崗位工作地點分布

2.2 數據清洗

數據清洗按以下步驟進行:第一,使用網絡爬蟲獲取的10656條招聘信息中,有小部分為同一企業在不同時間點發布的對同一崗位的招聘信息,因此需要去掉這部分重復信息。第二,一些企業在互聯網上發布招聘信息并不規范,例如招聘崗位名稱中填寫“博士”一詞。這類招聘崗位名稱屬于無效值,不能作為崗位名稱進行分析,需要視為無效數據予以剔除。如果某個崗位的招聘崗位名稱中的技能詞與AI崗位無關,那么這條招聘信息也屬于無效數據而予以剔除。第三,鑒于中文的書寫方式與英文不同,詞匯之間缺少明顯間隔,需要對中文文本采取“jieba中文分詞”處理,使計算機能準確地識別中英文詞匯,分詞之后需要對去除分詞結果中的停用詞和無效詞(如“和”“或”“與”等),以消除停用詞和無效詞對數據分析的不利影響。然后,利用這些詞構建崗位名稱詞典。崗位名稱詞典的構建還可以采取機器學習的方法[9],考慮到算法的成熟度,本文采用“jieba中文分詞”工具。

圖4 2018年AI崗位的學歷要求分布

在對招聘崗位名稱進行分詞和去停用詞處理后,進一步選取在結果中出現次數超過5次的194個名詞構成崗位名稱詞典,將招聘崗位名稱中不包含崗位名稱詞典中詞匯的招聘信息標記為無效數據予以剔除。圖5展示了出現次數最多的前50個崗位名稱名詞的可視化詞云圖。每個名詞的字體大小與每個名詞出現的次數成正比。

圖5 AI崗位名稱中重復出現的前50個單詞

對崗位要求進行預處理時,參考IT職業技能圖譜,預先選擇了與AI領域相關的232個技能詞,將各個招聘崗位的崗位要求描述轉化成技能詞的集合。在前面處理的基礎上,將崗位要求中不包含AI領域技能詞的招聘信息標記為無效數據予以剔除。表1顯示了崗位要求中詞頻最高的前50個技能詞。

表1 頻率前50的崗位要求技能詞

續表1

通過去重和兩次清洗剔除重復數據和無效數據,最終保留6 705條數據作為有效樣本數據。據此,可以對崗位名稱進行K-means聚類分析獲取崗位簇,并對崗位要求進行LDA分析獲取技能集。

3 數據分析

3.1 崗位簇識別

目前尚未有明確的AI崗位類別劃分。因此,本研究使用AI招聘崗位名稱作為輸入,通過K-means聚類算法將獲取的崗位名稱進行聚類,從而識別出AI崗位簇[10]。為實現崗位簇的提取,需要將所有的崗位名稱向量化,通過詞袋模型,利用數據預處理時得到的崗位名稱詞典,將各個崗位名稱分別轉化為一個194維的0-1向量(崗位名稱中出現詞典中的單詞記為1,未出現記為0)。將崗位名稱向量化之后,再使用K-means聚類算法對所有崗位名稱進行聚類。

K-means聚類需事前確定聚類數量,因此本研究利用肘部法則(圖6)確定聚類數量為4。然后統計各簇中詞對的出現頻次。表2展示了各簇中出現頻次最高的15項。這里需要特別指出的是,由于某些崗位名稱書寫不規范,致使通過分詞和去停用詞后該名稱只剩一個名詞。通過專家分析,將4類AI崗位簇分別命名為產品架構師、算法工程師、產品經理和軟件工程師。

圖6 K-means聚類肘部法則分析圖

表2 K-means聚類分析得出的4個崗位簇

續表2

3.2 技能集識別

按照“能崗匹配”和“勝任力”理論,同一類型崗位所需的技能也應該是相似的[11]。反過來,相似的技能更有可能出現在同一份崗位說明書中。為分析崗位簇所對應的技能集,繼續使用聚類分析方法對崗位簇所需的技能詞進行聚類。為了識別工作崗位中的技能集,采用LDA進行聚類[12-14]。

LDA的輸入是招聘信息中的招聘崗位要求和需要識別的主題數量。為得到合適的主題數量,首先計算了主題數量k分別為2-10時的多個結果,然后組織專家對這些結果進行評估,最終得出主題數量k為5最合適,因此將技能集劃分為5類最合理。表3顯示了通過LDA分析出來的5個技能集,以及每個技能集中出現頻次最高的15個技能詞。組織專家對技能詞所涉及的工作內容進行綜合研判,確定將這5個技能詞集合分別命名為數據庫、機器學習、模式識別、大數據和程序設計。

表3 基于LDA的技能集分析

3.3 需求矩陣設計

在使用LDA分析技能集時,會輸出每個崗位任職要求屬于每個主題(技能集)的概率。每一項崗位任職要求代表一個工作崗位,因此該結果可理解為每個崗位對于每個主題(技能集)的需求程度。

為了得到各崗位簇對每個技能集的需求情況,首先選取位于同一個崗位簇中所有崗位對每一個技能集需求程度的平均值,將其作為該崗位簇對每一個技能集的需求程度,從而得到4個崗位簇對于5個技能集的需求矩陣C。然后,將需求矩陣C的每一列除以其平均值來歸一化矩陣C,得到矩陣T(表4)。由于分析的工作崗位都是AI相關,同時崗位要求分析中用到的詞都是和AI相關的詞匯,因此不同崗位簇對技能集的需求程度區別不大。其中,元素Ti,j表示崗位簇i對特定技能集j的需求程度。為了更清楚地描述崗位簇對各個技能集需求的重要程度,采用以下方法予以簡化處理,得到表5。

表4 AI崗位簇對所需技能集的需求矩陣(Ti,j)

表5 崗位簇對所需技能集的需求評估

—T_(i,j)≥1.00:技能集j對崗位簇i特別重要;

—T_(i,j)<1.00:技能集j對崗位簇i不是特別重要。

4 結果可視化與分析

根據上述方法,可畫出崗位簇映射技能集的沖擊圖,如圖7所示。在圖7中,對每一個AI崗位簇設置了識別標簽,對崗位簇與所需技能集的映射關系進行了可視化處理,更為直觀地描述了崗位簇對技能集的需求程度。其中,左側是4類崗位簇,右側是5類技能集,中間連接線的寬度表示各崗位簇對每個技能集的需求程度或相關度。

4.1 軟件工程師

軟件工程師的主要角色是從事AI軟件開發相關工作。具體來說,AI軟件工程師主要負責AI產品軟件設計與構架、編寫項目的核心代碼、解決在產品的研發過程中遇到的技術難點、協調項目組成員之間的合作并參與代碼開發規范編制。為此,AI軟件工程師既要熟練掌握程序設計,又要了解模式識別[15]。根據圖7可發現,程序設計對于AI軟件工程師最為重要,其次是數據庫和模式識別。該崗位簇的招聘信息中也多次提到對于程序設計(精通C#或Java語言,精通面向對象分析和設計技術,有足夠的.net或Java開發經驗)、模式識別(熟悉深度學習、AI、機器學習、神經網絡等技術在圖像處理領域的應用)以及數據庫(熟練掌握MySQL、Oracle等數據庫,有SQL性能調優經驗優先)等技能要求。

圖7 崗位簇映射技能集的沖擊圖

4.2 算法工程師

算法工程師是AI領域的稀缺核心崗位,其主要角色是通過模式識別等算法來完成不同的邏輯運算和優化業務。算法工程師的工作職責主要包括利用模式識別相關的手段分析大數據,然后將算法用偽代碼描述出來,交由軟件工程師實現[16]。根據圖7可發現,模式識別對算法工程師最重要,其次是程序設計和大數據。該崗位簇的招聘信息中多次提到對模式識別(有圖像處理、模式識別等項目經驗優先)、程序設計(熟悉UI、.net和云計算、android和C#/C++等編程語言)和大數據(熟悉數據挖掘、spark、Hadoop和分布式存儲)等技能要求。

4.3 產品經理

產品經理是需要將AI技術和行業知識相結合,并通過AI產品和項目的落地,最終實現企業商業目標的復合型崗位,需對AI產品進行規劃設計、提煉使用場景、推動用戶交互使用體驗、推進產品上線。為此,AI產品經理既要掌握AI技術,同時又要熟悉商業分析和產品開發管理,在工作中需要與產品構架師、算法工程師和軟件工程師等充分溝通協作,保證產品功能落地[17]。根據圖7可發現,除了行業市場知識、項目管理技能外,產品經理崗位對數據庫、機器學習和大數據技術等有較強的技能需求。該崗位簇的招聘信息中多次提到對數據庫(熟悉MySQL、Oracle等數據庫)、機器學習(對TensorFlow、Caffe等算法有初步了解)和大數據(熟悉Hadoop底層文件系統,對大規模數據并行計算傳輸處理等有豐富的經驗)這些領域的技能需求。

4.4 產品架構師

產品架構師是將AI落地解決問題的執行者、不同業務場景下的技術統籌人,主要著眼于AI系統的技術實現,需對產品全局掌控并能夠及時洞悉局部技術瓶頸,并依據具體的AI業務場景給出解決方案。其主要職責是負責AI系統架構設計和技術架構選型,主導功能模塊設計、數據結構設計、對外接口設計,針對行業客戶設計場景化的解決方案,承擔系統核心功能的研發工作和系統優化,負責制定AI業務規劃等。為此,產品架構師必須能夠熟練地與軟件工程師、算法工程師以及AI產品經理溝通,充分了解AI的前沿理論與技術動態[18]。根據圖7可發現,深度學習的理論與技術對產品架構師最重要,其次是大數據和程序設計能力。該崗位簇的招聘信息中多次提到對機器學習(深度學習、計算機視覺等領域工作經驗,熟悉TensorFlow/Caffe框架)、大數據(豐富的Hadoop實戰經驗,熟悉Hadoop底層文件系統及分布式計算框架)和程序設計(熟悉.net、WCF、WPF等相關技術開發優先)等技術領域有要求。

5 結論

與發展迅猛的AI技術領域比較,AI領域的人力資源實踐和研究均明顯落后太多,人力資源管理實務界和學術界均迫切需要對AI崗位及所需具體技能有一個清晰的完整性理解。本研究基于WebCollector爬蟲框架抓取了10 656條AI崗位的網絡招聘數據,采用文本挖掘、K-means聚類分析、主題模型構建、專家判斷的半自動分析模型等方法,對AI崗位的崗位簇和技能集進行了類型學分析,得出如下結論:①AI崗位可分為軟件工程師、算法工程師、產品架構師和產品經理等4個崗位簇,以及數據庫、機器學習、模式識別、大數據和程序設計等5個所需的技能集。②基于崗位簇對每個技能集的需求矩陣和基于沖擊圖的映射關系可視化結果顯示,程序設計對于AI軟件工程師最為重要,其次是數據庫和模式識別;模式識別對算法工程師最重要,其次是程序設計和大數據;產品經理崗位對數據庫、機器學習和大數據技術等有較強的技能需求;機器學習對產品架構師最重要,其次是大數據和程序設計能力。

本研究結果為精準感知勞動力市場對AI人才的需求提供了可能,對AI崗位詞典編撰有一定貢獻,有助于人力資源管理學術界和實務界對AI崗位及所需具體技能有一個清晰的完整性理解;從實踐指導上可以幫助人力資源管理部門制定更精準的崗位管理、招聘遴選、培訓開發方案,完善績效管理等流程;高等學校也可根據本研究結果完善AI專業培養方案和課程體系建設,培養符合企業AI崗位所需專業人才,緩和AI領域的人才供需失配的問題。

由于本研究僅對智聯招聘網站上的AI招聘崗位數據進行爬取,且未能考慮到歐美和日本、韓國等AI產業發展較好的其他地區和國家的情況,如何進一步高效拓展數據的爬取范圍,將是下一步的工作重點。

猜你喜歡
模式識別技能
高級技能
技能強國 創新有我
工會博覽(2022年16期)2022-02-04 16:58:24
紫地榆HPLC指紋圖譜建立及模式識別
中成藥(2018年2期)2018-05-09 07:19:52
秣馬厲兵強技能
中國公路(2017年19期)2018-01-23 03:06:33
拼技能,享豐收
淺談模式識別在圖像識別中的應用
電子測試(2017年23期)2017-04-04 05:06:50
第四屆亞洲模式識別會議
可拓模式識別算法中經典域的確定方法
畫唇技能輕松
Coco薇(2015年11期)2015-11-09 13:03:51
醫院院長必備十大技能
中國衛生(2015年4期)2015-11-08 11:16:02
主站蜘蛛池模板: 丁香六月激情综合| 黄色网址免费在线| 国产日韩欧美成人| 亚洲精品无码人妻无码| 久久精品66| 日韩成人免费网站| 国产美女精品在线| 最新加勒比隔壁人妻| 国产一区自拍视频| 亚洲国产天堂久久综合| 在线免费观看AV| 看国产毛片| 亚洲精品少妇熟女| 国产成人a毛片在线| 制服丝袜一区二区三区在线| 亚洲精品国产首次亮相| 久久精品人人做人人爽97| 国产91九色在线播放| 激情無極限的亚洲一区免费| 亚洲品质国产精品无码| 美臀人妻中出中文字幕在线| 亚洲人精品亚洲人成在线| 国产成人91精品| 中文字幕伦视频| 在线免费看片a| 91午夜福利在线观看精品| 亚洲国产中文综合专区在| 热99精品视频| 国产成人区在线观看视频| 欧美国产日韩在线观看| 国产你懂得| 国产成人在线小视频| 日本高清成本人视频一区| 国产精品页| 制服丝袜一区| 国产91丝袜在线播放动漫| 亚洲成人高清无码| jizz在线观看| av一区二区无码在线| 国产无码精品在线播放| 日韩精品久久无码中文字幕色欲| 婷婷六月在线| 国产免费福利网站| 毛片在线播放a| JIZZ亚洲国产| 国产福利一区视频| 国产在线拍偷自揄观看视频网站| 中文字幕无码中文字幕有码在线| 不卡午夜视频| 色哟哟国产精品一区二区| 亚洲天堂成人在线观看| 极品国产一区二区三区| 国产打屁股免费区网站| 国产无码精品在线| 五月婷婷综合网| 色偷偷男人的天堂亚洲av| 国产成人精彩在线视频50| 免费Aⅴ片在线观看蜜芽Tⅴ| www.亚洲国产| 亚洲日本韩在线观看| 久久特级毛片| 黄色成年视频| 中文字幕66页| 久久黄色视频影| www精品久久| 亚洲AⅤ永久无码精品毛片| 伊人91视频| 99手机在线视频| 欧美视频在线不卡| 国产精品国产主播在线观看| 亚洲自偷自拍另类小说| 欧美一道本| 91色爱欧美精品www| 666精品国产精品亚洲| 激情综合婷婷丁香五月尤物| 色悠久久久久久久综合网伊人| 97国产一区二区精品久久呦| 国产欧美在线| 亚洲最大看欧美片网站地址| 成人综合在线观看| 香蕉视频在线观看www| 无码中文字幕加勒比高清|