周燕 朱艷麗 楊敏


摘 ?要:招聘信息一方面能夠直接反映用人單位對人才基本條件、能力和素質的要求,同時也能夠為高等院校及時了解社會對人才的需求變化情況,為人才培養方案提供參考信息。文章對企業招聘特別是計算機和數據類人才需求信息進行統計分析和數據挖掘,從而總結當今熱門行業和人才需求特點與趨勢,同時結合筆者自己教學經驗,對高等院校的數據與信息類專業課程設置和人才培養模式改革給出了幾點的建議。
關鍵詞:k-means聚類;主成分分析;關聯規則挖掘;課程設置;人才培養
中圖分類號:C961 文獻標志碼:A 文章編號:2096-000X(2019)11-0167-03
Abstract: On the one hand, the enterprise recruitment information can directly reflect the requirements of the employer on the basic abilities and qualities of the talents. On the other hand, it can also help high education institutions timely understand the society's requirements for talents. The change in demand provides reference information for the talent training program. This paper conducts statistical analysis and data mining for enterprise recruitment, especially computer and data talents, to summarize the characteristics and trends of today's hot industries and talents. At the same time, combined with the author's own teaching experience, it gave several suggestions for the setting and reform of the talent training model on the data and information courses for colleges and universities.
Keywords: k-means clustering; principal component analysis; association rule mining; curriculum setting; talent cultivation
一、企業招聘信息與高校人才培養方案的修訂
近年來,隨著互聯網的廣泛應用和網絡招聘的迅速發展,網絡招聘信息平臺已成為招聘者獲取信息的主要渠道。對網絡招聘信息進行文本挖掘是傳統網頁信息數據的深層次開發。它可以從大量數據中抽取出有效的、新穎的、潛在的以及最終可以理解的信息,使之具有指導意義和創新價值。而且由于網絡招聘信息一方面能夠直接反映了用人單位對人才基本條件、能力和素質的要求,為應聘者提供求職參考;另一方面也能夠反映出社會和各行業對人才的需求現狀,或未來一段時間的人才需求趨向;同時也能夠為高等院校及時了解社會對人才的需求變化情況,分析預測未來的人才市場的熱點,有針對性的調整人才培養方案和設置安排相關課程提供重要的參考信息,促進高校培養出更多適用的優秀人才以滿足社會的需求。
而且就業一直是社會的熱點問題,從傳統實地招聘到網絡招聘主要是互聯網發展的功勞。充分利用信息挖掘技術,將網上檢索的大量無序企業所發布的人才需求信息,按照一定的標準,對其進行排序整理并提供有用的科學信息支撐,其分析結果可以進一步應用到高校人才培養計劃的修訂中。通過招聘信息的挖掘,將企業、學校、求職者三方連成一體,進而形成雙向選擇機制,減少招聘過程中的信息障礙壁壘,降低企業和畢業生的選擇成本。
二、問題的提出與解決
本文在2018年3月初從智聯招聘(https://sou.zhaopin.com/)依據城市和職位關鍵詞爬取了15個主要城市(‘北京’,‘上?!?,‘廣州’,‘深圳’,‘天津’,‘杭州’,‘武漢’,‘成都’,‘南京’,‘蘇州’,‘無錫’,‘寧波’,‘重慶’,‘長沙’,‘廈門’)的18個互聯網相關職位(‘數據分析’,‘php’,‘大數據’,‘java’,‘UI’,‘IOS’,‘安卓’,‘C++’,‘python’,‘前端’,‘.net’,‘測試’,‘產品經理’,‘網絡營銷’,‘嵌入式’,‘項目經理’,‘VR’,‘AR’)總計23698條招聘信息作為數據樣本,基于python和SPSS軟件進行分析和挖掘,具體研究內容如下:
1. 利用K-Means聚類算法對職業類型進行分析,得出目前企業最需要的職業類型,并得出這些職業類型對應的專業領域。
2. 利用主成分分析對熱門地域、熱門行業、熱門職位進行排名同時分析人才需求情況。
3. 本文將重點且詳細地利用數據挖掘方法(關聯分析與文本挖掘)對數據分析師、大數據分析師等新興職位在地域、行業、學歷、月薪以及技能要求方面進行需求分析。
4. 最后本文為院校特別是數據與信息類專業有針對性的調整人才培養方案和設置一些相關課程提供了幾點的參考建議。
三、企業招聘信息與人才需求的統計分析與數據挖掘
(一)K-means 聚類分析
對網絡招聘信息中的數據進行去重去空、文本分詞、文本向量化等預處理后,利用K-means算法對用TF-IDF算法得到的權重向量進行聚類,得到7個質心。最后利用knn算法分別求出距離各個質心最近的5個職位,結合result.csv中的type字段,得出目前最主要的職業類型,7個聚類中心可分為:技術、市場與銷售、運營、職能四大類。
(二)主成分分析
根據目前的求職者對于求職中最看重的因素作為熱門求職需求的特征將熱門定義為:招聘需求大,薪酬福利高以及經驗型人才傾向。然后結合招聘信息現有的數據,本文用企業發布招聘信息數量、最低薪水、最高薪水、工作年限、學歷要求與公司規模描述人才需求情況對其進行編碼后利用主成分分析得到綜合排名,分析得出上海、北京、南京、無錫、成都等為招聘熱門地域,而互聯網/電子商務、網絡游戲、基金/證券/期貨/投資、IT服務(系統/數據/維護)、醫藥/生物工程等為招聘熱門行業,互聯網/電子商務、網絡游戲、基金/證券/期貨/投資、IT服務(系統/數據/維護)、醫藥/生物工程等為相對熱門職位。最后通過描述性統計分析得到熱門地區,熱門行業以及熱門職業的企業需求的學歷大多以??票究茷橹鳎瑢τ诠ぷ鹘涷灥囊蟠蠖嘣?-3年。
(三)數據類相關職業招聘信息的數據挖掘
首先需要將數據相關職位篩選出來進行分析,本文在篩選數據時, 只選出 job字段中包含“數據”字段且不包含“數據庫“與”數據倉庫“字段的數據,共得到4186條招聘信息。接下來進行關聯規則挖掘時,首先對數據進行編碼,將文本型數據轉換為分類數據,最后本文利用軟件SPSSModeler進行關聯規則建模分析。
如表1所示,在數據相關職位(數據分析、大數據等)中,存在以下的關聯規則:
如果一個企業的規模在100-499人,提供的平均薪酬在 5-10k范圍內,且要求學歷是大專及不限,那么這家企業有88.243%的概率對工作年限的要求是1年以下;而如果一家企業位于二線中等城市,要求的工作經驗是 1年以下,公司規模是100-499人,提供的薪酬在5-10k之間,那么這家企業有81.453%的概率對于學歷的要求是大專及不限。
接下來考慮分析數據類職業分布特征,使用描述性統計分析方法得到以下幾點結論:
從大數據職位的區域分布來看,大部分數據相關職位聚集在廣州、上海、深圳、北京等一線城市和一線周邊的省會城市(南京、成都),因此對于數據類職業發展來說,一線城市和二線發展機會更多。
數據相關職位主要集中在互聯網/電子商務、計算機軟件、IT服務等行業,其數據相關職位數占比大約為56%,對大數據人才的需求大。
數據相關職位工作的主要對象是數據庫開發、運營和產品,其次是軟件開發、金融和市場。說明數據相關職位主要是輔助性支持類工作,主要工作是以數據為依據,為產品策略、運營戰術、用戶研究、市場趨勢、客戶畫像等企業關鍵領域提供必要決策支持。
數據相關職位工作的學歷主要為本科,占比約5成,高于總體職業的學歷要求,說明數據相關的工作對于學歷是較為注重的,而對于工作經驗中1年以下的需求最多,占比一半以上,數據相關職業入門壁壘較低。
最后,本文篩選出所有的數據相關職位依照數據相關職位的崗位描述和任職要求提取出來,利用ROST 文本挖掘系統對這些文本進行分詞,由于文本中有大量的專業術語如:“數據分析”、“數據挖掘”等,需要添加自定義的用戶詞典,將這些專業術語添加進去,然后再進行分詞,詞頻統計。
根據圖1,可以看出,“數據”、“數據分析”、“技術”、“開發”“能力”等詞語出現頻數較大,說明大數據相關職位要求應聘者具有良好的數據分析能力(數學建模、算法設計、建模開發應用等)另外,“熟悉”、“業務”“經驗”、“項目”等詞語,說明數據相關職位對項目經驗以及業務的熟悉程度也有一定的要求。
四、高校課程設置與人才培養方案改革的幾點建議
1. 人才培養方案的課程設置需要增設熱門課程。院校在對數學數據與信息類專業人才培養時可以對原有課程及教學內容進行優化整合,增設與大數據相關的課程,例如:數據分析、數據挖掘技術以及數據建模等課程,同時也可以增加數據分析軟件的應用和大數據案例研究等一些實驗課程,從而針對數據分析師、數據挖掘等崗位對學生進行系統地訓練,讓學生們在學校就能夠提高實踐能力和適應崗位的能力。筆者所在的院系的統計學專業最新的17版人才培養方案中,已經增設了金融數據挖掘,大數據統計分析,生物醫學統計等相關專業課。
2. 人才培養要注重校企合作。數據職業需求人才是屬于應用型的人才,因此數學類專業人才的培養必須重視實踐操作。院校在對數學類專業人才的培養過程中應積極探索校企合作的模式來共同培養大數據分析人才,例如可以通過校企合作共同建立大數據分析人才實習實訓基地以及開展企業培訓班等模式使學生能夠真正地有機會去接觸真實的大數據,在實習過程中提高學生的崗位適應能力。
3. 人才培養方案注重實踐教學環節的設置。大數據時代對人才的需求在項目實踐操作方面有著很高的要求,然而很多院校只關注理論基礎卻忽視了實踐能力,導致院校學子缺乏實踐經驗,因此院校在培養大數據人才時可以通過建立大數據實驗室,同時鼓勵學生們積極參與到大數據實驗室的實踐中去,使學生能夠真正有機會去接觸大數據的實際運行,讓他們在實踐中不斷學習,不斷成長。在數據類實驗課程設置中,更新大量最新數據和數據挖掘的實驗要求,比如電商數據挖掘實驗,銀行金融數據挖掘實驗,超市客戶數據挖掘實驗等等。
4. 人才培養方案應強調學生的科技創新能力和動手能力的培養。建立健全的學生課外課堂的教育和獎勵機制,鼓勵學生參加數學建模大賽,數據挖掘大賽,SAS統計分析大賽等等。同時,加強創新創業導師隊伍建設,也鼓勵更多的學生進行大學生創新與創業項目的申報。
參考文獻:
[1]黃山,劉學鋒,毛建華,等.基于關聯規則的大數據領域人才需求分析[J].工程控制計算機,2017,30(8):78-80.
[2]蔡文杰,李悅,王偉軍,等.信息管理與信息系統專業本科人才市場需求分析——基于網上招聘的內容分析[J].圖書館學刊,2009,31(8):18-20.
[3]張學新,賈園園,饒希,等.海量非結構化網絡招聘數據的挖掘分析[J].長春師范大學學報,2017,36(10):28-36.
[4]鐘曉旭,胡學鋼.基于數據挖掘的web招聘信息相關性分析[J].田安徽建筑工業學院學報:自然科學版,2010,18(4):23-45.
[5]劉根正,賀浪萍,鐘新波.改造要素資源 創新應用型人才培養模式[J].高教學刊,2017(15):31-33+36.