朱思霖 郭麗清



摘 要:隨著大數據時代的到來,企業對數據人才的需求越來越大。如何成為企業青睞的數據人才,合理規劃職業發展路徑成為所有有志于投身數據產業的人需要思考的問題。該文爬取2019年3月前程無憂網站1萬多條大數據相關的招聘信息,通過分析、挖掘得到如下結論:大數據行業中技術類崗位需求量最大,占總量的67.7%;具有3~4年行業相關經驗的本科生最容易找到工作;Hadoop,SQL,Spark,Java,Hive等是從事大數據行業不可或缺的技能利器。此外,使用TF-IDF和TextRank兩種算法對崗位職責進行關鍵詞提取,排名前3的關鍵詞均為“數據”“經驗”“能力”,這驗證了市場對數據分析人才的期望,除了基本技能外,同時看重是否有“數據”意識,具備相關行業經驗。最后對大數據的崗位職責進行了挖掘,進而繪制出數據科學行業的職業路徑圖譜。
關鍵詞:數據人才;需求分析;技能類職位;關鍵詞提取;職業路徑圖譜;數據挖掘
中圖分類號:TP391.3文獻標識碼:A文章編號:2095-1302(2019)08-0-05
0 引 言
隨著互聯網的發展及物聯網的普及,行業應用所產生的數據呈現爆發式增長。據國際數據公司IDC發布的報道[1]:2018年中國的數據量大約為7.6 ZB,而到2025年,這一數字將增至48.6 ZB,中國的“數據圈”將以年均增長30%的速度領跑全球。海量的數據蘊含著難以估量的價值,有效合理的數據挖掘將成為推動經濟發展的一大動力。伴隨著海量數據,撲面而來的是數據相關崗位需求量的持續增長。關注市場需求,抓住時代機遇,培養數據人才,探索學科發展,眾多國內外專家、學者在學生培養、課程設置、人才需求等方面進行了積極的探索與嘗試。
在國內,文獻[2-10]分別從各學科方面的人才培養、課程設計、需求分析等角度出發,通過對網絡招聘信息進行調查、分析、挖掘,各自給出了大數據環境下的學生培養、課程設置、人才需求方面的建議。具體來說,周曉燕等通過對數據管理人才的招聘信息進行解析,得出了數據分析能力和計算機能力是社會對大數據管理人才的最真實需求的結
論[6]。在高等教育研究方面,何海地綜合研究了美國大數據碩士研究生教育的背景及現狀情況,并得出了“技術硬指標”和“人文軟實力”是數據科學家的必備知識技能的結
論[7]。王曰芬等通過對Web of Science數據庫中數據科學有關文獻進行檢索并分析挖掘,得出了國外的數據科學研究方向及趨勢主要集中在數據的存儲、歸檔、管理層面,系統設計、數據深度處理層面,高效的數據價值挖掘層面三個方面的結
論[8]。在招聘信息挖掘方面,張俊峰等通過對國內招聘類網站的數據類崗位進行特征挖掘,得出數據分析師、數據挖掘工程師和信息管理人員在能力、學歷、專業知識、工具和計算機技能及工作經驗方面的招聘信息有一定的相似性,也存在一定的差異的結論[9]。黃山等利用關聯規則分析了大數據領域的招聘信息,并得出一線城市需求量大且大數據的人才需求趨勢處于增長態勢的結論[10]。
在國外,Baumer認為數據科學是一個跨學科的領域,對于文科生修讀數據科學課程應該進行架構性的課程設計,即通過具體問題來獲取、管理、分析、處理、查詢、可視化數據后,并以書面、圖形和口頭的方式展示最終成果[11]。
Hardin等則通過對七個機構的案例研究,展示了不同的數據科學方法在課程創新方面的應用,并對本科生參與數據科學課程設計及進行數據研究提供了借鑒[12]。
Gonzales收集并分析了2008—2018年期間Code4Libs Jobs網站上492名圖書管理員與檔案管理員的職位發布情況,并對編程技術、工作類型、公司類型進行了討論[13]。
Hammad Rauf Khan等通過對美國高校圖書館數據員招聘廣告進行內容分析,討論了市場緊缺的數據館員的技能需求、技能偏好,并得出學術圖書館員需要創建和支持數據密集型研究的結論[14]。
眾多學者對大數據環境下多個領域的人才需求作出了指引,但是大數據方向的未來職業發展路徑仍不夠清晰,市場需求的知識技能尚不夠明確,招聘企業的關鍵崗位職責也不夠明了。為了解決上述問題,本文爬取前程無憂網站中
10 033條大數據相關的招聘信息,經過對數據的處理分析后,繪制了數據科學行業的職業路徑規劃,重點分析了大數據技術類人才的技能需求,最后利用TF-IDF[15]算法和TextRank[16]算法對大數據的崗位職責信息進行關鍵詞提取,進而得出大數據方向從業人員的能力要求與知識特點,以期為投身于數據科學行業的相關人員指明方向。
1 數據來源
本文數據源自2019年3月前程無憂網站大數據相關行業的招聘信息。通過網絡爬蟲方式獲取,爬取的關鍵詞設置為“大數據”“數據”,對城市、學歷等詞條均不設限。經過去重、去空、篩選等數據清洗操作后,有效招聘數據條目為9 608條,該數據詞條基本情況如圖1所示。本文后續的分析、挖掘等操作均基于此數據,此后不再贅述。
2 數據分析
2.1 不同工作崗位的數據人才分布情況
根據工作崗位將招聘需求信息進行分類,具體為:技術、銷售、產品、運營、其他方面等五大類。
在圖2中展示了大數據行業各類崗位需求分布詳情。其中,圖2(a)為大數據各類職位需求占比情況,技術類需求最多,招聘詞條數為7 056條,占比67.7%,其余依次為產品(14.5%)、銷售(7.9%)、教育(3.7%)、運營(2.6%)、其他方面(3.6%)等。圖2(b)展示了大數據職位的各個需求類別的詳細劃分與占比情況。
以技術類為例,技術類中涵蓋了開發、工程、分析、架構、算法、技術、測試、可視化等八個子類,其需求占比數據是根據招聘詞條的關鍵詞進行篩選,如開發類需求數目為2 856條,技術類總條目數為7 056條,所以開發類占比為40.48%,以此類推。
2.2 技術類職位挖掘
在大數據職位需求占比中,對于技術類職位需求最多,所以對技術類職位需求的技能信息進行重點挖掘。
(1)技能需求分析
在爬取的大數據行業招聘信息中,對崗位要求信息中的英文單詞進行提取,并統計各個單詞出現的頻率,進而繪制大數據技能要求詞云圖,結果如圖3所示。圖中展示了詞頻排序前100的詞語,所示單詞的大小與其詞頻有關,所示單詞的著色為隨機著色。例如,在崗位要求信息的英文單詞中,Hadoop出現的次數最高,詞頻為5 202次,故在詞云圖中字體最大、最顯眼。通過詞云圖可以獲知,想要從事大數據方面的技術類崗位,Hadoop,SQL,Spark,Java,Hive,Python,HBase等均是不可或缺的利器。數據庫類單詞SQL,詞頻第2,說明隨著數據量的增大,存儲、處理等問題越來越受到市場的關注。編程語言類單詞Java詞頻最大,位于總詞頻的第4位,說明Java仍然是最受青睞的編程語言。
(2)編程語言及數據庫需求情況
編程語言方面,Java,Python,Scala占據了75%以上的比例,足以說明這三門語言在大數據行業的重要性;數據庫方面,SQL一枝獨秀,幾乎占據了所要求數據庫的半壁江山,其次分別為Oracle,ETL,Redis,MongoDB,Sqoop等。詳細數據如圖4所示。
(3)工作經驗及學歷需求情況
在工作經驗及學歷要求方面,大數據行業更青睞于有經驗的技術類人員,其中3~4年經驗最佳。這在一定程度上說明,市場最需要的是具有行業經驗以及一定技術能力的從業人員,而一般情況下,3~4年恰好在成本上也比較能讓企業接受。這就不難看出,對于經驗需求方面,3~4年經驗需求最大。在學歷方面,本科及大專學歷占據了近80%的市場需求,這恰恰在一定程度上說明了大數據行業具有技能性的門檻以及經驗性的偏好;而碩士、博士需求比例占比3.8%,則在一定程度說明了市場對用人成本的把控程度,詳情如圖5所示。
2.3 崗位職責關鍵詞分析
對大數據行業招聘信息中的崗位要求信息進行提取匯總,并作為崗位職責信息的語料。使用Python中jieba庫的逆文檔頻率(Term Frequency–Inverse Document Frequency,TF-IDF)算法和TextRank算法對崗位職責的文本信息進行關鍵詞提取,并提取排序前50的關鍵詞。其中,TF-IDF是一種對文檔中關鍵詞權重進行統計的方法,即字詞的重要性與它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降,具體計算公式
如下:
TextRank是對句子進行分割后,保留主要詞性的字或詞來構成有向無權圖,通過計算圖的節點連接權重來分析單詞關鍵與否的算法,其具體計算公式為
兩種算法的關鍵詞提取結果如圖6所示。通過觀察可知,不論是依賴語料、基于統計的TF-IDF算法,還是側重詞語之間相互關聯性的TextRank算法,所得的關鍵詞提取結果大體一致。例如,兩種算法提取出的前50個關鍵詞中,重疊關鍵詞占比接近80%。另外,可以通過關鍵詞結果看出,對“數據”的理解,對“經驗”的要求、對“能力”的要求是各個公司最看重的招聘要素,另外關于“團隊”“技術”“業務”“產品”等方面也是各公司的關注重點。
2.4 綜合素質能力要求
在綜合素質方面,本文通過對崗位要求信息中的英文單詞進行提取,繪制了綜合素質方面需求的技能單詞詞頻圖,具體如圖7所示。在綜合素質方面,大多數招聘單位會要求應聘者熟悉常用辦公軟件,如Excel,PPT等辦公軟件;部分招聘單位更看重經驗、解決問題的能力,如會在招聘需求中體現“experience”“bug”等信息;偏重技術類的崗位,在招聘時可能會更強調相應的資格,例如,某招聘公司需求的是數據庫開發工程師,那么其招聘需求出現技能資格“dba”“ocp”的概率就較大。
3 數據行業職業發展路徑
基于數據的職業之路,以數據為中心,對許多崗位進行重新定義,故在圖8中繪制數據行業職業發展路徑并對大數據的關鍵技術進行梳理。例如,以數據分析為中間崗,可向業務崗方向延伸,進而走產品經理相關方向的職業之路;而同時數據分析又為技術崗,可向技術類職位進行職業延伸,如數據工程方向、數據挖掘方向等。不管是從事技術崗、中間崗還是業務崗,在特定領域進行深挖都有可能成為具有特定行業經驗、具有特殊技能的數據科學家。而不論是傳統數據分析之路還是基于大規模分布式處理的新路徑,都是以數據處理技術為基礎,故在圖8(b)中列出了大規模分布式數據處理的技術要點。
4 結 語
2018年4月,教育部推出了教育信息化2.0行動計劃[17],
即實施數字資源服務普及等八大行動。大數據和人工智能已經上升到國家戰略的高度,而基于相關技術推動經濟社會各領域從網絡化向數字化、智能化加速躍升已成為業界共識。
大數據技術已成為國家數字經濟的重要生產要素,數據采集、數據安全、數據開發利用、數據共享等一系列圍繞數據開展的產業鏈正在形成。緊貼市場走向,挖掘社會需求,為求職者理清職業規劃,為應用型高校的專業課程設置給出建議,為社會解決行業缺口,每一個育人者都責無旁貸。
本文通過對前程無憂網站中數據科學相關方向的招聘信息進行挖掘分析,繪制了數據科學行業的職業路徑圖,并對數據科學行業的職業方向進行了簡要說明。對于數據科學行業的技術類職位,學歷、經驗、技能均是該行業招聘單位考察的重點。
數據化的浪潮席卷使得傳統行業正在受到巨大挑戰,不論是個人求職者還是育人單位、用人單位,只有積極擁抱變化,不斷追蹤市場動態,緊貼技術走向,方能滿足社會需求,與世界保持同步。
參 考 文 獻
[1]長沙門戶網.國際數據公司(IDC)21日發布的報告預測[EB/OL].[2019-02-25].http://www.hncstv.com/keji/shuju/62231.html.
[2]祝建華.大數據時代的新聞與傳播學教育:專業設置、學生技能、師資來源[J].新聞大學,2013(4):129-132.
[3]李宗富,于佳會.國內檔案學專業人才需求現狀調查研究—基于2017年度“圖情招聘”微信公眾號招聘信息分析[J].檔案管理,2019(1):63-67.
[4]鄭月明.大數據背景下經濟類學生培養模式研究[J].教育教學論壇,2018(42):172-173.
[5]黃崑,王凱飛,王珊珊,等.數據類崗位招聘需求調查及對圖情學科人才培養的啟示[J].圖書情報知識,2016(6):42-53.
[6]周曉燕,尹亞麗.基于國內市場需求的大數據管理人才知識結構分析[J].情報科學,2017,35(1):29-34.
[7]何海地.美國大數據專業碩士研究生教育的背景、現狀、特色與啟示—全美23所知名大學數據分析碩士課程網站及相關信息分析研究[J].圖書與情報,2014(2):48-56.
[8]王曰芬,謝清楠,宋小康.國外數據科學研究的回顧與展望[J].圖書情報工作,2016,60(14):5-14.
[9]張俊峰,魏瑞斌.國內招聘類網站的數據類崗位人才需求特征挖掘[J].情報雜志,2018,37(6):176-182.
[10]黃山,劉學鋒,毛建華,等.基于關聯規則的大數據領域人才需求分析[J].工業控制計算機,2017,30(8):78-80.
[11] BAUMER B. A data science course for undergraduates:thinking with data [J]. The American Statistician,2015,69(4):334-
342.
[12] HARDIN J,HOERL R,HORTON N J,et al. Data science in statistics curricula:preparing students to“Think with Data” [J]. The American Statistician,2015,69(4):343-353.
[13] GONZALES B M. Computer programming for librarians: a study of job postings for library technologists [J]. Journal of web librarianship,2019,13(1):20-36.
[14] RAUF K H,DU Y F. What is a Data Librarian?:A Content Analysis of Job Advertisements for Data Librarians in the United States Academic Libraries [EB/OL]. [2018-07-31]. http://library.ifla.org/2255/1/139-khan-en.pdf.
[15]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009,29(z1):167-170.
[16] MIHALCEA R,TARAU P. TextRank: bringing order into texts [C]// 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona: DBLP,2004:404-411.
[17]中國高等教育.教育部:到2022年建成“互聯網+教育”大平臺[EB/OL].(2018-04-25). [2018.11.15]. https://www.sohu.com/a/229450035_273375.