屈弘揚,於志文,胥 皇,郭 斌
(西北工業大學 計算機學院,西安 710072)
?
基于職業社交網絡的職業軌跡分析與可視化
屈弘揚,於志文,胥 皇,郭 斌
(西北工業大學 計算機學院,西安 710072)
通過職業軌跡構建職業軌跡網絡,分析了網絡的拓撲結構和網絡特征,進一步根據軌跡中行業和空間信息對網絡核心進行了行業可視化和區域可視化,直觀地發現職業軌跡流動方向和特征,得出了職業軌跡變遷規律。分析結果顯示,職業軌跡網絡是一個稀疏網絡,拓撲結構呈現出蝴蝶結結構,流動方向上是以IT公司為核心進行職業流動。
職業軌跡;結構分析;可視化
近年來,社交網絡發展迅速,社交網絡的類型也同步增長,主要有:基于位置的社交網絡,如Foursquare[1];基于活動的社交網絡,如豆瓣同城;基于職業的社交網絡,如LinkedIn[2].與基于位置、活動的社交網絡相比,職業社交網絡作為一種更加正式化、商務化的社交網站逐漸引起研究人員的關注。
LinkedIn作為全球最大的職業社交網絡,擁有超過3億6千萬的用戶,涵蓋了22種語言。個人主頁包含了用戶職業、教育、社交等多方面的內容。公司主頁包含了公司介紹、招聘、新聞等內容。這些內容信息為研究職業社交網絡提供了大量的數據,成為研究職業社交網絡的基礎。
通過挖掘分析職業社交網絡中的信息,對于分析個人職業發展、人才市場、人力資源等方面有著重要作用。隨著全球化程度進一步提升,個人職業發展也從單一區域向多重區域擴展開來,分析個人職業軌跡為個人、公司發展建議提供依據。當前世界的競爭歸結于人才的競爭,通過分析職業軌跡,有利于把握人才的流動方向,更好地服務于人力資源管理。
分析挖掘職業社交網絡,一個重要方向是分析職業軌跡,即更換工作行為。職業軌跡能夠清楚地表示個人、公司甚至行業、區域的發展狀況。在人力資源管理、社會學學科方向,THOMAS et al[4]的研究是理論性地整合、擴展更換工作因素。該文研究結果豐富,但是這些結果缺少數據的支撐,需要通過數據進一步說明。目前在其他學科尤其是計算機學科也有對于職業軌跡的研究,YU et al[1]通過研究社交網絡挖掘個人與公司在就業市場上潛在的行為和關系,設計工作推薦系統,實現對工作的推薦。YE et al[2]的工作是通過挖掘職業軌跡,對職業相似性進行建模,發現不同個體職業軌跡中相似部分,為職業規劃、招聘等提出建議。XU et al[3]的工作通過挖掘LinkedIn和Foursqure兩個數據集的聯系,預測用戶職業變遷的時間。這些工作都是基于LinkedIn數據來完成的,然而,它們都缺少對職業軌跡網絡的分析,對于職業軌跡網絡的了解缺少直觀性。
筆者通過采集處理LinkedIn用戶軌跡數據和公司數據,構建職業軌跡網絡,并對職業軌跡網絡拓撲結構進行特征分析,從稀疏性、度特征、強連通核、蝴蝶結結構等方面分析職業軌跡網路的拓撲屬性,根據該網絡的特征和公司屬性數據,從行業分類和區域分類兩個方面對網絡核心進行了分析,并對行業進行可視化操作,說明職業軌跡流動的特性。
1.1 數據采集
LinkedIn作為全球最大的職業社交網絡,擁有數以萬計的用戶和公司信息。其中用戶數據信息包含了用戶名片、用戶背景、職業軌跡以及教育背景;公司信息包含了公司的背景、公司新聞、公司職位招聘信息。本文主要采用用戶個人信息、職業軌跡和公司背景信息來構造職業估計網絡的數據。
采集數據是通過用戶LinkedIn主頁,使用Web流采集用戶主頁的整體頁面信息。根據解析職業軌跡部分的頁面信息,獲得用戶職業軌跡中的公司接口,然后再通過Web流獲得公司信息的整體頁面。通過上述方法,共采集到157 857個用戶數據,56 570個公司數據。
1.2 數據處理
數據采集是通過Web流的方式獲得整體網頁的信息,這些信息含有較多的冗余信息,構建職業軌跡網絡,需要用戶個人信息、職業軌跡信息、公司背景信息。因此通過解析頁面來獲得相應的數據信息。
對于用戶數據,通過解析相應的頁面,分別獲得用戶的以下數據:用戶名、職業軌跡編號、公司名稱、就職起始時間、就職終止時間。如表1所示。這些數據構成一條職業軌跡,由于用戶在不同公司之間更換工作,同一用戶可以有多條職業軌跡。

表1 用戶信息
對于公司數據,通過解析公司背景頁面,分別獲得公司的以下數據:公司接口,公司名稱,公司類型,公司所在地,公司所在國家,如表2所示。

表2 公司信息
這兩種數據中,雖然數據量較大,但是仍有數據存在數據缺失。根據需要對數據進行過濾,保留信息完整的數據。在后續網絡可視化過程中,仍需對數據進行過濾處理。
2.1 網絡構建
通過采集處理數據,根據用戶的職業軌跡數據來構建職業軌跡網絡。但是由于存在部分用戶只有一條職業軌跡,或者用戶多條職業軌跡在時間上存在重疊,因此在構建網絡中選擇用戶的職業軌跡須滿足三個條件:a.用戶的職業軌跡至少為兩條;b.用戶兩條職業軌跡在時間上銜接;c.用戶兩條職業軌跡所在公司不同。
滿足上述條件的職業軌跡網絡為一個加權有向圖。因此使用G=〈Vf,Vt,Eft,Wft,f≠t,Tf≤Tt〉表示職業軌跡網絡。其中Vf表示一個公司端點f,Vt表示一個公司端點t,Eft表示從公司f跳槽到公司t,Wft表示邊Eft的權重,是從公司f跳槽到t的人次,Tf為在公司f就職結束時間,Tt為在公司t就職開始的時間。
2.2 特征分析
由于職業軌跡網絡G是一個宏觀的加權有向圖,那么它具有有向圖的特征。根據汪小帆[6]一書提供的網絡分析方法和igraph工具提供的接口,對職業軌跡網絡G提取了一些網絡特征。這些特征對G有直觀的了解,對于職業軌跡網絡的跨學科研究也具有一定的解析意義。
2.2.1 宏觀描述
對G的宏觀性進行描述。G共計1 241 138個節點,1 725 775條邊。G是一個稀疏圖。其中一條邊的權重最大,值為85,兩個節點分別為Nokia和Microsoft.邊權重最小值為1,共計1 693 374條。邊權重小于10,共計1 725 451條邊。
2.2.2 度分析
分析G的出度和入度特征。由于G為一個有向圖,因此G的度需要分為出度和入度。G中各個節點所有的出度總和與入度總和相同,出度、入度的平均度為1.46.根據入度和出度情況對G中節點進行分布統計。使用“雙對數”方法判斷入度分布和出度分布是否冪律化,如圖1,2所示。從兩個圖中發現,在度值更大時入度分布比出度分布更符合冪律分布。

圖1 入度分布Fig.1 The distribution of in degree

圖2 出度分布Fig.2 The distribution of out degree
2.2.3 拓撲結構
分析G中的連通巨片和蝴蝶結結構。根據度值大小升序排列節點,從度值為1開始依次增加,逐步刪除節點,計算新的網絡的強連通性。當G中最小度為126時,此時新的網絡是一個強連通圖。上述結果說明G中存在一個連通巨片,也就是存在一個強連通的核。通過分析G中其他節點,存在部分節點不通過該核能夠連通。其拓撲結構如圖3所示。該結構在文獻[5]中被稱為蝴蝶結結構,該職業軌跡網絡和WWW網絡具有相同的拓撲結構。

圖3 職業軌跡網絡蝴蝶結結構Fig.3 The bow-tie structure of career trajectories metwork
2.2.4 其他特征
通過igraph工具,對G的聚類性、同配性進行特征分析。其聚類系數為0.004,同配系數為-0.01,造成這兩個系數值偏低的原因是網絡中存在大量的度值較低的節點,這兩個特征再次說明G是一個稀疏圖。
在上一章節構建的職業軌跡網絡中存在一個強連通核,為更加直觀地了解該核心,需要對該核心進行可視化操作。
在分析職業軌跡網絡特征時發現度值較大的節點之間有向線的權重也較大。由于直接提取強連通核較為復雜,因此通過選擇權重較大的邊和節點來構造新的網絡。該網絡包含了強連通核心,但是在規模上比職業軌跡網絡G小的多。
本文主要通過ECharts工具來實現可視化。根據公司的屬性,從行業類型和區域兩個方面對數據進行分析,并對行業進行可視化處理。
3.1 行業分析與可視化
在數據處理時,已經提取了公司的類型這一屬性,共計38種。根據這些類型的特點,又劃分為10個大類。分別為IT、服務、科研、媒體、制造業、管理、健康、金融、娛樂、商業,如表3所示。
根據劃分的10種大類,以38種小類別作為節點,繪制行業之間流動的和弦圖,如圖4所示。其中節點的大小表示該節點流動的頻繁性,節點越大表示流動越頻繁。
如圖4所示,IT行業之間職業流動較頻繁,其中計算機軟件、IT信息服務、互聯網3種類型的公司居于首位,相比于其他行業,IT行業和科研、金融、管理行業之間的流動較頻繁。

圖4 行業之間流向和弦圖Fig.4 The chord diagram of industries

10種大類38種公司類型IT計算機硬件、計算機網絡、計算機軟件、電子消費、信息技術服務、互聯網、通信、微電子服務航空公司、酒店科研高等教育、科研所媒體廣告、廣播、報紙、在線媒體、媒體制作、出版商、攝影制造業汽車業、航空制造、工業制造管理人力資源、管理咨詢健康醫院、醫療設施、藥物金融會計所、銀行、資本市場、金融服務、投行娛樂娛樂公司商業零售、服裝、不動產、餐飲、貿易
和弦圖表示行業之間的流動性,但是沒有方向性。為了彌補這些不足進而繪制了行業之間流動的導向圖,如圖5所示。圖中節點大小表示流動的頻繁性,圖中流動具有方向性,不同節點之間的距離表示兩個節點之間流動的頻繁性,節點距離越近,節點之間流動越頻繁。

圖5 行業之間流向導向圖Fig.5 The guide graph of industries
通過圖5可以發現,IT行業中出現較大的重疊現象,說明這個行業內部流動性是很頻繁的,并且IT行業和科研之間的流動比其他行業之間流動性相比也是很頻繁的。
造成這一現象的原因首先是IT行業中的公司數量較多,通過統計抓取的數據發現IT公司占所有公司總數的38.1%,其次是發現IT從業人員的職業變遷頻率較高,統計個人職業變遷,IT人員跳槽次數平均為3.65次,而其他行業從業人員只有1.72次。由于圖中節點數量較多,部分節點出現重疊或者沒有連線的現象。為了更加直觀地表現IT行業之間流動的頻繁性,因此單獨對IT行業進行繪制導向圖,如圖6所示。

圖6 IT行業流向導向圖Fig.6 The guide graph of IT
3.2 區域分析
由于部分邊權重較低,并且這類邊所對應的節點度值也同樣較低,這對于分析主要區域職業的變遷造成干擾和影響,因此適當的刪除部分權重較低的邊和所對應的節點來方便對區域職業流動進行分析。
首先根據公司所在地,對區域之間職業流動情況進行分析。在處理數據過程中,發現大量公司所在地為美國,因此著重研究分析從美國流向其他國家,其他國家流向美國和其他國家之間相互流動三種流動模式。經過統計發現,區域之間職業流動中,這三種模式所占比分別為47%,42%,11%。因此美國成為職業流動的核心區域。
美國是區域跳槽主要的出發地和目的地。造成這一現象是因為在LinkedIn上注冊用戶和注冊公司以美國居多,其中IT、媒體、金融等行業中的眾多世界級大公司位于美國,這些公司雇員數量比其他公司在數量級上高出許多。
由于在分析區域之間流動時,只研究一條邊的兩個公司節點在兩個不同國家的情況,而區域內部的流動情況未充分研究,即一條邊的兩個公司出現在同一國家的情況。由于美國是區域之間職業流動的核心,因此對美國國內的職業流動情況進行統計分析。
通過統計分析發現,美國國內職業流動主要集中于美國大城市,尤其以華盛頓地區、紐約地區、舊金山地區和雷德蒙德地區為核心。87%的職業流動在這4個區域相互流動。經過數據統計發現造成這種現象的主要原因是華盛頓地區為美國的首都,紐約地區則是眾多媒體公司、金融公司的所在地,而舊金山地區的硅谷是大量IT行業公司的發源地,微軟總部坐落在華盛頓州的雷德蒙德。這一結果從側面也反映IT行業職業流動較大的特征。因此美國的內部職位流動受公司規模和公司所在地影響較大。
本文通過采集職業信息數據,構建職業軌跡網絡并對其拓撲結構進行分析,研究該網絡的拓撲性質,通過對職業軌跡核心的可視化,更加清晰直觀地展示了職業流動情況。本文對于職業軌跡網的分析和可視化工作,對于全面、直觀了解該網絡有較大幫助。根據本文的工作,下一步工作將著重于研究職業流動模式和用戶職業變化行為模式,進而挖掘公司、行業、區域的發展模式。
[1] YU C,XIE Yusheng,CHEN Zhengzhang,et al.Jobminer:a real-time system for mining job-related patterns from social media[C]∥ACM.The 19th ACM SIGKDD:International Conference on Knowledge Discovery and Data Mining,Chicago,USA,2013:1450-1453.
[2] YE XU,LI ZANG,ABHISHEK GUPTA,et al.Modeling professional similarity by mining professional career trajectories[C]∥ACM.The 20th ACM SIGKDD:International Conference on Knowledge Discovery and Data Mining,New York,NY,USA,2014:1945-1954.
[3] XU H,YU Z,XIONG H,et al.Learning career mobility and human activity patterns for job change analysis[C]∥IEEE.The 2015 IEEE International Conference on Data Mining,Atlantic City,NJ,USA.2015:1057-1062.
[4] THOMAS W H NG,KELLY L SORENSEN,LILLIAN T EBY,et al.Determinants of job mobility:A theoretical integration and extension[J].Journal of Occupational and Organizational Psychology,2007,80(3):363-386.
[5] ROBERT M,SEBASTIANO V,OLIVER L,et al.Graph structure in the web-revisited:a trick of the heavy tail[C]∥WWW.The Companion Publication of the 23rd International Conference on World Wide Web Companion.Switzerland:Republic and Canton of Geneva,2014:427-432.
[6] 汪小帆,李翔,陳關榮.網絡科學導論[M].北京:高等教育出版社,2012.
(編輯:賈麗紅)
The Analysis and Visualization of Career Trajectories Based on Professional Social Network
QU Hongyang,YU Zhiwen,XU Huang,GUO Bin
(SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710072,China)
This paper structures a career trajectories network by these trajectories and analyzes the topological structure and network characteristics of the network, then visualizes the network core according to the industry information and spatial information. It can discover the flow direction and characteristics of trajectories visually, and can be conducive to understanding career trajectories change law. The results show that the career trajectories network is a sparse network and the topological structure is of a bowknot shape. IT company is the center of trajectories.
career trajectories;structural analysis;visualization
1007-9432(2016)03-0394-05
2015-05-30
國家重點基礎研究發展計劃資助項目:城市大數據三元空間協同計算理論與方法(2015CB352400),國家自然科學基金資助項目:移動社交中感知數據收集的機會路由與交互式內容移交(61332005)
屈弘揚(1991-),男,碩士生,主要從事普適計算研究,(E-mail)qhy33966@mailnwpu.edu.cn
於志文(1977-),教授,博士生導師,CCF高級會員(E200008324S),主要從事普適計算和社會感知計算研究,(E-mail)zhiwenyu@nwpu.edu.cn.
TP391
A
10.16355/j.cnki.issn1007-9432tyut.2016.03.022