


摘 要:近年來隨著經濟和信息科技的快速發展,中國各省市之間就業市場發展呈現出了嚴重的不均衡性。文章基于《中國統計年鑒》(2017)中的就業數據,設計了包含19個維度的指標體系,使用了主成分分析方法,對中國各省市的就業情況提取了3個主成分進行降維分析,使用了主成分得分對各省市就業情況進行了綜合排序。最后,得出了行業的分類信息,總結了3個層面的地區就業情況的總體特點與差異,并給出了成因分析。
關鍵詞:主成分分析;就業;PCA
中圖分類號:F241.4 文獻標識碼:A 文章編號:1008-4428(2018)06-0134-03
一、 引言
中國就業市場上充斥著信息不對稱的狀況,對于求職者而言,他們大多都對行業沒有清晰的認識,沒有明確的求職規劃,在求職中處于劣勢地位。同時全國就業市場又極度地發展不均衡,北上廣等一線城市牢牢占據榜首,每年吸引了大批年輕求職者,中西部常年吊車尾,每年都有大量人才流失。年輕勞力的缺失會使得經濟發展遲緩,并且會形成惡性循環,最終會造成極其嚴重的后果。因此,對我國就業情況進行分析,可以為求職者制訂職業生涯規劃提供依據,也可以為企業或政府機構調整相關戰略政策提供數據支持。
本文對我國31個省市的就業情況進行研究,在主成分分析的基礎上,使用主成分得分進行綜合排序。綜合得分函數越大,排名越靠前,反之亦然。根據分析結果,本文總結了3個方面就業狀況的總體特點與差別,并分析了差別的形成原因,總結了各個區域在就業市場上的優勢與不足。
二、 主成分分析相關理論
主成分分析法是指將數據中具有一定相關性的指標,重新組合成一組新的不相關的綜合指標來代替原來的指標。例如,在就業問題分析中有M個指標,主成分分析就是通過對這M個指標進行線性組合,最后得出新的綜合指標。對于選取的第一個線性組合,將其命名為F1,用方差來表示該成分的信息量。從理論上來說,F1的方差是最大的,故稱為第一個主成分。如果第一個主成分不能完全代表M個指標的信息,就考慮選取第二個線性組合。考慮到成分的有效性,此時在上一個主成分中出現過的信息不會再出現到第二個主成分中。以此類推,可以構造出第三,第四,……,直至第M個主成分。
主成分分析本質上是一種降維分析,在信息損失不多的情況下,將高緯數據轉換為幾個少數的主成分。在主成分提取中,通常選取累積貢獻率為85%作為閾值,取累積貢獻率不低于85%的前k個主成分,這樣既保證了信息的完整性,又成功地完成了對源數據的降維工作。本文將主成分分析用于就業狀況分析任務中,分析過程如下。
三、 基于主成分分析的就業狀況研究
(一)構建指標體系
在分析就業狀況之前,首先要構建合適的指標體系。本文基于2017年 《中國統計年鑒》,對我國各省市的就業情況進行了分析,選取了19個行業作為指標體系,分別為:X1(農、林、牧、漁業)、X2(采礦業)、X3(制造業)、X4(電力、燃氣及水的生產和供應業)、X5(建筑業)、X6(批發和零售業)、X7(交通運輸、倉儲和郵政業)、X8(住宿和餐飲業)、X9(信息傳輸、軟件和信息技術服務業)、X10(金融業)、X11(房地產業)、X12(租賃和商務服務業)、X13(科學研究和技術服務業)、X14(水利、環境和公共設施管理業)、X15(居民服務、修理和其他服務業)、X16(教育)、X17(衛生和社會工作)、X18(文化、體育和娛樂業)、X19(公共管理、社會保障和社會組織)。本文將各省市19個行業的就業數據作為源數據,進行就業狀況分析。
(二)主成分分析法的計算步驟
第一步,先對 19 個指標的原始數據進行標準化處理。使用X表示源數據,X*表示標準化后的數據。可以使用源數據的協方差矩陣表示數據之間的相關性,也可以使用標準化之后數據的相關系數矩陣來表示,二者的值是相同的。本文使用相關系數矩陣。
第二步,計算相關系數矩陣。
第五步,計算主成分系數。
從以上的分析可以看出,主成分分析的實質就是確定原來變量xj(j=1,2,…,m)在諸主成分Fi(i=1,2,…,m)上的荷載Iij(i=1,2,…,n;j=1,2,…,m)。從數學上可以證明,它們分別是相關矩陣m個較大的特征值所對應的特征向量。
第六步,計算主成分得分重新構建數據。
根據標準化的原始數據,按照各個樣品,分別代入主成分表達式,就可以得到各主成分下的各個樣品的新數據,即為主成分得分。具體形式可如下。依據主成分得分的數據,則可以進行進一步的統計分析。其中,常見的應用有主成分回歸,變量子集合的選擇,綜合評價等。
四、 實驗結果與分析
文章基于中國統計年鑒數據,使用MATLAB編碼實現了主成分分析,計算了特征值、差值、貢獻率、累計貢獻率、主成分系數和主成分得分等,計算結果如下。
(一)特征值、差值、貢獻率和累積貢獻率
計算相關系數矩陣R的特征值和特征向量,得到了如表1的實驗結果。根據累積貢獻率進行升序排列,可以看出第一個特征貢獻率最大,達到了62.43%;第二個特征貢獻率有 16.52%;第三個特征貢獻率是6.85%。根據特征值累計貢獻率大于 85% 確定主成分的為 3,提取了 85.81% 的信息(見表1)。
(二)主成分提取(見表2)
其中,主成分F1包括X1(農林牧漁業),X2(采礦業),X4(電力熱力燃氣及水生產和供應業),X6(批發和零售業),X7(交通運輸倉儲和郵政業),X8(住宿和餐飲業),X10(金融業),X11(房地產業),X14(水利環境和公共設施管理業),X16(教育),X17(衛生和社會工作),X18(文化、體育和娛樂業)和X19(公共管理、社會保障和社會組織),這些行業與人們生活高度相關,全面涵蓋了衣食住行、學習、醫療、娛樂和政府事務。因此本文將F1命名為個人生活類行業(見表3)。
主成分F2在X9(信息傳輸、軟件和信息技術服務業),X12(租賃和商務服務業),X13(科學研究和技術服務業),X15(居民服務、修理和其他服務業)等行業影響顯著,這些行業都屬于服務業,與人們生活相關,且X9和X13屬于高科技行業,因此本文將F2命名為高新服務業(見表4)。
主成分F3包括X3(制造業)和X5(建筑業),這些都屬于傳統行業,對工作者勞動力和熟練度要求很高。隨著日后我國平均教育水平的提高,從事這種勞動密集型產業的工作者會越來越少,相應的人力資源成本也會提高。本文將F3命名為勞動型傳統產業(見表5)。
(三)綜合得分
總得分排名情況分析,北京、江蘇、廣東、上海、浙江、天津、四川、福建等就業情況都很好,寧夏、青海、西藏、山西就業情況較差。其中,北京最好,山西最差(見表6)。
五、 結論
實驗結果驗證了文章的理論假設,就業市場發展具有地區不均衡性,其中,北京、江蘇、廣東、上海和浙江等地就業狀況良好的原因是多元化的。第一,這些地區在改革開放進程比內地和中西部地區要快,較早地完成了工業化,原始資本的積累使得這些地區相較其他地區更早地完成了產業轉型,由農業轉變成了工業,由工業轉變成了高科技服務業。第二,上述地區是互聯網等高新服務業發展的集中地,北京有今日頭條等互聯網名企,騰訊坐落在廣東,上海金融業比較發達,浙江有阿里巴巴等許多互聯網企業,人工智能和互聯網等高科技企業更多地會選擇這些一線城市,吸引了許多年輕求職者。第三,政策的傾斜也使得區域發展不均衡,其他地區如內地中西部應努力結合自身優勢,如鄭州結合自己身為交通樞紐的優勢,把物流作為自己的一大重點。貴州則緊貼大數據的潮流,努力把自身打造成數據之都。綜上所述,我國就業狀況總體良好,可將行業分為個人生活行業,高新服務業和勞動型傳統行業,其中北上廣浙等地就業形勢良好。
參考文獻:
[1]林海明,杜子芳.主成分分析綜合評價應該注意的問題[J].統計研究,2013(8):25-31.
[2]中華人民共和國國家統計局.中國統計年鑒(2017)[M].北京:中國統計出版社,2017.
[3]賴德勝,蘇麗鋒,孟大虎,李長安.中國各地區就業質量測算與評價[J].經濟理論與經濟管理,2011(11):88-99.
[4]丁守海.中國城鎮發展中的就業問題[J].中國社會科學,2014(1):30-47.
[5]范雪莉,馮海泓,原猛.基于互信息的主成分分析特征選擇算法[J].控制與決策,2013,28(6):915-919.
[6]譚亞芳,劉娟,王才華等.一種稀疏可控的主成分分析方法[J].計算機科學,2017,44(1):243-246.
[7]嚴碧峰.供給側改革背景下我國大學生就業狀況及促進對策研究[J].經濟研究導刊,2017(19):113-114.
[8]姚建平.多元視角下的城鄉低收入家庭就業狀況研究[J].社會保障評論,2017(2).
作者簡介:
王夢華,女,河南周口人,南京財經大學管理科學與工程學院碩士研究生,研究方向:信息管理與信息系統、數據分析。