999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習模型的浙江省居民個人收入預測研究*

2022-11-30 10:33:36谷曉麗
統計科學與實踐 2022年9期
關鍵詞:特征模型研究

□王 立 谷曉麗 徐 璐

“擴中提低”是浙江高質量發展建設共同富裕示范區實施方案中最具標志性,也是群眾最為關注的問題。為實現以中等收入群體為主體的橄欖型社會結構,浙江省提出以九類群體為重點開展“擴中提低”行動方案。科學確定“擴中提低”重點對象,精準識別“擴中提低”對象特征,從微觀層面對居民個體收入進行研究是基本落腳點。

本研究具有三個層面的意義:在戰略價值上,共同富裕是社會主義的本質要求,是人民群眾的共同期盼。通過突破傳統抽樣調查方法的局限性,科學確定“擴中提低”范圍,可以為職能部門制定差別化收入分配激勵政策提供服務。在科研價值上,從數據和方法上對傳統研究進行創新,基于大數據環境分析共同富裕發展演變的復雜性機制,揭示共同富裕基本規律,模擬推演分配政策改革的效果,將關于共同富裕的研究推向國際一流水平。在應用價值上,通過建立科學的評價標準和監測體系掌握全國居民收入水平增長、生活質量的穩步提升和收入分配狀況相關數據,將有助于準確反映全體人民共同富裕實現程度,更加準確監測評價共同富裕的推進進程。

|文獻綜述

從目前研究來看,國內外學者關于居民收入水平預測進行了不同程度的研究。由于較難獲取個人的收入、財產和個性化特征,研究中普遍使用基本人口特征,比如將年齡、職業、性別、工齡等作為影響因素進行預測,對收入波動的解釋力度較弱(Dominitz,1998;Das and van Soest,1999)。不過,在針對 大學畢業生收入的預測研究中,學者發現在校學生的GPA 對其畢業起始收入產生決定性影響(Thomas,2000;Smart,1998;Chia and Miller,2008)。近年來,隨著人工智能和大數據的發展,眾多學者開始利用機器學習模型提高變量對收入水平與貧困程度的預測能力。Kibekbaev,and Duman,(2016) 基于5 個數據集對比分析線性與非線性回歸方法發現,線性與非線性模型的組合在預測收入上效果更優。Li et al(2021)基于人口與健康抽樣調 查(DHS)數據,發現通過XGBoost 模型篩選的變量可以較好地區分農戶貧困程度。郭鑫(2019)在居民收入預測研究中提出在SVM 和KNN 組合算法上再根據KNN 樣本點的選取規則的不同分成KSVM1 和KSVM2 兩種算法,通過實驗對比,兩種新算法都比單純使用SVM 算法分類準確率上有所提高。同時,在數據選取上,近些年研究嘗試結合遙感數據,比如天氣、氣候與植被數據、土壤和作物生產情況、日間或夜間衛星影像等。Jean et al.(2016) 首次應用深度學習方法,基于日間衛星影像數據,結合遷移學習搭建卷積神經網絡,成功捕獲到55%-75%的資產財富的波動。Yeh et al.(2020) 指出由于夜晚燈光數據在很多樣本地區(特別是貧困地區)的分布并不均,且波動程度有限,因此利用日間衛星傳感數據預測資產收入情況。后續研究將從遙感數據引入更多的指標來實現更為精準的預測,比如針對農戶收入預測中,NDVI和solar -induced chlorophyll fluorescence (SIF) 表現出良好的顯著性(Tang et al.,2021)。

|浙江省居民收入預測指標體系構建

本文選取浙江省常住人口作為研究對象,數據主要來自浙江省第七次人口普查(長表)信息和其他廳局信息。考慮到18 歲以下和60歲以上群體以及在校學生群體收入來源不穩定,研究主要針對18-60歲之間人群,一共包含3571425 條記錄。

依據度量的維度,劃分為人員、家庭和環境三個維度:(1)人員維度包含基本信息(性別、人員類型等)、教育程度、婚育情況、居住信息(居住地行政區劃代碼)、工作情況(是否繳納社會保險、上周工作時長等)、資產情況(個人擁有不動產價值、小汽車價值等);(2)家庭維度包含資產情況、家庭維度(家庭男性占比、小孩占比、家庭最高學歷等);(3)環境維度包含行業情況(行業代碼、行業平均工資)、地區情況(所在區域人均GDP)。

針對缺失值數據,從不同維度方面采用不同空值填充方式,如:類別型字段,常采用眾數填充;數值型字段,采用均值填充較多;以家庭為維度的字段,采用家庭維度的字段度量值填充空值。

|浙江省居民收入預測模型研究

基于以上數據,本研究運用LightGBM 模型對浙江省居民收入進行預測。考慮到訓練集樣本各類型人群分布不均衡問題,研究運用SMOTE 算法人工生成樣本予以修正。

(一)算法簡介

1.LightGBM 算法。LightGBM 主要解決了XGBoost 通過預排序尋找特征最佳分裂點占用空間大的問題。其中,尋找最佳分裂點的算法復雜度可以表示為:

復雜度=特征數量×特征分類點的數量×樣本數量

復雜度的表達形式決定了LightGBM 主要從特征數量、特征分裂點的數量和樣本數量三個角度進行優化:為減少特征分裂點的數量和更加高效尋找最佳特征分裂點,LightGBM 采用Histogram直方圖的算法尋找最佳特征分裂點。直方圖算法可以很大程度上降低內存消耗,降低數據分割的復雜度。為了減少樣本數量,LightGBM 采用GOSS 算法將訓練過程中大部分權重較小的樣本剔除,僅對剩余樣本數據計算信息增益。為減少特征數量,LightGBM采用EFB算法通過將兩個互斥的特征捆綁在一起合為一個特征來降低特征的維度,從而加速模型訓練。

2.SMOTE算法。SMOTE(synthetic minority oversampling technique) 是一種綜合采樣人工合成數據算法,用于解決數據類別不平衡問題。傳統的處理不平衡數據集的采樣方法主要有隨機欠采樣和隨機過采樣。隨機欠采樣是指隨機地移除部分多數類樣本,但該方法可能會丟失部分有用的信息,導致分類器性能下降。隨機過采樣則是隨機的復制少數類樣本,使得數據的類分布平衡,但該方法由于反復復制少數類樣本,增加了分類模型過擬合的可能性。為解決上述問題,提出了SMOTE 方法,該方法通過在數據中增加人工合成的少數類樣本使類分布平衡,降低了過擬合的可能性,提高了分類器在測試集上的泛化性能。

(二)變量篩選

研究共選取39 個原生變量(數值型變量28 個,類別型變量11個),經過編碼處理,共有106 個變量作為模型的初始輸入。篩選分為三個步驟:(1)首先觀察樣本的分布情況,并刪除樣本分布極不均衡的變量。該過程刪除了三個變量:住房類型、戶別和是否識字。(2)進而根據變量相關性進行篩選。通過計算相關系數,篩選出相關性大于0.8 的兩變量(共8 對),并保留其中一個,其刪除與保留情況見表1。(3)最后刪除對模型預測結果無貢獻或者低貢獻的變量,其中刪除了57 個重要性低于0.8 的變量,最終49 個變量得以保留,并最終用于模型訓練。

表1 變量相關性檢驗

(三)模型訓練

研究首先運用SMOTE 算法將類別分布不均衡的原生樣本人工合成樣本,進而隨機劃分為訓練集和驗證集,運用LightGBM 算法對驗證集進行預測分析。從回歸指標對比來看,LightGBM 算法的RMSE(均方根誤差)、MAE(平均絕對誤差)、MAPE(平均絕對百分比誤差)和R-Square(R2擬合優度)分別為21026.57、13323.85、12.92、0.59,SMOTE 與LightGBM組合算法對應值為 28402.55、17024.50、17.28、0.87,顯然通過SMOTE算法重采樣處理 后,R2提升了47.5%,這意味著模型擬合程度得到大幅度提升。因此,模型最終選用SMOTE 與LightGBM 算法結合進行訓練。

最終,模型輸出重要性排名前21 個變量:人均GDP(0.1124)①括號中數值代表重要性程度。、職業平均工資(0.0996)、年齡(0.0870)、人員類型(0.0505)、行業平均工資(0.0402)、個人均有不動產面積(0.0337)、家庭不動產面積(0.0318)、個人擁有不動產價值(0.0260)、家庭人均擁有汽車價值(0.0254)、家庭人均擁有汽車數量(0.0253)、家庭男性比例(0.0240)、家庭最高教育水平(0.0229)、家庭中低教育人員占比(0.0228)、家庭擁有汽車價值(0.0223)、個人擁有汽車總價(0.0168)、家庭規模(0.0164)、是否繳納養老保險(0.0144)、家庭人均不動產數量(0.0141)、是否居住在杭州(0.0137)、行業是否屬于建筑業(0.0117)、家庭小孩占比(0.0114)。

|浙江省居民收入分布畫像與影響因素分析

(一)居民收入分布總體畫像

經模型預測,浙江省居民人均收入為61892.49 元,收入主要集中在0-10 萬元,占比為76.28%。從人員類型分布來看,個體工商戶、低收入農民、農民工、企事業單位人均可支配收入水平分別為12.63萬元,1.99萬元,10.38萬元和8.66萬元。浙江省各地級市人群分布與對應的平均收入如圖1 所示,其中杭州市居民平均收入最高,為6.9 萬元;嘉興市、寧波市、金華市緊隨其后,為6.4 萬元;而衢州、麗水市居民平均收入偏低,為4.8 萬元。

圖1 居民平均收入區域分布

從預測結果來看,金華市平均收入偏高,初步分析是由于抽樣調查數據(訓練集)偏高導致的。經測算,金華市的個體工商戶和農民工兩類人群平均收入偏高,所以在最終模型預測過程中會拉高金華市平均收入的預測值。

(二)居民收入影響因素分析

模型挖掘出影響居民收入的重要因素包括:(1)所在區域的人均GDP。區域人均GDP 與居民收入成正比,是衡量一個地區的經濟實力和人民富裕程度的一個重要指標。(2)年齡與初婚年齡。不同年齡及初婚年齡的人群,收入水平也會存在很大差異,是影響收入的重要因素。(3)行業薪資。隨著居民的收入水平差距不斷擴大,行業薪資水平差距對居民收入水平差距的影響日漸凸顯出來。(4)個人擁有不動產總面積與家庭擁有不動產總面積。人均收入不斷增長,意味著個人擁有不動產價值和家庭擁有不動產價值的積累。(5)上周工作時長。很多企業項目按期交付需要企業人員有償加班,這部分額外收入也就算入人員每月收入來源之一。(6)家庭人均擁有汽車數量與個人擁有汽車總價值。居民購買力的不斷提高,為汽車行業的快速發展提供了良好的外部環境條件和巨大的市場空間。(7)家庭中低學歷與家庭最高學歷。家庭中低學歷人員占比是一個家庭中教育文化的基準水平線,可以從側面反映出家庭人均收入水平,而家庭最高學歷可以預估出一個家庭中成員最高收入水平,所以家庭成員的教育水平也是收入的影響因素。

|結論與建議

(一)主要研究結論

本研究基于浙江省統計局“全面覆蓋+精準畫像”數據庫,從人員、家庭、社會環境三個層面構建浙江省居民收入預測指標體系,并結合抽樣調查數據形成部分群體收入標簽,構建浙江省居民年收入預測分析模型。進而運用機器學習算法利用有限樣本標簽對常住人口個體收入進行預測,對浙江省居民收入總體分布、群體畫像和影響因素分析提供科學依據。研究主要得出以下結論:

一是城市的高質量發展是決定區域居民收入水平的關鍵因素。通過研究的特征重要性排序分析,研究證實區域發展水平(人均GDP)是影響程度最高的因素。二是居民個人與家庭特征進一步決定了個體收入差距。研究發現個人和家庭層面的特征,包括行業、職業、年齡和初婚年齡、不動產與汽車擁有價值、上周工作時長、家庭整體學歷水平等是預測收入的重要影響因素。三是研究針對部分特征存在缺失嚴重、分布不均衡、變量相關性高、重要程度低等問題,進行逐一篩選,最終獲得高質量、低冗余特征進行模型構建;研究針對訓練集標簽在人員類型分布不均衡的問題,運用SMOTE 算法進行重采樣,通過人工生成均衡樣本進行訓練;研究考慮到特征與收入的非線性關系,同時數據量大的特點,選擇機器學習集成算法中輕量級梯度提升決策樹算法進行預測分析,最終得到預測精度較高的居民收入預測模型。

(二)對策與建議

1.人均GDP 是地區經濟社會發展程度的客觀反映,人均GDP 對居民個人收入水平的高影響力意味著加快城市高質量發展是提高居民收入,提升居民生活水平的主要路徑。

2.研究發現居民行業、職業、工作時長等關鍵信息在居民記錄中仍存在缺失,建議加強對居民收支情況的統計,完善統計調查制度,提高調查覆蓋面,以獲得對全量居民收入更為精準的預測。

猜你喜歡
特征模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
EMA伺服控制系統研究
抓住特征巧觀察
主站蜘蛛池模板: 国产精品色婷婷在线观看| 国产高清不卡| 手机在线国产精品| 黄色国产在线| 久久不卡国产精品无码| 中文国产成人精品久久| 伊伊人成亚洲综合人网7777| 97超爽成人免费视频在线播放| 青青青国产视频| 国产精品片在线观看手机版| 国产主播在线观看| 无码综合天天久久综合网| 国产精品九九视频| 女人18毛片久久| 午夜激情婷婷| av无码一区二区三区在线| 丝袜无码一区二区三区| 欧美国产综合视频| 亚洲一欧洲中文字幕在线| 另类重口100页在线播放| 91毛片网| h网址在线观看| 22sihu国产精品视频影视资讯| h网址在线观看| 欧美在线黄| 女人毛片a级大学毛片免费| 亚洲成人黄色网址| 国内精品久久久久久久久久影视 | 亚洲国产精品人久久电影| 亚洲精品成人福利在线电影| 亚洲午夜片| 亚洲视频在线网| 欧美一级夜夜爽www| 综合久久五月天| 草逼视频国产| 免费一极毛片| 草逼视频国产| 一级毛片在线播放| 91精品视频在线播放| 中文国产成人久久精品小说| 久久99国产综合精品1| 福利在线不卡一区| 成年人免费国产视频| 久996视频精品免费观看| 青草视频在线观看国产| 久热中文字幕在线观看| 丝袜无码一区二区三区| 欧美一区二区精品久久久| 国产中文一区a级毛片视频 | 色国产视频| 亚洲中文精品久久久久久不卡| 国产亚洲高清在线精品99| 色综合激情网| 美女一区二区在线观看| 亚洲国产成人综合精品2020| 亚洲国产精品人久久电影| 国产性爱网站| 婷五月综合| 99热这里只有精品国产99| 欧美一区二区三区国产精品| 精品久久久久久久久久久| 露脸国产精品自产在线播| 欧美成人二区| 欧美精品亚洲精品日韩专| 国产sm重味一区二区三区| 日韩欧美国产综合| 精品国产成人国产在线| 一级毛片在线播放免费观看| 伊在人亚洲香蕉精品播放| 欧美黑人欧美精品刺激| 日韩欧美国产成人| 日韩毛片视频| 精品欧美一区二区三区在线| 亚洲精品福利网站| 国产乱人视频免费观看| 亚洲国产成人久久精品软件| 在线观看免费黄色网址| 国产福利不卡视频| 国产麻豆精品久久一二三| 亚洲无码视频图片| 99热这里只有精品免费| 色综合激情网|