王燦



摘 要:為充分挖掘成都市流動人口包含的信息,對流動人口基本數據進行統計分析,并基于層次密度對流動人口進行聚類和影響因素的關聯規則挖掘。結果顯示,流動人口的聚類和經濟圈層的劃分是一致的。
關鍵詞:流動人口;數據挖掘;聚類;關聯規則
中圖分類號:C923? ? ? ? 文獻標志碼:A? ? ? 文章編號:1673-291X(2020)03-0129-03
引言
2019年3月成都市召開了“流動人口服務管理工作推進會議”,這與成都市的經濟改革密切相關,比如“改革創新、轉型升級”“五大興市”等各項改革措施的頒布和實施,隨著這些發展工作的推進,本身就作為西南地區的中心城市的成都又躍然成為我國“新一線”城市,勢必會成為流動人口的“吸鐵石”。面對新的形勢,如何正確面對流動人口的現狀和問題刻不容緩。從“推—拉”理論角度出發,人口的流動直觀上就是從成本和效益出發,這種決策取決于流入地的機會和流動人口自身的發展需求。作為流動人口的接納地,運行城市首先要有接納的能力,做好相應的管理服務工作,才能當好“東道主”。目前國內學者對流動人口的研究比較全面,比如對流動人口的規模變化、空間分布、機制形成、社會保障等各方面都有了深入的分析,然而為更具體地討論區域人口流動問題,從大量的數據本身出發,深層次挖掘基本信息,為中心城市的建設提供數據支撐將更有意義。
一、區域數據概況
成都又稱蓉城,是一所副省級城市,管轄22個區縣(含代管),經濟圈層可分化三個層級,一是中心層,包含錦江區、金牛區、青羊區、成華區和武侯區五個主要中心城區;二是以溫江區、郫都區、龍泉驛區、雙流區、青白江區等為代表的二環圈層;其余管轄區縣為第三層。近年來在經濟、醫療、旅游、交通運輸、教育文化等方面,根據改革方案不斷優化,以近三年幾項主要數據為例,具體(如圖1所示)。可見,發展成績是矚目的,這是成都市人口數量出現“孔雀開屏”現象的一大契機。
人口的崛起是成都市“彎道轉車”飛速發展的機會,因此做好人口的服務和指引尤為重要。根據流動人口動態監測數據報告,結合成都市統計局和成都市流動人口信息數據庫,整理得出基本數據(如下頁表1所示)。
根據流動人口基本數據統計分析,成都市流動人口占總比增高,也逐漸向外擴散,在程度上實施經濟戰略初期,流動人口主要聚集在中心主城區,隨著經濟改革重心的轉移,流動人口也逐漸向第二三圈層遷移。從性別分布來看,流動人口男女比例逐漸持平,且越來越多以家庭式模式進行流動;從受教育程度上看,流動人口受高等教育的比例也在逐漸提高,這使得該類人群的收入增加,同時文化融入和社會認同感較以往明顯好轉,作為成都市建設的一支生力軍,流動人口這個群體越來越不可或缺,因此做好相應數據的信息挖掘十分必要,以保證為成都市的發展不斷注入新鮮血液。
二、聚類分析
為甄別討論流動人口與社會經濟關系,將借助聚類這一無監督學習方法進行充分的信息挖掘。目前常用的聚類算法需要把變量轉化為區間標度,或對數據進行標度處理,最終獲得數據間的距離,根據距離大小來實現聚類分析,然而這種聚類容易出現不穩定性。結合成都市的行政區域劃分,根據流動人口的居住地、居住時間、學歷結構和來蓉原因等,把流動人口數量劃分為不同層次,為避免聚類中心點不在一個不存在的行政區域內,提出一種新的密度聚類。算法思路是:首先,建立平衡決策樹,在各結構上進行編碼;其次,以決策枝為層次節點,順次遍歷各支編碼;最后,以層次點的密度為中心得出聚類中心。
利用這種聚類算法可以實現流動人口與社會經濟數據的自動聚類,從而進行相關分析工作。算法實施前請工作在人口管理服務第一線的專家們進行定性分析,稍微調整聚類結果,以得到更加符合實際情況的結果。這樣由基本聚類算法的定量,再到結合實際工作的定性研究,把成都市流動人口按區域聚為四類,結果(如表2所示)。
由聚類結果已把成都市流動人口聚為四個類別,然而各類別和其他因素間的關聯規則還不明確,因此需要對影響流動人口聚類的因素進行關聯挖掘。
三、關聯規則挖掘
為全面挖掘各因素之間的關聯規則,首先建立指標量化后的多維數據集,確定每一個事務的唯一標識,把元組分為維部分和項集部分,然后進行兩步規則挖掘,第一步是挖掘維度模式的信息,旨在找出頻繁項集,第二步利用改進的BUC算法挖掘多維模式的頻繁項集,首先對第一維的元組進行排序,其他不相關的維度允許是任意的組合,然后不斷重復該步驟,只是開始維度不同,隨著迭代次數增加每次維度都減少一維,搜索過程持續簡化,具體算法思路(如圖2所示)。
為方便數據庫的建立,首先把各因素指標進行標準量化,結合各區縣與人口流動密切相關的經濟、交通旅游、教育文化和生產生活等自然環境指標做為體系建立,確保所構建的指標體系更加符合實際情況。其中,樣本矩陣表示如下:
樣本之間的遠近關系是規則挖掘的關鍵,因此在建立事務數據庫前先利用“歐式距離”把個體間的差異測度化,就是把成都市所管轄的22個區縣看成多維集中的空間點。其中,事務數據集計算距離的公式為:
上式中,i,j=1,2,…是參與流動人口聚類的區縣,m=1,2,…,n是系統維度數。優化后的距離模型,可以得到一個對角方陣。這樣的距離描述了不同區縣之間的密切關系,距離越大表示因素關聯規則越強,對應的類別之間的關系也越緊密。該關聯事務矩陣表示為:
建立好基基礎事務集后,接下來就將在大型數據集中進行信息的“挖掘淘金”,雖然關聯不意味著因果關系,但被挖掘出來的“金子”就是一些有價值、有意義的規則,以明確開始不能準確表達的基本信息,而這也是進行數據挖掘的根本目的。由Python語言實現算法,得出關聯規則結果(如表3所示)。
由關聯規則挖掘結果可見,影響流動人口變化的主要因素和各類別對應的經濟發展主題密切相關,且關聯因素并不單一,而是多因素綜合作用。
結語
根據聚類結果,成都流動人口聚為四類,同成都經濟圈層劃分相擬合。類區域是經濟發展較高的主城區,最好的教育、醫療和合理的產業結構、便利的交通使其成為流動人口的較高集聚區;類區域由社會經濟發展相對較高“二圈層”城區組成,該區域合理的房價收入比和持續發展的經濟、教育和醫療等方面提供了較多的就業機會,使其成為流動人口聚焦區;類區域包含了經濟發展水平相對較低的“三圈層”城區,該類區域旅游及相關產業的發達吸引著大量流動人口;類區域是社會經濟發展水平相對欠發達的區縣,造成部分流動人口邊緣化聚居。從影響因素關聯規則挖掘結果看,類區域流動人口的聚集受交通運輸和工作崗位的提供影響比較大,結合實際情況來看這也是人口流動和經濟關聯的主體結果;類區域是成都市經濟戰略實施對象的重點,尤其是高等教育的發展,高校在該類區域的云集和相對較低的房價,是人口流動聚集的不錯選擇;類區域是成都市旅游行業發展的重點對象,由此與人口流動的關聯影響比較顯著;類區域是成都市邊緣區縣,經濟發展相對其他三類沒有明顯優勢,但較低的消費指數吸引著勞務型人口的流動。
經濟的發展使成都成為流動人口的集聚區,流動人口無疑又促進了經濟的發展,流動人口的聚類和成都經濟圈層劃分相擬合,結合影響因素的關聯規則挖掘,課件聚類區域的聚集劃分不僅能反映成都市流動人口的空間分異化,更在一定程度上體現流動人口聚集與經濟發展水平的一致性。
參考文獻:
[1]? 成都市人民政府官網,http://www.chengdu.gov.cn/chengdu/index.shtml.
[2]? 郭田勇.我國流動人口規模為何先增后減[J].人民論壇,2019,(5):70-72.
[3]? 杜良杰,周怡.流動人口參與城市“三變”改革的路徑構建[J].經濟研究導刊,2018,(30):135-136.
[4]? 張少堯,時振欽,宋雪茜,鄧偉.城市流動人口居住自選擇中的空間權衡分析——以成都市為例[J].地理研究,2018,(12).
[5]? 馬志飛,尹上崗,張宇,李在軍,吳啟焰.中國城城流動人口的空間分布、流動規律及其形成機制[J].地理研究,2019,(4):926-936.
[6]? 馬銀坡,陳體標,史清華.人口流動:就業與收入的區域差異[J].農業經濟問題,2018,(5):80-91.
[7]? 莫旋,易雨瑤,謝曉.衡陽流動人口社會保障狀況及影響因素研究[J].現代商貿工業,2019,(26):86-87.
[8]? 郭長帥,卓建偉.基于數據挖掘算法的流動人口定居意愿研究[J].管理現代化,2019,(3):81-86.
[9]? 劉濤,陳思創,曹廣忠.流動人口的居留和落戶意愿及其影響因素[J].中國人口科學,2019,(3):80-91.