范志鵬 馬泉梅 鄭鏗城
小康社會的本質問題與城鎮化發展的實質具有共通性,即均是共同致力于構建一個相對富裕且穩定良好的高質量經濟發展水平國家,根本宗旨是為了能夠促進全國人民公平共享我國的社會主義現代化偉大成果。本文通過采用“主成分分析方法”和“LightGBM 算法”,結合中國近20 年相關統計數據,對中國小康社會的發展情況進行評價,并以上海為例,分析如何提高小康化水平,帶動經濟可持續發展。
20 世紀70 年代末開始的改革開放大大促進了中國經濟的發展,提高了人們的生活水平,提升了國家實力。隨著21 世紀的到來,人們對小康社會的要求也逐漸強烈,本文通過“人均國內生產總值”“人口老齡化比重”“人口勞動力數量”“全社會固定資產投資額”“進出口額”“居民消費價格指數”“醫療衛生機構個數”“碳氧化物排放量”“城市綠地面積”指標數據在近20 年的變化,來衡量中國小康社會的發展,探索我國全面建成小康社會過程中的成功經驗。本文所選擇的指標分別屬于不同的分類級別,具體如下圖所示。

圖1:全面建成小康社會指標構建
結合國家統計年鑒、地方統計年鑒等官方數據,總結歸納諸如我國各省份全面建成小康社會完成難度系數、完成比例及未來可持續發展能力等在內的多重指標對各省份全面建成小康社會總體情況進行合理的評價與排序。選擇上海作為研究城市。選取數據指標為:“總人口(萬人)”“進出口額(千美元)”“地方財政一般預算收入(億元)”“地方財政一般預算支出(億元)”“居民消費價格指數(上年=100)”“城市綠地面積(萬公頃)”“普通高等學校數量(個)”“醫療衛生機構個數(個)”“參加失業保險的人數(萬人)”。選取近20 年數據。
結合上述考慮的因素,利用主成分分析的方法,研究我國逐步進入小康社會的歷程,并結合各數據的情況,對未來小康社會將要面臨的問題做出分析,提出未來20年可持續發展的思路。由于各變量間可能存在相關性,因此采用主成分分析法,降低變量維度,并進行評分。
(1)數據標準化


表1:衡量小康社會發展的因素相關性分析表
(3)計算特征根與特征向量。計算相關系數矩陣R的特征根:λ1≥λ2≥…≥λn≥0,及對應的特征向量u1,u2,…,um,其中:
uj=[u1j,u2j,u3j,…,umj]T,由特征向量組成m個新的指標變量:

式中:1y為第一主成分;y2為第二個主成分,……,ym為第n 個主成分。
計算特征值λj(j=1,2,……,m)的信息貢獻率和累計貢獻率。稱:

為主成分yi的信息貢獻率,同時有:

利用Matlab 進行編程,計算三個評價指標特征根以及其所對應貢獻率為:

表2:主成分分析中貢獻率結果表
由此可以看出前四個特征根的累積貢獻率已經達到了98%以上,主成分分析效果很好。因此選取前四個主成分進行綜合評價。
最后,分別以四個主成分貢獻率作為權重,計算綜合得分:

得到2000—2020 年的得分走勢圖如下:

圖2:小康社會的綜合得分走勢圖
從圖2 可以看出,近20 年內,中國小康社會的得分值是呈現一個上升的趨勢,中國小康社會的發展穩步提升。雖然國內外形勢都會對小康社會的發展帶來影響,但只要政府積極調整政策,探索符合可持續發展的戰略模式,有利于中國經濟社會更長遠地發展。
這里我們使用人均GDP 作為衡量一個城市全面建成小康社會的重要指標,因此論證分析圍繞人均GDP 的主要影響因素展開。本文采用的是LightGBM 算法,通過定量分析的方法,針對人均GDP 的問題進行建模分析,可歸納為如下公式:

首先我們針對人均GDP 進行機器學習建模,在對比了解決回歸問題的機器學習算法(主要包括最近鄰算法,SVR,多元線性回歸)優缺點后,我們決定采用LightGBM 算法,一種基于梯度提升樹框架的實現。
本文圍繞LightGBM 算法一些特性展開:
1.合并互斥特征。LightG 關于互斥特征的合并用到了直方圖(Histogram)算法。直方圖算法的基本思想是先把連續的特征值離散化成k 個整數,同時構造一個寬度為k的直方圖。在遍歷數據的時候,根據離散化后的值作為索引在直方圖中累積統計量,當遍歷一次數據后,直方圖累積了需要的統計量,然后根據直方圖的離散值,遍歷尋找最優的分割點。Histogram 算法的優勢主要體現在:
2.減少分割增益的計算量。通過直方圖相減來進一步地加速模型的訓練:在二叉樹中可以通過利用葉節點的父節點和相鄰節點的直方圖的相減來獲得該葉節點的直方圖。
3.減少內存的使用。
4.減少并行學習的通信代價。
5.Leaf-wise 的決策樹生長策略。LightGBM 通過leafwise 策略來生長樹。每次從當前所有葉子中,找到分裂增益最大的一個葉子,然后分裂,如此循環。因此同Levelwise 相比,在分裂次數相同的情況下,Leaf-wise 可以降低更多的誤差,得到更好的精度。但是,當樣本量較小的時候,leaf-wise 可能會造成過擬合。所以,LightGBM 可以利用額外的參數max_depth 來限制樹的深度并避免過擬合。

圖3:LightGBM 節點分裂圖
通過LightGBM 算法分別進行建模分析,結果發現,人均GDP 問題可歸為回歸問題,其本身不含有分類標注。對于該類回歸問題,其輸出空間B 是一個度量空間,即所謂“定量”。可歸納為,回歸問題的輸出空間定義了一個度量去衡量輸出值與真實值之間的“誤差大小”,諸如均方誤差等此類誤差函數。
本文使用的評價標準為MAE(Mean Absolute Error)。平均絕對誤差MAE 是絕對誤差的平均值,該定義如下:

若MAE 越小,則表明模型預測越準確。人均GDP 的模型訓練曲線隨著迭代次數的增加,不斷降低,說明其誤差越來越小,可以根據該算法所訓練的模型進行未來的人均GDP 預測,并通過該算法確定影響全面建設小康社會的重要特征,然后對特征進行排序及評價。
我們分析研究影響當地人均GDP 的主要因素使用LightGBM 算法的特征重要度分析方法,這是Friedman 在GBM 的論文中提出的方法:
特征j 的全局重要度通過特征j 在單棵樹中的重要度的平均值來衡量:

其中,M 是樹的數量。特征j 在單棵樹中的重要度如下:

其中,L 為樹的葉子節點數量,L-1 即為樹的非葉子節點數量(構建的樹都是具有左右孩子的二叉樹),tv是和節點t 相關聯的特征,是節點t 分裂之后平方損失的減少值。
本文選取了相對具有良好的數據表達能力的上海地區的多個數據集進行建模分析。就上海地區而言,上海屬于國際一線城市,當地資源設施在全國范圍內也是翹楚。從特征重要度圖可以得出,其居民消費價格指數以及總人口數的重要度得分相對較高,而地方財政一般預算支出,城市綠化情況的特征重要度得分為0;基本可以判斷城市的綠化對人均GDP 在發達地區是不適用的。相反,“總人口(萬人)”“進出口額(千美元)”“地方財政一般預算收入(億元)”“地方財政一般預算支出(億元)”“居民消費價格指數(上年=100)”“城市綠地面積(萬公頃)”“普通高等學校數量(個)”“醫療衛生機構個數(個)”“參加失業保險的人數(萬人)”等該類特征對人均GDP 影響較大,對居民消費價格指數以及總人口數影響最大。可見,在小康社會發展過程中,影響權重比較大的因素將會發揮更大的作用,需要在政策制定過程中重點關注。
本文通過“人均國內生產總值”“人口老齡化比重”“人口勞動力數量”“全社會固定資產投資額”“進出口額”“居民消費價格指數”“醫療衛生機構個數”“碳氧化物排放量”“城市綠地面積”這些指標數據在近20 年的變化來分析小康社會的發展,采用主成分分析法進行分析,得出中國近20 年的小康社會得分值,得分上總體呈現上升趨勢,趨勢發展良好。本文同時使用人均GDP作為衡量社會發展的重要指標,并針對該指標進行回歸模型分析,模型使用了工業界常用的LightGBM 算法。對連續20 年的上海地區的統計數據進行模型訓練,并對訓練曲線進行可視化展示;鑒于LightGBM 算法的特性,繼而使用了特征重要度法衡量統計數據中的特征的重要度影響,分析各指標對上海全面建成小康社會總體的影響并進行合理的評價與排序。基于以上研究結論,本文認為,當前我國小康社會進程發展趨勢良好,但隨著國內外環境的惡化,將會面臨更多的挑戰,需要政府重點關注影響小康社會的重要指標,在人口方面,要關注區域人口流動、人口老齡化問題等,在財政方面,要關注社保制度建設等,同時注意教育、醫療等方面的保障。
引用
[1]徐紹史.奮力開拓人大財經工作新局面為全面建成小康社會作出新貢獻[J].中國人大,2020(09):20-23.
[2]夏慶宇,桂玉.全面建成小康社會后新生貧困問題對策研究[J].廈門特區黨校學報,2020(02):52-56.
[3]趙新勇,劉軍利,薄瑩瑩,王嘉煒.奮力奪取疫情防控和實現經濟社會發展目標“雙勝利”[J].陜西發展和改革,2020(02):9-11
[4]張倩,馬秋華.全面建成小康社會指標體系構建[J].統計與管理,2018(10):114-116.
[5]楊宜勇,張強.全面建成小康社會的測評方法研究[J].人民論壇·學術前沿,2016(18):17-26.