蘇理云,白婷婷,張 彤,王 倩,戴 菲
(重慶理工大學 理學院,重慶 400054)
世界各國經濟學家對于人口過度增長阻礙經濟發展均持肯定態度[1]。人口增長對經濟發展的影響分為2個方面:一方面,人口增長為經濟發展提供了必要的勞動力;另一方面,人口數量通過消費影響經濟發展。在《中國發展報告:社會與發展——中國社會發展地區差距研究》第4章中,胡鞍鋼博士使用多元回歸分析技術,根據我國31個省市有關數據,測算了初始條件人口增長、人口質量等因素對經濟的影響[2-4]。得出結論:人口增長率每降低1個千分點,人均GDP增長率可提高0.36~0.59個百分點,進而推論出:人口自然增長率降低幾個千分點時會明顯促進人均GDP的增長[5-6]。這佐證了人口過度增長阻礙經濟發展這一觀點。
人口的發展一方面反映了經濟的發展,另一方面又影響、制約著經濟的發展[7]。從某種角度而言,一個國家的發展在根本上取決于具有社會屬性的人,人口素質的提高會為國家社會經濟的發展帶來一定的促進作用。經濟全球化時代,低素質人口不僅不會促進經濟的發展,還會成為經濟發展的阻礙[8-9]。雖然現有的研究尚不能準確反映人口素質與經濟增長有關指標的數量關系,但控制文盲率有利于經濟發展。本文中,選取文盲率表示人口素質,文盲率越低的地區,人口素質越高,人才越多,經濟發展水平在一定程度上就越好;當然,除人口素質以外,人口結構也會對經濟的發展產生重要的影響[10]。由于改革開放時期到2014年計劃生育政策的實施,我國人口結構模型極不科學。受傳統封建思想的影響,使得女性人口逐漸減少,造成了人口性別比不協調,這在經濟發展落后地區尤為突出[11-13]。此外,從目前的人口結構來看,農村人口較多,人口城鄉構成比例大多小于1,這在貧困地區尤其明顯,并在一定程度上影響了我國現代化建設的進程。
人口是社會經濟發展的前提和最終歸宿,經濟的發展在很大程度上受制于人口數量、人口質量、人口結構及其變化的狀況。盡管如此,由于發展之間的關系千差萬別,不同地方人口對經濟發展的影響有一定的區別[14-15]。要實現人口對經濟發展的促進影響,必須控制人口密度、人口自然增長率,降低文盲率,優化人口結構(即人口性別比、總撫養比、人口城鄉構成等),讓社會經濟保持適度的增長[16]。
本研究擬對我國31個省市人口對經濟的影響展開分析,新穎之處在于將聚類分析這一經典算法引入了該研究,使文章具有更深遠的經濟意義。本研究先用聚類方法將全國31個省市劃分為四類,再以聚類中心為基礎,最后采用多元線性模型和神經網絡分析方法對四類省市進行深入分析。
為了研究人口對經濟發展的作用,本研究綜合考慮地區差異因素,故把全國各省市分類研究。選擇了反映經濟和人口的12項指標,經綜合考慮,通過K-均值算法將31個省市聚為四類,用6個經濟指標將四類省市經濟狀況做了基本分析,排出優劣等級。然后保留人口的6個指標與反映經濟發展的首要因素——人均GDP,根據分類結果,利用R軟件建立多元線性回歸模型以及BP神經網絡模型進行深入分析,并對模型進行合理的檢驗和預測,然后通過神經網絡進行探究預測,將2類結果進行比較,從而深入剖析人口對經濟發展的影響,對影響經濟發展的主要人口因素進行分析,闡明人口數量、質量以及結構對經濟發展的作用。通過回歸模型說明諸如人口密度、人口性別比、總撫養比、文盲率、人口城鄉構成、人口自然增長率對經濟發展的影響,對其重要程度給出客觀評價及預測。
決定經濟發展的因素眾多,選取的指標應反映我國經濟的發展水平、地區經濟發展的趨勢,同時應考慮指標的科學性、客觀性、合理性和可獲得性。本研究結合聚類的結果進行篩選,選取了反映經濟發展情況的一項指標:人均地區生產總值作為因變量,保留了聚類分析中的指標,即人口密度、人口性別比、總撫養比、文盲率、人口城鄉構成、人口自然增長率作為自變量。選取的12個指標,其含義見表1。

表1 人口與經濟綜合評價指標體系
本研究搜集了全國31個省市2003—2017年人均地區生產總值、人口密度、人口性別比、總撫養比、文盲率、人口城鄉構成、人口自然增長率等數據,主要來源于國家數據網、國家統計局網、中國就業網、中國統計年鑒等網站和書籍報刊上,將數據進行整合分析,并且將經濟增長與人口狀況結合研究,參考經濟學的理論基礎,然后運用R軟件進行分析和作圖,更加直觀地分析預測。
運用R軟件對31個省市的相關數據進行了k均值聚類分析,得到了聚類分析結果。
由圖1可知:當聚類個數從4開始之后,折線波動比較平緩,本研究遵循了選取縱坐標取值降低有減緩趨勢時聚類個數這一原則,因此本研究選擇將31個省市聚為四類。
通過各指標4個類別的聚類中心繪制曲線(如圖2),對這4個類別做出了以下解讀:聚類后的聚類中心是純粹的數字,但由于對數據進行了標準化處理,因此無法根據聚類中心的數值把握其真實意義,只能通過正負來判斷該指標是遠高于平均水平還是遠低于平均水平(平均水平為0)。
第一類地區的人均地區生產總值和居民消費水平均遠高于平均值,物質基礎雄厚,城市規模大,經濟處于成熟階段,因此將其劃分為發達地區;第二類地區的各指標均為正值,工農業基礎雄厚,擁有大批科技人才,水電資源、礦產資源豐富,經濟處于成長性階段,因此將其歸納為小康地區;第三類中除死亡率外均為負值,經濟指標均高于第一類,人口指標大多低于第一類,其中大多為主要傳統工業基地,礦產資源豐富,目前在轉型階段,發展優于第一類地區,因此劃分為一般地區;第四類省市各指標大多為負值,都低于平均水平,人口出生率和自然增長率遠高于其他三類,自然條件較差,交通不便,經濟文化較為落后,但資源比較豐富,發展前景可觀,經濟處于開發性階段,發展較為落后,因此將其劃分為落后地區。
通過圖3可以直觀看出省市的分類,這四類地區分別為:
第一類:北京市、上海市、天津市
第二類:江蘇省、浙江省、山東省、廣東省
第三類:內蒙古自治區、重慶市、山西省、陜西省、湖南省、湖北省、河南省、河北省、吉林省、黑龍江省、遼寧省、安徽省、福建省、四川省
第四類:西藏自治區、廣西壯族自治區、新疆維吾爾族自治區、寧夏回族自治區、貴州省、甘肅省、青海省、云南省、海南省、江西省
在該經濟區域版圖配色中,紅色代表第一類省市,綠色代表第二類省市,藍色代表第三類省市,紫色代表第四類省市,與上文聚類得出的四類地區相一致,四類地區的經濟發展水平等級呈現逐漸下降的趨勢。
為研究一類省市的經濟發展與人口因素之間的關系,首先進行相關分析,變量的相關系數如圖4所示。
據圖中的陰影處可得:因變量y與自變量x1、x3、x5、x6之間存在強相關性,與x2、x4之間的相關性很弱,且與x1、x2、x5之間呈正相關,與x3、x4、x6呈負相關。此時假定因變量人均GDP與人口自變量之間存在線性相關,建立多元線性回歸模型,得到的回歸模型為
根據檢驗的結果發現自變量的回歸系數均不顯著,在以AIC準則為最優準則,尋求最優子集時得到的結果中,逐步回歸剔除了一半自變量,且得到的模型中還有不顯著的系數,這說明線性回歸效果并不好,該類別不適合做線性分析,采取BP神經網絡模型對一類省市再次進行分析。
該模型由每組數據的各項人口指標作為輸入層,以人均GDP作為輸出層,所以輸入層的節點數為6,輸出層的節點數為1,隱層數為c(4,2),設定完參數后,開始訓練網絡,得到了4層網絡拓撲結構圖,如圖5所示。
根據圖5可知:所報告的SSE(通過SSE度量)為0.090 469,訓練的步數為34步,考慮到4層的神經網絡模型比較復雜、訓練速遞較快、誤差較小、精度較高,圖中的黑線表示每一層與其相關權重直接的關系。因為前文分析了不適合建立多元回歸模型,在此計算線性模型與神經網絡模型的預測值,并且分別計算他們均方誤差(MSE),線性模型的均方誤差為7.5,神經網絡模型的均方誤差為0.85,進一步說明了線性回歸不適用于此分析,而神經網絡的精確度更高。
通過度量本研究預測的人均GDP與其真實值之間的相關性,發現二者之間的線性相關程度達到了83.37%,表明二者之間具有相當強的線性關系。下面分別采用回歸方程以及神經網絡對人均GDP進行擬合,將擬合值與真實值進行比較。
根據表2可知:BP神經網絡與回歸模型的擬合值相差不多,與真實值較接近,由于數據量的限制,測試集選取了4個個案,通過比較,發現BP神經網絡的擬合值更好,同樣回歸模型擬合值與真實值的相關性也沒有BP神經網絡效果好。因此針對一類地區,采用BP神經網絡效果更強,通過交叉檢驗,將得到的預測誤差值繪制箱線圖(如圖6),平均誤差為0.263 5。

表2 測試集個案的擬合值和真實值
根據圖6可知無異常值,標準BP算法的預測結果,與真實的數據都存在一定的誤差,這可能是由于樣本的數據量太小,導致最終的結果存在誤差,但產生的誤差在預定的誤差范圍內,精度滿足模型需要,從而使神經網絡的準確性較高,因此認為該BP網絡具有較好的預測能力。在對人均GDP進行預測前,首先采用時間網絡模型對已有的自變量歷史數據進行預測,通過對人口指標預測2018—2037年的數據,再通過神經網絡,對因變量人均GDP進行預測。
將預測自變量的數據與原隨機生成的測試集合并為新的測試集,對人均GDP進行預測,預測值折線圖如圖7所示。
通過圖7可知:在2010年前后,人均GDP的波動較大,人均GDP的走勢在2019年后一直呈現穩步增長的趨勢,人均GDP的增長率也呈穩定增長的速度,在已知人口指標的情況下,利用BP網絡模型能夠有效預測經濟的走勢,同時也使研究經濟和人口的關系是有效的一種途徑,在實際運用中,可以將經濟的指標不斷加入模型中,使網絡模型更加精準有效。
在對二類省市的經濟發展與人口因素之間的關系進行分析前,同樣需要進行相關分析,變量的相關系數如圖8所示。
據圖8中的陰影處可得:因變量y與自變量x1、x3、x4之間存在強相關性,與x2、x6之間的相關性較弱,此時假定因變量人均GDP與人口自變量之間存在線性相關,建立多元線性回歸模型,得到的回歸模型為
由于普通最小二乘回歸模型的一些系數不顯著,x2、x6之間相關性較強,需要對模型進一步優化。根據AIC準則為最優準則,尋求最優子集時得到的結果中,逐步回歸后自變量系數均高度顯著,且得到的模型擬合效果較好,通過檢驗,模型不存在自相關、共線性、異方差等,這說明線性回歸有一定的成效。此時,最優的回歸模型為
為比較回歸模型與神經網絡擬合效果的強弱,采用回歸方程以及神經網絡對人均GDP進行擬合,所得到的擬合值與真實值如表3所示。

表3 測試集個案比較
根據表中的數據進行比較,發現回歸擬合值更貼近原始真實值,而BP神經網絡擬合值有很大出入,通過檢驗,BP神經網絡預測值與原始值之間的相關性為0.44,相關性較弱,預測結果沒有說服力,同時,通過回歸模型預測的均方誤差為0.19,而通過BP神經網絡預測的均方誤差為0.78,因此BP神經網絡針對二類省市的情況下,沒有回歸模型的效果好,因此采用回歸模型對二類省市進行預測,但由于多元線性模型進行預測的實際意義并不大,故而,這里只針對2018年進行預測,預測2018年的二類省市的人均GDP的聚類中心為0.625 4,比平均值略高,因此可以認為二類省市的發展會越來越好,與前期的人均GDP的聚類中心相比,差距不大,比較平穩。
2.4.1 多元線性回歸的初步嘗試
首先,對人口指標以及人均GDP進行了相關分析,做出了相關系數排列如圖9,可以看出y與x2、x3、x4、x6的相關性較強,相關系數絕對值均大于0.6,則這4個自變量與y有較強的相關性,同時也可以直觀地看出有的自變量之間也存在較強的相關性。
其次,用普通最小二乘法進行多元線性回歸,發現除常數項顯著,各自變量系數均不顯著,可初步判斷出該三類省市不適合進行多元線性回歸,然后進行了逐步回歸,剔除變量后只留下x2、x6,并且x2不顯著,因此證實了上述想法,該類省市不適合做多元線性回歸。
最后,本研究對預測的人均GDP與其真實值計算相關系數為0.856,SSE值為0.092,可初步推測該模型預測效果不佳。
2.4.2 基于神經網絡BP算法的研究
通過上述普通最小二乘法建立多元線性回歸模型,發現預測效果不佳,因此本研究決定采用BP算法探究人口對經濟的影響。
將數據集劃分為一個具有75%案例的訓練集(11個)和一個具有25%案例的測試集(4個)。選好訓練集后,對于6個人口指標和人均GDP之間的關系建立模型,使用多層前饋神經網絡,將隱藏節點設置為雙層,即c(4,2);然后使用訓練集建立神經網絡模型,通過R軟件得到了網絡拓撲結構(如圖10)。可以觀測到訓練的步數為109步,誤差平方和即SSE的值為0.012 916,SSE極小,而前文中多元線性回歸SSE為0.092,因此可知神經網絡模型擬合效果較好。
為了評估模型的性能并且與以上的多元線性回歸模型進行比較,對剩下的4年數據做預測,通過R軟件度量出后4年真實人均GDP值和預測人均GDP之間的相關系數為0.924,說明二者有很強的線性關系,模型擬合數據極好。這與線性模型的相關系數0.856相比提高了很多,因此選擇神經網絡模型對未來人均GDP做預測。
接下來對該神經模型進行交叉檢驗,將測試數據集分離,基于訓練數據集擬合一個模型,用測試數據集測試模型,然后計算預測誤差,經過10次重復之后,最后計算平均誤差,觀察該模型的擬合程度,通過計算的平均誤差為0.019 94,將10個預測誤差值畫箱線圖(如圖11),可知預測誤差值中沒有異常值,預測誤差值的范圍集中在0.004~0.039,都是極其小的,因此認為該模型擬合數據效果非常好,可用于預測未來數據。
2.4.3 未來人均GDP的預測
1)運用時間序列模型預測未來自變量
由于測試集較少,因此要想做未來20年人均GDP的預測,必須先進行未來20年人口指標的預測。因此本研究選擇用時間序列模型預測未來自變量,根據已有15年的人口指標對未來20年的人口指標進行預測。首先應檢測6個自變量序列的平穩性,通過平穩性檢驗判斷是否為平穩序列。如果是平穩序列,則開始確定模型;如果是非平穩序列,需對非平穩序列進行差分算子的方法將非平穩序列變換為平穩序列,這里采用ARIMA模型做自動的模型選擇進行擬合,得到了未來20年的6個人口指標。
2)運用神經網絡模型對未來人均GDP的預測
本研究通過神經網絡預測未來20年人均GDP,得到的預測數據以及原始數據如圖12所示。橫坐標為年份,黑線部分為訓練數據中的因變量值趨勢,藍線部分為預測的人均GDP值。
圖12可以直觀體現出未來三類省市人均GDP在2020年之前處于大幅度增長后又持續上下波動,2020年之后,人均GDP只有小幅度的波動然后趨于平穩。可以初步推斷出,在未來的20年,我國政策和各方面人口結構的優化以及人口素質的提高會短時間內使我國三類城市GDP的增長更加明顯,但是由于產業轉型階段可能會造成小幅度的不穩定,而長遠來看,我國三類省市的人均GDP將會呈現出高水平發展趨勢。
2.5.1 多元線性回歸模型的建立
首先通過相關系數排列圖(圖13)可以看出:y與x3、x5、x6的相關性較強,系數分別為-0.869、0.811、-0.689,其絕對值均大于0.6,這3個自變量與y有比較高的線性相關關系;還能看出有的自變量之間存在較強的相關關系,可能存在多重共線性。
本研究最先使用普通最小二乘法建立回歸方程,可以看出只有x4、x5回歸系數顯著,說明該回歸方程存在不必要的變量,下一步進行逐步回歸,根據AIC最小原則剔除x1、x3后,各回歸系數均顯著,該回歸方程為
接下來對逐步回歸后的方程進行異方差檢驗,檢驗數據如表4,可以看出各變量p值均大于0.05,因此認為在顯著性水平為0.05時,異方差不顯著。

表4 異方差檢驗數據
然后對該回歸方程進行殘差正態性檢驗,p值為0.676 8,再進行自相關檢驗,可以得到DW值為1.932 2,p值為0.928 7,因此在顯著性水平為0.05時,認為殘差是正態分布的,并且自相關不顯著。
最后對方程進行多重共線檢驗,各變量的VIF值如表5,可知自變量x4的VIF值為16.97且大于10,說明逐步回歸方程存在多重共線性。

表5 共線檢驗的VIF值
本研究可以先通過繪制嶺跡圖判斷存在共線性變量,如圖14(a),發現x2的嶺回歸系數非常不穩定,變化特別大,因此剔除x2再次繪制嶺跡圖如圖14(b),發現各變量嶺回歸系數都較為穩定,初步判定該方程不存在多重共線性。
然后剔除x2再次進行普通最小二乘回歸,回歸方程顯著,各回歸系數均極其顯著,再次計算VIF值,發現均小于10,因此證實了上述結論,該回歸方程的多重共線性已消除,得到最優回歸方程如下:
為了進一步驗證方程的準確性,再次對該回歸方程進行異方差檢驗、自相關檢驗和殘差正態性檢驗,各檢驗均通過,因此該方程為多元線性回歸最優方程。
本研究利用此最優方程進行預測,發現預測值和真實值之間的相關系數高達0.989,SSE值為0.088 3,說明最優方程擬合較好。
2.5.2 神經網絡模型的建立
為了進一步選擇最優的預測模型進行預測,選擇神經網絡的非線性模型進行嘗試,與上述多元線性回歸模型進行比較,利用得到的神經網絡模型預測后4年的人均GDP,發現該預測值與真實值之間的相關系數為-0.632,SSE值為0.391,說明該數據用神經網絡模型極不合理,不應該繼續使用。
2.5.3 運用多元線性回歸模型進行預測
通過比較預測值和真實值相關系數以及SSE值,本研究選擇用多元線性回歸模型進行預測,由于多元線性回歸不適合做長期預測,因此這里只對2018年的人均GDP進行預測,預測出四類省市人均GDP的聚類中心為-0.473,較往年來說低于全國平均水平,因此認為國家各項政策以及經濟措施的施行,四類省市的人均GDP在不斷提高。
1)在探究人口對經濟的關系過程中,發現二類省市及四類省市適合做線性回歸,擬合效果較好,而另外兩類省市則適合做神經網絡模型。根據回歸模型對人口和經濟的關系做出如下客觀評價:人口性別比、人口城鄉構比及人口自然增長率對人均GDP有顯著影響。但是由于地區發展階段以及社會背景的差異,人口自然增長率對經濟發展影響不同。較發達地區,人口自然增長率的增加對人均GDP有顯著的促進作用;而較為落后且面臨產業結構轉型的地區,過快的人口自然增長率和經濟的發展是不協調的。兩類地區具有明顯的差距與我國的國情和實際情況相符。通過上述分析發現:人口密度和人均GDP存在弱相關關系,在此研究中,人口密度對經濟發展沒有顯著的影響,這說明該指標信息較為片面,隨著社會的發展,產業結構和經濟的發展方式不斷發生變化,只通過單一的人口密度不能全面體現經濟狀況。
2)針對回歸模型的分析和神經網絡的預測,人口和經濟的發展問題歷來是社會最基礎的問題,人口問題始終是制約經濟發展的關鍵因素之一,根據研究結論,針對人口結構和經濟的可持續發展提出幾點建議:適度控制人口增長,我國的人口和經濟的效益關系朝著和諧的方向發展,但整體效益不高,且存在明顯的區域差異,人口是主要的壓力和瓶頸,人口凈增長的壓力仍然巨大,實現經濟的持續發展,必須構建科教同步發展的理念;提高人口素質,保證未來勞動力人口的受教育水平較高,特別注重高技術人才培養,加大教育投資,將人口政策的重點轉移到提高人口素質,發展多層次教育,適應不同的勞動者對知識的需求,并且根據國家要求,鼓勵促進職業教育,為促進社會主義現代化建設培養具有較高實踐能力的應用型人才;合理優化產業人口結構,擴大第三產業對于經濟發展的貢獻度。改革開放以來,我國第一產業人口加速下降,雖然這一結構不斷趨于合理化,但與發達地區相比,我國第三產業對經濟的影響還有很大的提升空間,合理的調整三大產業人口結構對我國經濟具有顯著的促進作用。