張蘭怡,胡喜生,陳清耀,邱榮祖
(福建農林大學 交通與土木工程學院,福建 福州350002)
基于PCA-Logistic回歸的汽車保有量預測研究
張蘭怡,胡喜生,陳清耀,邱榮祖
(福建農林大學 交通與土木工程學院,福建 福州350002)
汽車保有量是一個相對復雜、非線性變化的數據總量,需要一種預測方法對汽車保有量進行快速、準確、合理的預測,預測結果可以作為城市經濟可持續發展的重要依據。以福建省為例,選取2000—2014年間福建省總人口、人均GDP、第一產業生產總值比重、第二產業生產總值比重、第三產業生產總值比重、城鎮居民人均可支配收入、農村居民人均純收入、城市化水平等8個指標作為汽車保有量的主要影響因素進行分析。對8個指標進行主成分分析得到綜合經濟發展值的預測方程,采用Logistic回歸模型進行預測并驗證。結果顯示:該方法預測精度高,能夠為對汽車保有量進行較準確的估計,并為城市發展規劃提供參考依據。
交通工程;汽車保有量;主成分分析;Logistic回歸模型;預測
人們經濟生活水平的提高和汽車工業的不斷發展,使得全社會的運輸需求不斷擴大。汽車作為滿足人或物的空間位移變化載體[1],已成為人們日常生活不可或缺的交通工具。2014年中國汽車保有量達到1.4億,比上一年增長12.4%;其中福建省汽車保有量達388.49萬輛,比上一年增長16.0%。汽車保有量的迅速增長直接影響能源利用、環境質量、交通安全與設施等諸多方面。對汽車保有量進行預測可以為我國汽車市場實現產銷平衡目標提供基礎性數據,避免汽車產業產能過度擴張,引導汽車產業良性發展,提高汽車產業經濟效益與全球競爭力。其次,汽車產業是經濟發展的5大傳統支柱產業之一,汽車產業的發展需要大量消耗化石燃料,尾氣污染物排放量的激增導致了一系列環境問題,汽車成為空氣污染的主要貢獻者。然而中國汽車現狀表現為排放控制水平差,交通管理和控制措施不利,交通的供需矛盾使機動車運行工況惡化,加劇了排放污染。因此,汽車保有量預測可以為減少汽車尾氣污染物排放提供決策支持,還可以為政府制定路網污染物排放清單提供數據支持。
國際預測汽車保有量的方法以需求模型為主,而需求模型又分為集計模型和非集計模型兩類[2]。集計模型主要是以人口、城市經濟、道路及停車設施供給等因素為基礎預測汽車保有量。如L.T.MEI等將城市路網容量和停車設施作為約束條件,利用雙層規劃理論建立最大汽車保有量理論[3]。非集計模型以微觀經濟學和效用選擇理論為基礎,把個人屬性和和社會經濟屬性進行綜合建立效用函數,再利用效用函數預測人們購買汽車的可能性。
我國在汽車保有量方面的研究主要分為兩類:一類是在方法上進行改進,如采用因果關系預測法、時間序列預測法、情景分析法、BP神經網絡、灰色模型等方法提高汽車保有量預測精度;另一類則是通過分析影響汽車保有量的因素(如人均GDP、城市化率、人均粗鋼量、汽車價格、公路總量等),探究經濟增長和汽車保有量的相互關系,進而采用回歸模型預測汽車的發展趨勢[4-5]。
前人對汽車保有量預測時考慮的影響因素較少,實際上,汽車保有量與社會經濟數據中的GDP、人口、收入、城市化水平、產業生產總值比重等數據有關,考慮因素過少可能會導致汽車保有量預測結果不精確,影響對汽車工業發展趨勢的分析。
因此,在總結前人研究成果的基礎上,筆者考慮引入總人口、第一產業生產總值比重、第二產業生產總值比重、第三產業生產總值比重、城鎮居民人均可支配收入、農村居民人均純收入、城市化水平和人均GDP等8個影響因素對汽車保有量進行研究。利用主成分分析法和Logistic回歸模型對福建省近15年的汽車保有量進行分析并預測,以期獲得較準確的預測結果。
福建省汽車產業擁有巨大生產能力、年產值及銷售收入過萬億元的產業,汽車產業能集各種新技術、新材料、新工藝、新裝備于一體,形成巨大的生產和市場規模,創造更多的產值、稅收和就業崗位,對改善人民生活質量至關重要。福建省汽車產業的發展促進鋼鐵、石油、4S店等相關行業的發展,帶動福建省國民經濟整體水平的提高。對福建省汽車保有量的研究有助于剖析汽車產業和經濟發展的相關關系,為繼續繁榮福建省經濟提供新思路。
福建省汽車保有量樣本容量選取自2000—2014年這15年的數據,數據來源于福建統計年鑒(表1)。

表1 福建省汽車保有量及影響因素數據(2000—2014年)
2.1 總人口
福建人口基數大,人口增長逐年遞增,交通需求的人口規模效應也不斷“自我放大”。人口對汽車保有量始終保持強大的推動作用及長期的規模效應。圖1(a)可知人口在15年內持續穩定增長,呈線性增長趨勢[6],而汽車保有量呈現指數上升趨勢。
2.2 社會經濟因素
2.2.1 宏觀經濟
汽車產業的發展促進了國民經濟的發展,國民經濟的高速健康發展又刺激汽車消費,帶動了汽車產業的發展進程,兩者相互影響,相互促進。根據圖1(b)可知:人均GDP與汽車保有量之間有著很強的相關關系,隨著人民生活水平的不斷提高,汽車保有量的增長速率同人均GDP增長速率基本保持一致[7]。
2.2.2 消費者收入水平
人均收入水平對汽車保有量的增長有積極的推動作用。由圖1(c)可知:城鎮居民人均可支配收入遠高于農村居民,隨著年份增長收入差距逐漸擴大。但城鎮居民人均收入增長率在2011年起有所下降,農村居民人均收入在2000—2010年增長比較緩慢,到2010年后逐步增長。同時,城市道路基礎設施發展水平比農村高,根據經濟發展一般規律可知城市汽車需求高于農村。城市和農村的收入水平不斷提高促進了居民的購買力,也帶動了汽車產業的消費[8]。
2.3 城市化水平

然而,提高城市化水平并不能直接、快速提高人們收入水平,而且并不是所有的居民都能擁有汽車,因此城市化水平對汽車保有量的影響相對比較穩定。圖1(d)為福建省城市化水平與汽車保有量之間的關系。

圖1 各因素與汽車保有量關系Fig.1 Relationship between car ownership and each factor
3.1 主成分分析法
主成分分析法(principal component analysis,PCA)可以將原始數據進行降維,歸一化處理得到n個主成分,且每個主成分都不會存在交集[9],是將多個變量劃為幾個主要綜合指標的一種統計分析方法。
PCA分析基本步驟如下:
1)原始數據標準化
對原始數據進行歸一化處理,把數值限定于[0,1]之間,x表示指標變量,如式(1):
(1)
2)計算協方差矩陣
(2)
3)求相關系數矩陣的特征值和相應的特征向量
4)確定主成分
當主成分的累積貢獻率達85%以上時,具有較強的代表性。根據貢獻率大小選取P個比重較大指標作為主成分,既可以完整的保留基礎數據,還可以增強網絡泛化性能[10]。
3.2 Logistic回歸模型
Logistic模型是描述因變量隨時間變動趨勢的模型。它有3個顯著的特征:單調遞增性、增長有限性及呈S形曲線增長性[11]。此方法計算簡單,經濟意義明顯,被廣泛應用于產品市場分析方面。
傳統Logistic模型微分方程如式(3):
(3)
式中:F為某一時刻y(t)與m的比;y(t)為t時刻新產品的數量,即汽車保有量;m為最大保有量;b為常數。
由分離變量法求解式(3),得:
(4)
式中:a為常數;
則t時刻的保有量:
y(t)=mF(t)
(5)
增長量最大的時刻:
T*=ln(a)/b
(6)
3.3 基于PCA-Logistic回歸分析模型
筆者對總人口數、人均GDP、第一、二、三產業生產總值比重、城鎮居民人均可支配收入、農村居民人均純收入以及城市化水平8個汽車保有量的影響因素與汽車保有量之間的非線性回歸關系進行研究分析,利用降維模塊和回歸-曲線估計模塊,實現PCA-Logistic回歸分析。
Logistic函數的具體模型如式(7):
(7)
將數據用SPSS的降維因子分析模塊進行壓縮降維處理,之后選取第一主成分FAC1_1作為回歸分析的自變量,汽車保有量為因變量,得到汽車保有量和綜合經濟發展值的模型。預測時則先用該模型預測未來綜合經濟發展值,然后將該預測值帶入Logistic函數,實現對汽車保有量的預測。
4.1 主成分分析
從表1中選取8個因素進行主成分分析,綜合評價每年度的社會經濟發展水平,解釋的總方差如表2;成分得分系數矩陣如表3。

表2 解釋的總方差

表3 成分得分系數矩陣
由表2可得第一主成分的特征值λ=6.727>1,且遠大于其他特征值,累積方差貢獻率為84.092%,即可以解釋總體數據的84.092%。由表3可知:第一主成分中除了第三產業生產總值得分偏低,其他因素的得分系數都較高,其中第一產業生產總值與第一主成分呈顯著負相關。
第一主成分的計算如式(8):
F1=0.998P1+0.978P2-0.964P3+0.958P4+
0.141P5+0.991P6+0.964P7+0.998P8
(8)
利用式(5)計算得第一主成分數據。由圖2可知:第一主成分值與年份呈顯著的線性正相關,故利用線性回歸模型得出第一主成分與年份的關系,如式(9):
F1=-1.786 7+0.223 3n
(9)
計算可得綜合經濟發展變量在2020年的取值為2.826。
第一主成分與各類汽車保有量存在明顯的非線性關系,故考慮以第一主成分值為自變量,汽車保有量為因變量,進行Logistic曲線回歸分析,從而預測汽車保有量。

圖2 2000—2014年度第一主成分值折線Fig. 2 Value of the first principal component line chart from 2000 to 2014
4.2 回歸分析
利用主成分分析法得到不同年份的成分矩陣,并對汽車保有量進行預測,探究綜合經濟發展值與保有量之間的相關關系。根據表1知兩個變量之間存在非線性回歸關系,選擇Logistic函數進行回歸分析和曲線估計。
對曲線擬合結果初步描述統計,包括自變量、因變量、估計方程類型、上限設定值等??偙S辛康纳舷拗禐? 000,私人汽車保有量的上限值為1 500,公路營運汽車保有量的上限值為100。
對樣本數據進行Logistic回歸的檢驗統計量和相應方程中的參數估計值如表4??偙S辛磕P偷恼w擬合優度值0.998,統計量8 461.3,概率值遠小于顯著性0.05,說明該模型有統計學意義,故可得出估計方程如式(10):
(10)
由表4得私人汽車保有量模型的整體擬合優度值為0.997,統計量為4 399.4,概率值遠小于顯著性0.05,說明該模型有統計學意義,故可得出估計方程如式(11):
(11)
公路營運汽車保有量模型的整體擬合優度值為0.978,統計量為638.9,概率值P遠小于顯著性0.05,說明該模型有統計學意義,故可得出估計方程如式(12):
(12)
綜上,基于PCA-Logistic回歸組合法的數據擬合優度值接近1,概率值P小顯著性高,顯示其預測精度較高,效果較好。

表4 模型匯總和參數估計值
4.3 同其他預測模型比較
分別用一元線性回歸模型、冪函數模型、指數函數模型對福建省汽車保有量進行模擬,同PCA-Logistic回歸模型結果對比(表5)。結果顯示幾種模型模擬精度均符合要求,其中PCA-Logistic相關系數最接近于1,回歸模型效果最好,說明利用PCA-Logistic回歸模型精度較其他方法更優。

表5 福建省汽車保有量預測模型
(續表 5)

參數模型方程相關系數私人汽車保有量一元線性回歸模型y=21.554x-59.1190.883冪函數模型y=7.3273x1.23340.878指數函數模型y=11.555e0.2298x0.997PCA-Logistic回歸模型y=111500+0.013×0.333x0.998公路營運汽車保有量一元線性回歸模型y=1.1541x+10.5310.959冪函數模型y=10.894x0.30270.806指數函數模型y=12e0.0583x0.977PCA-Logistic回歸模型y=11100+0.042×0.721x0.99
4.4 汽車保有量預測
將計算所得綜合經濟發展變量值分別帶入總保有量、私人汽車保有量、民用汽車保有量、公路營運汽車保有量的Logistic回歸模型當中,得到2020年的預測值(表6)。

表6 2020年汽車保有量的預測
筆者通過分析汽車保有量的影響因素,采用主成分分析法評價社會經濟發展水平,利用PCA-Logistic回歸分析模型實現對福建省2020年汽車保有量的預測。
通過基于影響因素的非線性關系的汽車保有量預測,較全面考慮了影響汽車保有量的復雜性與隨機性因素,采用PCA-Logistic回歸分析模型結果顯示預測誤差較小,顯著性明顯,該方法在汽車保有量預測方面具有一定的適用性。PCA-Logistic回歸分析法除應用于汽車保有量預測外,也適用于對人口、醫藥和環境等領域的預測,其范圍可進一步拓寬,不同行業的模型建立也需進一步研究和改進。
[1] 胡軍紅,李晶.各種運輸方式協調發展模式探討[J].重慶交通大學學報(自然科學版),2009,28(2):294-297. HU Junhong, LI Jing. Discussion on patterns of transport modes’ coordinated development[J].JournalofChongqingJiaotongUniversity(NaturalScience), 2009, 28(2): 294-297.
[2] DISSANAYAKE D, MORIKAWA T.Investigating household vehicle ownership, mode choice and trip sharing decisions using a combined revealed preference/stated preference Nested Logit model: case study in Bangkok Metropolitan Region[J].JournalofTransportGeography, 2010, 18(3): 402-410.
[3] MEI L T, LAM W H K.Balance of car ownership under user demand and road network supply conditions: case study in Hongkong[J].JournalofUrbanPlanning&Development, 2004, 130(1): 24-36.[4] 馬超群,趙海龍.汽車市場需求預測建模及其應用研究[J].湖南大學學報(社會科學版),2009,23(4):38-44. MA Chaoqun, ZHAO Hailong. Research on the modeling of automobile demand forecasting and empirical analysis[J].JournalofHunanUniversity(SocialSciences), 2009, 23(4): 38-44.
[5] 彭浪,寧宣熙.中國未來汽車市場的研究[J].管理世界,2009(1):180-181. PENG Lang, NING Xuanxi. Research on the future automobile market in China[J].ManagementWorld, 2009(1): 180-181.
[6] 張蘇北.福建省人口流動地域類型及其形成機制研究[D].福州:福建師范大學,2014. ZHANG Subei.AStudyonRegionalPatternsofPopulationMobilityandTheirFormingMechanisminFujianProvince[D]. Fuzhou: Fujian Normal University, 2014.
[7] 高鋆,虞曉芬.中國私人汽車保有量影響因素及其變化路徑分析[J].工業技術經濟,2013(9):41-47. GAO Yun, YU Xiaofen. The dynamic analysis of influencing factors on personal vehicle number of China and its sociological implication[J].JournalofIndustrialTechnologicalEconomics, 2013(9): 41-47.
[8] 關子明,常文兵.基于PCA-RBF神經網絡模型的航空備件預測方法[J].北京工商大學學報(自然科學版),2009,27(3):60-64. GUAN Ziming, CHANG Wenbing. Estimating approach for aviation spare parts based on principal component analysis and RBF artificial neural network[J].JournalofBeijingTechnologyandBusinessUniversity(NaturalScienceEdition), 2009, 27(3): 60-64.
[9] 潘懷兵.基于主成分分析法的瀝青路面使用性能評價[J].重慶交通大學學報(自然科學版),2010,29(6):888-890. PAN Huaibing. Evaluation of asphalt pavement performance based on principal component analysis method[J].JournalofChongqingJiaotongUniversity(NaturalScience), 2010, 29(6): 888-890.
[10] 張雪伍,常晉義.PCA-BP在城市汽車保有量預測中的應用研究[J].計算機仿真,2012,29(12):376-379. ZHANG Xuewu, CHANG Jinyi. Research on urban car ownership prediction based on PCA-BP neural network[J].ComputerSimulation, 2012, 29(12): 376-379.
[11] 胡喜生,范海蘭,宋萍,等.改進Logistic模型在城市人口預測中的應用[J].北華大學學報(自然科學版),2008,9(4):370-373. HU Xisheng, FAN Hailan, SONG Ping, et al. Application of urban population prediction based on modified Logistic model[J].JournalofBeihuaUniversity(NaturalScience), 2008, 9(4): 370-373.
(責任編輯:劉 韜)
Prediction of Car Ownership Based on Principal Component Analysis and Logistic Regression
ZHANG Lanyi, HU Xisheng, CHEN Qingyao, QIU Rongzu
(College of Transportation and Civil Engineering, Fujian Agriculture and Forestry University, Fuzhou 350002, Fujian, P. R. China)
Car ownership is the amount of data with relatively complex and nonlinear changes. There is a need for a rapid and accurate prediction method for fast, accurate and reasonable prediction of car ownership, whose prediction results can be used as an important basis for the sustainable development of the city economy. A case study of Fujian province was carried out. 8 indicators were selected as main influence factors of car ownership in Fujian province from 2000 to 2014, such as total population, per capita GDP, primary industry proportion of GDP, the second industry proportion of GDP, the third industry proportion of GDP, urban per capita disposable income, rural per capita net income and urbanization level. Through principal component analysis on 8 indicators, the prediction equation of comprehensive economic development value was obtained, which was predicted and verified by Logistic regression model. It is indicated that the prediction accuracy of the proposed method is high, which can predict the car ownership exactly and provide reference basis for urban development planning.
traffic engineering; car ownership; principal component analysis; Logistic regression model; prediction
10.3969/j.issn.1674-0696.2017.05.18
2016-03-28;
2016-06-06
福建省社會科學規劃項目青年基金項目(FJ2015C148);福建省教育廳科技項目(JB14005);福建農林大學高水平大學建設基金項目(113-612014018);福建農林大學青年基金項目(2013xjj25)
張蘭怡(1987—),女,福建福清人,講師,博士研究生,主要從事交通運輸規劃方面的研究。E-mail:61963323@qq.com。
邱榮祖(1961—),男,福建莆田人,教授,博士,主要從事交通運輸規劃與管理方面的研究。E-mail:qrz1010@yahoo.com.cn。
U491.1+4
A
1674-0696(2017)05-104-06