蔣秉燁



摘要:在國民經(jīng)濟(jì)發(fā)展的過程中,國內(nèi)生產(chǎn)總值(GDP)無疑是衡量一個國家綜合國力的重要指標(biāo),本文通過使用CIA所收集的各國經(jīng)濟(jì)數(shù)據(jù),基于可視化分析及基本統(tǒng)計數(shù)據(jù)尋找與人均GDP相關(guān)的數(shù)據(jù)特征,并通過多元線性回歸預(yù)測各國人均GDP,此方法可為相應(yīng)的決策部門提供科學(xué)依據(jù)。
Abstract: In the process of national economic development, gross domestic product (GDP) is undoubtedly an important indicator to measure a country's overall national strength.? This paper uses the economic data collected by CIA to find the data characteristics related to GDP per capital based on visual analysis and basic statistical data, and predicts the GDP per capital of each country through multiple linear regression. This method can provide scientific basis for the corresponding decision-making departments.
關(guān)鍵詞:國內(nèi)生產(chǎn)總值;經(jīng)濟(jì)數(shù)據(jù);可視化分析;多元線性回歸
Key words: gross domestic product;economic data;visual analysis;multiple linear regression
中圖分類號:O212.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2019)29-0011-04
0? 引言
國內(nèi)生產(chǎn)總值(GDP),是一個國家(或地區(qū))所有常住單位在一定時期內(nèi)生產(chǎn)活動的最終成果。GDP是國民經(jīng)濟(jì)核算的核心指標(biāo),也是衡量一個國家或地區(qū)經(jīng)濟(jì)狀況和發(fā)展水平的重要指標(biāo)[1]。
在經(jīng)濟(jì)形勢分析中,常常需要對主要經(jīng)濟(jì)指標(biāo)進(jìn)行預(yù)測,特別是對GDP的總量和增長速度進(jìn)行預(yù)測(政府統(tǒng)計部門和發(fā)展計劃部門的這種要求尤為迫切)。對GDP的增長速度以及總量的分析是主要的經(jīng)濟(jì)形勢分析指標(biāo),準(zhǔn)確地對未來幾年的GDP狀況進(jìn)行了科學(xué)預(yù)測[2],并對影響GDP發(fā)展的主要因素進(jìn)行了系統(tǒng)分析,確定了各因素相對于GDP發(fā)展的關(guān)聯(lián)程度,為相應(yīng)的決策部門提供科學(xué)依據(jù)。
本文通過可視化分析數(shù)據(jù)的基本屬性以探究人均GDP與多因素間的關(guān)系,并構(gòu)建多元線性回歸模型預(yù)測各國人均GDP,相關(guān)決策單位可對預(yù)測值進(jìn)行分析,并對接下來的經(jīng)濟(jì)以及其相關(guān)領(lǐng)域的發(fā)展方式做出判斷和改良。
1? 相關(guān)研究
精準(zhǔn)地預(yù)測地區(qū)或國家GDP對指導(dǎo)發(fā)展具有重要的意義,不少研究表明基于統(tǒng)計的方法可推算出各類經(jīng)濟(jì)指標(biāo)的發(fā)展趨勢,如劉海濤對國內(nèi)外GDP質(zhì)量的評估研究進(jìn)行綜合評述,后根據(jù)多個原則設(shè)計了中國GDP質(zhì)量的評價指標(biāo)體系,基于層次分析法,離散數(shù)據(jù)法,綜合指數(shù)法測算出中國GDP質(zhì)量水平發(fā)展趨勢[3]。
綜合多種預(yù)測模型或考慮數(shù)據(jù)時間序列的方法也獲得高模型精度[4,5,6],如薛倩,涂值鳳等人應(yīng)用時間序列分析中的指數(shù)平滑法和ARIMA模型以及組合預(yù)測模型分別對重慶市GDP進(jìn)行預(yù)測,結(jié)果表明組合預(yù)測模型精度最高[7];王紅超,王紅蕾等基于指數(shù)平滑法和回歸分析相關(guān)理論對時間序列歷史數(shù)據(jù)近期數(shù)據(jù)構(gòu)建預(yù)測模型,并對我國2017年進(jìn)行預(yù)測,結(jié)果表明該方法在數(shù)據(jù)短中期預(yù)測時的可行性[8]。
在預(yù)測GDP的未來趨勢中,使用單變量的方法難以綜合考慮各類影響因子,如劉瀏使用一元線性回歸對甘肅省GDP進(jìn)行預(yù)測,雖然結(jié)果基本符合國家十三五規(guī)劃期間預(yù)測值[9],但僅利用單一變量進(jìn)行預(yù)測,模型缺乏復(fù)雜度無法真正擬合GDP的數(shù)據(jù)特征,故本文提出以多變量的線性回歸對各國人均GDP進(jìn)行預(yù)測。
2? 研究方法與分析
2.1 數(shù)據(jù)基本分析
本文使用數(shù)據(jù)來自于CIA所收集的World Factbook數(shù)據(jù),其包含世界227個國家的基礎(chǔ)資料,包括國土面積、人口數(shù)量及密度、歷史GDP指數(shù)、各工業(yè)產(chǎn)值、出生率及死亡率、所屬大洲等20個欄位。
在分析數(shù)據(jù)前,本文對數(shù)據(jù)進(jìn)行前處理,包括對以數(shù)據(jù)平均值填充空數(shù)據(jù)NaN、轉(zhuǎn)換數(shù)據(jù)格式以符合模型的處理規(guī)格。為了篩選與人均GDP相關(guān)的因素,本文對數(shù)據(jù)進(jìn)行基本的統(tǒng)計及可視化分析,如圖1是CIA收集的人均GDP前20的國家。
度量兩個變量之間線性相關(guān)性常常用皮爾遜相關(guān)性統(tǒng)計量。從圖2分析可知,人均GDP高的國家,其服務(wù)業(yè)占經(jīng)濟(jì)產(chǎn)值總比較高,而農(nóng)業(yè)占比較低,同時,這類國家的人們識字率也相對較高,推論得知識字率較高的人群往往受比較好的教育,而其生育欲望也較為低下,這與數(shù)字所表示的出生率、死亡率與人均GDP呈反比。另外,每千人手機(jī)擁有量也與人均GDP高度相關(guān),21世紀(jì)科技的高速發(fā)展也是導(dǎo)致這一現(xiàn)象的原因之一,推測手機(jī)等通訊設(shè)備可促進(jìn)信息的流通。
2.2 多元線性回歸
為了對上文線性相關(guān)圖表作進(jìn)一步分析,以探究與人均GDP相關(guān)聯(lián)的因素與選取線性回歸模型所需的特征值,本文通過分析各變量與人均GDP的散點圖,如圖3所示,其中千人手機(jī)擁有量、服務(wù)業(yè)占GDP比重、識字率、凈移民與GDP呈正相關(guān);出生率、嬰兒死亡率、農(nóng)業(yè)呈負(fù)相關(guān);而農(nóng)作物收成率、死亡率與GDP無明顯相關(guān)。
綜上分析,本文選取人口數(shù)、國家面積、人口密度、海岸線的長度、凈移民、嬰兒死亡率、識字率、每千人手機(jī)擁有量、出生率、死亡率及各產(chǎn)業(yè)所占比值等13個變量作為線性回歸的變量特征。
2.3 流程介紹
本文設(shè)計研究流程框架如圖4所示,首先將收集的數(shù)據(jù)進(jìn)行前處理,包括對數(shù)據(jù)缺失值及錯誤數(shù)據(jù)的刪除,隨后將數(shù)據(jù)劃分為訓(xùn)練集及測試集。
在構(gòu)建模型之前,本文隨后以基本統(tǒng)計分析和可視化分析兩種方法找出影響GDP的關(guān)聯(lián)因素,使用Sklearn建立多元線性回歸模型并進(jìn)行訓(xùn)練及模型評估。Sklearn是一個用于分類、回歸、聚類、模型選擇等機(jī)器學(xué)習(xí)的Python工具庫;多元線性回歸是一個預(yù)測模型,根據(jù)歷史數(shù)據(jù)樣本,在不需要未來數(shù)據(jù)的情況下預(yù)測未來回歸參數(shù),并將預(yù)測結(jié)果與實際值進(jìn)行比較分析[10]。
2.4 比較與分析
在評估模型性能表現(xiàn)上,本文選用RMSE(均方根誤差)與MSLE(均方對數(shù)誤差)計算模型損失[11]。RMSE是一種常用的測量數(shù)值之間差異的量度,其數(shù)值常為模型預(yù)測的量或是被觀察到的估計量。MSLE計算的損失是對數(shù)變換的真實值和預(yù)測值之間的平方差異的平均值,如公式(1)。
公式(1)MSLE計算模型損失
模型的損失如表1所示,可看到其在訓(xùn)練集和測試集的表現(xiàn)較為接近,而由于人均GDP的數(shù)據(jù)特點,使用RMSE顯得損失太大,故如果在多模型進(jìn)行對比時,可考慮使用MSLE進(jìn)行評估。
3? 結(jié)論
本文通過使用CIA所收集的各國經(jīng)濟(jì)數(shù)據(jù),基于可視化分析及基本統(tǒng)計數(shù)據(jù)尋找與人均GDP相關(guān)的數(shù)據(jù)特征,并通過多元線性回歸預(yù)測各國人均GDP,最終使用兩種損失計算評估模型性能。
準(zhǔn)確的預(yù)測國家人均GDP具有重要的意義,本文研究發(fā)現(xiàn)千人手機(jī)擁有量、服務(wù)業(yè)占GDP比重、識字率、凈移民與GDP呈正相關(guān);出生率、嬰兒死亡率、農(nóng)業(yè)呈負(fù)相關(guān);而多元線性回歸的結(jié)果表明通過一個國家的基本經(jīng)濟(jì)數(shù)據(jù),可以較為準(zhǔn)確地預(yù)測國家的GDP。在未來的研究中,學(xué)者可以收集更加詳細(xì)以及具備時間序列的經(jīng)濟(jì)數(shù)據(jù),從而更加準(zhǔn)確地預(yù)測經(jīng)濟(jì)的發(fā)展。
參考文獻(xiàn):
[1]徐菁.對財政收入與GDP相關(guān)性的分析[J].浙江金融,2007(1):49-50.
[2]James, Spencer L., et al. "Developing a comprehensive time series of GDP per capita for 210 countries from 1950 to 2015." Population health metrics 10.1 (2012): 12.
[3]GB/T 7714 劉海濤.中國GDP質(zhì)量的評價體系研究[D].西北師范大學(xué),007.
[4]李凱,張濤. 上海市2017-2020年GDP預(yù)測研究——基于改進(jìn)的GM(1,1)模型[J].華東經(jīng)濟(jì)管理,2017,31(10):11-15.
[5]張靜.基于貝葉斯時序模型的甘肅省人均GDP預(yù)測[J].數(shù)理統(tǒng)計與管理,2018(2):205-210.
[6]張競文,李洋,孫德山.時間序列模型在遼寧省GDP預(yù)測中的應(yīng)用[J].中國集體經(jīng)濟(jì),2017(7):61-62.
[7]薛倩,牟鳳云,涂植鳳.組合預(yù)測方法在重慶市GDP預(yù)測中的應(yīng)用[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),2017(1).
[8]王紅超,王紅蕾.基于指數(shù)平滑法與回歸分析相結(jié)合的GDP預(yù)測[J].經(jīng)濟(jì)研究導(dǎo)刊,2018(7):1-6.
[9]劉瀏.基于線性回歸的甘肅省“十三五”時期GDP預(yù)測[J]. 淮海工學(xué)院學(xué)報(人文社會科學(xué)版),2017(3):90-92.
[10]王惠文,孟潔.多元線性回歸的預(yù)測建模方法[J].北京航空航天大學(xué)學(xué)報,2007,33(4):500-504.
[11]Willmott, Cort J., and Kenji Matsuura. "Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance." Climate research 30.1 (2005): 79-82.