寇業(yè)富,孫曉靜
(中央財經(jīng)大學(xué)a.中國精算研究院;b.保險學(xué)院,北京 100081)
基于模糊線性回歸分析的我國人口估計
寇業(yè)富a,孫曉靜b
(中央財經(jīng)大學(xué)a.中國精算研究院;b.保險學(xué)院,北京 100081)
由于人口的瞞報、漏報和錯報等問題,每一年度的數(shù)據(jù)并不是一個確切數(shù),而是一個基于一定把握程度(隸屬度)基礎(chǔ)上的數(shù),是一個典型的模糊數(shù)。文章運用模糊線性回歸分析對我國的人口變化進行估計,得到了一簇為以傳統(tǒng)的計量回歸分析數(shù)據(jù)為中心值的模糊回歸模型曲線。其結(jié)果對于預(yù)測問題和我國的人口預(yù)測與估計具有較好的借鑒意義和應(yīng)用價值。
人口估計;模糊數(shù)學(xué);線性回歸分析
人口統(tǒng)計的數(shù)據(jù)質(zhì)量一般包括總量數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)數(shù)據(jù)的質(zhì)量。我國2000年人口普查表明,我國人口統(tǒng)計的數(shù)據(jù)質(zhì)量呈下降態(tài)勢,人口漏報達到1.81%(張為民,2008)。總量數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)數(shù)據(jù)的質(zhì)量之間相互影響。比如某一年齡段人口數(shù)據(jù)的漏報或重報,可能影響總量數(shù)據(jù)的質(zhì)量、性別和年齡數(shù)據(jù)的錯報等;總量數(shù)據(jù)的失真則必然影響到結(jié)構(gòu)數(shù)據(jù)的質(zhì)量。總量和結(jié)構(gòu)數(shù)據(jù)的質(zhì)量對于人口統(tǒng)計而言都非常重要,都是進行決策和科學(xué)研究的基礎(chǔ)。本文擬主要研究我國人口總量的數(shù)據(jù),并運用數(shù)學(xué)模型進行我國人口數(shù)據(jù)統(tǒng)計質(zhì)量的動態(tài)量化分析。
為了解決帶有模糊信息的動態(tài)預(yù)測問題,在線性回歸技術(shù)的基礎(chǔ)上,提出了模糊回歸預(yù)測技術(shù)(丁世飛、程述漢、蘇本堂,2000)。和其他回歸技術(shù)一樣,模糊回歸的目的是決定一個因變量和一組獨立變量之間的函數(shù)關(guān)系。如(吳沖、潘啟樹、李漢玲,2000)提出了模糊系數(shù)為對稱三角模糊數(shù)的模糊線性回歸預(yù)測模型。本文從輸入、輸出變量都是模糊數(shù)的觀念出發(fā),給出模糊線性回歸模型。為方便計,假設(shè)輸入、輸出變量為對稱三角模糊數(shù)。
在模糊線性回歸中,由于其自變量或因變量或二者都不是一個確切的實數(shù),而是一個區(qū)間或一個模糊數(shù),所以模糊回歸在很多方面比傳統(tǒng)的線性回歸更為復(fù)雜。
與線性回歸類似,我們假設(shè)因變量是若干自變量的線性組合。在我國人口數(shù)量預(yù)測中,設(shè)立雙變量模糊回歸模型:

在此模糊回歸模型中,擾動項并未被作為一個隨機變量引入線性關(guān)系中,而是被包含在輸入、輸出變量中。在傳統(tǒng)的最小二乘回歸中,用隨機殘差項解釋因變量和自變量之間的不精確關(guān)系。將模糊集引入回歸分析則使我們可以處理因變量和自變量都是或者其中之一為模糊數(shù)的不精確關(guān)系。我們可以對觀察數(shù)據(jù)進行模糊分析和處理,然后與統(tǒng)計中的最小二乘回歸分析類似,找出模型中回歸系數(shù)的模糊最小二乘估計,也就是用模糊數(shù)代替隨機變量,找出變量之間的不確定關(guān)系。 在式(1)中,Y軒、X軒的隸屬函數(shù)分別表示如下:

本文首先對輸入、輸出數(shù)據(jù)進行模糊化,使對應(yīng)的模糊輸出為對稱三角模糊數(shù)Y軒=(y,u),對應(yīng)的模糊輸入X軒為對稱三角模糊數(shù)X軒=(x,v)。 因為Y軒和X軒為對稱三角模糊數(shù),故模型的確定在于參數(shù)y、u和x、v的確定。
李竹渝、張成(2008)研究了模糊數(shù)據(jù)的回歸模型分析,其用到模糊最小二乘方法 (Fuzzy Least Square,F(xiàn)LS)。FLS方法的基本思想是通過回歸系數(shù)的選取,使得所有模糊因變量與因變量觀測值之間的模糊距離最小,一般用平方和計算。與經(jīng)典的回歸分析中模型擬合效果評價的OLS(Ordinary Least Square)準(zhǔn)則類似,借鑒(吳今培,2002)的方法,給出FLS方法的擬合原則如下。

從而可以定義模糊距離平方和的距離為:

通過求式(3)的最小值,即可以得到模型(1)中回歸系數(shù)的FLS估計。
根據(jù)2007年國家統(tǒng)計年鑒,得到從1990年到2006年各年度人口數(shù)據(jù)如表1。
由表1可以看到,從1990年到2006年人口總量的自然增長率比較平穩(wěn),沒有比較明顯的折點和尖點。
為了利用雙變量模糊回歸模型,首先自變量(年度)和因變量(人口)數(shù)據(jù)進行模糊化處理。
在此進行模糊化處理的原因主要有兩點:①人口的統(tǒng)計并不一定是在年度末或者年度末進行,無論從統(tǒng)計時間上還是從統(tǒng)計數(shù)量上,都應(yīng)該是一個模糊數(shù);②由于各種原因,現(xiàn)實中人口的瞞報、漏報和錯報比較嚴(yán)重,有必要對人口數(shù)量等進行模糊化處理。即通過文獻[9]的方法對于人口數(shù)據(jù)觀測值進行模糊三角化處理。
另外,為了體現(xiàn)年度之間的關(guān)系,被解釋變量取作(Y-1989)。
處理后的對稱三角模糊數(shù)值如表2。
根據(jù)表1和表2的數(shù)據(jù),構(gòu)造模糊雙變量回歸模型:
(1)利用FLS方法得到模糊回歸估計模型(其中自變量取年度的序列號(年度—1989)):

表1

表2

表3

(2)由式(4)得到模糊樣本觀測數(shù)據(jù)中心和廣度的回歸模型分別為:

從式(5)可以看出,人口總量的模糊三角數(shù)的中心值是年度模糊三角模糊數(shù)的中心值的線性函數(shù),人口總量的模糊三角數(shù)的廣度也是年度模糊三角模糊數(shù)的廣度的線性函數(shù)。
根據(jù)式(5)的計算結(jié)果,得到基于模糊回歸分析的人口估計(圖1)。其中兩條虛線分別代表人口總量的上下限;中心實線為樣本數(shù)據(jù)觀測中心值的模糊回歸曲線,中心實線類似于線性回歸曲線。越靠近中心線,隸屬度越高,其出現(xiàn)的可能性就越大。
本文引用模糊回歸模型估計人口數(shù)量,一定程度上彌補了樣本數(shù)據(jù)的缺少、粗糙等問題,為數(shù)據(jù)的分析和估計提供了一個新的方法,其主要特點有:
一是從理論上講,傳統(tǒng)的計量回歸分析是用隨機殘差項解釋因變量和自變量之間的不精確關(guān)系;模糊回歸分析通過把因變量和自變量設(shè)定為模糊隨機變量,解釋它們之間的模糊關(guān)系。
二是從計算過程上看,傳統(tǒng)的計量回歸分析主要是利用如最小二乘法、極大似然法等,評估觀測值和預(yù)測值的擬合程度,確定估計系數(shù)值;模糊回歸分析通過基于兩個集合之間的貼近程度估計系數(shù)值,并把模糊系數(shù)的廣度作為一個因素,參與到估計系數(shù)值的計算當(dāng)中去;
三是從計算結(jié)果看,傳統(tǒng)的計量回歸分析得到的是一個系數(shù)為實數(shù)的函數(shù)形式,并通過給出系數(shù)的置信區(qū)間,反映對于估計系數(shù)值的把握程度以及回歸方程的顯著性。模糊回歸分析分別得到兩個函數(shù)關(guān)系式:一是關(guān)于樣本觀測數(shù)據(jù)中心值的函數(shù)關(guān)系式;一是關(guān)于樣本觀測數(shù)據(jù)廣度的函數(shù)關(guān)系式。基于兩個集合之間的貼近程度估計系數(shù)值,反映了對于樣本觀測數(shù)據(jù)與擬合數(shù)據(jù)貼近程度的把握程度;
四是在估計傳統(tǒng)的計量回歸分析的預(yù)測值時,預(yù)測值是一個基于置信度的對稱區(qū)間;模糊回歸分析中,是直接根據(jù)系數(shù)的模糊假設(shè)表達式,得到基于隸屬度的預(yù)測區(qū)間,并不一定滿足對稱性,并且也取決于模糊系數(shù)的表達式;模糊回歸分析得到是一個動態(tài)的結(jié)果,人們可以根據(jù)客觀情況或主觀意愿,選擇隸屬度(把握程度),從而得到不同的預(yù)測值。

圖1
人口估計的總量數(shù)據(jù)是研究經(jīng)濟問題等不可或缺的指標(biāo),本文的結(jié)果將對經(jīng)濟決策和相關(guān)科學(xué)研究提供幫助。
一是本文運用模糊數(shù)學(xué)的概念和研究方法為研究人口統(tǒng)計的數(shù)據(jù)質(zhì)量問題提供了一個新的思路。例如張為民(2008)指出,我國人口普查數(shù)據(jù)質(zhì)量呈下降態(tài)勢。因此研究人口統(tǒng)計的數(shù)據(jù)質(zhì)量問題是一個迫切且具有現(xiàn)實意義的內(nèi)容。在2000年人口普查中,推斷普查0~9歲人口漏報多達3014萬(張為民、崔紅艷,2004)。這些都必將嚴(yán)重影響我國經(jīng)濟決策水平和經(jīng)濟發(fā)展目標(biāo)的確定。
根據(jù)本文的結(jié)果,在2000年人口總量的絕對區(qū)間為[64948.59,185021.2](萬人),即以 100%的把握程度(即以 0%的錯誤率)說明2000年度人口總量的統(tǒng)計數(shù)據(jù)在64948.59萬人到185021.2萬人之間;如果考慮到100%的把握程度是沒有實際應(yīng)用價值的,因此如果控制在1%的錯誤率 (即以99%的把握程度)下,人口總量的實際數(shù)據(jù)包含在區(qū)間為[124354.64,125585.26](萬人)內(nèi)。而2000年人口普查公報的漏報率為1.81%(張為民,2008),遠大于1% 。
這個結(jié)果反映了運用模糊回歸分析模型的優(yōu)越性:即只要把解釋變量和被解釋變量的中心數(shù)與廣度分別進行回歸后,就可以得到人口統(tǒng)計的結(jié)果,并且非常簡單的得到在百分之幾的錯誤率下,人口總量的取值范圍。
二是實現(xiàn)了人口統(tǒng)計數(shù)據(jù)總量的動態(tài)化分析。例如在在1%的失誤率下,2000年人口總量的取值區(qū)間為[124354.64,125585.26](萬人); 如果假設(shè)有 2%的失誤率,則2000年人口總量的取值區(qū)間為 [123754.18,126585.62](萬人);如果假設(shè)有5%的失誤率,則2000年人口總量的取值區(qū)間為[121984.72,127985.08](萬人);……。
即失誤率越大,人口總量的取值區(qū)間就越大,實現(xiàn)了人口數(shù)據(jù)總量的動態(tài)化處理。這樣即為我們在處理復(fù)雜問題時根據(jù)實際情況選取不同的區(qū)間值提供了依據(jù),并且具有很好的可操作性。
三是有利于判斷數(shù)據(jù)變化范圍及趨勢。胡英(2009)指出,對于社會經(jīng)濟方面的數(shù)據(jù),點估計數(shù)據(jù)并非完全適應(yīng)。在模糊線性回歸分析中,分別就中心數(shù)和廣度進行模糊回歸估計,其估計值是三角模糊數(shù),比較充分的考慮了統(tǒng)計過程中的漏報、錯報、重報等現(xiàn)象,給出了人口數(shù)據(jù)的上下限變化范圍,有利于判斷人口及相應(yīng)的變化趨勢。
四是在引入模糊回歸分析模型研究人口規(guī)模與變化趨勢后,完善了根據(jù)人口基準(zhǔn)數(shù)據(jù)推算調(diào)查數(shù)據(jù)的方法,比指數(shù)平滑法等相關(guān)研究方法更具有可操作性。
[1]張為民.對我國人口統(tǒng)計數(shù)據(jù)質(zhì)量的幾點認識[J].人口研究,2008,(9).
[2]丁世飛,程述漢,蘇本堂.多元模糊回歸預(yù)測模型及其應(yīng)用[J].模糊回歸預(yù)測模型及其應(yīng)用,2000,(9).
[3]李竹渝,張成.模糊數(shù)據(jù)的回歸模型結(jié)構(gòu)分析 [J].統(tǒng)計研究,2008,(8).
[4]吳今培.模糊時間序列建模及應(yīng)用[J].系統(tǒng)工程,2002,20(4).
[5]張為民,崔紅艷.對2000年人口普查數(shù)據(jù)準(zhǔn)確性的估計[D].中國2000年人口普查國際研討會論文集,中國統(tǒng)計出版社,2004.
[6]寇業(yè)富,李曉林.壽險公司業(yè)務(wù)結(jié)構(gòu)的相似性分析及其聚類研究[J].中央財經(jīng)大學(xué)學(xué)報,2009,(2).
[7]寇業(yè)富.可數(shù)Fuzzy基數(shù)的運算法則[J].系統(tǒng)工程理論與實踐,2003,(9).
[9]韓立巖.應(yīng)用模糊數(shù)學(xué)[M].北京:首都經(jīng)貿(mào)大學(xué)出版社,2004.
[10]胡英.2000~2008年中國城鎮(zhèn)、鄉(xiāng)村經(jīng)濟活動人口數(shù)量估計[J].中國人口科學(xué),2009,(12).
F126
A
1002-6487(2011)04-0025-03
教育部重點研究基地資助項目(2009JJD790053);中央財經(jīng)大學(xué)“211”工程第三期資助項目
(責(zé)任編輯/亦 民)