孫飛 宋向東 鄭陽
摘要:文章將Benford 法則與聯立方程組的計量經濟學模型相結合,從定量角度研究區域經濟統計數據的質量檢驗問題,改進了傳統的以上年統計數據預測下年統計數據模型,建立以同一年份指標為解釋變量和被解釋量的聯立方程組計量經濟學模型,從而避免了由于宏觀經濟運行環境不穩定導致的預測偏差,并運用2012年實際數據進行了模型檢驗,效果良好。
關鍵詞:數據質量;聯立方程組;Benford法則
一、研究背景
統計數據是一個國家或地區社會經濟發展的基本情報,是各級主管部門正確分析國民經濟運行態勢及制定方針政策和宏觀調控的重要依據。同時,準確而充分的統計信息是決策與科學研究的基礎,直接影響到社會科學研究能否產生正確的研究結果。因此對統計數據質量作出科學的檢驗,具有重要現實意義和應用價值。然而由于各地政府為了自身利益過于追求政績統計,公布的統計數據往往存在著夸大和水分的情況,使得上報數據存在著嚴重的質量問題,使人們對于統計數據產生信任危機。在這種情況下,檢驗區域宏觀經濟統計數據質量成為了各級統計局的一項重要的任務,引起了政府和學者的深入研究和廣泛探討。
二、研究指標
描述區域宏觀經濟運行的統計指標眾多,為了研究定量診斷模型的典型性,本文只選擇了區域宏觀經濟運行的11個核心指標來研究統計數據質量定量診斷模型,包括地區生產總值(RP)、財政收入(CZ)、居民消費水平(JZ)、固定資產投資(I)、人口數(RS)、電力消耗量(DX)、社會消費零售總額(SZ)、區域貨運量(HY)、失業率(SYL)、就業工資總額(GZ)和商品零售價格指數(SJ)。
地區生產總值、財政收入、固定資產投資、全社會商品零售總額這四個指標與地區的經濟發展水平的相關性較高,能夠反映出一個地區政府的政績,也最容易出現質量問題,而人口數、電力平均消耗量等七個其他指標相比之下只是間接地體現區域宏觀經濟的運行情況,與地方政府的政績聯系沒那么緊密,數據質量不那么容易出現問題,指標數據相對真實可信。
三、模型構建
本文采用聯立方程組模型研究區域宏觀經濟統計數據質量診斷問題。首先,選擇內生變量RP、CZ、JX、I為診斷指標;其次,假定外生變量RS、DX、SZ、HY、SYL、GZ和SJ為真實指標。
建立的初步靜態結構型模型為
RP=a■+a■RS+a■DX+a■SZ+a■HY+a■SYL+a■GZ+a■SJ+ε■CZ=b■+b■RS+b■DX+b■SZ+b■HY+b■SYL+b■GZ+b■SJ+ε■JX=c■+c■RS+c■DX+c■SZ+c■HY+c■SYL+c■GZ+c■SJ+ε■I=d■+d■RS+d■DX+d■SZ+d■HY+d■SYL+d■GZ+d■SJ+ε■
四、模型的識別判斷
上述結構型模型有內生變量M=4,前定變量K=7。對聯立方程組的識別性進行判斷。
首先,用階條件對方程組內的第一個方程進行判斷:這時m1=1,k1=7,K-k1=0,m1-1=0,所以K-k1=-1,表明可能為恰好識別。其次,用秩條件判斷,劃去第一行和非零系數所在的列,得3行10列矩陣,即
(B0,Γ0)=
1 0 0 -b■ -b■ -b■ -b■ -b■ -b■ -b■0 1 0 -c■ -c■ -c■ ?-c■ -c■ -c■ -c■ 0 0 1 -d■ -d■ -d■ -d■ -d■ -d■ -d■
顯然Rank(B0,Γ0)=3,M-1=3,則由秩條件判斷表明該方程為恰好識別。再根據上述階條件可知,此方程可以識別。
用秩條件和階條件判斷方程組內的其他方程也均恰好識別,可確定該聯立方程組計量經濟學模型是可以識別的。
五、統計數據的Benford檢驗
統計數據呈自然狀態分布時存在著特定的分布規律,這種分布規律和Benford定律有著一定的聯系。真實的數據可以非常好地符合Benford定律,那么如果有數據和Benford定律相背離,就意味著存在數據失真的可能性。
在2006~2011年我國政府統計數據中選擇地區生產總值、財政收入、居民消費水平、固定資產投資、總人口數、電力消耗量、社會消費零售總額、區域貨運量、就業工資總額九項區域宏觀經濟指標,以全國31個省市(西藏地區個別年份無統計數據)為對象進行分析(樣本容量n=1647)。考慮到宏觀經濟指標首位數字出現問題概率較小,本文直接對所有數據的第二位數字分布進行Benford定律測試,整個過程應用Excel軟件計算,測試結果如圖1、表1所示。
從表1及圖1可以看出第二位數字的分布與Benford分布基本吻合,兩者之間的差異值的絕對值都小于0.02,并且觀察頻率與Benford分布一樣都是隨著數字的變大出現頻率逐漸遞減的趨勢。但是數字4和數字7的頻率差異值高于0.01,這種偏離的程度是否在可以接受的誤差范圍內,還需要對其進行Benford的檢驗。
(一)提出假設
H0:統計數據的第二位數中,0~9這10個自然數的實際出現次數與Benford定律下的期望出現次數沒有顯著差別。
H1:統計數據的第二位數中,0~9這10個自然數的實際出現次數與Benford定律下的期望出現次數有顯著差別。
(二)構建檢驗統計量
根據指標數據的第二位數中,0~9這10個自然數實際出現的次數與Benford定律下期望出現的次數構建一個X2統計檢驗量。
X2擬合優度檢驗公式為
X2=∑■
式中,Oi和Ei分別是被檢驗數據的第二位數字出現的實際次數和期望次數。第二位上出現的數字是0-9,X2檢驗的自由度為9,在0.05置信度下,X2檢驗值為9.8415小于16.919時,接受原假設,即統計數據的第二位數中每個自然數的實際出現次數與Benford定律下的期望出現次數沒有顯著差別。
六、模型的估計與檢驗
利用SAS軟件的SYSLIN過程對模型進行估計與檢驗,數據擬合結果見表2。
通過表2結果可以看出各個方程擬合效果良好,在0.01顯著性水平下模型各方程均能通過顯著性檢驗。但個別幾個變量的系數檢驗不能通過,結合變量系數經濟意義合理性,對方程中的變量按系數不通過檢驗的概率值從大到小逐個剔除,最終得到方程為
RP=-0.11571RS+2.558542DX+2.135011SZ+0.004580HYCZ=-0.09835RS+0.242938DX+0.136688SZ+24.56903SYL+0.424629GZJX=-1.22027RS+5.522863GZ+72.96371SJI=1.068947SZ+0.032516HY-1.01736GZ+5.467065SJ
數據擬合結果見表3。
通過表3結果可以看出各個方程擬合效果良好,在0.01顯著性水平下本模型各方程均能通過顯著性檢驗。
經過對模型計量經濟學檢驗,聯立方程組模型不存在異方差檢驗性、序列相關性檢驗和多重共線性。
七、統計數據質量檢驗
為檢驗模型的診斷效果,本文對河北、湖南和廣西三個地區的2012年宏觀經濟的地區生產總值(RP)、財政收入(CZ)、居民消費水平(JX)和固定資產投資(I)四個指標進行檢驗分析。把國家統計局公布的真實RS、DX、XZ、HY、SYL、GZ、SJ數據代入上述模型得出RP、CZ、JZ、I的診斷結果見表4。
通過分析各地區數據APE值,由表4可以看出,模型估計的河北地區的財政收入和固定資產投資、湖南地區的固定資產投資、廣西地區的居民消費水平與地方提供數據出入較大,超過了10%。一方面,可能是建模時遺漏了影響這幾個宏觀經濟指標增長的指標變量,也可能是對不符合要求異常數據沒有進行有效技術處理造成的;另一方面也可能是這幾個指標數據質量確實存在問題有待診斷。
八、小結
本文研究的是區域宏觀經濟統計數據質量問題,選取11個主要的宏觀經濟指標構建診斷模型。歸納起來主要有以下幾個特點:第一,文章首先對2006~2011年31個省宏觀經濟指標的截面統計數據進行了Benford法則檢驗,考察其可靠性,并作為構建截面數據模型的前置條件;第二,文章首創了以同一年指標數據建立宏觀經濟數據檢驗的聯立方程組的計量經濟學組模型的方法,相比以往的結合上一年度數據預測本年度經濟數據模型有許多優點。此外,模型的外生變量指標選取還可能優化調整,有些指標的統計數據如經過專業的技術處理后再應用于模型擬合效果可能會更好。
參考文獻:
[1]高鴻業.西方經濟學[M].北京:中國經濟出版社,1996.
[2]李子奈,潘文卿.計量經濟學(第2版)[M].北京:高等教育出版社,2005.
[3]高惠璇.SAS系統SAS/ETS軟件使用手冊[M].北京:中國統計出版社,1998.
*基金項目:全國統計科研計劃項目(2011LY064)。
(作者單位:燕山大學理學院)