趙玉霞
(河南城建學院,河南 平頂山 467044)
分組數據下幾種不同基尼系數的算法
趙玉霞
(河南城建學院,河南 平頂山 467044)
基尼系數,作為衡量居民內部收入分配差異狀況的一個重要指標,廣大學者從不同角度對它進行了研究。文章將以分組數據為例,采用參數法,介紹了曲線擬合法——廣義二次函數法、分布函數法——對數正態分布等幾種求解基尼系數的方法。
分組數據;參數法;基尼系數
對于“分組數據”則應當采用參數法,估計其總體洛倫茲曲線或者總體收入分布,進而求得基尼系數。應用參數法確定“分組數據”的總體洛倫茲曲線的方法主要有兩種:一種是為洛倫茲曲線選擇適當的參數方程直接擬合,確定其參數,并在此基礎上求得基尼系數,另外一種為分布函數法,是基于對指標的概率密度函數或概率分布函數的假設,來估計其分布參數,然后對洛倫茲曲線和基尼系數進行估計的。
采用參數法確定總體洛倫茲曲線,首先便應確定基于組數據下的樣本洛倫茲曲線。樣本洛倫茲曲線是由k+1個點(P0,L0),(P1,L1),…,(Pk,Lk)由直線連接而得到的,其中(P0,L0)=(0,0),(PK,LK)=(1,1),Pi表示收入到i組人數的累積比例,Li表示收入小于或等于i組的居民的收入占整體居民的收入比例。若令L(x/α1,…,αp)表示給定參數 α1,α2…αp的一條洛倫茲曲線,那么其必須滿足洛倫茲曲線的必要條件Kakwani(1980):

其中(1)式表示的是邊界條件,0%的人擁有0%的收入,100%的人擁有 100%的收入。 (2)式表示 L(x/α1,…,αp)是單調且凸的。α=(α1,…αp)∈Θ,Θ為參數空間。對于給定的樣本洛倫茲曲線,采用不同的方法將會得到不同的參數向量α,從而得出不同的總體洛倫茲曲線。采用曲線擬合的方法,則不用考慮收入的分布情況,只需要確定滿足條件(1)、(2)的曲線,采用最小二乘法或者極大似然估計的方法確定參數,擬合已有的樣本洛倫茲曲線。到目前為止運用的擬合曲線主要有多項式函數,logit函數,冪函數形式,廣義二次函數形式以及一些其他形式的曲線方程。我們主要介紹以下幾種主要的分布方法。
Villassnor,Arnold(1989)提出的廣義二次法,該模型為:

在f=0及a+b+c+d+e=0的情況下,該曲線滿足洛倫茲曲線的必要條件,令x為P,y為L,結合上述條件,再規范化設d=1,得到:

(4)(5)式必然通過(0,0)兩點。 根據這些系數的值,該曲線可以是拋物線,雙曲線,直線,圓,或者橢圓。給定洛倫茲曲線條件,式(5)可以寫成

方程(6)的解是

其中 α=bP-1-a-b-c=bP+e,e=1+a+b+c,且 β=aP2+cP
正根不滿足所有的一致性條件,替換α和β后得到:

這便是通過廣義二次函數法得到的基尼系數。
采用分布函數法來估計總體洛倫茲曲線時,首先應當假定收入指標ξ為一隨機變量,且其滿足某一分布函數,即假設收入分布函數是連續的,此時設L代表累積的收入分布,P累積的人口分布,將人均收入按由低到高的順序排列,L(P)代表占比例為P的人口所擁有的占總收入比例為L的收入。表示不均等狀況的基尼系數定義如下:

即基尼系數為1減去洛倫茲曲線以下面積的兩倍。且應滿足上述的洛倫茲曲線條件(1)(2)。
設F(x),f(x)分別是企業員工收入指標ξ的分布函數與密度函數,根據定義,收入到x的累積密度函數即洛倫茲曲線上任意點的橫坐標P可以表示為:

收入小于或等于x的居民的總收入占整體居民的收入份額,即縱坐標L可以表示為

式中x>0,x<ξ的最大值,Eξ是ξ的數學期望。因為確定洛倫茲曲線的參數形式,進而測定基尼系數都是由樣本數據計算出來的,所以其統計推斷就變得十分重要。關于洛倫茲曲線的的確定,其首先要解決的就是收入的分布情況。目前為止假定的收入分布主要有對數正態分布,Beta分布以及5參數的廣義Beta分布(GB)和冪函數形式的廣義貝塔分布函數(EGB)等。
在這里,我們假定企業員工收入分布符合對數正態分布。這樣做主要有以下三個原因:(1)反應系統規模收入服從對數正態分布的假設是經濟學常用的方法(Dollar&Kraay,2001);且成邦文(2000,2005)給出的一個利用我國數據的實證分析也表明反映系統規模大小的社會經濟指標,其分布的不均勻性可以用對數正態分布來描述。
(2)根據企業員工收入的“微觀數據”做出收入密度函數圖,經驗的說明企業員工收入服從對數正態分布。
(3)若檢驗企業員工收入這個隨機變量是否符合對數正態分布,可以采用非參數的K-S實證方法進行檢驗。計算其顯著水平α,當α大于規定的臨界值的時候,可以認為該分布符合對數正態分布,否則就不符合。一般情況下,α可以取0.05,當研究對象的個體數目很大時可以取0.01。
設 μ=Elnξ,σ2=Dlnξ分別是 lnξ的均值與方差,在對數正態分布下,有

上述就是運用對數正態分布下基尼系數的求解。
而如何確定那種參數洛倫茲曲線得出的基尼系數是合理的呢?在這里我們采用Kakwani(1986)的Beta分布方法,其原因如下:
檢驗基尼系數是否合理可以根據樣本基尼系數的上下界來判定。 這一思想是由 Gastwirth (1972)、Mehran(1975)、Murray(1978)以及 Fuller(1979)年提出的。 樣本基尼系數的上下界限定了樣本基尼系數的范圍,不依賴于任何總體收入分布或洛倫茲曲線的假定,僅從“分組數據”樣本就可以計算出來。而利用“分組數據”樣本采用參數法估計總體基尼系數依賴于對總體收入分布或洛倫茲曲線的假定。因此,對于給定的“分組數據”樣本,若根據某一假定估計的基尼系數是顯著地處于樣本基尼系數上界和下界構成的區間之外,我們就有理由懷疑其假定的正確性。若按照Gastwirth(1972)給出的一個非參數的檢驗方法:

式中GL為基于組數據的樣本洛倫茲曲線確定的基尼系數,△被稱為組效應(grouping effect)Gastwirth指出合理的總體基尼系數應介于GL和GU之間。Schader M,Schmid F(1994)應用美國1950~1988部分年間的收入數據,采用Gastwirth邊界方法,檢驗了12種參數洛倫茲曲線及其確定的基尼系數,在這里我們采用Kakwani(1986)的Beta分布方法,其原因主要是基于Schader M,Schmid F(1994)應用美國1950~1988部分年間的收入數據,采用 Gastwirth(1972)提供的上下界檢驗方法,檢驗了12種參數洛倫茲曲線及其確定的基尼系數,并指出Kakwani(1986)的Beta分布方法,在16次檢驗中完全滿足Gastwirth邊界。
Kakwani(1986)年提出的洛倫茲曲線具有如下形式:

式中,a,α,β為參數,我們可以看到,這一曲線為擬合方程。而其確定的基尼系數為Beta分布,如下所示:

具體推導過程較為繁瑣,在此略去。
對于(17)式中參數a,α,β的估計問題,一種常用的方法是選擇適當的變換將非線性方程轉換為線性方程,進而利用最小二乘估計來確定其參數。在這里我們做如下的變換:
(17)式可以變為

兩邊取對數后(19)式可以變為

給定向量P,L,1,即可通過最小二乘法估計參數lna,α,β,從而確定參數a,α,β。參數確定之后即可通過公式(18)確定基尼系數。
[1]王春雷,黃素心.基尼系數與樣本信息含量[J].數量經濟技術經濟研究,2007,(2).
[2]成邦文.基于對數正態分布的洛倫茲曲線與基尼系數[J].數量經濟技術經濟研究,2005,(2).
[3]歐陽植,于維生.分組數據的收入分布擬合以及洛倫茲曲線與基尼系數[J].數量經濟技術經濟研究,1994,(6).
[4]王祖祥.分組數據條件下基尼系數的有效估算方法[J].數量經濟技術經濟研究,2001,(8).
[5]陳奇志,陳家鼎.關于洛倫茲曲線和基尼系數的一點注記[J].北京大學學報(自然科學版),2006,(9).
[6]莊健,張永光.基尼系數和中等收入群體比重的關聯性分析[J].數量經濟技術經濟研究,2007,(4).
(責任編輯/浩 天)
F224.9
A
1002-6487(2011)03-0162-02