王立志,宋紅麗,郁萬妮,安娟,吳希媛,吳元芝
基于ArcGis平臺利用洛倫茲曲線對基尼系數的簡化計算方法
王立志1,2*,宋紅麗1,2,郁萬妮1,2,安娟1,2,吳希媛1,2,吳元芝1,2
(臨沂大學 1. 山東省水土保持與環境保育重點實驗室,2. 資源環境學院,山東 臨沂 276005)
基尼系數是以洛倫茲曲線為基礎推導出來的.在實際應用中,一般用直接計算法、擬合曲線法、分組計算法和分解法等計算基尼系數.這幾種方法可行,但缺點很明顯,其計算方法有的比較粗糙,并且計算結果不夠精確.基尼系數的值取決于洛倫茲曲線與絕對平均線之間面積的大小,可能有相同的基尼系數.為避免一般方法帶來的誤差,基于ArcGis平臺,利用洛倫茲曲線對基尼系數簡化計算.步驟為:(1)繪制洛倫茲曲線;(2)將洛倫茲曲線圖標坐標進行統計,主要統計圖標4個端點坐標,對角線坐標,以及洛倫茲曲線坐標,坐標值按照散點圖的軸值進行定義,值為無量綱;(3)將軸坐標數據導入ArcGis平臺里的ArcMap;(4)將導入文件轉為shape格式線文件;(5)將shape格式線文件轉為面文件;(6)計算面文件面積,計算基尼系數.該方法避免了復雜的積分過程,同時也避免了洛倫茲曲線解析式的描述,可以將誤差降低到最小,同時簡化的計算步驟,在計算效率方面具有較大的提高.
基尼系數;洛倫茲曲線;ArcGis平臺;計算方法;計量地理學
基尼系數和洛倫茲曲線是度量離散性分布的有效的統計工具,也是展現差異程度的重要指標,其不僅廣泛應用在經濟領域研究國民收入分配問題,還可用于分析各個地區生產力布局和產業結構分布問題,描述資本等分配的均衡程度[1].
基尼系數雖然是一個極為簡明的數學表達式,由于對洛倫茲曲線表達式解的困難,因此它并不具有實際的可操作性.為了尋求具有可操作性的估算方法,自基尼提出基尼比率以來,許多經濟學家和統計學家都進行了這方面的探索[2].在已有的研究成果中,主要有4種具有代表性的估算方法,可以分為直接計算法、擬合曲線法、分組計算法和分解法[3].
直接計算法并不依賴于洛倫茲曲線,它直接度量收入不平等的程度.直接計算法依然采用了以直代曲法計算面積,只不過這個過程在樣本數據范圍內達到了最小近似,其精確度直接取決于樣本數據本身[4].因此,認為它不帶任何誤差地計算了樣本數據的基尼系數值.
擬合曲線法計算基尼系數的思路是采用數學方法擬合出洛倫茲曲線,得出曲線的函數表達式,然后用積分法求出面積,計算基尼系數[5].通常是通過設定洛倫茲曲線方程,用回歸的方法求出參數,再計算積分.擬合曲線法擬合洛倫茲曲線具有2個重要的缺點,一是得出函數表達式的過程中,可能產生誤差;二是擬合出來的函數必須是可積分的,否則就無法計算[6].
分組計算法,在軸上尋找個分點,將洛倫茲曲線下方的區域分成部分,每部分用以直代曲的方法計算面積,然后加總求出面積[7].分組計算法不依賴于洛倫茲曲線的函數形式,但在以直代曲的環節會出現誤差,增加分點的個數可以減少這種誤差[8].
分解法則是在求出上述值的基礎上,力圖研究基尼系數的構成因素,除了得出總的基尼系數的信息之外,在計算過程中還能夠獲得分解部分內部的基尼系數值[9].
以上方法的計算均需要很大的計算量,同時由于采用的方法不同,計算的結果均存在不同程度的誤差.本方法基于ArcGis平臺,利用洛倫茲曲線對基尼系數進行簡化計算,可以將誤差降低到最小,同時簡化的計算步驟,可以提高計算效率.
基尼系數是意大利經濟學家基尼(Gini)在1912年提出來的,是用來反映收入分配差異程度的重要指標.基尼系數以洛倫茲曲線(Lorenz curve)為基礎進行計算.洛倫茲曲線是指在一個總體(國家、地區)內,以“最貧窮的人口計算起一直到最富有人口”的人口百分比對應各個人口百分比的收入百分比的點組成的曲線.為了研究國民收入在國民之間的分配問題,美國統計學家洛倫茲1907年提出了著名的洛倫茲曲線.由于該曲線可以研究國民收入在國民之間的分配問題,因此,洛倫茲曲線可直觀地反映財富分配的性質[10-11].

圖1 洛倫茲曲線與基尼系數
赫希曼根據洛倫茲曲線提出的判斷分配平等程度的指標,設實際收入分配曲線和收入分配絕對平等曲線之間的面積為,實際收入分配曲線右下方的面積為,以除以(+)的商表示不平等程度[12].這個數值被稱為基尼系數或稱洛倫茲系數(見圖1).
假若上述洛倫茲曲線的解析表達式為

則該曲線下方區域的面積為
顯然,對應于絕對均衡分布,其洛倫茲曲線就是正方形的對角線,其下方區域的面積為=1/2.基尼系數()的計算公式

在實際應用中,由于同樣存在求洛倫茲曲線解析式的困難,所以常采用各種近似方法計算基尼系數,如曲線擬合法.

式中:可以通過最小二乘法擬合,即
采用python語言可進行實現:
#-*- coding:utf-8 -*-
#!/usr/bin/python
import numpy as np
from matplotlib import pyplot as pl
fig,ax = pl.subplots()
def Drawing(xarray,yarray):
ax.plot(xarray,yarray)
ax.plot(xarray,xarray)
ax.set_xlabel(u'橫坐標')
ax.set_ylabel(u'縱坐標')
pl.show()
def Gini():
numlist = [1.5,2,3.5,10,4.2,2.1,1.1,2.2,3.1,5.1,9.5,9.7,1.7,2.3,3.8,1.7,2.3,5,4.7,2.3,4.3,12]
xarray = np.array(range(0,len(numlist)+1))/ np.float(len(numlist))
#print "xarray",xarray
numsort = sorted(np.append(numlist,0))
#print "numsort",numsort
csum_numlist = np.cumsum(numsort)
#print "csum_numlist",csum_numlist
sum_num = csum_numlist[-1]
yarray = csum_numlist / sum_num
#print "yarray",yarray
B = np.trapz(yarray,x=xarray)
A = 0.5 - B
G = A /(A + B)
Drawing(xarray,yarray)
return G
a = Gini()
print 'Gini:',a
以上計算無論是直接計算還是編程均需要較為復雜的過程,且存在不同程度的誤差.
(1)繪制洛倫茲曲線;
(2)將洛倫茲曲線圖標坐標進行統計,主要統計圖標4個端點坐標、對角線坐標、洛倫茲曲線坐標,坐標值按照散點圖的軸值進行定義,值為無量綱;
(3)將坐標數據導入ArcGis平臺里的ArcMap;
(4)將導入文件轉為shape格式線文件;
(5)將shape格式線文件轉為面文件;
(6)計算面文件面積,計算基尼系數.
以《計量地理學基礎》[13](2版)第三章離散區域分布的測度為例.某地區職工部門分配見表1.

表1 某地區職工部門分配 (%)
根據表1,以紡織業為例,繪制紡織業洛倫茲曲線(見圖2).水平軸和垂直軸比例都是累積百分比,對角線表示沿2種分布之間是完全相等的,有相同的百分比和累積百分比.對角線表示均勻分布,曲線到對角線的離差就是2種分布的差異性測度.
根據圖2,確定各點的坐標.圖框各坐標依次為:原點坐標為(0,0).順時針方向依次為(0,100),(100,100),(100,0).洛倫茲曲線和對角線的坐標即為散點圖的值,如此便可建立圖框所有點的坐標系統.將坐標值導入到Excel表格中(見表2).

圖2 紡織業洛倫茲曲線分布

表2 圖框及洛倫茲曲線坐標
啟動ArcMap,點擊“開始”——“ArcGIS”——“ArcMap”,打開ArcMap,打開空白地圖.點擊“文件”——“添加數據”——“添加數據”菜單,點擊“添加數據”菜單.在“添加數據”功能界面,點擊瀏覽,選擇準備好的坐標文件,設置地圖上坐標和坐標對應文本文件中的坐標和坐標列,點擊“確定”,坐標數據就添加到了地圖上(見圖3).
坐標點數據雖然可以添加到地圖上,但是不能進行任何的編輯或者分析等應用操作,如果需要對數據進行編輯和分析,需要將坐標點轉成ArcGIS支持的數據格式(如shapefile).右鍵點擊剛剛加載的坐標數據,點擊“數據”——“導出數據”功能,將數據輸出轉為shapefile文件,這樣就可以對shapefile文件進行下一步計算操作.
添加“編輯器”工具條,點擊“開始編輯”,使處于編輯狀態,打開“ArcToolbox”,“數據管理工具”——“要素”——“點集轉線”.雙擊,彈出“點集轉線”設置界面.需要輸入要素為點要素,路徑默認.然后需要點擊“確定”,即可開始轉換.此處操作注意不要選擇閉合線,否則會導致輸出錯誤.
鼠標左鍵單擊“Arctoolbox”工具箱,打開工具箱,找到“數據管理工具”——“要素”——“要素轉面”.雙擊“要素轉面”工具,彈出“要素轉面”窗口,輸入要素選擇內容列表中的“線段”,會自動生成輸出要素,也可以自己修改存放路徑等,然后單擊“確定”按鈕,這樣就把剛才的線轉成了面圖層(見圖4).

圖3 點轉為shapefile格式的線圖層

圖4 線轉為面格式的圖層
在矢量數據右鍵點擊,或者按Ctrl+雙擊矢量數據,打開矢量“屬性表”.在“屬性表”中,點擊左側“菜單”選擇“添加字段”,對新添加的“字段”進行“命名”——“計算面積”,然后選擇此字段右鍵點擊,打開“計算幾何”.在“計算幾何”面板中,忽略“面積”——“坐標系統”——“面積單位”等信息,點擊“確定”,即可顯示每個面矢量的面積.
通過查詢工具可得洛倫茲曲線和對角線圍成的區域,即區域A的面積為2 643,而圖形1/2的面積也就是+的面積,為5 000,因此基尼系數=2 643/5 000=0.528 6.
采用模擬曲線法求解:
首先洛倫茲曲線的方程為

區域B的面積為對方程進行積分

因此,基尼系數=0.717 6
由于采用模擬曲線法不能很好地將所有的點都歸納到內,模擬曲線的邊界是采用最小二乘法進行模擬,因此曲線偏離了實際的邊界,導致了計算結果產生較大的誤差.
在基尼系數的計算過程中洛倫茲曲線對應的解析式很難準確地獲得,因此研究者只能利用現有的統計數據去估計洛倫茲曲線解析式,從而推算基尼系數.然而,由于收集的數據類型的差別,采用的計算公式也有所不同,各公式均存在不同程度的優缺點,但均不可避免產生或多或少的誤差.該方法利用了ArcGis的面積計算功能,避免了復雜的積分過程,同時也避免了洛倫茲曲線解析式的描述.因此,簡便易學,能計算各種洛倫茲曲線而不受解析式的限制[14].
本研究采用ArcGis平臺自帶工具,利用洛倫茲曲線對基尼系數進行簡化計算,避免了復雜的積分過程,也避免了洛倫茲曲線解析式的描述,可以將誤差降低到最小.同時,簡化的計算步驟,使計算效率具有較大的提高.
[1] 艾小青.城鄉混合基尼系數分解方法研究[J].統計研究,2015,32(9):91-96.
[2] 吳文俊,蔣洪強,段揚,等.基于環境基尼系數的控制單元水污染負荷分配優化研究[J].中國人口·資源與環境,2017,27(5):8-16.
[3] 何幫強,洪興建.基尼系數計算與分解方法研究綜述[J].統計與決策,2016(14):13-17.
[4] 程楊楊,徐凌忠,許敏蘭,等.基于洛倫茨曲線和基尼系數的我國衛生監督人力資源公平性分析[J].中國衛生統計,2015,32(3):473-476.
[5] 孫才志,白天驕,韓琴.基于基尼系數的中國灰水足跡區域與結構均衡性分析[J].自然資源學報,2016,31(12):2047-2059.
[6] 戴平生.基于回歸方程的基尼系數分解[J].數量經濟技術經濟研究,2013,30(1):150-160.
[7] 劉歡,左其亭.基于洛倫茨曲線和基尼系數的鄭州市用水結構分析[J].資源科學,2014,36(10):2012-2019.
[8] 戴平生.基尼系數的區間估計及其應用[J].統計研究,2013,30(5):83-89.
[9] 侯華麗,吳尚昆,王傳君,等.基于基尼系數的中國重要礦產資源分布不均衡性分析[J].資源科學,2015,37(5):915-920.
[10] 胡志軍,劉宗明,龔志民.中國總體收入基尼系數的估計:1985—2008[J].經濟學,2011,10(4):1423-1436.
[11] 蔣艷,曾肇京,張建永.基于基尼系數的中國水生態分區研究[J].生態學報,2015,35(7):2177-2183.
[12] 李剛,程硯秋,董霖哲,等.基尼系數客觀賦權方法研究[J].管理評論,2014,26(1):12-22.
[13] 張超,楊秉賡.計量地理學基礎[M].2版.北京:高等教育出版社,2007.
[14] 李海峰,李蘇.大數據與智能時代的地理信息科學教育變革之思考[J].高教學刊,2017(21):145-146,149.
The simplified calculation method of Gini coefficient using Lorentz curve based on ArcGIS platform
WANG Lizhi1,2,SONG Hongli1,2,YU Wanni1,2,AN Juan1,2,WU Xiyuan1,2,WU Yuanzhi1,2
(1. Shandong Provincial Key Laboratory of Water and Soil Conservation and Environmental Protection,2. School of Resources and Environment,Linyi University,Linyi 276005,China)
Gini coefficient is derived from Lorentz curve.In practical application,direct calculation method is generally used.The Gini coefficient is calculated by fitting curve,grouping and factorization method.These methods are feasible,but the disadvantages are obvious.Some of the methods are rough and the results are not accurate.The Gini coefficient is determined by the area between Lorentz curve and absolute average line,and it may have the same Gini coefficient.In order to avoid the error caused by the general method,based on ArcGIS platform and the simplified calculation of Gini coefficient by using Lorentz curve.The steps are as follows:(1)draw Lorentz curve.(2)The coordinates of Lorentz curve icons are counted,mainly including four end point coordinates,diagonal coordinates,and Lorentz curve coordinates.The coordinate values are defined according to theaxis value of the scatter graph,and the value is dimensionless.(3)Thecoordinate data is imported into ArcMap in ArcGIS platform.(4)Converts the import file to shape format file,line file.(5)Converts the shape format line file to a polygon file.(6)Calculate the area of the file on the surface and calculate the Gini coefficient.This method avoids the complicated integration process,and avoids the description of Lorentz curve analytic formula.It can reduce the error to the minimum,and simplify the calculation steps,and improve the calculation efficiency greatly.
Gini coefficient;Lorentz curve;ArcGis platform;calculation method;econometric geography
1007-9831(2022)05-0071-06
K90
A
10.3969/j.issn.1007-9831.2022.05.013
2022-01-26
山東省本科教學改革研究項目(M2020296)
王立志(1980-),男,山東臨沂人,副教授,博士,從事計量地理學研究.E-mail:wanglizhi@lyu.edu.cn