李澤安, 趙為華
(1.南通大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南通 226019;2.南通大學(xué) 理學(xué)院,江蘇 南通 226019)
比例數(shù)據(jù)的擬似然推斷及其應(yīng)用
李澤安1, 趙為華2
(1.南通大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南通 226019;2.南通大學(xué) 理學(xué)院,江蘇 南通 226019)
本文基于擬似然方法研究比例數(shù)據(jù)的統(tǒng)計(jì)推斷及其在計(jì)量經(jīng)濟(jì)分析中的應(yīng)用問題.擬似然估計(jì)不需要響應(yīng)變量確切的分布假定,只需要一階條件矩假設(shè).與已有方法相比,本文提出的擬似然估計(jì)不僅具有穩(wěn)健性而且具有很好的適應(yīng)性. 最后,通過家庭食物消費(fèi)數(shù)據(jù)分析充分說明了所提方法的有用性.
擬似然;比例數(shù)據(jù);統(tǒng)計(jì)推斷;食物消費(fèi)
回歸建模常用來揭示響應(yīng)變量與一組協(xié)變量之間的相關(guān)關(guān)系,并根據(jù)得到的回歸模型進(jìn)行相應(yīng)的統(tǒng)計(jì)推斷,進(jìn)而作出若干合理的預(yù)測(cè)分析,為決策者提供智力支持和決策依據(jù).在實(shí)踐中,我們經(jīng)常碰到響應(yīng)變量的取值在有限的區(qū)間[a,b]上.由于此類數(shù)據(jù)取值具有有界性特征,直接利用線性回歸模型進(jìn)行擬合分析往往是失效的,主要原因在于擬合值會(huì)超出區(qū)間的上下界. 另外,區(qū)間數(shù)據(jù)常常呈現(xiàn)出異方差性,使用基于同方差假定的最小二乘方法進(jìn)行估計(jì)時(shí)會(huì)產(chǎn)生許多問題,且推斷和預(yù)測(cè)的效果較差.再者,區(qū)間數(shù)據(jù)經(jīng)常具有不對(duì)稱性、多峰性等特點(diǎn),此時(shí)基于對(duì)稱誤差分布的推斷方法存在很大問題.

當(dāng)因變量取值在開區(qū)間(0,1)時(shí),亦稱為連續(xù)型比例數(shù)據(jù),已有一些文獻(xiàn)對(duì)此展開過研究,如Peter和Tan(2000)[2]基于單純形分布研究了連續(xù)比例數(shù)據(jù)的回歸系數(shù)的估計(jì)及其推斷問題;Ferrari和Cribari(2004)[3]通過對(duì)Beta分布進(jìn)行參數(shù)變換,提出了Beta回歸模型并借鑒廣義線性模型的理論和方法研究了系數(shù)的估計(jì)及其統(tǒng)計(jì)診斷問題;李澤安等(2009)[4]應(yīng)用Beta回歸模型研究數(shù)據(jù)挖掘問題;Zhao等(2014)[5]基于懲罰函數(shù)方法研究了Beta回歸模型中重要變量的選擇問題.然而,以上文獻(xiàn)都是基于單純形模型或Beta回歸模型進(jìn)行估計(jì)方析,本質(zhì)上是基于參數(shù)回歸模型的似然估計(jì)方法進(jìn)行統(tǒng)計(jì)推斷.眾所周知,當(dāng)參數(shù)回歸模型假定正確時(shí),參數(shù)的估計(jì)和推斷效率較高,而一旦模型假定錯(cuò)誤時(shí),估計(jì)的準(zhǔn)確性和統(tǒng)計(jì)推斷效率將大打折扣,甚至?xí)霈F(xiàn)錯(cuò)誤結(jié)論.另一方面,當(dāng)因變量取值在閉區(qū)間[0,1]時(shí),或半開半閉區(qū)間[0,1)、(0,1]時(shí),此時(shí)亦稱為半連續(xù)型比例數(shù)據(jù),前面提到的Beta回歸模型或單純型回歸模型都無法適用.為避免上述似然估計(jì)方法的弱點(diǎn),本文基于擬似然方法研究比例數(shù)據(jù)的回歸建模問題.本文所提方法不需要對(duì)響應(yīng)變量的分布作出任何假定,只需要響應(yīng)變量的一階條件矩的假定,并通過柯西分布的逆分布函數(shù)連接條件均值與自變量的回歸結(jié)構(gòu),其最大優(yōu)點(diǎn)是所得的估計(jì)具有很好的穩(wěn)健性.同時(shí),本文提出的方法既能擬合連續(xù)型比例數(shù)據(jù)也能擬合半連續(xù)型比例數(shù)據(jù),因而具有很好的自適應(yīng)性.
假設(shè)(xi,yi)(i=1,…,n)是一組獨(dú)立樣本,其中xi=(xi1,…,xip)T∈Rp.假定響應(yīng)變量的條件均值E(yi)=μi,i=1,…,n.
由于0≤yi≤1,因此0<μi<1.為建立條件均值與自變量之間回歸關(guān)系,我們假設(shè)有一個(gè)單調(diào)遞增函數(shù)G(·):(-∞,+∞)→(0,1)使得

(1)
其中β=(β1,…,βp)T是p維回歸系數(shù). 如果假定自變量中的第一個(gè)分量xi1≡1,則模型(1)中包含了常數(shù)項(xiàng).
由于比例響應(yīng)數(shù)據(jù)的條件均值形式上具有Bernouli變量的期望相同的形式,我們借鑒Bernouli似然函數(shù),提出比例數(shù)據(jù)的對(duì)數(shù)擬似然函數(shù)為

(2)

圖1 三種不同分布的連接函數(shù)圖形

(3)


(4)


(5)



圖2 響應(yīng)變量的直方圖及其密度曲線估計(jì)
本節(jié)將擬似然估計(jì)方法應(yīng)用到家庭食物消費(fèi)數(shù)據(jù)(householdfoodexpendituredata) 分析中.家庭食物消費(fèi)數(shù)據(jù)來自于計(jì)量經(jīng)濟(jì)學(xué)文獻(xiàn)Griffiths等(1993)[7],研究者是從美國(guó)的某個(gè)大城市中隨機(jī)調(diào)查38個(gè)家庭而得到的,統(tǒng)計(jì)學(xué)家或計(jì)量經(jīng)濟(jì)學(xué)家希望了解食物消費(fèi)占家庭總收入支出比例情況,進(jìn)而研究家庭的收入、家庭的人數(shù)與食物消費(fèi)支出之間的動(dòng)態(tài)相關(guān)關(guān)系. 該數(shù)據(jù)中含有兩個(gè)自變量和分別表示某個(gè)該家庭的收入水平和該家庭成員的人數(shù),響應(yīng)變量是該家庭食物消費(fèi)支出占整個(gè)家庭收入的比例,其直方圖和核密度函數(shù)曲線估計(jì)見圖2.
Ferrari[3]等(2004)曾利用Beta回歸模型對(duì)此數(shù)據(jù)進(jìn)行過擬合,這里我們使用擬似然方法再次研究該數(shù)據(jù),即
G-1(μi)=β1+xi1β2+xi2β3,
i=1,…,38.
兩種方法下的系數(shù)估計(jì)及其95%置信區(qū)間估計(jì)見表1.

表1 食物消費(fèi)數(shù)據(jù)的回歸系數(shù)估計(jì)

圖3 收入水平與食物支出比例的散點(diǎn)圖(不同顏色的散點(diǎn)代表家庭的不同人數(shù))及其兩種估計(jì)方法下的擬合曲線(在固定平均家庭人數(shù)).
從表1可以看出,兩種方法下得到系數(shù)估計(jì)值具有相同的符號(hào),且每一個(gè)變量在顯著性水平0.01下是高度顯著的.系數(shù)β2的估計(jì)符號(hào)都是負(fù)的,而系數(shù)β3的估計(jì)符號(hào)是正的,說明隨著家庭人口的增加,整個(gè)家庭的食物支出比例在上升;同時(shí),隨著家庭總收入的增加,整個(gè)家庭的食物支出比例在不斷下降.另一方面,在某個(gè)家庭中家庭人口固定的情形下,家庭收入越少,家庭收入中用來購(gòu)買食物的費(fèi)用所占的比例就越多,隨著家庭收入的增加,家庭收入中用來購(gòu)買食物的支出則會(huì)下降(參見圖2),這完全符合實(shí)際情況,即計(jì)量經(jīng)濟(jì)學(xué)中的恩格爾定律.

從表2和圖3不難看出,無論MSE、MAD值的大小,還是擬合曲線與散點(diǎn)圖的匹配程度,本文建議的擬似然估計(jì)方法明顯地要比Beta回歸來的好.這一點(diǎn)也可以從圖 2中響應(yīng)變量的直方圖及其密度

表2 食物消費(fèi)數(shù)據(jù)擬合的MSE和MAD
曲線估計(jì)看出,數(shù)據(jù)具有雙峰性和厚尾性特征,很難使用Beta分布或其他參數(shù)分布進(jìn)行較好地?cái)M合.
為比較兩種方法下的預(yù)測(cè)效果,下面我們使用交叉驗(yàn)證方法(cross-validation)計(jì)算預(yù)測(cè)偏差的絕對(duì)平均值(FAD)


顯然,本文提出的擬似然方法不僅在擬合偏差方面優(yōu)于Beta回歸,在預(yù)測(cè)能力方面也優(yōu)于Beta回歸.

表3 食物消費(fèi)數(shù)據(jù)預(yù)測(cè)偏差FAD
本文提出了使用擬似然方法研究比例數(shù)據(jù)的回歸建模、估計(jì)、統(tǒng)計(jì)推斷及其在計(jì)量分析中的應(yīng)用問題.我們的方法既適用于連續(xù)型比例數(shù)據(jù),也適用于半連續(xù)型比例數(shù)據(jù).通過詳細(xì)的實(shí)例分析,并與已有方法比較,充分說明了本文提出的比例響應(yīng)數(shù)據(jù)擬似然方法的穩(wěn)健性和自適應(yīng)性.進(jìn)一步的研究興趣將討論比例響應(yīng)數(shù)據(jù)擬似然非參數(shù)、半?yún)?shù)建模方法及其理論分析和實(shí)際應(yīng)用.
[1] KIESCHNICK R, McCullough, B. Regression analysis of variates observed on (0,1): percentages, proportions and fractions[J]. Statistical Modelling, 3:193-213,2003.
[2] PETER S, TAN M. Marginal models for longitudinal continuous proportional data[J]. Biometrics, 2000,56:496-502.
[3] FERRARI S, Cribari-Neto, F. Beta regression for modelling rates and proportions[J]. Journal of Applied Statistics, 2004,31:799-815.
[4] 李澤安,葛建芳,章亞娟.Beta回歸模型在數(shù)據(jù)挖掘預(yù)測(cè)中的應(yīng)用[J].南通大學(xué)學(xué)報(bào),2009,8(3):83-85.
[5] ZHAO W, ZHANG R, LV Y, LIU J. Variable selection for varying dispersion beta regression model[J]. Journal of Applied Statistics, 2014,41:95-108.
[6] McCullagh P, NELDER J. Generalized Linear Models [M]. 2nd ed. London:Chapman and Hall, 1989.
[7] GRIFFITHS W, HILL R, JUDGE G. Learning and Practicing Econometrics[M]. New York: Wiley, 1993.
Quasi-Likelihood Estimation and Its Application for Proportional Data
LI Ze-an1, ZHAO Wei-hua2
(1. School of Computer, NanTong University, Nantong 226019, China;2. School of Science, Nantong University, Nantong 226019, China)
In this paper, we proposed the quasi-likelihood method to analyze the proportional data and its application in econometric modelling. Our proposed method does not need the distribution assumption for response variable, and only need the first order conditional moment assumption. Compared with existing method, the newly proposed estimation approach has both robustness and good adaptability in real data analysis. Finally, household food expenditure data analysis is used to illustrate the usefulness of the new approach.
quasi-likelihood; proportional data; statistical inference; food expenditure
10.14182/J.cnki.1001-2443.2016.06.004
2015-12-10
國(guó)家自然科學(xué)基金項(xiàng)目(11571112);教育部人文社科青年基金項(xiàng)目(14YJC910007).
李澤安(1977-),女,江蘇南通人,講師,主要從事數(shù)據(jù)挖掘方面的研究.
李澤安,趙為華.比例數(shù)據(jù)的擬似然推斷及其應(yīng)用[J].安徽師范大學(xué)學(xué)報(bào):自然科學(xué)版,2016,39(6):526-529.
C81,O212
文章編號(hào):1001-2443(2016)06-0526-04