熊笛,何幼樺
(上海大學理學院,上海 200444)
半參數順序變量回歸模型
熊笛,何幼樺
(上海大學理學院,上海 200444)
在比例優勢模型基礎上對順序變量回歸模型作更一般的推廣,建立了半參數順序變量回歸模型,構造了模型中的線性和非線性部分的估計量,并證明了該估計量的弱相合性.通過數值模擬,考察了不同樣本容量下半參數順序變量回歸的判斷正確率和回歸函數的均方誤差.實驗結果表明:半參數順序回歸模型在小樣本情況下仍具有較高精度,并且在實驗點處的重復次數相對于觀察點個數對精度影響更大.通過對糧食預警實例的計算表明,半參數順序回歸模型較比例優勢線性模型具有更好的外推效果.
比例優勢模型;順序變量回歸;半參數回歸
順序變量是用于說明事物有序類別或者有序等級的一類以順序數據作為具體表現的變量,也是0,1二分類變量的擴展,廣泛出現在各應用領域的統計模型中.1959年Duncan[1]根據非相關選擇項的獨立性(independence from irrelevant alternation)特性首次提出了logit模型,該模型也是最早的離散因變量回歸模型.Cox[2]提出了0,1二分類logit模型,并對二分類變量回歸的線性模型形式進行了詳細的分析.此后,自變量為數值變量、響應變量為順序變量的多分類順序變量回歸問題被深入討論與研究.
設響應變量Y為K個類別的順序變量,通過順序值1,2,…,K表征響應變量所歸屬的類別或等級.若對于d維解釋變量X,響應變量Y屬于第j類的概率為pj(x)=P(Y=j|x=x),j=1,2,…,K,那么,響應變量屬于第j類的累積概率可以表示為

可以按概率γj(x)和1-γj(x)把K個等級分成{1,2,…,j}和{j+1,j+2,…,K}兩類,在此基礎上以γj(x)/(1-γj(x))表示順序變量Y所屬級別或等級不大于j(Y 6 j)時的優勢比.把{1,2,…,j}和{j+1,j+2,…,K}兩類視為一種兩個類別的數據形式,在Cox[2]的二分類logit模型基礎上得到了更一般的多類別模型:

或以線性模型形式

式中,θj=lgκj為第j個等級的基準線.模型(1)為McCullagh[3]在1980年提出的比例優勢模型(有序logit模型),它是二分類logit模型的擴展.如果當響應變量只有兩類時,則比例優勢模型就是一個線性logit模型.
目前,比例優勢模型成為順序變量回歸的主流方法之一.Pettitt[4]把比例優勢模型應用于生存數據研究中,并對比例優勢模型的估計方法進行了討論;Murphy等[5]研究了極大似然估計方法在比例優勢模型上的運用;Ibrahim等[6]對該模型在貝葉斯變量上的選擇方式進行了分析;Lang[7]導出了順序回歸模型中混合連接函數的貝葉斯估計方法;Lam等[8]提出右刪失數據的比例優勢模型的極大似然估計方法.國內對該類模型的應用問題也有較多的研究,如文獻[9-10]對二分類logit模型應用的正確性進行了探討,并將比例優勢模型應用于航空領域的加速壽命試驗[11]、醫藥等[12]研究領域.
在很多實際問題中,自變量與因變量之間并不完全滿足線性關系,因此僅用線性回歸模型不能準確地描述所討論的問題.在20世紀80年代中期,Engle等[13]提出了半參數(或稱為偏線性)模型:

式中,因變量u受到一些控制變量y∈Rp和x∈Rq以及隨機擾動ε的影響,并且x對u的影響是線性的;f(·)為未知函數;β=(β1,β2,…,βq)T為未知參數;ε|(x,y)~(0,σ2)是隨機擾動的,在很多情況下可以假設它是正態的.
因此,順序變量與影響因子之間的關系可以有更精細的描述.本研究考慮用一個連續非線性函數代替式(1)中的線性部分:

等式兩邊同時取對數,得到半參數順序變量回歸模型:

式中,θj=lgκj為第j個等級的基準線,且θj<θj+1,不失一般性,可設θ1=0.
令X為d維解釋變量,Y是順序響應變量,Y=j(j=1,2,…,K)表示響應變量歸屬于K個順序類別中的第j個類別.
針對樣本觀察值(xi,Yi),Yi=Y(xi)∈{1,2,…,K},i=1,2,…,n.記Rij=Rj(xi)= #{xi|Y(xi)6 j},通過加權光滑方式得到γj(xi)的估計量

(2)ω(-x)=ω(x);
那么,lg(γj(xi)/(1-γj(xi)))的估計則可以表示為則半參數順序回歸模型(5)的樣本模型為

對于擾動項,假設在給定j的情況下,{εij}~(0,σ2).
定理1 對于半參數順序回歸模型(5)中各θj的最佳線性無偏估計量為

證明 根據式(7),有

對于給定j,令ηj=εij-εi1~(0,Var(ηj)),根據最小二乘估計的基本結論,式(9)中各θj的最佳線性無偏估計為

注意到RijRi(j+1),且對于每一個j=1,2,…,K-1,至少存在一個i使得Rij<Ri(j+1)(否則第j類和第j+1類可合并為一類),故

于是有

在根據定理1得到θj的估計量后,記

于是有關于f(x)的非參數回歸樣本模型:

將參數和非參數部分的估計代回式(5)得到



證明 首先,對于每一個j=1,2,…,K-1,根據大數定律,式(8)中的按概率收斂到θj,即

其次,根據局部線性回歸估計的殘差定理[14]:

得到

當定理條件得到滿足時,有


那么當X=x時,響應變量Y屬于第j個類別的隸屬概率的估計為

定義記

則稱
本研究采用判斷正確率(correct rate,CR)和均方誤差(mean squared error,MSE)兩個指標作為估計結果優良性的評判標準.
設定一個函數作為原始模型進行數值模擬,隨機產生一系列實驗樣本點,然后利用這些樣本數據對半參數順序回歸進行估計.
重復N次如下試驗:
步驟1 隨機產生n個解釋變量值x1,x2,…,xn,在每個xi處對Y重復m次觀察,共產生m×n組樣本;
步驟2 利用半參數順序回歸模型中的式(12),計算

根據上述步驟得到的結果計算出半參數順序回歸模型判斷正確率和均方誤差兩個指標:

(1)固定實驗觀察點個數n=30,改變在每個xi處對Y重復觀察次數m=1,2,5,將得到的判斷正確率CR(x)和均方誤差MSE(x)的數值進行比較,結果如圖1所示.
(2)固定每個xi處重復次數m=1,改變實驗觀察點個數n=30,100,將得到的判斷正確率CR(x)和均方誤差MSE(x)數值進行比較(見圖2).
(3)固定實驗樣本容量m×n=60,討論n=60,m=1,n=30,m=2以及n=20,m=3這3種情況,將得到的判斷正確率CR和均方誤差MSE數值進行比較(見圖3).
實驗結果表明:
(1)當實驗觀察點個數n不變時,每個xi處重復次數(m)越多,判斷正確率就越高,回歸函數的均方誤差越小;
(2)當每個xi處重復次數m不變時,實驗觀察點個數(n)越多,判斷正確率越高,回歸函數的均方誤差越小;
(3)當實驗樣本容量m×n不變時,在每個xi處重復次數(m)對判斷正確率和回歸函數的均方誤差兩個指標的影響比觀察點個數n對它們的影響相對更大,即在樣本容量相同的情況下,實驗點xi處重復次數(m)越多,判斷正確率就越高,回歸函數的均方誤差越小;
(4)當x靠近樣本集邊界時,判斷正確率和回歸函數的均方誤差兩個指標均不如x位于樣本集內部時的情形,此時判斷正確率相對更低,回歸函數的均方誤差相對較大.

圖1 判斷正確率CR和均方誤差MSE(n=30,m=1,2,5)Fig.1 CR and MSE(n=30,m=1,2,5)

圖2 判斷正確率CR和均方誤差MSE(m=1,n=30,100)Fig.2 CR and MSE(m=1,n=30,100)

圖3 判斷正確率CR和均方誤差MSE(n=60,m=1和n=30,m=2以及n=20,m=3)Fig.3 CR and MSE(n=60,m=1 and n=30,m=2 and n=20,m=3)
作為一個應用實例,對糧食預警問題建立一個半參數順序變量回歸模型,將影響糧食價格波動的警源作為解釋變量,對糧食警情等級進行預報.
將1978—2012年的糧食價格作為研究對象,取其價格相對變動作為糧食價格警情的指標.以當年糧食播種面積增長率、當年糧食畝產增長率、當年受災面積增長率作為影響當年糧食價格波動的警源(樣本數據見附錄).
對于警情則采用多數原則,即把計算得到的糧食波動率數值從小到大排列,從第一個數據開始,將占總數2/3的數據作為安全警限,即無警警限,依次在剩下的波動率數據中劃分輕警、中警、重警、巨警,根據實際劃分情況,本研究將余下4個警限按照等距劃分并依次將這5個警級命名為警級1,2,3,4,5.因此依據附錄中糧食價格波動情況,結合多數原則將糧食價格警度進行劃分(見表1)[15].

表1 多數原則下的糧食價格警度警限Table 1 Grain price warning degree under principle of majority
首先取1978—2012年數據作為樣本點用半參數順序回歸模型進行內插檢驗,其判斷正確率為100%.再以1978—2007年數據為訓練樣本,用比例優勢線性模型和半參數順序回歸模型對2008—2012年糧食警級進行外推,判斷正確率分別為60%和100%(見表2和3).

表2 順序回歸線性模型外推糧食價格警級結果Table 2 Extrapolation of grain price warning degree using ordinal regression linear model

表3 半參數順序回歸模型外推糧食價格警級結果Table 3 Extrapolation of grain price warning degree using semi-parametric ordinal regression model
本研究所建立的半參數順序變量回歸模型是在傳統的線性順序變量回歸模型基礎上考慮了非線性部分,擴展了模型的實際應用范圍.同時,本研究通過半參數順序回歸模型對糧食價格進行了預警,從預警結果來看半參數順序回歸模型具有很好的預測效果.后續工作將從以下兩個方向進行:①對于γj(x)估計的改進.當在每一個x處重復觀察一次或很少時,所采用的估計方法(6)會有較大的誤差,這個誤差直接影響了模型估計的最終效果.②研究模型(4)基準量κj的一般化問題.如假設κj依賴于其他外生變量或與解釋變量X有一定相關性,則整個估計方法會有較大的改變,模型的適用范圍可以更大.
附錄
表4中各項波動率、增長率是根據歷年的統計年鑒(http://data.stats.gov.cn/workspace/ index?m=hgnd)計算得到的.

表4 1978—2012年糧食數據表Table 4 1978—2012 grain's data%
[1]DUNCAN L R.Individual choice behavior:a theoretical analysis[M].New York:John Wiley& Sons,1959.
[2]COx D R.The analysis of multivariate binary data[J].Royal Statistical Society,1972,21(2):113-120.
[3]MCCULLAGH P.Regression models for ordinal data[J].Journal of the Royal Statistical Society, 1980,42(2):109-142.
[4]PETTITT A N.Inference for the linear model using a likelihood based on ranks[J].Journal of the Royal Statistical Society,1982,44(2):234-243.
[5]MURPHY S A,ROSSINI A J.Maximum likelihood estimation in the proportional odds model[J]. Journal of the American Statistical Association,1997,92(439):968-976.
[6]IBRAHIM J G,CHEN M H,MACEACHERN S N.Bayesian variable selection for proportional hazards models[J].The Canadian Journal of Statists,1999,27(4):701-717.
[7]LANG J B.Bayesian ordinal and binary regression models with a parametric family of mixture links[J].Computational Statistics&Data Analysis,1999,31(1):59-87.
[8]LAM K F,LEUNG T L.Marginal likelihood estimation for proportional odds models with right censored data[J].Lifetime Data Analysis,2001,7(1):39-54.
[9]馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題[J].中華流行病學雜志,2004, 25(6):544-545.
[10]趙宇東,劉嶸,劉延齡.多元logistic回歸的共線性分析[J].中國衛生統計,2001,17(5):259-261.
[11]黃婷婷,姜同敏.基于比例危險-比例優勢模型的加速壽命試驗設計[J].北京航空航天大學學報, 2010,36(5):570-579.
[12]唐俐玲,翟曉紅.累積比數logit模型在有序資料中的正確應用[J].徐州醫學院學報,2010,30(9):577-579.
[13]ENGLE R F,GRANGER C W J,RICE J,et al.Semiparametric estimates of the relationship between weather and electricity sales[J].Journal of the American Statistical Association,1986, 81(394):310-320.
[14]RUPPERT D,WAND M P.Multivariate locally weighted least squares regression[J].The Annals of Statistics,1994,22(3):1346-1370.
[15]吳璇.中國糧食價格預警系統研究[D].北京:中國農業大學,2003.
Semi-parametric ordinal variable regression model
XIONG Di,HE Youhua
(College of Sciences,Shanghai University,Shanghai 200444,China)
Based on a proportional odds model,the ordinal variable regression model is generalized,a semi-parametric ordinal regression model is established,and consistency of the estimators both in linear and nonlinear parts are proved in this paper.Simulation is conducted to analyze the correct rate and mean square error in the semi-parametric ordinal variable regression model with different sample sizes.The result shows that the semi-parametric ordinal regression model has high accuracy even with small samples.Compared to the number of observation points,the repeat number of experimental points has greater influence on accuracy.Calculation of the grain price warning problem shows that the semi-parametric ordinal regression model provides better extrapolation results than the proportional odds model.
proportional odds model;ordinal variable regression;semi-parametric regression
O 212
A
1007-2861(2016)04-0477-09
10.3969/j.issn.1007-2861.2014.04.010
2014-11-21
國家自然科學基金資助項目(11371242)
何幼樺(1960—),男,教授,博士,研究方向為概率統計.E-mail:heyouhua@shu.edu.cn