摘 要:結合基函數逼近技術以及擬似然方法,對廣義變系數模型,提出了一個B樣條估計方法,并結合R統計軟件,對所提出的估計方法給出了一個基于R軟件的實現過程。數據模擬表明所提出的B樣條估計方法以及R軟件的實現過程均是可行的。
關鍵詞:廣義變系數模型;B樣條;R軟件
中圖分類號:F22 文獻標志碼:A 文章編號:1673-291X(2013)01-0231-03
引言
基于廣義線性模型的統計分析常常被用于生物、醫學、金融工程等各個領域。該模型有兩個基本的假定:一是在給定協變量X的條件下,響應變量Y的條件分布屬于某一指數分布族;二是通過某一變換,該模型可以轉化為線性回歸模型。但是,在實際問題分析中,假定協變量X與響應變量Y滿足某一線性結構的參數模型往往是不成立的。如下的廣義變系數模型是經典廣義線性模型的一個簡單而有意義的推廣。
注意到在模型(1)中,回歸系數可以隨著協變量U的變化而變化,因此該模型在表達協變量與響應變量的關系上,具有更強的適應性和解釋能力。另外,顯然當為某一未知參數向量時,模型(1)就轉化為經典的廣義線性模型。因此,模型(1)可以看成經典廣義線性模型的一個推廣形式。
目前,模型在統計領域中的應用越來越受到人們的關注,并且關于模型(1)的研究也已有大量的文獻。比如 Cai 等研究了模型(1)的有效估計以及擬合優度檢驗問題。Lian在高維數據下,考慮了模型(1)的變量選擇問題。Kuruwita等 則在聯系函數未知的情況下,來研究模型(1)的估計問題。在本文中,我們主要考慮模型的B樣條估計問題。結合基函數逼近技術以及擬似然方法,對模型(1)提出了一個B樣條估計方法.并結合R統計軟件,對所提出的估計方法給出了一個基于R軟件的實現過程,數據模擬表明所提出的B樣條估計方法以及R軟件的實現過程均是可行的。
與核估計以及局部多項式估計等局部非參數估計方法相比,B樣條估計有其獨特的優勢。比如,B樣條估計屬于整體非參數估計方法,在估計過程中可以充分利用樣本的信息,因而具有相對較高的估計精度。關于B樣條估計的更多性質,參見文獻 [6]。
一、方法論和主要結果
(一)B樣條估計過程
那么關于γ的擬似然函數可以定義為:
(二)R軟件的實現過程
在統計分析領域,常用的統計軟件有SAS、SPSS、S-Plus以及R等。其中R軟件是一套完整的數據處理、計算和制圖軟件系統。其功能包括:數據存儲和處理系統、數組運算工具、完整連貫的統計分析工具、優秀的統計制圖功能、簡單而強大的編程語言等功能。在Tiobe公布的2011年11月編程語言排行榜上,R語言位列第二十七位,市場占有率是0.5%,SAS是0.386%,排在第三十五位。可見R軟件是目前用戶增長最快,且已成為了統計學家和數據分析師所鐘愛的統計軟件之一。接下來,我們利用R軟件,對上節所提出的估計方法給出一個具體的實現過程。
首先我們以3次B樣條為例,給出B樣條基函數的程序代碼,其他階數的B樣條基函數程序可以類似地給出。程序中u為樣條函數的自變量,m為樣條函數的階數,kk為內部節點個數,ul為自變量u的取值下限,uu為自變量u的取值上限。
接下來,我們給出函數系數β(u)估計的程序代碼,其中x和u為協變量,y為響應變量,m為B樣條的階數,kk為內部節點個數。在該程序中,我們采用的是等間距節點。
二、模擬研究
接下來我們通過數字模擬實驗來說明本文提出的估計方法以及算法的可行性。為實施模擬,我們假定數據滿足的廣義變系數模型為變系數泊松回模型,即響應變量Y服從泊松分布,并且假定其條件均值具有如下結構:
運行上述程序代碼,則得出下頁圖1的模擬結果,其中實線代表真實的函數曲線,點虛線代表利用本文的方法給出的估計曲線。從圖1可以看出,估計曲線可以很好地擬合真實曲線。這也表明本文提出的估計方法以及給出的R程序代碼是行之有效的。
參考文獻:
[1] Cai Z,Fan J Q,Li R.Efficient estimation and inferences for varying-coefficient models[J].Journal of the American Statistical Associ-
ation,2000,95:888-902.
[2] Lian H.Variable selection for high-dimensional generalized varying-coefficient models[J].Statistica Sinica,2012,22:1563-1588.
[3] Kuruwita C N,Kulasekera K B,Gallagher C M.Generalized varying coefficient models with unknown link function[J].Biometrika,2011,
98:701-710.
[4] Wu C O,Chiang C T.Kernel smoothing on varying coefficient models with longitudinal dependent variable[J].Statistica Sinica,2000,
10:433-456.
[5] Fan J,Gijbels I.Local Polynomial Modeling and Its Applications[M].Chapman and Hall:London,1996.
[6] Schumaker L L.Spline Functions[M].Wiley: New York,1981.
[責任編輯 王曉燕]
收稿日期:2012-10-24
基金項目:國家自然科學基金資助項目(11101119);廣西自然科學基金資助項目(2010GXSFB013051);廣西哲學社會科學“十二五”規劃課題資助項目(11FTJ002)
作者簡介:趙培信(1981-),男,山東曹縣人,副教授,博士,從事非參數統計研究。