張 雪,田 媛,王德輝
(吉林大學 數學學院,長春130012)
由于函數型數據的特殊性,將經典多元回歸方法應用到函數型回歸模型上通常不能得到較好的結果,因此出現了許多處理這類問題的方法.文獻[1]介紹了函數型線性模型的3種類型:向量型響應變量函數型解釋變量、函數型響應變量向量型解釋變量及響應變量和解釋變量均為函數型.文獻[2]討論了函數型線性模型.更一般地,在不滿足線性假設的情況下,文獻[3]介紹了非參數函數型數據,研究了對連接函數的估計問題.文獻[4]用非參數方法建立了線性回歸系數的估計.當變量中既有向量型又有函數型時,稱其為混合數據.文獻[5]介紹了針對混合數據的部分函數型線性模型,該模型結合經典的多元線性模型和函數型線性模型,具有獨特的優越性.在處理函數型線性模型時,主成分分析是一種非常重要的方法,文獻[6]介紹了函數主成分分析的性質.文獻[7]通過把L2空間的函數型數據進行K-L展開,給出了部分函數型線性模型中系數的估計量,并討論了估計量的漸近性質,但當函數型數據協方差算子的特征值只有少數非零時,該估計的結果與真實值相差較多.本文基于文獻[8]的思想,采用預平滑方法對文獻[7]中給出的估計量進行修正,得到新的相合估計量,解決了上述問題.
部分函數型線性模型[5],即標量返回值Y與預測值(z,X)滿足如下線性關系:

其中:z=(z1,z2,…,zp)T為p維隨機向量,Ez=0,Ezz′存在且有限;{X(t)}∈L2[0,1]為隨機過程,均值為零,

ε與z,X 相互獨立,且Eε=0,Varε=σ2;θ(t)∈L2[0,1]且‖θ‖2<∞;β為p 維向量.
特別地,當β=0時,模型(1)為Y=〈θ(t),X(t)〉+ε,即函數型線性模型,當θ=0時,模型(1)為Y=βTz+ε,即多元線性模型,故本文方法同樣適用于這兩種情況.
記過程X 的協方差函數KX(s,t)=Cov(X(s),X(t)),{(λj,φj)}j為協方差算子 K(x)(t)=〈x(s),KX(s,t)〉的特征值和特征函數,即滿足 K(φj)=λjφj.類似地,記 KYX(·)= Cov(Y,X(·)),KzX(·)=Cov(z,X(·))= (Kz1X(·),…,KzpX(·))T,Kz= Var(z),KzY=Cov(z,Y).


根據文獻[7]采用主成分分析方法,選擇前m個最大特征值對應的主成分將θ(t)和X(t)進行K-L展開,使用最小二乘方法得到估計量:

由文獻[7]可知,β和θ的估計量中都有^λj做分母,因此對于只有少數非零特征值的函數型樣本,通過模擬可知這種估計量非常不穩定,因此本文采用預平滑方法對估計量進行修正:令{αn}n為一列趨于0的正實數.給出新的估計量:

式(4)和式(5)通過對分式分母的處理解決了分母趨于零的問題,使得估計量更穩定.
估計量的相合性需要如下假設:


定理1 在假設(H1)~(H5)下,

定理2 在假設(H1)~(H5)下,‖^θαn-θ‖→0a.s.
定理1和定理2表明,在一定的條件下本文給出的系數函數估計量和系數向量估計量具有相合性.
下面證明定理1和定理2.定理1的證明類似于文獻[7]中定理3.1的證明,所用符號也與文獻[7]相對應,不同處將用上標αn標注.
引理1 令

則有

證明:由于

首先注意到



由于z(k)=g(k)+η(k),故

其中:g(k)=(〈gk,X1〉,…,〈gk,Xn〉)T;η(k)=(η1k,…,ηnk)T.經計算可得

因為

故

同理可得
根據文獻[7],

其中Bkk為B的第k個對角線元素.從而得

即



從而


下面給出一個實例,比較Shin[7]給出的估計量和本文提出的估計量.在模型(1)中,令


分別為預測值的均方誤差、估計θ的均方誤差和估計β的均方誤差,其中p為維數.

表1 兩種估計量的均方誤差Table 1 Mean square error for two types of estimators
由表1可見,當m≤3時兩種估計量的效果幾乎相同,由Shin提出的估計量在m=4時達到最優;當m>4時,由于趨于零的特征值在分母上產生較大波動,所以不能給出準確的估計,很明顯本文給出的估計量具有較好的穩定性,而且優于Shin的結果,表明在處理這類數據時使用本文的估計量可以選取適當大的m值而不必計算m的最優值.
[1]Ramsay J O,Silverman B W.Functional Data Analysis[M].2nd ed.New York:Springer,2005:217-295.
[2]Cardot H,Ferraty F,Sarda P.Functional Linear Model [J].Statistics & Probability Letters,1999,45(1):11-22.
[3]Ferraty F,Vieu P.Nonparametric Functional Data Analysis[M].New York:Springer,2006.
[4]Cristobal J A C,Roca F P,Manteiga W G.A Class of Linear Regression Parameter Estimators Constructed by Nonparametric Estimation[J].The Annals of Statistics,1987,15(2):603-609.
[5]Zhang D,Lin X,Sowers M F.Two-Stage Functional Mixed Models for Evaluating the Effect of Longitudinal Covariate Profiles on a Scalar Outcome[J].Biometrics,2007,63:351-362.
[6]Hall P,Hosseini-Nasab M.On Properties of Functional Principal Components Analysis[J].Journal of the Royal Statistical Society:Ser B,2006,68(1):109-126.
[7]Shin H.Partial Functional Linear Regression[J].Journal of Statistical Planning and Inference,2009,139(10):3405-3418.
[8]Ferraty F,González-Manteiga W,Martínez-Calvo A,et al.Presmoothing in Functional Linear Regression [J].Statistica Sinica,2012,22:69-94.