









摘要: 針對過分散、 零一堆積且個體之間具有相依結構的整數值時間序列數據的建模問題, 提出一個具有零一堆積Poisson-Lindley新息的一階廣義整數值自回歸模型. 首先, 給出模型的一些統計性質: 期望、 方差、 自協方差和轉移概率; 其次, 利用條件極大似然估計方法對模型的未知參數進行估計; 最后, 將該模型應用到一組實際數據中進行擬合, 并用一些評估準則對模型進行驗證. 實例分析結果表明, 該模型擬合效果較好.
關鍵詞: 整數值時間序列; 廣義二項稀疏算子; 零一堆積Poisson-Lindley; 條件極大似然估計
中圖分類號: O212.1文獻標志碼: A文章編號: 1671-5489(2025)02-0399-12
Statistical Inference for First-Order Generalized Zero-and-One Inflated Poisson-Lindley Integer-Valued Autoregressive Model
ZHANG Jie, YANG Zhipeng, DONG Xiaogang
(School of Mathematics and Statistics, Changchun University of Technology, Changchun 130012, China)
Abstract: Aiming at the modeling problem of overdispersed, zero-and-one inflated integer-valued time series data with interdependent structures between individuals,
we proposed a first-order generalized integer-valued autoregressive model with zero-and-one inflated Poisson-Lindley innovation. Firstly, we gave some statistical properties of the model, including
expectation, variance, autocovariance, and transition probability. Secondly, the conditional maximum likelihood estimation method was used to estimate the unknown parameters of the model. Finally,
the model was applied to a set of real data for fitting, and some evaluation criteria were used to verify the model. The case analysis results show that the model has a good fitting effect.
Keywords: integer-valued time series; generalized binomial thinning operator; zero-and-one inflated Poisson-Lindley; conditional maximum likelihood estimation
收稿日期: 2024-06-11.
第一作者簡介: 張 潔(1992—), 女, 漢族, 博士, 講師, 從事整數值時間序列分析、 假設檢驗和變量選擇的研究, E-mail: zhangjie@ccut.edu.cn. 通信作者簡介: 董小剛(1961—), 男, 漢族, 博士, 教授, 從事金融統計分析和生存分析的研究, E-mail: dongxiaogang@ccut.edu.cn.
基金項目: 吉林省自然科學基金自由探索項目(批準號: YDZJ202301ZYTS384).
時間序列模型是一種用于分析和預測按時間順序排列的數據或觀測值的統計模型. 傳統的時間序列模型能很好地處理連續型數據, 但在實際應用中, 經常需要分析一些只能取整數值的數據, 即計數數據. 從隨機計數過程中獲得的數據稱為整數值時間序列, 它在經濟學、 社會科學、 人壽保險等領域應用廣泛.Al-Osh等[1]在二項稀疏算子[2]的基礎上, 建立了一類一階整數值自回歸模型, 其中模型以Poisson分布為邊際, 簡稱為INAR(1)模型; Alzaid等[3]將INAR(1)模型推廣到p階的整數值自回歸模型; Al-Osh等[4]考慮了INAR(1)模型中邊際分布為幾何分布的情形并對其進行了討論. 目前, 關于整數值自回歸模型及其性質的研究得到廣泛關注. 但在以Poisson分布為邊際的整數值自回歸模型中, Poisson分布的均值與方差相等, 而實際應用中的計數數據經常表現出過分散等特性, 因此應用Poisson分布擬合此類數據時會出現一定的局限性. 基于此, Sankaran[5]提出了Poisson-Lindley(PL)分布, 是一種復合Poisson分布, 具有單峰性、 過分散、 無限可分性等性質, 在針對具有過分散特征的數據時, 相較于一些常規分布具有更好的擬合效果; Mohammadpour等[6]提出了具有Poisson-Lindley邊際的一階整數值自回歸模型, 并研究了它的一些統計性質, 考慮了幾種估計模型未知參數的方法, 通過模擬驗證比較了這些估計方法的性能.
基于Poisson-Lindley分布的整數值自回歸模型可以很好地擬合具有過分散類型的數據, 但在一些實際問題中, 可能還會出現許多零或者一堆積的情況, 而基礎的模型并不能對其進行有效擬合. 針對該類出現堆積情況的數據, Jazi等[7]提出了一類帶零堆積Poisson新息的INAR(1)模型; Zhu[8]提出了一類帶零堆積Poisson和負二項整數值的GARCH模型; Qi等[9]提出了一類具有零和一堆積Poisson新息的INAR(1)模型, 即ZOINAR(1)模型. 而考慮到Poisson-Lindley分布的優良性能, Xavier等[10]提出了零修正Poisson-Lindley(ZMPL)分布; Sharafi等[11]提出了一類具有零修正Poisson-Lindley新息的一階整數值自回歸模型, 并給出了模型的一些統計性質, 采用幾種估計方法估計模型未知參數; Mohammadi等[12]提出了一類具有零和一堆積Poisson-Lindley新息的一階整數值自回歸模型, 簡稱為ZOIPL-INAR(1)模型. Poisson-Lindley分布可以有效處理一些實際問題, 但當零和一的數量超過Poisson-Lindley分布的預期水平時, ZOIPL-INAR(1)模型比Poisson-Lindley分布更有效.
二項稀疏算子是基于獨立同分布的Bernoulli隨機變量序列提出的, 若此時將模型應用到個體之間具有相依結構的數據中則可能會使該模型的擬合效果不佳. 基于此, Ristic'等[13]提出了一個新的算子——廣義二項稀疏算子, 為具有相依結構的整數值時間序列數據的研究提供了參考, 并將廣義二項稀疏算子應用于具有幾何新息的一階整數值自回歸模型, 研究了該模型的一些統計性質, 同時給出了參數估計的一些數值模擬結果; Shirozhan等[14]基于混合Pegram算子和廣義二項稀疏算子, 提出了一類新的具有幾何邊際的一階整數值自回歸(MPDBGINAR(1))模型, 研究了該模型的統計性質, 同時采用基于EM(expectation maximization)算法的極大似然估計方法估計模型參數, 并通過Monte Carlo模擬驗證了估計值的性能; Kang等[15]將廣義二項稀疏算子引入到二項自回歸模型中, 提出了一類一階廣義二項自回歸(GBAR(1))模型; 在此基礎上, Zhang等[16-17]分別提出了幾類混合GBAR(1)模型和一類高階GBAR模型. 基于上述研究工作, 為更有效地刻畫個體之間具有相依性且帶有零一堆積結構特征的過離散整數值時間序列數據, 本文將廣義二項稀疏算子引入到ZOIPL-INAR(1)模型中, 建立一類具有零一堆積Poisson-Lindley新息的一階廣義整數值自回歸模型, 并通過參數估計得到有效的擬合結果, 為具有相依結構的過分散數據研究提供一定的理論依據.
1 模型理論
1.1 零一堆積Poisson-Lindley分布的定義及性質
如果隨機變量Y的概率質量函數為
P(Y=k)=φ0+(1-φ0-φ1)δ2(δ+2)(1+δ)3,k=0,
φ1+(1-φ0-φ1)δ2(δ+3)(1+δ)4,k=1,(1-φ0-φ1)δ2(δ+2+k)(1+δ)k+3,k=2,3,…,(1)
則稱隨機變量Y服從零一堆積Poisson-Lindley分布[12], 用Y~ZOIPL(φ0,φ1,δ)表示, 其中0≤φ0,φ1lt;1, δgt;0.
ZOIPL(φ0,φ1,δ)分布是零和一堆積分布以及一個PL(δ)分布的混合, 因此式(1)也可表示為
P(Y=k)=φ0P(ζ0=k)+φ1P(ζ1=k)+(1-φ0-φ1)P(Z=k),(2)
其中P(ζ0=0)=P(ζ1=1)=1, Z~PL(δ), P(Z=z)=δ2(z+δ+2)(δ+1)z+3, z=0,1,2,…, δgt;0.
特別地, 當φ0=0時, ZOIPL分布退化為一個一堆積Poisson-Lindley (OIPL)分布; 當φ1=0時, ZOIPL分布退化為零堆積Poisson-Lindley(ZIPL)分布; 當φ0=φ1=0時
, ZOIPL分布退化為參數為δ的標準Poisson-Lindley分布. ZOIPL分布的統計性質如下:
1) E(Y)=φ1+φ2δ+2δ(1+δ)=(1-φ0)(δ+2)+φ1(δ2-2)δ(1+δ);
2) Var(Y)=φ1(1-φ1)+φ2δ3+5δ2+10δ+6δ2(1+δ)2-φ22(δ+2)2δ2(1+δ)2-2φ1φ2δ+2δ(δ+1);
3) E(Yn)=φ1+φ2E(Zn).
其中φ2=1-φ0-φ1∈(0,1], Z~PL(δ). Mohammadi等[12]在注2.1中給出了基于Fisher離散指數對ZOIPL分布離散程度的相關討論.
1.2 廣義二項稀疏算子的定義及性質
廣義二項稀疏算子定義[13]為
αθX=∑Xi=1Ui,(3)
其中: X是一個非負的整數值隨機變量; Ui=(1-Vi)Wi+ViZ, {Wi}是獨立同分布的以α為參數的Bernoulli隨機變量序列, {Vi}是獨立同分布的以θ為參數的
Bernoulli隨機變量序列, Z為服從參數為α的Bernoulli分布隨機變量; α∈(0,1); θ∈(0,1). 由廣義二項稀疏算子的定義可知, Ui之間的相關性可利用Z刻畫, 廣義二項稀疏算子也可表示為
U1+U2+…+UndBin(n,α(1-θ)),w.p.1-α,Bin(n,α+θ-αθ),w.p.α,(4)
其中Bin(n,α)表示二項分布, w.p.表示以概率. 廣義二項稀疏運算的部分統計性質如下:
1) E(αθXX)=αX;
2) Var(αθXX)=α(1-α)[θ2X2+(1-θ2)X];
3) Cov(αθX,Y)=αCov(X,Y).
1.3 模型的定義及性質
下面給出一類具有零一堆積Poisson-Lindley新息的一階廣義整數值自回歸模型, 簡稱為ZOIPL-GINAR(1)模型, 并討論其基本性質.
定義1 假設{Xt}t∈瘙綃是一個ZOIPL-GINAR(1)過程, 則{Xt}t∈瘙綃滿足
Xt=αθXt-1+εt,t=1,2,…,(5)
其中: α∈(0,1); θ為式(3)提出的廣義二項稀疏算子, θ∈(0,1); 序列{εt}是一個獨立同分布的服從ZOIPL(φ0,φ1,δ)分布的隨機變量序列, 對所有的k≥
1, εt與Xt-k均無關, 新息項εt也與廣義二項稀疏算子中包含的計數級數無關.
由于過程{Xt}是一個Markov鏈, 因此其轉移概率有以下形式:
Pij=P(Xt=jXt-1=i)=P(αθXt-1+εt=jXt-1=i)=∑min{i,j}k=0P(αθX
t-1=k, εt=j-kXt-1=i)=∑min{i,j}k=0P(αθXt-1=kXt-1=i)×P(εt=j-kXt-1=i)=∑min{i,j}k=0(1-α)ik(α(1-θ))k(1-α(1-θ))i-k+
αik(θ+α(1-θ))k(1-θ-α(1-θ))i-k×P(εt=j-k).(6)
下面給出ZOIPL-GINAR(1)過程的嚴平穩性及遍歷性.
命題1 設序列{Xt}t∈瘙綄滿足式(5), 則:
1) {Xt}t∈瘙綄是一個不可約、 非周期、 正常返的Markov鏈;
2) {Xt}t∈瘙綄是遍歷的, 并存在一個嚴平穩過程滿足式(5).
證明: 1) {Xt}t∈瘙綄是瘙綃上的Markov鏈, 其轉移概率如式(6)所示, 有P(Xt=jXt-1=i)gt;0恒成立, 故{Xt}t∈瘙綄是不可約、 非周期
的Markov鏈. 下面證明{Xt}t∈瘙綄是正常返的, 只需證明∑∞t=1Pt(0,0)=+∞, 其中Pt(x,y)=P(Xt=yX0=x). 已知X0=0, 對式(5)迭代(t-1)次可得
Xt=αtθX0+∑t-1i=0αiθεt-i.
于是
Pt(0,0)=P(Xt=0X0=0)=P(αtθX0=0X0=0)×P∑t-1i=0αiθεt-i=0=
P(εt=0)×∏t-1i=1P(αiθεt-i=0)=P(εt=0)×∏t-1i=1∑∞k=0[P
(αiθεt-i=0εt-i=k)×P(εt-i=k)]=P(εt=0)×∏t-1i=1∑∞k=1[P(αiθ
εt-i=0 εt-i=k)×P(εt-i=k)+P(εt-i=0)]≥P(εt=0)×∏t-1i=1
P(εt-i=0)=P(εt=0)P(εt-1=0)…P(ε1=0)gt;0.
因此∑+∞t=1P(Xt=0X0=0)=+∞, 即證明了{Xt}t∈瘙綄是一個正常返的Markov鏈, 因此它是遍歷的.
2)是1)的直接結論, 根據文獻[18]中定理1.3即可證明.
命題2 假設{Xt}t∈瘙綄滿足ZOIPL-GINAR(1)過程, 且με=E(εt), σ2ε=Var(εt), 則對于t≥1, 有以下結論:
1) E(XtXt-1=x)=αx+με;
2) Var(XtXt-1=x)=α(1-α)(θ2x2+(1-θ2)x)+σ2ε;
3) E(Xt)=με1-α;
4) Var(Xt)=11-α(α+θ2-αθ2)×αθ21-αμ2ε+α(1-θ2)με+σ2ε;
5) γ(k)=αkγ(0).
證明: 結論1)~3)和結論5)顯然成立, 因此只需給出結論4)的證明. 由方差公式可知,
Var(Xt)=Var[E(XtXt-1)]+E[Var(XtXt-1)]=α2Var(Xt-1)+α(1-α)θ2Var(X
t-1)+αθ21-αμ2ε+α(1-θ2)με+σ2ε,
進行求和并移項可得
[1-α2-α(1-α)θ2]Var(Xt)=αθ21-αμ2ε+α(1-θ2)με+σ2ε,
整理后可得模型的方差.
基于文獻[12]中注2.1可得以下推論.
推論1 當新息序列εt~ZOIPL(φ0,φ1,δ)是過度離散, 即σ2ε/μεgt;1時, 由式(5)定義的Xt的方差-均值比為
Id=σ2XμX=1-α[1-α(α+θ2-αθ2)]×με×
αθ21-αμ2ε+α(1-θ2)με+σ2ε=αθ2με1-α+α(1-θ2)+σ2εμε1+α(1-θ2)gt;1,
此時, ZOIPL-GINAR(1)過程也是過度離散的.
2 參數估計
下面討論ZOIPL-GINAR(1)模型的參數估計問題. 假設{Xt}t∈瘙綃是ZOIPL-GINAR(1)模型的一個嚴平穩遍歷解, 令
η=(α,φ0,φ1,δ,θ)T為待估參數向量, 考慮通過條件極大似然(CML)方法估計參數η.
2.1 條件極大似然估計
對一個固定的初值x0, 模型(5)的條件似然函數為
L(η)=P(X1=x1,…,XN=xNX0=x0)=∏Nt=1P(Xt=xt=jXt-1=xt-1=i),(7)
其中轉移概率P(Xt=jXt-1=i)由式(6)給出. 則條件極大似然估計量CML=(CML
,CML0,CML1,CML,CML)T可通過最大化條件對數似然函數得到:
l(η)=log(L(η))=∑Nt=1log(P(XtXt
-1))=∑Nt=1log∑min{i,j}k=0P(αθXt-1=kXt-1=i)×P(εt=j-k).(8)
下面給出CML估計量CML=(CML,CML0,CML1,
CML,CML)T漸近正態性的相關結果. 假設:
(H1) 集合{k: P(εt=k)=f(k,β)gt;0}不依賴于β=(φ0,φ1,δ)T(β1,β2,β3)T;
(H2) E(ε3t)=φ1+φ2δ+2δ(1+δ)3lt;∞;
(H3) P(εt=k)關于β三階連續可微;
(H4) 對任意的β′∈B, 存在β′的一個鄰域U, 使得
∑∞k=0supβ∈U f(k,β)lt;∞, ∑∞k=0
supβ∈Uf(k,β)βult;∞, u=1,2,3,
∑∞k=0supβ∈U2f(k,β)βuβvlt;∞,u,v=1,2,3,
其中B是[0,1)×[0,1)×(0,+∞)上的一個開子集;
(H5) 對任意的β′∈B, 存在一個β′的鄰域U和遞增序列ψu(j),ψuv(j),ψuvw(j)(u,v,w=1,2,3, j≥0), 使得對所有的β
∈U, k≤j及f(k,β), 均有
f(k,β)βu≤ψu(j)f(k,β), f(k
,β)βuβv≤ψuv(j)f(k,β), f(k,β)
βuβvβw≤ψuvw(j)f(k,β),
并且{Xt}是平穩分布, 故Eψu(X1)lt;∞, EX1ψuv(X2)lt;∞, Eψu(X1)ψvw(X2)lt;∞, Eψuvw(X2)lt;∞;
(H6) 令I(η)=(σpq(η))5×5表示Fisher信息矩陣, 即
σ11(η)=Eαlog P(X1,X2)2,
σ1p(η)=Eαlog P(X1,X2)β(p-1)log P(X1,X2)=σp1(η),p=2,3,4,
σpq(η)=Eβ(p-1)log P(X1,X2)β(q-1)log P(X1,X2),p,q=2,3,4,
σ5p(η)=Eθlog P(X1,X2)β(p-1)log P(X1,X2)=σp5(η),p=2,3,4,
σ55(η)=Eθlog P(X1,X2)2,
其中: I(η)是非奇異矩陣; P(X1,X2)表示轉移概率, 由式(6)給出.
定理1 在假設條件(H1)~(H6)成立的情況下, 條件極大似然估計CML是相合的, 并有如下漸近分布:
N(CML-η)dN(0,I-1(η)),(9)
其中I(η)是Fisher信息矩陣.
證明: 與文獻[19]中定理3.3.1和定理3.3.2及文獻[20]中定理3.2的討論類似, 由于定理1是文獻[21]中定理2.1和定理2.2的特例, 因此只需證明假設條件(H1)~(H6)成立, 即可得文獻[21]中定理2.1和定理2.2成立.
條件(H1)~(H4)顯然滿足, 此外, 由零一堆積Poisson-Lindley分布的性質及ZOIPL-GINAR(1)過程的期望和方差可知, 條件(H5)也成立:
ψ1(j)=c, ψ2(j)=c, ψ3(j)=c1(c2+j),ψ13(j)=cj, ψ23(j)=cj, ψ31(j)=c1(c2+j), ψ32(j)
=c1(c2+j),ψ33(j)=c1(c2+j2), ψ313(j)=cj2, ψ323(j)=cj2, ψ333(j)=cj3,
其他值都為零, c,c1,c2是一些合適的常數. 對于條件(H6), 只需證明以下條件成立:
Eαlog P(X1,X2)2lt;∞, Eβulog P(X1,X2)2lt;∞, Eθlog P(X1,X2)2lt;∞,
Eαlog P(X1,X2)·βulog P(X1,X2)lt;∞, Eβulog P(X1,X2)
·θlog P(X1,X2)lt;∞,Eαlog P(X1,X2)·θlog P(X1,X2)lt;
∞,Eαlog P(X1,X2)·βulog P(X1,X2)·θlog P(X1,X2)lt;∞.
下面證明轉移概率P(X1,X2)取對數再對參數α求偏導, 即αlog P(X1,X2)的二階矩有界. 根據轉移概率可得
P(X1,X2)=∑min{X1,X2}k=0(1-α)X1k(α(1-θ))k(1-α(1-θ))X1-k
+αX1k(θ+α(1-θ))k(1-θ-α(1-θ))X1-kP(εt=X2-k).
令C1=(1-α)(α(1-θ))k(1-α(1-θ))X1-k, C2=α(θ+α(1-θ))k(1-θ-α(1-θ))X1-k, 則
P(X1,X2)=∑min{X1,X2}k=0X1k(C1+C2)P(εt=X2-k).
故αlog P(X1,X2)=1P(X1,X2)P(X1,X2)α, 其中
P(X1,X2)α=∑min{X1,X2}k=0X1k
C1-11-α+kα-(1-θ)(X1-k)(1-α(1-θ))+
X1kC21α+k(1-θ)θ+α(1-θ)-(X1-k)(1-α)P(εt=X2-k)=∑min{X1,X2}k=0X1kC1-11-
α+kα-(1-θ)(X1-k)(1-α(1-θ))+
C21α+k(1-θ)θ+α(1-θ)-(X1-k)(1-α)P(εt=X2-k)≤
∑min{X1,X2}k=0X1kkαC1+(k+1)(1-θ)+θ/αθ+α(1-θ)C2
P(εt=X2-k)≤mα+(m+1)(1-θ)+θ/αθ+α(1-θ)∑min{X1,X2}k=0
X1k(C1+C2)P(εt=X2-k)=mα+(m+1)(1-
θ)+θ/αθ+α(1-θ)P(X1,X2)≤2(m+1)αP(X1,X2),
同理, 可得P(X1,X2)α≥-X1+11-α, 其中m=min{X1,X2}, 故可得
-X1+11-α≤αlog P(X1,X2)≤2(X1+1)α(10)
對所有滿足P(X1,X2)gt;0和αgt;0的X1,X2均成立, 表明在平穩狀態下,
Eαlog P(X1,X2)2≤c1·E(X1+c2)2lt;∞(11)
成立, 其中c1,c2是一個合適的常數. 類似地, 由條件(H5)可得
βulog P(X1,X2)≤1P(X1,X2)∑min
{X1,X2}k=0X1k(C1+C2) P(X1,X2)βu≤ψu(X2),
因此
Eβulog P(X1,X2)2≤E(ψu(X2))2lt;∞.(12)
同理可得
-X1α(1-θ)≤θlog P(X1,X2)≤X1θ+α,
故得到對所有滿足P(X1,X2)gt;0和θgt;0的X1,X2也均成立, 表明在平穩狀態下,
Eθlog P(X1,X2)2≤C·E(X1)2lt;∞(13)
同樣成立, 其中C是一個合適的常數. 由式(11)~(13)和條件(H5), 可以證明
Eαlog P(X1,X2)·βulog P(X1,X2)lt;∞,
Eβulog P(X1,X2)·θlog P(X1,X2)lt;∞,
Eαlog P(X1,X2)·θlog P(X1,X2)lt;∞,
Eαlog P(X1,X2)·βulog P(X1,X2)·θlog P(X1,X2)lt;∞
均成立. 因此Fisher信息矩陣I(η)有意義. 最后通過一些簡單且繁瑣的計算表明條件(H6)也成立.
2.2 數值模擬
下面對ZOIPL-GINAR(1)模型進行數值模擬, 通過參數估計的偏差和均方誤差比較條件極大似然估計的估計效果. 根據參數α,φ0,φ1,δ,θ的取值空間, 選取以下4組不同的參數組合進行數值模擬.
第一組參數: α=0.4, φ0=0.4, φ1=0.4, δ=0.5, θ=0.4;
第二組參數: α=0.3, φ0=0.5, φ1=0.3, δ=0.5, θ=0.4;
第三組參數: α=0.5, φ0=0.5, φ1=0.3, δ=0.7, θ=0.6;
第四組參數: α=0.3, φ0=0.4, φ1=0.4, δ=0.7, θ=0.6.
ZOIPL-GINAR(1)模型在上述4組參數下的樣本路徑和自相關函數(ACF)如圖1所示, 其中樣本量N=100. 由圖1可見, 4個序列都是平穩的且表現出一定的零一堆積特征.
對上述4組參數組合, 在R軟件環境下進行1 000次重復實驗, 分別在樣本量N為100,200,500,1 000的4種情形下給出估計結果. 表1列出了在不同參數組合下模型的條件極大似
然估計結果. 由表1可見, 隨著樣本量的增大, 估計值的偏差(Bias)和均方誤差(MSE)均越來越小, 表明模型參數的條件極大似然估計值是相合且有效的, 因此用條件極大似然估計
方法可以對模型參數進行可靠估計.
圖1 4組參數的樣本路徑圖和ACF圖Fig.1 Sample path diagramsand ACF diagrams of four sets of parameters
圖2為當樣本量為500時第一組參數下ZOIPL-GINAR(1)模型的條件極大似然估計值的Q-Q圖. 由圖2可見, 其曲線大致呈預期的正態分布. 采用其他參數組合的ZOIPL-GINAR(1)模型也可得到類似結果. 圖3為
當樣本量N=100,200,500,1 000時在第一組參數下模型條件極大似然估計值的箱線圖. 由圖3可見, 隨著樣本量的增大, 估計值的Bias和MSE均減小.
3 實例分析
實例分析數據采用Kang等[22]給出的在2006年6月1日至2007年2月28日期間, CWβTeXpert程序的每日下載次數數據. 該組數據由267個觀測值組成, 其中74個(占總
量的27.72%)觀測值為0, 57個(占總量的21.35%)觀測值為1, 其余136個(占總量的50.93%)觀測值為該程序的每日下載次數1次以上的數量. 通過離散指數
Id=Var(Y)/E(Y)測量隨機變量Y的離散程度, 如果Idgt;1(lt;1)或Id=1, 則隨機變量Y分別表現為過離散(欠離散)或等離散. 利用公式計算該數據集的離散指數為3
138 3, 說明該數據集過離散, 且由推論1可知ZOIPL-GINAR(1)過程可刻畫過離散數據, 因此可考慮使用ZOIPL-GINAR(1)模型進行擬合.
原始數據樣本路徑圖及其ACF圖和PACF圖如圖4所示, 該組數據的
最小值為0.000, 最大值為14.000, 中位數為2.000, 均值為2.401, 方差為7.534, 離散指數為3.138 3, 0占比為27.72%, 1占比21.35%. 將
ZOIPL-GINAR(1)模型應用于該組數據, 并與ZOIPL-INAR(1),ZIPL-INAR(1),OIPL-INAR(1),PL-INAR(1),ZINAR(1),NGINAR(1)和INAR(1)模型進行比較, 通過比較各模
型參數的赤池信息準則(AIC)和離散指數(Id)說明ZOIPL-GINAR(1)模型擬合的優良性. 實例分析結果列于表2. 由表2的AIC和Id值可見, ZOIPL-GINAR(1)模型比其他模型擬合效果更好.
下面利用
et=Xt-E(XtXt-1)Var(XtXt-1),t=2,3,…,N(14)
對ZOIPL-GINAR(1)模型的Pearson殘差進行分析.
根據ZOIPL-GINAR(1)模型的條件期望和條件方差公式, 計算該模型在條件極大似然估計方法下的殘差均值和方差. 估計擬合殘差的均值和方差分別越接近0和1, 模型的
擬合效果越好. 在實際數據中, 條件極大似然估計方法下所擬合的ZOIPL-GINAR(1)模型殘差的均值和方差分別為0009 9和1139 2. 該結果再次說明了用ZOIPL-GINAR(1)模型擬合這組數據更合適.
綜上所述, 將ZOIPL-GINAR(1)模型應用于CWβTeXpert程序的每日下載次數數據進行擬合, 與幾類整數值自回歸模型進行比較的結果表明, ZOIPL-GINAR(1)模型的擬合效果優于
其他模型, 且該模型不僅能擬合存在過分散以及零和一堆積的數據, 同時還能刻畫數據中個體之間存在的相依情況.
參考文獻
[1]A1-OSH M A, ALZAID A A. First-Order Integer-Valued Autoregressive (INAR(1))
Process[J].Journal of Time Series Analysis, 1987, 8(3): 261-275.
[2]STEUTEL F W, VAN HARN K. Discrete Analogues of Self-decomposability and Stability[J].The Annals of Probability, 1979, 7(5): 893-899.
[3]ALZAID A A, AL-OSH M A. An Integer-Valued pth-Order Autoregressive Stru
cture (INAR(p)) Process[J].Journal of Applied Probability, 1990, 27(2): 314-324.
[4]AL-OSH M A, ALY E A. First Order Autoregressive Time
Series with Negative Binomial and Geometric Marginals[J].Communication in Statistics: Theory and Methods, 1992, 21(9): 2483-2492.
[5]SANKARAN M. The Discrete Poisson-Lindley Distribution[J].Biometrics, 1970, 26: 145-149.
[6]MOHAMMADPOUR M, BAKOUCH H S, SHIROZHAN M. Poisson-Lindley INAR(1) Model wi
th Applications[J].Brazilian Journal of Probability and Statistics, 2018, 32(2): 262-280.
[7]JAZI M A, JONES G, LAI C. First-Order Integer Valued AR Processes with Zer
o Inflated Poisson Innovations[J].Journal of Time Series Analysis, 2012, 33(6): 954-963.
[8]ZHU F K. Zero-Inflated Poisson and Negative Binomial Integer-Valued GARCH M
odels[J].Journal of Statistical Planning and Inference, 2012, 142(4): 826-839.
[9]QI X H, LI Q, ZHU F K. Modeling Time Series of Count with Excess Zeros and One
s Based on INAR(1) Model with Zero-and-One Inflated Poisson Innovations[J].Journal of Computational and Applied Mathematics, 2019, 346: 572-590.
[10]XAVIER D, SANTOS-NETO M, BOURGUIGNON M, et al. Zero-Modified Poisson-Lind
ley Distribution with Applications in Zero-Inflated and Zero-Deflated Count Data[EB/OL].(2017-12-12)[2024-03-19].https://doi.org/10.48550/arxiv.1712.04088.
[11]SHARAFI M, SAJJADNIA Z, ZAMANI A. A First-Order Integer-Valued Autore
gressive Process with Zero-Modified Poisson-Lindley Distributed Innovations[J].Communications in Statistics: Simulation and Computation, 2023, 52(3): 685-702.
[12]MOHAMMADI Z, SAJJADNIA Z, BAKOUCH H S, et al. Zero-and-One Inflated Poisson-Lindley INAR(1) Process for Modelling Count Time Series with Extra Zeros and
Ones[J].Journal of Statistical Computation and Simulation, 2022, 92(10): 2018-2040.
[13]RISTIC' M M, NASTIC' A S,
ILIC' A V M. A Geometric Time Series Model with Dependent Bernoulli Counting Series[J].Journal of Time Series Analysis, 2013, 34: 466-476.
[14]SHIROZHAN M, MOHAMMADPOUR M, BAKOUCH H S. A New Geometric INAR(1) Model
with Mixing Pegram and Generalized Binomial Thinning Operators[J].Iranian Journal of Science and Technology, Transactions A: Science, 2019, 43(3): 1011-1020.
[15]KANG Y, WANG D H, YANG K. Extended Binomial AR(1) Process with Generalized Bi
nomial Thinning Operator[J].Communications in Statistics: Theory and Methods, 2020, 49(14): 3498-3520.
[16]ZHANG J, SHAO S Y, YANG K, et al. A Statistical Study for Some Classes of F
irst-Order Mixed Generalized Binomial Autoregressive Models[J].Communications in Statistics: Theory and Methods, 2024, 53(14): 5057-5075.
[17]ZHANG J, SHAO S Y, WANG D H, et al. Statistical Infer
ence of pth-Order Generalized Binomial Autoregressive Model[J].Journal of the Korean Statistical Society, 2024, 53(4): 1003-1026.
[18]KARLIN S, TAYLOR H E. A First Course in Stochastic Processes[M].2nd ed. New York: Academic Press, 1975: 1-576.
[19]齊霄虹. 基于零一膨脹的泊松INAR(1)模型[D].長春: 吉林大學, 2018. (QI X H
. INAR(1) Model Based on Zero-and-One Inflated Poisson Innovations[D].Changchun: Jilin University, 2018.)
[20]YANG K, LI H, WANG D H, et al. Random Coefficients Integer-Valued Threshold
Autoregressive Processes Driven by Logistic Regression[J].Asta-Advances in Statistical Analysis, 2021, 105(4): 533-557.
[21]BILLINGSLEY P. Statistical Inference for Markov Processes[M].Chicago: University of Chicago Press, 1961: 10-14.
[22]KANG Y, ZHU F K, WANG D H, et al. A Zero-Modified Geometric INAR(1) Model for
Analyzing Count Time Series with Multiple Features[J].The Canadian Journal of Statistics, 2023, 52(3): 873-899.
(責任編輯:李 琦)