









摘要:選取合適的計數數據統計方法,能夠利于解決大數據時代的數據分析和預測問題.研究利用Logistic結構,融合考慮協變量影響混合概率的一階整數值自回歸模型,結合了條件極大似然估計模型中的未知參數.研究結果表明,當樣本容量增大時,模型參數估計的偏差、標準差、均方誤差都減小了,說明了模型估計量具有相合性.在參數組合為(0.6,0.5,1)且樣本量為800的條件下,模型A展現出低偏差、低標準差和低均方誤差,且條件極大似然估計量符合正態分布趨勢.比較一般一階整數值自回歸模型時,基于赤池信息準則和貝葉斯信息準則的結果表明,研究模型具有更好的擬合效果,更有助于計算數據的預測和分析.
關鍵詞:一階整數值自回歸;Logistic結構;協變量;混合概率;條件極大似然估計;參數估計
中圖分類號:O212.8文獻標志碼:A
A First-order Integer Autoregressive Model Considering the Influence of Covariates on Mixed Probabilities
WEN Xuejun
(Shanxi Electronic Science and Technology Institute, Linfen 041000, China)
Abstract: Selecting appropriate counting data statistical methods can help solve data analysis and prediction problems in the era of big data. The study utilizes a logistic structure to integrate a First-Order integer-valued autoregressive model that considers the influence of covariates on mixing probability, and combines the unknown parameters in the conditional maximum likelihood estimation model. The research results show that as the sample size increases, the bias, standard deviation, and mean square error of the model parameter estimation decrease, indicating that the model estimators are consistent. Under the condition of parameter combination of (0.6, 0.5, 1) and sample size of 800, Model A exhibits low bias, low standard deviation, and low mean square error, and the conditional maximum likelihood estimator follows a normal distribution trend. When comparing First-Order integer autoregressive models, the results based on the Chichi information criterion and Bayesian information criterion indicate that the research model has better fitting performance and is more helpful for for the prediction and analysis of computational data.
Key words: first-order integer autoregression; logistic structure; covariance; mixed probability; conditional maximum likelihood estimation; parameter estimation
在大數據時代,人們面臨著大量的計數數據,例如交通流量、用戶點擊數量、社交媒體評論等.這些數據具有離散性、非負性等特點,因此需要針對這些特點選擇適當的統計方法和模型[1].傳統的連續型時間序列模型無法很好地描述和預測這些數據,選擇合適的時間序列模型對于分析和預測這些計數數據的變化趨勢和規律至關重要.整數值時間序列能夠克服傳統模型在處理計數數據時產生的偏差和不準確性,從而改進數據分析和預測的結果[2].整數值時間序列的建模需要采用新的方法,以解決連續時間序列模型在處理計數數據時的離散性等局限性,以獲得更準確的擬合和預測結果.一階整數值自回歸過程是一種離散時間過程,可以在建模計數數據時提供一定的靈活性[3].它可以用來描述計數數據之間的依賴關系,可以幫助人們理解計數數據的動態變化.通過對該模型進行參數估計和統計推斷,人們可以對計數數據進行分析、預測以及相關推斷[4].在考慮協變量影響混合概率的一階整數值自回歸模型中,通過考慮協變量的影響,在建模整數值序列時可以更準確地捕捉到外部因素對序列變動的影響,可以幫助人們更好地理解計數數據的動態變化,并提供有關協變量對整數值序列的影響的信息[5].鑒于此,本研究將基于協變量影響混合概率構建一階整數值自回歸模型,并利用參數估計方法對模型參數展開估計,以更好地對實際生活中遇到的數據進行分析和預測.
1基于協變量影響混合概率的一階整數值自回歸模型
1.1基于Logistic結構的一階整數值自回歸模型
Logistic結構通常指的是Logistic回歸模型中的函數形式和參數估計方法.Logistic回歸是一種用于建立分類模型的統計方法,廣泛應用于預測和解釋二元或多元變量的概率.在Logistic回歸中,通常使用Logistic函數來建模因變量與自變量之間的關系,該函數可以將連續的自變量映射到0到1之間的概率值[6].Logistic回歸模型的參數估計方法和函數形式使其在分類問題中非常有用,例如判斷某個事件是否發生,或者預測概率是否超過某個閾值.此外,在機器學習和數據分析領域,Logistic回歸也經常被用作其他模型的基礎,如邏輯回歸在神經網絡中被用作激活函數.在logistic回歸中,研究某一個結果y和x1,x2,…,xn因素之間的關系時,通常構建線性回歸模型,表達式如(1)所示.
y=θ0+θ1x1+θ2x2+…+θnxn+ε(1)
公式(1)中,y和x1,x2,…,xn分別表示因變量和自變量,θ0,θ1,…,θn為模型參數,ε表示誤差項.該線性回歸模型對自變量的取值沒有限制,故因變量y的取值也不受限制,是一個連續變量.但是在實際情況中,會存在因變量y只取分類值的情形,故此線性回歸模型需要進一步優化.因此,假設y是只取二分類值的因變量,探討自變量x1,x2,…,xn對因變量y的影響可以轉變為自變量x1,x2,…,xn對概率p=Py=1的影響.一般情況下,對p的研究等價于對p1-p的研究.當y和自變量x1,x2,…,xn的關系滿足表達式(2)時,說明因變量和自變量的關系滿足Logistic回歸模型.
lnp1-p=φ0+∑ni=1φixi(2)
式(2)中,φ1,φ2,…,φn表示參數.公式(2)有一個等價形式,表達式如式(3)所示.
p=expφ0+∑ni=1φixi1+expφ0+∑ni=1φixi(3)
Logistic回歸模型以其良好的解釋性和易于實施的特點,在各個領域得到了廣泛的應用,同時該模型的思想也被用于研究整數值時間序列.考慮到協變量對稀疏參數的隨機效應,有學者基于Logistic結構提出一種由協變量影響的一階混合隨機系數整數值自回歸過程[7].本研究將利用這種思想,構建基于Logistic結構的協變量影響混合概率的一階整數值自回歸模型.混合概率表示每個整數的生成概率不是固定的,而是根據協變量的特征進行調整[8].這樣可以使模型更具靈活性,能夠更好地捕捉不同協變量取值下整數序列的變化規律.基于Logistic結構的協變量影響混合概率的一階整數值自回歸模型構建過程如圖1所示.
從圖1可以看出,模型在構建過程中,首先利用Logistic結構構建線性回歸模型,然后將其融合到受協變量影響的一階混合隨機系數整數值自回歸過程中,從而得到基于Logistic結構的協變量影響混合概率的一階整數值自回歸模型.假設Zt=(Zt1,Zt2,…,Ztq)T表示平穩的可觀測隨機變量,當非負整值時間序列{Xt,t=0,1,…}滿足(4)時,則{Xt,t=0,1,…}為q維協變量影響混合概率的一階混合隨機系數整數值自回歸過程[9-10].
Xt=αtXt-1+εt,1-βεt,β(4)
式(4)中,1-β、β均為概率,其中,αt需要滿足的條件如式(5)所示.
lnαt1-αt=ξTZt=ξ1Zt1+ξ2Zt2+…+ξqZtq(5)
式(5)中,ξ=(ξ1,ξ2,…,ξq)T表示協變量系數,{εt}用于描述獨立同分布的隨機變量序列,值為非負整數,且和{Xt-s,s=1,2,…}、{Zt,t=1,2,…}獨立.
1.2基于條件極大似然估計的模型參數估計
針對模型中的未知參數,需要利用參數估計方法進行估計.參數估計方法通常使用條件極大似然估計方法來尋找最佳的模型參數,使得模型的預測值與觀測值的差異最小化.基于條件極大似然估計的模型參數估計過程如圖2所示.
通過圖2可以看出,在條件極大似然估計中,研究首先通過最大化似然函數,來尋找能夠最好地解釋觀測數據的模型參數.似然函數反映了在給定模型參數下,觀測數據出現的可能性,而極大似然估計方法旨在找到能夠最大化似然函數的參數值[11].在使用參數估計方法時,研究需要確保這些假設和前提條件的合理性,并進行相應的檢驗和驗證.
條件極大似然估計是一種極大似然估計的擴展方法,適用于包含隱變量或條件概率的模型中.相比于傳統的極大似然估計,條件極大似然估計考慮了條件概率和隱變量的影響.隱變量是指模型中未直接觀測到的變量,它們對于觀測數據的生成具有重要的影響.通過考慮隱變量和條件概率,條件極大似然估計能夠更準確地估計模型的參數[12].通過考慮隱變量和條件概率,條件極大似然估計能夠更準確地估計模型的參數,提高模型的擬合能力和預測準確性.條件極大似然估計可以用來估計概率分布參數的值,其中泊松分布和幾何分布是常見的概率分布[13].泊松分布適用于離散數據的計數問題,例如統計某個事件在特定時間或區域內發生的次數.幾何分布則適用于描述在一系列獨立重復的試驗中,首次成功所需的失敗次數[14].由于本研究主要考慮到實際情況中人們面臨著大量具有離散性的計數數據,則將選取更加合適的條件極大似然估計的泊松分布模型進行估計.假設εt服從參數為λ的泊松分布α(λ),概率分布列表達式如式(6)所示.
α(εt=k)=λkk!e-λ,k=0,1,2…(6)
假設ξ=(φ,β1,β2,…,βq,λ)T表示未知參數,并令β=(β1,β2,…,βq)T,則參數的條件極大似然函數如式(7)所示.
Lξ=∏nt=2αXt=xtXt-1=xt-1,Zt=zt=∏nt=21-αtg1xt,λ+αt∑min{xt-1,xt}i=0xt-1ig2xt-1,i,φg3xt,i,λ(7)
之后對條件極大似然函數取對數,獲得對數似然函數,表達式如式(8)所示.
1ξ=∑nt=2lnαXt=xtXt-1=xt-1,Zt=zt
=∑nt=2lnM1xt-1,xt,φ,β,λ,zt(8)
對數似然函數關于參數φ、βi、λ的偏導數為1ξφ、1ξβi、1ξλ,令該三個偏導數為0,即如式(9)所示.
1ξφ=01ξβi=01ξλ=0(9)
求得式(9)的解,便可以得到參數φ、βi、λ的條件極大似然估計值
φ∧1,CML、β∧i1,CMLi=1,2,…,q、λ∧1,CML,再利用Matlab軟件對數值解進行求解.
2考慮協變量影響混合概率的一階整數值自回歸模型分析
2.1模型參數估計的一維數值模擬
由于考慮協變量影響混合概率的一階整數值自回歸模型會受到協變量的影響,故研究將對一維協變量情形下進行數值模擬,對方法的有效性進行檢驗.假設模型A的信息序列服從泊松分布,待估參數為φ,β,λ,選取四組參數組合,分別為(0.6,0.5,1)、(0.6,-0.5,1)、(0.8,0.5,2)、(0.8,-0.5,2).選取300、500、800的樣本容量,重復進行模擬,計算估計量的偏差(BIAS)、標準差(Standard Deviation,SD)和均方誤差(Mean Squared Error,MSE),再利用Matlab軟件對數值解進行求解,結果如圖3所示.
通過圖3可以看出,在不同的參數組合下,模型參數估計的偏差、標準差、均方誤差均隨著樣本量的增加而降低,能夠展示出模型估計量具有一定的相合性.當參數組合為(0.6,0.5,1)時,樣本量為300時,模型A的BIAS、SD、MSE分別為(0.008 9,0.327 6,0.006 1);樣本量為500時,模型A的BIAS、SD、MSE分別為(0.005 8,0.131 2,0.003 7);樣本量為800時,模型A的BIAS、SD、MSE分別為(0.002 8,0.086 9,0.002 1);當樣本量為800時,模型在參數組合(0.6,0.5,1)下的條件極大似然估計量的QQ圖如圖4所示.由于其他組合計算結果的QQ圖與之相似,故不再列舉.估計量QQ圖(Quantile-Quantile Plot)是一種用于驗證估計量是否符合某種理論分布的圖形工具,在QQ圖中,橫軸表示理論分布的分位數,縱軸表示估計量的分位數.如果估計量與理論分布一致,那么繪制的點應該沿著一條直線分布.
通過圖4可以看出,關于全部參數,條件極大似然估計量呈現出正態分布的趨勢,且條件極大似然估計具有較好的速度和精度,過程也相對簡單,即利用條件極大似然估計可以應對樣本量較大情形下的參數估計.結合模擬結果,能夠發現協變量在平穩的相依過程和隨機余弦波過程中,條件極大似然估計效果良好,說明考慮一維協變量影響混合概率的一階整數值自回歸模型建模過程中,協變量能夠結合實際情形,相對靈活地進行選取,具有較廣泛的應用范圍.
2.2實例分析
利用考慮一維協變量影響混合概率的一階整數值自回歸模型,對實際數據進行分析擬合.從政府犯罪統計數據庫中選取發布的2010年至2020年盜竊犯罪情況數據,數據來源于四川省公安廳的官方網站(http://gat.sc.gov.cn/),利用合適的時間序列構建犯罪數據模型.該組數據包括186個樣本,樣本均值和方差分別為2.541 3、3.021 7,樣本的最大值和最小值分別為21、0,利用Matlab檢驗,發現該組數據為平穩序列.分析樣本的自相關函數(Autocorrelation Function,ACF)和偏自相關函數(Partial Autocorrelation Function,PACF)情況,結果如圖5所示.
通過圖5可以看出,該組數據具有自相關性.延時1的自相關函數和偏自相關函數值超出了標準偏差,延時2的自相關函數和偏自相關函數均在標準差范圍內,表明該組數據具有一階相依性.
犯罪數據的取值常常會受到很多因素的影響,盜竊犯罪數據的取值也可能與其余犯罪數據的取值有關.研究從某省官網發布的犯罪統計數據庫中選取2010年至2020年連續11年間每個月的盜竊犯罪數量作為協變量,該組數據包括186個樣本,利用Matlab檢驗,發現該組數據為平穩序列,符合協變量平穩性的要求.利用一般一階整數值自回歸模型對數據進行擬合,并利用條件極大似然估計方法對模型中涉及的未知參數進行估計.利用赤池信息準則(Akaike Information Criterion,AIC)和貝葉斯信息準則(Bayesian Information Criterion,BIC)評價模型的擬合效果,AIC與BIC的計算見式(10).
AIC=2k-2ln(L)BIC=kln(n)-2ln(L)(10)
式(10)中,k代表所使用模型當中的參數個數,L代表似然函數,n代表樣本數量,二者數值越小,代表所構建模型的擬合效果就越好.AIC和BIC側重于模型選擇,而條件極大似然估計參數則關注于參數的點估計,二者之間并沒有直接的計算關系,但AIC和BIC在選擇模型時會將參數估計的影響考慮在內.為了顯示模型的擬合效果,將考慮一維協變量影響混合概率的一階整數值自回歸模型和一般一階整數值自回歸模型進行比較,得到考慮一維協變量影響混合概率的一階整數值自回歸模型的條件極大似然估計參數φ、β與λ的值分別為0.603 7、-0.137 5與2.103 6;一般一階整數值自回歸模型的φ、β與λ的值分別為0.152 8、-0.216 9與5.364 8;另外模型的擬合結果見表1.
通過表1可以看出,考慮一維協變量影響混合概率的一階整數值自回歸模型的AIC值和BIC值分別為635.413 9、646.172 8,均低于一般一階整數值自回歸模型,說明考慮一維協變量影響混合概率的一階整數值自回歸模型的擬合效果更好.
3結論
隨著技術的發展和應用場景的增加,傳統的連續型時間序列模型難以很好地描述和預測計數數據的變化趨勢和規律.整數值時間序列模型能夠更好地克服傳統模型在處理計數數據時產生的偏差和不準確性,從而改進數據分析和預測的結果.研究利用Logistic結構構建線性回歸模型,然后將其融合到受協變量影響的一階混合隨機系數整數值自回歸過程中,從而得到基于Logistic結構的協變量影響混合概率的一階整數值自回歸模型.選取條件極大似然估計的泊松分布模型估計未知參數,利用Matlab軟件對數值解進行求解.模擬結果表明,隨著樣本量的增加,模型估計量具有更好的一致性.關于全部參數而言,條件極大似然估計量呈現出正態分布的趨勢.仿真結果表明,模型的赤池信息準則值和貝葉斯信息準則值分別為635.413 9、646.172 8,具有很好的擬合效果.本研究還存在一些不足之處,比如只考慮一維協變量的影響,后續將研究在二維協變量影響下的模型擬合效果.
[參考文獻]
[1]劉子健,桂尚珂,陳碩,等.一階混合整數值二項自回歸模型[J].吉林大學學報(理學版),2021,59(6):1395-1399.
[2]齊培艷,仵旭靚,段西發.含缺失協變量的混合效應模型的多元單邊檢驗[J].山西大學學報(自然科學版),2022,45(5):1195-1205.
[3]侯春羽,袁超鳳,馬維軍.帶協變量的混合因子模型及應用[J].黑龍江大學自然科學學報,2019,36(5):519-528.
[4]胡國治,程維虎,曾婕.協變量缺失下部分線性模型的模型選擇和模型平均[J].應用數學學報,2020,43(3):535-554.
[5]YUAN M,ZHU Z,YANG Y,et al.Efficient algorithms for covariate analysis with dynamic data using nonlinear mixed-effects model[J].Statistical Methods in Medical Research,2021,30(1):233-243.
[6]劉鑫,何澤波,周振華,等.基于概率-概率盒混合模型的氣囊座椅防護特性可靠性分析方法[J].機械工程學報,2022,58(24):324-333.
[7]黃熙彤,張敏強.協變量相關對時變效應模型參數估計的影響[J].心理科學,2021,44(5):1231-1240.
[8]楊曉,趙曉兵.基于協變量的混合隸屬度隨機塊模型的社區發現方法[J].統計與決策,2021,37(20):15-19.
[9]榮國才,王亞楠,韋程東,等.基于比例風險模型中協變量調整方法的研究[J].應用概率統計,2022,38(2):195-218.
[10]LENZ M,JST D,THIEL F,et al.Identification of load dependent cell voltage model parameters from sparse input data using the Mixed Integer Distributed Ant Colony Optimization solver[J].Journal of Power Sources,2019,437(Oct.15):226880(1-11).
[11]潘瑩麗,劉展,宋廣雨.帶有缺失協變量的分位數回歸模型的參數估計[J].統計與決策,2021,37(11):21-25.
[12]劉學娟,趙斐.考慮協變量的設備退化和生產批量整合模型[J].浙江大學學報(工學版),2021,55(12):2390-2396.
[13]吳功躍,周香花.協變量缺失下集值映射多目標規劃模型仿真[J].計算機仿真,2021,38(11):469-472.
[14]李坤,印興耀.混合概率模型驅動的疊前地震反演方法[J].石油地球物理勘探,2020,55(4):839-853.
[責任編輯王光]