基于BCUSUM的多參數變點估計

2024-05-26 01:21:34王繼梅

統計與決策 2024年9期

王繼梅，胡堯,b

（貴州大學a.數學與統計學院；b.公共大數據國家重點實驗室，貴陽 550025）

0 引言

回歸模型是金融學、生物學、物理學等許多領域流行的數據分析工具。由于各研究領域的特性，模型中的一些參數可能會隨著時間的推移而改變，因此時不變模型并不總是適用于整個數據集。一個好的模型應該具有解釋整個數據集的靈活性，為了解決這個問題，可使用變點檢測方法識別觀測序列的參數變點，從而分割樣本，再分別對每個子樣本進行建模。關于單變點問題，目前已有一系列成熟的研究成果[1—3]。而多變點問題較為復雜，需要同時識別變點的個數和對應的位置。

Brown 等（1975）[4]提出基于遞歸殘差的CUSUM（Cumulative Sum）檢驗，用于識別回歸參數的不穩定性。Ploberger 和Kr?mer（1992）[5]提出基于OLS（Ordinary Least Squares）殘差的CUSUM 檢驗，并將其與Brown 等（1975）[4]的方法在局部功效方面進行了對比。Deng 和Perron（2008）[6]研究了上述兩種CUSUM 檢驗的非局部功效性質。Bai 和Perron（2003）[7]基于動態規劃原則下的最小化殘差平方和算法，提出循序檢驗法用于估計具有多個參數變點的線性模型。Chen和Nkurunziza（2017）[8]研究了變點數已知情形下的多變點問題。Jiang 和Kurozumi（2019）[9]提出基于最小二乘估計殘差和遞歸殘差的兩個多元CUSUM統計量，但基于遞歸殘差的統計量在備擇假設下的功效較低。楊超等（2020）[10]提出合并帶寬MOSUM（Moving Sum）檢測方法。胡丹青和趙為華（2022）[11]基于貝葉斯后驗推理及遺傳算法研究了線性回歸模型多結構變點（即參數變點）的變點檢測方法。此外，許多變點檢測方法的應用離不開有效的算法，如二元分割（Binary Segmentation，BS）[12]、隔離檢測（Isolate-Detect，ID）[13]等。ID 算法變點檢測的準確度較高，可將其拓展至多元回歸模型的變點檢測。

在變點分析領域，目前多數文獻針對檢驗統計量的方法，尤其是在變點理論中廣泛應用的CUSUM 統計量的基礎上做了許多擴展和改進，但現有研究仍存在功效低、計算迭代時間成本高、小樣本數據準確度低等不足。鑒于此，本文提出基于逆向累積遞歸殘差和隔離檢測技術的多元CUSUM檢驗方法，得到適用范圍更廣泛、檢測效果更好的MCPDP（Multiple Change Points Detection of Paramter）變點檢測算法。

1 多元CUSUM檢驗

基于參數設置，考慮如下線性回歸模型：

其中，yt是響應變量，協變量xt=(xt1，xt2，…，xtk)′為k維列向量，回歸系數βt是依賴于時間t的k維列向量，εt為不可觀測的隨機誤差項。若式（1）中包含一個常數項，則對于任意的t，有xt1=1。

考慮如下假設檢驗問題：

其中，β是一個固定的k維列向量，g:R →Rk為有界的分段常值函數。若備擇假設H1成立，則說明參數向量βt發生了變化，需對模型中存在的參數變點進行估計。

為了研究檢驗統計量的漸近性質，作以下假設。

假設1：

基于遞歸殘差的一元CUSUM檢驗統計量已經有了一些研究成果，其中，Sen（1982）[14]證明了在原假設下該統計量弱收斂于標準布朗運動；Ploberger 和Kr?mer（1990）[15]推導出在備擇假設下該統計量弱收斂于標準布朗運動加上協變量均值與結構突變的交互項，這說明一元CUSUM 檢驗的功效取決于協變量均值與參數變化方向的夾角，當二者正交時，將沒有功效。為了克服這個困難，使用協變量與遞歸殘差的乘積代替遞歸殘差，考慮多元CUSUM檢驗，其檢驗統計量定義為：

在假設1下，多元序列xtεt滿足多元泛函中心極限定理[16]，類似地，也適用于基于遞歸殘差的多元CUSUM過程。

定理1：設假設1和假設2成立。

（1）若原假設成立，則當n→∞時，有：

其中，?表示弱收斂，B(k)(r)是一個k維的標準布朗運動。

（2）若備擇假設成立，則當n→∞時，有：

假設3：邊界函數的形式為b(r)=λαd(r)，且d(r) 連續，存在ε＞0，使得對任意的r≥0 有d(r)＞ε。

根據定理1、假設3和連續映射定理，可得：

若原假設成立，則當n→∞時，有：

若備擇假設成立，則當n→∞時，有：

事實上，若僅關注特定的系數是否存在變點，則部分檢驗會有更好的檢測效果。此時，H0:H′βt=H′β，其中，H是一個k×l的列滿秩矩陣。考慮如下的部分CUSUM過程：

若原假設成立，且滿足假設1 和假設2，則當n→∞時，有。因此，多元正向CUSUM 檢驗與下文的BCUSUM 檢驗可以基于改進的構造適用于部分檢驗的檢驗統計量。

2 多變點估計算法

2.1 BCUSUM檢驗

盡管多元CUSUM檢驗可以解決協變量均值與結構突變正交時一元CUSUM 沒有功效的問題，但該檢驗在備擇假設下的功效并不好，其原因是變點產生之前的遞歸殘差期望為0，變點產生之后其期望不為0，于是變點之前的遞歸殘差不含有用信息，這些殘差過程將表現為純隨機游走過程，此種累積方式會增加噪聲，從而使得變點檢測效果較差。因此，為了提高功效，改善變點估計性能，可通過逆向累積遞歸殘差構造檢測器，即BCUSUM，其定義如下：

若||BQt，n||在t=1，…，n中至少有一次大于邊界函數bt=λαd((n-t+1)/n)，則拒絕原假設，相應的最大統計量為：

根據定理1、假設3和連續映射定理，可得：

若原假設成立，則當n→∞時，有：

若備擇假設成立，則當n→∞時，有：

接下來，根據式（4）和式（7）研究CUSUM 和BCUSUM檢驗在備擇假設下的漸近功效性質。考慮一個簡單的情形，βt=β+n-1/2g(t/n)，其中，g(r)=cI(r≥τ*)，c∈Rk，τ*表示變點位置，I(·)是示性函數。由h(r)的表達式可知：

圖1給出了CUSUM和BCUSUM檢驗在k=1時的漸近功效曲線。模擬實驗重復次數設為100000 次，由下文可知，兩種檢測方法的檢驗水平是不同的，故使用調整檢驗水平為5%的臨界值，研究備擇假設下檢測方法的漸近功效。圖1（a）至圖1（e）表明，除了變點發生時刻特別靠前之外，BCUSUM的檢驗功效都比CUSUM檢驗功效高，且變點位置越靠后，其優勢越明顯。此外，從圖1（f）中可以看出，對于固定的，若變點τ*位于樣本量的320 之后，則BCUSUM檢驗比CUSUM檢驗有更好的變點估計性能。

圖1 漸近功效曲線

在基于BCUSUM檢驗識別出模型存在結構突變后，需要確定變點的具體位置。對于βt=β+δI(r≥τ*)（δ≠0）的單變點模型，可采用極大似然估計量，然而，當變點位置靠后時，會出現較大的估計誤差。為了解決這個問題，可通過逆向累積遞歸殘差構造估計相對變點位置的統計量。||BQ[rn]，n|| 漸近正比于||h(1)-h(r)||，當0 ＜r＜τ*時，||h(1)-h(r)||為常值；當τ*≤r≤1時，||h(1)-h(r)||為單調減函數。若利用||BQ[rn]，n||的漸近標準差對其進行縮放，則該檢測器將漸近正比于將正比于式（9）（根據式（8）可得）。

式（9）在r=τ*處取得最大值。因此，考慮：

定理2：令βt=β+δI(t/n≥τ*)，δ≠0，且滿足假設1，則對于τ*∈(0，1]，當n→∞時，有。

根據h(r)的表達式、定理1 及連續映射定理可得，定理2表明變點估計量是τ*的相合估計。

2.2 MCPDP算法

BCUSUM檢驗是針對單變點情形展開的，然而多變點問題是統計應用中常見的問題，為了使上述變點檢測方法適用于此類問題，可結合隔離檢測技術來估計變點個數及位置。該技術能避免包含多個變點的區間、允許在可能很小幅度的頻繁變化的情況下進行檢測，以及計算復雜度較低，從而提高變點檢測的準確性和降低其計算成本。鑒于該技術的諸多優勢，本文將其拓展到回歸模型的參數變點檢測，提出MCPDP算法。MCPDP是按照一定的步長以左右交換的形式向中間擴展檢測區間，判斷是否有變點的一個過程。假設模型存在N個參數變點，對每一個變點τj（j=1，…，N），MCPDP 可分為2 個階段：階段1 是將τj隔離在一個區間，使得該區間不再包含其他變點；階段2 是利用式（5）中的檢測變點τj。其基本思想可概括如下：

針對回歸模型的多參數變點檢測問題，本文提出的MCPDP 算法是基于快速、準確的隔離檢測技術且在變點發生時刻靠后時檢測也高效的BCUSUM檢驗。在給定δn、λα和(s，e]的情況下，MCPDP算法的步驟如下頁表1所示。

表1 MCPDP算法步驟

3 模擬研究

本文通過數值模擬討論BCUSUM 檢驗的有限樣本性質，主要分析不同變點位置和樣本量對檢驗水平與功效的影響，以及使用一系列的評價準則來說明MCPDP 算法的優良性。數據由兩種情形下的模型產生：

情形1：yt=1+utzt+εt，t=1，…，n。

情形2：yt=ut+0.5yt-1+εt，t=1，…，n。

其中，ut=0.9I(t/n≥τ*)，zt=(1+0.5L)et，L是滯后算子，et與εt獨立且服從于標準正態分布。情形1和情形2分別對應整體和部分結構突變檢驗，其中，H=(1，0)′。

設樣本量n=120，500，2000，9000，顯著性水平取α=0.05，對于不同情形、方法和樣本量取值的每種組合，模擬實驗重復次數設為10000次。表2給出了原假設下檢驗水平的結果，其中，sup W表示的是Andrews（1993）[17]提出的sup-Wald檢驗統計量，調整參數為0.15，該方法具有弱最優性。從表2 中可以看出，CUSUM、BCUSUM 和sup-Wald的檢驗水平均接近于顯著性水平0.05，部分存在一些扭曲。在不同情形下，無論樣本量多大，相比于CUSUM和sup-Wald，BCUSUM都較好地控制了檢驗水平。

表2 檢驗水平

設變點相對位置τ*=0.1，0.3，0.5，0.7，0.9，對n與τ*取值的每個組合，設置模擬次數為10000 次。表3 給出了備擇假設下功效的結果。從表3中可以看出，除了τ*=0.1之外，BCUSUM檢驗相比CUSUM檢驗都有更好的性能，尤其是在樣本量較小時；sup-Wald檢驗具備弱最優性，盡管CUSUM 檢驗的功效比sup-Wald 檢驗的功效低得多，但是BCUSUM 的逆序累積結構彌補了CUSUM 的不足，BCUSUM 檢驗與sup-Wald 檢驗有相似的性能，因此BCUSUM檢驗具有較好的功效性質；在有限樣本中，變點位置對檢驗方法的影響與理論結果一致；僅從樣本量的角度來比較功效可以發現，樣本量越大，功效越大，最終所有方法的功效都趨近于1。

表3 功效對比

為了說明MCPDP 算法的有效性，將該算法與另外兩種變點檢測算法的變點估計性能進行比較，其中第一種算法是Bai 和Perron（2003）[7]提出的BP 算法，第二種算法是Jiang和Kurozumi（2019）[9]提出的多元正向CUSUM單變點檢驗算法，本文利用ID技術實現了多變點檢測。為此，設置模擬數據如下。

情形3：yt=ut+εt，t=1，…，n

其中，數據長度n=300，500，900，εt～N(0，0.22)，變點位置向量τ=([0.278n]，[0.452n]，[0.486n]，[0.6n]，[0.618n]，[0.666n])，各個區段均值u依次為-0.18、0.08、1.07、-0.53、0.16、-0.69、-0.16。

針對模擬數據，為評價變點檢測算法性能，采用Hausdorff距離（dH）、F_score及蘭德指數（Rand Index）作為綜合評價指標，dH取值越小或F_score 及Rand Index 取值越大，表明算法性能越好。此外，還比較了不同算法的程序運行時長。每種情形分別進行5000次模擬，評價指標均采用均值表示，模擬結果見下頁圖2。

圖2 算法在情形3下不同數據長度的模擬結果

4 案例分析

交通三參數（流量q、速度v和密度k）表征交通流特性，他們之間的成對關系通常被稱為交通流理論的基本關系或基本圖（Fundamental Diagram，FD），在交通建模與交通管理中至關重要。考慮到道路交通情況復雜多變，交通數據異構多源，時空相依性強，原有的工程經驗確定性基本關系模型q=kv有較大的局限性，本文探究交通三參數的動態關系，并將交通條件、交通環境、車輛、駕駛員、駕駛行為等影響因素作為隨機擾動納入模型中。通過實際交通數據識別交通參數變點，揭示交通流的演變規律，從而驗證本文方法的有效性。

數據來源于貴陽市交通管理局。以貴陽市觀山湖區長嶺北路與東林寺路交叉口交通流量和交通速度為研究對象，選取2021年3月8日至2021年3月14日一周的交通流量和速度數據，按采集粒度5min 統計，每天有288 個數據量。以2021年3月9日（周二，工作日）和2021年3月13日（周六，非工作日）的交通流量和速度數據為例，圖3 展示了這兩日的三維FD。從圖3 中可以看出，隨著時間的變化，交通流量與交通速度的線性關系是動態變化的，因此，不再基于歷史數據靜態建模，而是在本文所提模型框架下研究該數據的參數變點，這樣更符合實際情況。

圖3 三維FD

將交通速度作為自變量，交通流量作為因變量，構建回歸模型。經MCPDP變點檢測算法檢測，2021年3月9日存在三個變點，分別是06:30、07:15和19:35（具體結果見表3）。根據實際情況分析，變點產生的原因可能是：06:30與07:15 對應的是兩個早高峰時刻，這可能是受到人們早上出行上班、上學處在不同擁擠時段的影響，交通流波動較大，19:35處于下班、休閑娛樂等活動的晚高峰時期。根據速度系數取值，可以發現都是正值，因為速度系數對應的是交通密度，取值非負，在時段(07:15，19:35]內的速度系數最高為24.8518，即該時段的交通流量相對較高，這與實際相符。表3中的第2行是利用所有數據建立交通流量關于交通速度的回歸模型，擬合優度只有0.6628；表3 中的其余行是利用相鄰變點間的數據進行線性擬合，擬合優度顯著提升，說明帶有變點的模型能更好地捕捉數據的動態變化，對數據的刻畫更貼切。

表3 2021年3月9日的變點估計結果

2021年3月13日存在四個變點，分別是00:45、06:20、07:15和20:55（具體結果見表4）。其中，00:45可能是由部分工作者在周五下班后進行夜間朋友聚會等休閑娛樂活動造成的，06:20 和07:15 時人們早起活動、購物或出游等造成了新波動；20:55時人們開始夜間的消遣娛樂活動，再次引起交通狀態的變化。此外，和表3 的結果相似，經變點檢測后，帶有變點的模型的擬合效果更好。

表4 2021年3月13日的變點估計結果

綜上可知，工作日和非工作日交通參數的基本關系存在較大差異，在同一路段的不同時段產生不同的交通流變點，交通管理部門可對工作日和非工作日的交通采取不同的調控措施。實證結果說明了本文提出的變點檢測方法可快速且有效地檢測變點數量及位置，交通數據變點檢測結果所對應的時間符合實際交通情況，可以較好地解釋引起交通流波動的原因，這可以為相關部門提供參考依據。此外，原有交通參數的確定性經驗關系不切合道路交通實際分析需求，而建立隨機模型有利于降低后續FD 等模型的估計和分類偏差。

5 結束語

本文提出了基于遞歸殘差的逆序性質和隔離檢測技術研究回歸模型中多參數變點的檢測方法。首先，針對協變量均值與偏移量正交導致損失功效的問題，探討了多元CUSUM檢驗及其漸近性質，進一步研究部分檢驗。其次，考慮到正向累積遞歸殘差功效較低，引入修正的檢驗統計量BCUSUM，分析其漸近性質，進而得到基于BCUSUM 的變點估計量。最后，結合隔離檢測構建MCPDP算法，快速檢測數據的變點個數和位置。模擬研究和實例分析表明，本文所提方法在變點估計性能方面表現較好，為相關理論研究提供了參考依據。隨著技術的發展，近年來許多領域對在線變點檢測方法的需求急劇上升，因此，如何將該方法擴展為在線變點檢測方法是下一步的研究方向，快速監測變點并報警對于減少損失、降低風險具有重要意義。