任偉杰 韓 敏
時間序列是指現實世界中的某個觀測變量,按照其發生的時間先后順序排列的一組數字序列.時間序列可以分為一元時間序列和多元時間序列,多元時間序列是指多個一元時間序列的組合,可以認為是一次采樣中可以獲得不同來源的多個觀測變量.多元時間序列廣泛存在于自然[1]、醫學[2]、社會[3]、工業[4]等各個領域的復雜系統中,多個變量之間具有復雜的關聯關系,相互影響作用不明確.隨著數據采集和存儲技術的發展,時間序列數據的維度和規模不斷增加,為建立準確的預測模型增加了難度.同時,隨著數據維度的增加,出現了大量冗余和無關變量,容易掩蓋重要變量的作用,對模型的建立產生負面的影響[5].時間序列數據挖掘[6?7]是當前研究的熱門問題,研究如何有效地從多元時間序列中挖掘潛在的有用信息、構建預測模型,能夠為自然、醫學、社會、工業等領域的控制、決策與調控提供理論指導,具有十分重要的現實意義[8].因此,本文主要研究多元時間序列的分析手段,解釋未知系統的動力學特性與運行規律,從而為建立更加精確的系統模型奠定基礎.
在多變量系統中,通過分析可觀測變量之間的相關關系,可以找出對建模貢獻度大的相關變量,從而推斷出系統的運行機理.目前,多元時間序列相關性分析主要集中于統計學手段,例如Pearson相關系數、秩相關系數、典型相關分析[9]、互信息[10]、最大信息系數[11]、灰色關聯分析[12]、Copula 分析[13]等.這些方法能夠有效處理線性或非線性相關關系,其分析結果具有對稱性.然而,多個變量之間不僅存在直接相互作用,還存在以中間變量為橋梁的間接相互作用,并且影響關系通常具有非對稱性.傳統的相關性分析方法難以處理間接關系、非對稱影響關系,在實際應用中受到很大限制.
隨著系統復雜度的增加,相關性分析難以滿足建模需求,因果關系分析方法得到廣泛關注[14].因果關系是一個系統(因)與另一個系統(果)之間的作用關系,其中第1 個系統是第2 個系統的原因,第2個系統依賴于第1 個系統.1969 年,Granger[15]首次提出了一種評價二變量時間序列之間是否存在相互作用的因果關系分析方法,即Granger 因果關系分析方法.該方法基于系統的可預測性,基本思想是:對于兩個時間序列,如果一個時間序列未來時刻的預測誤差,能夠通過引入另一個時間序列的歷史信息而減小,則稱第2 個時間序列對第1 個時間序列具有因果影響.由于傳統的Granger 因果分析建立在線性模型的基礎上,僅對二元時間序列進行分析,在提出之后出現了大量改進模型[16].Granger 因果分析方法具有很強的可解釋性,但是此類方法只能給出定性分析結果,并且對于高維時間序列容易產生虛假因果現象.基于信息測度的因果分析是一類非參數方法,包括轉移熵、條件熵、條件互信息等,這類方法通過建立評價函數,能夠定量分析因果關系的強弱[17].此外,基于狀態空間的因果模型[18]、貝葉斯網絡等模型[19?20],同樣用于分析各種類型的因果關系.因此,針對多變量系統的建模要求,合理利用因果分析方法的優勢,研究系統各個變量之間的驅動響應關系,進而推斷系統內部結構和運行機理,是當前研究的熱點問題[21].
綜上所述,相比于常規的相關性分析方法,因果分析方法能夠分析出具有方向性的直接因果關系,更加適用于多變量系統的分析與建模.本文針對多元時間序列因果關系分析的幾類典型方法進行綜述,包括Granger 因果關系分析、基于信息理論的因果分析和基于狀態空間的因果分析,并結合當前流行的機器學習方法、不同領域時間序列建模的需求等,討論因果分析方法的實際應用和未來發展趨勢.
Granger 因果關系是由諾貝爾經濟學獎得主Granger 提出的一種因果關系分析模型,在金融時間序列分析中發揮了重要作用,目前已經成為自然、醫學等領域普遍使用的因果模型.本節將對Granger因果分析及其改進模型的基本原理、適用范圍進行分析與總結.
Granger 因果關系分析作為一種判別二元時間序列之間是否存在因果關系的方法,從提出以來受到研究人員的廣泛關注.這種思想最初由Wiener 提出,之后由Granger 通過隨機過程的線性回歸模型實現[15],其基本思想是:若采用時間序列X和Y的歷史信息對Y進行預測,優于僅采用Y的歷史信息對Y進行預測的結果,即時間序列X有助于解釋時間序列Y的未來變化趨勢,那么時間序列X是時間序列Y的Granger 原因.建立如下兩個向量自回歸(Vector autoregressive,VAR)模型:

其中,αj,aj和bj為模型的系數,m為模型的階數,εY和εY|X為模型的殘差.根據回歸預測結果,通過比較VAR 模型殘差的方差大小,判斷X →Y是否存在Granger 因果關系,Granger 因果指數(Granger causality index,GCI)定義為

在提出之后的幾十年中,Granger 因果模型在許多領域都得到了廣泛的應用,但是由于其建立在線性模型的基礎上,如果直接應用于非線性系統,在某些情況下將失去作用.此外,多變量系統存在復雜的因果關系,GCI 僅進行兩個變量的因果分析,處理復雜系統的能力嚴重不足.因此,學者們提出了大量改進模型[22],用于分析多變量、非線性系統的因果關系,包括條件Granger 因果模型、Lasso-Granger 因果模型、非線性Granger 因果模型和頻域Granger 因果模型等,具體如表1 所示.

表1 Granger 因果關系分析及其改進方法Table 1 Granger causality analysis and its improvement methods
傳統的Granger 因果模型僅用于分析兩個變量之間的因果關系,對于多變量系統的因果分析,通常不考慮多個變量之間的關聯關系,直接轉化為多個二變量問題進行分析.然而,多變量系統的變量之間存在直接或間接的聯系,在分析任意兩個變量因果關系時,可能存在中間變量的影響,此時傳統的Granger 因果模型容易產生虛假因果.為了解決上述問題,Geweke[23]提出了條件Granger 因果分析方法,引入條件變量,建立兩個VAR 模型:

其中,Z表示條件變量.條件Granger 因果指數(Conditional Granger causality index,CGCI)定義為

條件Granger 因果模型建立在多變量回歸模型基礎上,通過將條件變量加入到回歸模型中,有效區分變量的直接和間接聯系,得到直接因果關系.Chen等[24]引入非線性預測思想,提出了條件擴展Granger因果指數(Conditional extended Granger causality index,CEGCI),應用于多元混沌時間序列因果分析.由于回歸模型(3)中包含很多待求參數,對于包含大量觀測變量的系統,其計算過程十分復雜且容易失效.Siggiridou 等[25]引入了延遲變量選擇策略,限制VAR 模型的階數,提出了限制條件Granger 因果指數(Restricted conditional Granger causality index,RCGCI),成功應用于高維時間序列的因果分析.
針對多變量系統因果分析,Granger 因果模型和條件Granger 因果模型需要對任意兩個變量進行Granger 因果檢測,具有很高的計算復雜度.盡管建立VAR 模型可以考慮多個變量之間的相互影響,仍然難以獲得理想的分析結果.針對高維變量Granger因果分析問題,Arnold 等[26]提出了Lasso-Granger因果模型,根據輸入變量選擇的結果識別Granger因果關系,其基本思想是:應用全部輸入變量進行Lasso回歸,根據模型回歸系數識別Granger 因果關系的強弱.目標函數如下所示:

其中,Y為預測變量,X為全部輸入變量,α為回歸系數,λ為正則化參數,用于控制懲罰項大小.如果時間序列Xj對應的系數αj為零或接近于零,則表明時間序列Xj →Y不存在Granger 因果關系,反之則存在Granger 因果關系.Lasso-Granger 因果模型通過建立一個回歸模型,分析出全部輸入變量對預測變量的因果關系,大大縮減了計算量.
Shojaie 等[27]提出了截斷Lasso-Granger 因果模型,能夠準確估計時間序列回歸模型的階數,從而提高模型的計算準確度.為避免群組效應,Bolstad 等[28]提出了Grouped-Lasso-Granger 因果模型,能夠減少錯誤因果關系的產生.Yang 等[29]提出了Grouped-Lasso非線性條件Granger 因果模型,該方法利用不同集合的徑向基函數近似非線性關系,并結合群組變量選擇算法,將Lasso-Granger 因果模型擴展到非線性復雜網絡重構.
傳統的Granger 因果模型僅用于分析線性因果關系,隨著應用范圍的擴大以及研究的逐漸深入,人們發現大量系統存在非線性因果關系,從而涌現出很多非線性Granger 因果模型.根據前面介紹的Granger 因果分析方法可以看出,已經有學者提出應用非線性預測理論改進線性模型,實現由線性到非線性的擴展.下面詳細介紹幾類代表性的非線性Granger 因果模型.
Ancona 等[30]提出了基于徑向基函數(Radial basis functions,RBF)的非線性預測模型,用于衡量二變量之間的非線性Granger因果關系.建立如下兩個回歸模型:

其中,v,w1,w2為模型系數,Xt=[Xt,Xt?1,···,Xt?m+1]和Yt=[Yt,Yt?1,···,Yt?m+1] 表示時間序列X和Y的歷史信息,Ψ 和 Ψ 為徑向基函數.通過判斷模型殘差的方差大小,可以分析是否存在非線性Granger 因果關系.
Marinazzo 等[31]提出了基于核方法的非線性Granger 因果模型,在再生核Hilbert 空間中進行線性Granger 因果檢測,根據核函數映射實現線性到非線性的轉換.該方法的關鍵在于核函數的選擇,經過核函數的內積運算,很容易實現高維變量的因果關系分析[32].Wu 等[33]提出了基于核典型相關分析(Kernel canonical correlation analysis,KCCA)的非線性Granger 因果模型,同樣在典型相關分析的基礎上引入了核映射,使得該方法具有處理多變量、非線性系統因果關系的能力.
Hu 等[34]提出了一種基于Copula 的Granger因果模型,成功應用于非線性、多變量系統因果分析.該方法是一種非參數模型方法,基于Granger因果分析的基本思想,應用Copula 函數描述系統的條件概率分布,實現因果關系分析.Montalto 等[35]提出了基于神經網絡(Neural networks,NN)的Granger因果模型,該方法不需要任何先驗假設條件,直接根據神經網絡模型的預測結果判斷因果關系.
前面介紹的Granger 因果分析方法均為時域模型,然而在頻域中能夠更好地描述神經動力學系統[38],從而產生了頻域Granger 因果模型.Geweke[23]提出了第一個頻域Granger 因果模型,首先建立多變量VAR 模型,經過傅里葉變換將時域模型轉換為頻域模型,進而分析因果關系.Barrett 等[39]在前面模型的基礎上,引入了線性變化,得到了簡化的頻域Granger因果模型.
Baccalá 等[36]提出了另一種頻域因果模型-偏定向相干性(Partial directed coherence,PDC),該方法將包含K個變量的VAR 模型系數進行傅里葉變換,定義時間序列Xj →Xi的因果關系為

其中,Z表示條件變量,A(f) 為VAR 模型系數的傅里葉變換,(f) 為矩陣的對應元素. PDCXj→Xi|Z(f) 表示在頻率f下Xj →Xi的因果關系,結果歸一化到 [0,1]之間,其值接近于0 表示無因果關系,大于一定的閾值表明有因果關系.
Kamiński 等[37]提出了直接傳遞函數(Directed transfer function,DTF)方法,同樣在頻域分析因果關系.與PDC 模型類似,DTF 對建立的VAR模型系數進行傅里葉變換,定義H(f)=A?1(f) 為傳遞系數矩陣,則時間序列Xj →Xi的因果關系為

其中,Hi,j(f) 為矩陣H(f) 的對應元素.DTF 描述在頻率f下時間序列Xj →Xi的直接因果關系.
信息理論能夠度量任意類型的相關關系,是分析兩個系統或多個系統之間信息流的重要手段.在轉移熵概念提出之后,出現了各種類型的基于信息理論的因果模型.下面首先介紹信息理論的基本概念,然后總結基于轉移熵、條件熵和條件互信息的因果模型.
熵表示一個系統混亂的程度,系統混亂程度越高,其熵值越大.在信息理論中,熵通常也稱作信息熵或香農熵,它以數值形式表達隨機變量取值的不確定性程度,目的是刻畫信息量的多少.假設X為一個離散的隨機變量,p(x) 表示X的概率密度函數,則變量X的信息熵定義為

聯合熵主要用來考察多個變量間共同擁有信息的含量,其定義與信息熵類似.假設X和Y為兩個離散的隨機變量,其聯合概率密度函數為p(x,y),則X和Y的聯合熵定義為

條件熵(Conditional entropy,CE)表示已知一個變量的情況下,衡量變量包含的信息量大小.引入條件概率函數p(x|y),條件熵具體定義為

互信息反映兩個變量之間的統計依賴程度,表示兩個變量共同擁有的信息量大小.變量X和Y之間的互信息定義為

由定義可知,當變量X和Y完全無關或相互獨立時,互信息值為0,表明變量之間不存在相同的信息;反之,當它們相互依賴程度越高時,互信息值越大,所包含的相同信息也越多.根據熵和互信息的表達式,可以得到互信息與熵的關系為

基于信息理論的基本概念,學者提出了一系列因果分析模型,主要包括轉移熵、條件熵、條件互信息等,具體如表2 所示.轉移熵[40]最初用于評價二變量時間序列之間的非線性因果關系,是一種非參數模型方法,受到廣泛關注.在此之后,學者們提出了大量改進模型,如偏轉移熵、條件熵、條件互信息等.此外,部分時間序列呈現非平穩特性,因此有學者致力于研究非平穩時間序列的因果關系分析,提出了符號轉移熵、偏符號轉移熵等因果分析模型.
2000 年,Schreiber[40]提出了轉移熵(Transfer entropy,TE)的概念,首次根據信息轉移來判斷變量之間的因果關系.轉移熵建立在信息理論的基本框架下,是一種非參數模型方法,能夠很好地分析兩個系統的耦合強度和非對稱驅動響應關系.考慮時間序列X與時間序列Y,轉移熵定義為

其中,Xt和Yt分別表示時間序列X與Y的歷史觀測值,p(yt+1,xt,yt)、p(yt+1|xt,yt) 和p(yt+1|yt) 分據轉移熵的大小判斷因果關系的強弱,當TEX→Y >0別表示聯合概率密度函數和條件概率密度函數.根時,存在由時間序列X到Y的因果關系,數值越大表明因果關系越強.Barnett 等[41]證明了Granger因果分析與轉移熵之間的聯系,在變量服從高斯分布的假設條件下,Granger 因果分析與轉移熵是等價的,從而為Granger 因果分析與基于信息理論的因果分析方法建立了聯系.
為了檢測多個變量的因果關系,考慮到中間變量的影響,提出了多變量轉移熵,也稱為偏轉移熵(Partial transfer entropy,PTE).考慮時間序列X、Y以及其他變量Z,在給定時間序列Z的條件下,X →Y的轉移熵定義為

表2 基于信息理論的因果關系分析方法Table 2 Causality analysis methods based on information theory

偏轉移熵是二變量轉移熵的擴展,能夠評價多個相互耦合系統中任意兩個變量之間的信息轉移.根據信息熵和互信息的定義,可以得出轉移熵與信息熵、互信息之間的等價關系為

可以看出,轉移熵可以表示為條件熵和條件互信息的形式.上述關系式通常用于轉移熵的計算.
Staniek 等[42]提出了符號轉移熵(Symbolic transfer entropy,STE),將輸入變量轉化為秩向量,可以應用于非平穩時間序列的因果關系分析,表達式為


在轉移熵提出之后,出現了一系列用于識別非線性時間序列因果關系的信息測度,例如條件熵、條件互信息等,其基本思想與轉移熵理論一致.
Faes 等[44]提出了基于條件熵的因果關系分析方法,用于檢測多變量因果關系

該方法可以看作偏轉移熵的歸一化形式.
Frenzel 等[45]提出了偏互信息(Partial mutual information,PMI)的概念,即采用條件互信息檢測因果關系.在互信息的基礎上,引入了條件變量,具體表達式為該方法能夠建立三變量系統的因果關系圖.可以證明,偏互信息與偏轉移熵是等價的.

Kugiumtzis[46]應用條件互信息檢測多個變量的因果關系,提出了基于混合嵌入的偏互信息準則(Partial mutual information from mixed embedding,PMIME),表達式為

其中,RX→Y|Z表示變量X →Y的因果關系,Z表示條件變量.該方法能夠檢測變量之間的直接因果關系,效果優于偏轉移熵.
在實際應用中,由于轉移熵、條件熵和條件互信息需要計算概率密度函數,隨著輸入變量維度的增加,高維概率密度函數計算困難,限制了其應用范圍.因此,選擇條件變量十分關鍵,根據狀態空間重構理論,學者提出應用非均勻嵌入方法[47],可以有效處理高維變量.Runge 等[48]提出了基于圖模型的方法,將偏轉移熵分解為多個有限維轉移熵的組合,從而避免維數災難問題.
建立系統的數學模型是分析系統的基礎.現代控制理論引入了狀態空間的概念,通過建立狀態空間模型,能夠很好地描述系統內部變量、輸入變量和輸出變量之間的關系,并解釋系統的運動規律.根據觀測到的時間序列建立系統的狀態空間模型,是分析結構和參數未知系統的重要手段,同時揭示系統內部的驅動-響應關系.然而,對于未知結構的非線性系統,狀態空間模型的建立十分困難.為了有效分析非線性系統的動力學特性,Takens 提出了基于時間序列的狀態空間重構理論[49],為分析非線性系統的運行機制提供了理論支撐.本節首先介紹時間序列的狀態空間模型,然后總結基于狀態空間重構理論的因果模型.
狀態空間模型是描述系統動態過程的有力工具,為時間序列分析提供了理論基礎.狀態空間模型最早由Kalman[50]提出,是一種通過觀測值研究確定性和隨機動態系統的重要手段.狀態空間模型將物理系統表示為由輸入變量、輸出變量和狀態變量構成的一階微分(或差分)方程組,一般由狀態方程和輸出方程組成

其中,u(t) 為輸入變量,y(t) 為輸出變量,x(t) 為狀態變量,f(·)和h(·) 為線性或非線性函數.狀態空間模型是一類線性或非線性的時域模型,用狀態方程描述動態系統,用輸出方程描述量測信息.系統的狀態方程描述系統內部結構和信號的作用方向,即反映了系統狀態變量的因果關系.建立狀態空間模型主要有分析和辨識兩種方式.分析方式適用于結構和參數已知的系統,基于物理或化學機理直接建立狀態空間模型.針對結構和參數未知的系統,一般采用辨識方式,即通過實際觀測的輸入輸出數據建立狀態空間模型.狀態空間模型參數估計方法主要有Kalman 濾波、貝葉斯推理、EM 算法等.
狀態空間模型利用狀態變量表示一個時間序列,狀態變量包含與預測值相關的所有歷史信息,從而建立了多元時間序列模型[51].狀態空間模型是一類應用十分廣泛的模型,任何時間序列模型都可以寫成狀態空間的形式,如自回歸模型、滑動平均模型等,在時間序列建模和因果分析方向得到了廣泛應用.Jinno 等[52]建立了非線性狀態空間模型,采用二階泰勒展開式近似非線性系統,根據擴展Kalman 濾波算法更新模型參數,實現非線性系統辨識與時間序列預測.Hong 等[53]針對中長期徑流量時間序列預測,選擇狀態空間模型的結構為基于二階泰勒展開式的非線性微分方程組,并利用遺傳算法更新狀態空間模型參數.可以看出,狀態空間模型能夠識別線性或低階非線性系統的內部結構,從而推斷系統的因果關系,實現對未來信息的預測.
建立時間序列狀態空間模型,需要預先假設模型結構,如一階線性微分方程、泰勒展開式近似的非線性微分方程等,然后根據輸入輸出數據辨識模型參數.然而,很多動力學系統具有很強的非線性,甚至表現出混沌特性,難以建立準確的狀態空間模型[54].20 世紀80 年代,Takens 提出的延遲坐標狀態空間重構方法[49]解決了此類問題,重構系統可以在高維狀態空間中恢復原系統的動力學特性,并與原系統保持微分同胚,為深入研究時間序列和非線性系統奠定了理論基礎.在狀態空間重構理論的基礎上,學者提出了一系列因果分析模型,下面分別介紹狀態空間重構理論和兩類因果分析模型.
3.2.1 Takens 狀態空間重構理論
狀態空間重構的目的是在高維狀態空間中恢復混沌吸引子,是分析混沌動力學系統的第一步.對于混沌系統,系統中任一分量的演化過程均由與其相互作用的其他分量所決定,產生的時間序列包含了系統全部變量的運動信息.因此,通過研究觀測到的時間序列,將某些固定時間的延遲點觀測值構成新的坐標,重構出與原系統等價的狀態空間,就能夠恢復出原動力學系統的運行規律.
Takens 定理[49]指出找到狀態空間嵌入維數的下界,即延遲坐標維數m ≥2D+1 (D為系統的維數),就能夠在狀態空間中恢復吸引子的動力學特性,重構出的狀態空間與原系統保持微分同胚.Takens 定理為混沌系統的分析與預測提供了堅實的理論依據,問題的關鍵在于如何選取合適的延遲時間τ和嵌入維數m.根據嵌入方式的不同,狀態空間重構可分為均勻嵌入和非均勻嵌入兩種方法.
均勻嵌入指延遲時間τ設定為固定數值,考慮時間序列X(t),根據Takens 定理建立重構的狀態空間為

對于延遲時間τ和嵌入維數m的選取,主要有兩種觀點.一種思想是分別選取延遲時間τ和嵌入維數m.對于延遲時間的選擇,主要有自相關、互信息等方法.對于嵌入維數的選擇,主要有偽最近鄰[55]、飽和關聯維數、Cao 方法[56]、最小描述長度[57]等方法.另一種思想認為延遲時間τ和嵌入維數m是相關的,同時選擇兩個參數.Kugiumtzis[58]提出了嵌入窗口的概念,即τ和m由時間窗口τw=(m-1)τ決定.Kim 等[59]提出的C-C 方法常用于求解時間窗口和延遲時間.
非均勻嵌入指延遲時間τ選擇不同的數值,時間序列X(t) 的狀態空間為

其中,嵌入維數為m,延遲時間為 [τ1,τ2,···,τm].非均勻嵌入的狀態空間能夠完全描述原系統的動力學特性,同時保持嵌入變量之間相互獨立,即具有低的冗余性.相比于均勻嵌入,非均勻嵌入能夠用更精簡的狀態變量描述原系統,適合解決多變量系統的重構問題.Vlachos 等[47]提出了基于聯合互信息的非均勻嵌入方法,Faes 等[44]提出了基于條件熵的非均勻嵌入方法.此外,為了尋找最優的狀態空間,合理的搜索策略是十分必要的,常用方法有順序前向選擇、遺傳算法、蟻群優化算法[60]等.
3.2.2 非線性相互依賴指標
非線性相互依賴指標(Nonlinear interdependence measures)是基于狀態空間重構和近鄰距離的方法,用于判定因果關系的方向和大小.對于兩個系統X和Y,根據狀態空間重構理論建立兩個系統的狀態空間.
對于狀態空間X中的樣本點xn,xrn,1,xrn,2,···,xrn,k表示xn在狀態空間X中的k個近鄰點,計算xn與k個近鄰點的歐氏距離平均值

對于狀態空間Y中的樣本點yn,ysn,1,ysn,2,···,ysn,k表示yn在狀態空間Y中的k個近鄰點,將其映射到狀態空間X中,計算xn與k個近鄰點xsn,1,xsn,2,···,xsn,k的歐氏距離平均值

為了簡化計算,可以采用xn與全部N個樣本點的平均距離

非線性相互依賴指標為狀態空間方法,根據狀態空間的映射關系判斷系統的因果關系.Arnhold 等[61]首先提出了指標S,定義為

根據定義可以得出,0 Arnhold 等[61]提出了另一個指標H,定義為 可以看出,HX→Y沒有上界.當HX→Y=0 時,系統X和Y完全獨立;當HX→Y >0 時,存在由系統X到Y的因果關系.該方法同樣具有較強的魯棒性,對弱因果關系的靈敏度更高. Quiroga 等[62]提出了第三個指標N,定義為 與指標H相比,指標N采用了算術平均和標準化操作.NX→Y=1的充要條件是(X|Y)=0.由于并且只有周期性系統滿足所以對于一般系統NX→Y <1.指標N的大小主要由(X|Y) 決定,受自相關性和系統有限維數影響較大.Andrzejak 等[63]提出了指標M,改進了指標N的不足,具體定義為 Chicharro 等[64]提出了指標L,該方法采用秩統計量代替距離統計量.對于樣本xn,令gn,j表示距離‖xn-xj‖在所有距離 (j=1,2,···,N,jn) 中的排序.因此,狀態空間Y中樣本點yn的k個近鄰點映射到狀態空間X時,計算平均秩統計量為指標L定義為 其中,Gn(X)=n/2和(X)=(k+1)/2 分別表示全部樣本和k個近鄰點的平均秩統計量.與指標M類似,指標L同樣限制在 [0,1].相比于基于距離統計量的指標,基于秩統計量的指標對定向耦合關系具有更強的敏感性與特異性. 3.2.3 收斂交叉映射 2012 年,Sugihara 等[65]提出了收斂交叉映射(Convergent cross mapping,CCM)方法,論文發表于Science上,引起國內外學者的廣泛關注.該方法建立在非線性狀態空間重構的基礎上,分析兩個系統之間的非線性因果關系,其基本思想是:如果系統Y對系統X有因果關系,則認為系統X中包含系統Y的演化信息,通過分析系統X和Y重構流形之間的相關性,進而檢測出系統之間的因果關系. 假設X(t)和Y(t) 分別為系統M投影于一維空間產生的兩個時間序列.對于時間序列X(t)和Y(t),設重構流形的嵌入維數為m,延遲時間為τ,重構出的狀態空間為 根據狀態空間重構理論[49],重構流形X、Y與系統M是微分同胚的.在系統X中尋找樣本X(i) 的m個近鄰點{X(i,k)}={X(i,1),X(i,2),···,X(i,m)},將其映射到流形Y中,對應的樣本點為{Y(i,k)},計算Y(i) 的估計值 ‖·‖表示樣本之間的歐氏距離.定義為Y(t) 從流形X到Y的交叉映射,計算與Y(t) 的相關系數,相關系數計算公式為 隨著樣本長度L增加,逐漸收斂于Y(t),最終相關系數收斂到 [0,1],表明存在由系統Y到系統X的因果關系. 圖1 給出了收斂交叉映射的基本原理示意圖,建立了兩個系統X和Y之間的交叉映射.如圖1(a)所示,流形X中的樣本點X(i) 及其鄰近點映射到流形Y中,對應鄰近點收斂于樣本點Y(i),則表明存在由系統Y到系統X的因果關系;如圖1(b)所示,經過交叉映射,鄰近點呈現發散現象,則不存在由系統Y到系統X的因果關系. 圖1 收斂交叉映射基本原理示意圖Fig.1 Schematic diagram of the basic principle of convergence cross mapping 本文的研究對象為多元時間序列,前面詳細介紹了三類時間序列因果分析模型,分別為Granger因果關系分析、基于信息理論的因果分析和基于狀態空間的因果分析.三類方法分別從不同的角度提出,本節將總結每類方法的優勢、不足以及適用范圍,并討論存在的問題和未來發展方向.然后,針對不同的應用領域,分別介紹時間序列因果分析模型的典型應用,并進一步明確模型的適用范圍. 針對不同維數、特性的時間序列,Granger 因果分析模型、基于信息理論的因果模型和基于狀態空間的因果模型具有特定的適用范圍,例如傳統的Granger 因果模型只能分析二變量線性因果關系,轉移熵可以分析二變量非線性因果關系,收斂交叉映射能夠實現二變量非線性時間序列的因果分析.下面詳細分析三類因果模型的適用范圍、存在的問題以及發展方向,表3 給出了三類方法對非線性、多變量和非平穩時間序列因果分析的應用情況. 從表3 可以看出,隨著研究的深入,時間序列因果模型的適用范圍由二變量、線性因果向多變量、非線性因果發展.此外,少數因果模型突破了對時間序列平穩性的要求,能夠實現對非平穩時間序列的因果分析.下面,分別對三類方法進行具體對比分析. 1) Granger 因果關系分析方法應用十分廣泛,其建立在時間序列模型的基礎上,形式簡單且具有很強的可解釋性.然而,Granger 因果分析方法是一種定性的因果分析模型,不能根據檢驗結果直接判斷因果關系的強弱.Granger 因果分析是基于模型的方法,因此對于時間序列模型階數的確定是一個至關重要的問題,常用的確定模型階數的方法有AIC (Akaike information criterion)、BIC (Bayesian information criterion)等信息準則.由于時間序列模型的參數較多,因此在進行Granger 因果檢驗時,計算復雜度較高.例如,對于具有n個樣本的時間序列X和Y,建立一個模型階數為m的VAR模型的計算復雜度介于 O到O (mn) 之間.對l個時間序列進行兩兩因果分析,計算復雜度將達到 O,Lasso-Granger 因果模型可以將計算復雜度降為 O[26].此外,Granger 因果模型的應用對象是平穩時間序列,因此在進行Granger 因果檢驗之前,需要對時間序列進行平穩性檢驗和平穩化.學者提出了非平穩時間序列的因果分析模型[66],在VAR 模型中引入時變參數,實現了非平穩時間序列的因果關系分析.隨著時間序列數據維度和規模的不斷增加,挖掘復雜環境下時間序列存在的因果關系,是當前面臨的重要挑戰.因此,Granger 因果模型未來將著重解決非線性、多變量、非平穩等復雜環境的因果分析,同時提高模型的計算效率. 表3 因果分析方法應用范圍比較Table 3 Comparison of application range of causality analysis methods 2) 基于信息理論的因果模型是一類定量分析方法,通過建立評價函數實現對時間序列因果關系的定量描述.該方法只需要計算信息指標就可以得出因果分析結果,對于低維復雜系統,其分析結果明顯優于只能定性分析的Granger 因果模型.此類方法也是建立在平穩時間序列的基礎之上,對于非平穩時間序列,有學者應用符號轉移熵實現非平穩時間序列的因果分析,它將輸入變量轉化為秩向量,為非平穩時間序列的因果分析提供了指導性思想.雖然基于信息理論的因果分析方法形式簡單,但嵌入變量的選擇需要進行深入研究,文獻[67]對基于信息理論的因果模型的參數求解做了詳細分析.在實際的應用中,信息測度需要計算概率密度函數,當變量維數增加時,其計算復雜度增加,計算精度下降.因此,未來我們需要重點關注條件變量的選取,通過合理選取條件變量,達到簡化計算的目的. 3) 狀態空間模型是一類基于模型的方法,根據模型內部信號的作用方向判斷因果關系,該方法需要預先假設模型結構,對于非線性時間序列的因果分析能力較弱.隨著狀態空間重構理論的提出,使得非線性系統的分析與建模更為便捷,出現了基于狀態空間的因果分析方法.此類方法在非線性因果分析問題上具有很好的效果,特別是小規模、短期時間序列的因果關系分析[68].Clark 等[69]提出了多空間收斂交叉映射,能夠分析出小數據量時間序列(長度小于10)之間存在的因果關系.基于狀態空間的因果分析方法具有較強的因果識別能力,如收斂交叉映射對于弱耦合系統的因果關系的靈敏度較高,但在強耦合系統可能會產生錯誤結果[18].然而,該方法建立在狀態空間基礎上,根據樣本點的鄰域信息分析因果關系,受到噪聲點的影響較大[70],嚴重影響分析結果的準確性,需要提升方法的抗噪能力.此外,該方法常用于分析兩個系統之間的直接因果關系,將其擴展至分析多個系統的因果關系,是未來的研究方向. 多元時間序列的因果關系分析技術廣泛應用于自然、醫學、社會科學等領域,在日常生活中發揮著重要作用,已經成為大規模數據挖掘的重要手段.不同領域的時間序列具有不同的特性,下面具體介紹時間序列因果分析在不同領域的典型應用,并進一步討論模型的適用范圍.在自然界中,氣象、水文、環境等系統的內部和系統之間具有復雜的驅動響應關系,借助于時間序列因果分析手段,有助于揭示系統的運行規律,模擬和預測自然現象的未來發展趨勢.例如,隨著經濟快速發展,以霧霾為代表的大氣污染已經成為主要環境問題之一,我國積極參與一系列國際大氣污染防治的公約和協議,并制定了具體措施和監管機制.然而,霧霾的成因十分復雜,以PM2.5 空氣質量指數為例,其濃度不僅受到NO2、CO、O3、SO2等大氣污染物的影響,而且受到氣溫、氣壓、濕度、風速、風向等環境變量的影響,如果分析出PM2.5的主要污染物和生成機理,能夠為國家治理大氣污染以及各地制定針對性的治理手段發揮重要作用.因果分析方法能夠利用一定范圍內的觀測序列,快速識別PM2.5 與影響變量之間的因果關系,判斷主要影響因素,從而為決策與調控提供理論依據[71].此外,在其他實際問題中,因果分析方法同樣發揮了重要作用.Liang[72]通過建立回歸模型,研究了厄爾尼諾和印度洋偶極子兩個氣象子系統的因果關系,確定了系統之間的非對稱因果關系.Faybishenko[73]應用條件Granger 因果分析方法,分析具有非線性混沌特性的水文過程,并建立了時空分布的因果循環圖.Zhu 等[74]將Granger 因果分析擴展到時空空間,分析氣象、交通等影響變量對空氣質量的影響.Sugihara 等[65]在狀態空間重構理論的基礎上,提出了收斂交叉映射,分析復雜生態系統的因果關系.Chen 等[75]應用收斂交叉映射方法,分析京津冀區域氣象因子與PM2.5 濃度的因果關系,得出定量的分析結果.基于以上研究成果可以看出,Granger 因果分析方法廣泛用于自然界復雜系統的因果分析,通過建立時間序列模型,從可預測性角度評價因果關系.此外,收斂交叉映射是針對生態系統提出的因果分析模型,目前在氣象、環境等自然領域取得了很好的應用效果. 在醫學領域,隨著信息采集和存儲技術的不斷發展,醫學信號的分析與判別是一項十分復雜的工作,在醫療輔助決策中發揮著重要作用,因此時間序列分析方法在醫學領域具有廣闊的應用前景.例如,常見的腦部神經疾病癲癇,由大腦皮層神經元異常放電引起,其發病機制十分復雜.腦電信號是鑒別癲癇病是否發作的重要依據,從多通道腦電信號的功能性連接的角度,建立癲癇發作期大腦不同區域神經活動的因果關系網絡,能夠有效定位癲癇病灶,對癲癇發作機理的研究具有重要價值.近年來,應用時域和頻域Granger 因果分析方法,為癲癇病的診斷和手術治療提供了有力保障[76].此外,在其他醫學研究中,因果分析方法同樣取得了突出成果.Dhamala 等[77]應用二變量和條件Granger 因果分析方法,分析猴子大腦局部場電位信號的因果關系,研究感覺運動任務.Wu 等[78]提出了一種基于擴展典型相關分析的多變量Granger 因果分析方法,分析癲癇病患者的大腦皮層和深層腦電信號的網絡連接.Li 等[79]提出了一種基于Lp范數的Granger 因果分析方法,應用于包含眼電偽跡的腦電信號分析,能夠有效消除干擾并還原網絡結構.Hu 等[80]提出了一種基于Copula 的Granger 因果分析方法,應用于神經脈沖序列數據,揭示脈沖序列的非線性、高階因果關系.Faes 等[81]應用具有特定延遲變量的轉移熵指標,度量心血管和心肺系統的信息轉移,并得出確定的方向、大小和時間.Wang 等[82]根據定向信息建立因果分析模型,應用于功能性磁共振成像數據分析,很好地反映出非線性因果關系.Heskamp 等[83]采用具有非線性分析能力的收斂交叉映射,定性分析大腦自動調節能力.綜上所述,Granger 因果分析方法廣泛應用于腦電等生理學時間序列,其中頻域Granger因果模型能夠更好地刻畫神經動力學系統,在醫學領域的因果分析中占據重要位置.由于醫學信號通常包含大量噪聲且具有非平穩特性,基于信息理論的因果分析方法適用于解決此類問題,取得了很好的應用效果. 在社會科學領域,金融、能源等序列的分析與預測具有十分重要的戰略意義,并且受到政治、經濟、氣候變化等多個因素的共同影響,借助于時間序列因果關系分析技術,進行準確的定性分析與定量預測是重要的研究內容.例如,我國人口眾多、經濟快速發展,導致能源需求巨大,節能減排已經成為國家戰略,是維持可持續發展的長遠之計.然而,節能減排必須注重社會效益和環境效益的均衡,關于能源消耗與經濟增長相互影響關系的研究具有重要意義.因果分析方法在經濟學領域發揮著重要作用,合理解釋能源消耗與經濟增長之間的因果關系,能夠為節能減排政策的制定提供理論指導,在可持續發展和國民經濟建設方面具有重要意義[84].目前,因果分析方法在社會科學領域取得了廣泛應用.Zhou等[85]應用Granger 因果分析方法,調查中國的經濟結構、能源消費結構、收入、城市化、外商直接投資和貿易總額等變量對中國二氧化碳排放量的影響.Rafindadi 等[86]提出采用向量誤差修正和Granger因果分析模型,評價可再生能源消費對德國經濟增長的影響.Tiwari[87]應用頻域Granger 因果分析方法,定性分析生產商的批發價格指數與消費者物價指數之間的相互作用,得到二者之間的雙向因果關系.Bekiros 等[88]應用轉移熵和復雜網絡理論,研究美國股票和商品期貨市場之間的動態因果關系.Papana 等[89]提出了一種基于偏轉移熵的因果分析方法,并成功應用于非平穩金融時間序列分析.根據上述研究成果可以發現,Granger 因果分析模型最早在金融領域取得突破,目前仍然在社會科學領域發揮著重要作用.另外,金融時間序列同樣具有非平穩特性,基于信息理論的因果模型在金融領域具有廣闊的應用前景. 隨著海量時間序列的出現,時間序列因果關系分析已經成為當前的研究熱點.首先,本文對多元時間序列因果分析的研究現狀進行了詳細的綜述,包括三類典型方法.第1 類方法是Granger 因果關系分析,從可預測性角度出發,根據時間序列模型預測結果定性分析因果關系,該方法易于操作且可解釋性強.第2 類方法是基于信息理論的因果分析,根據信息測度建立因果關系評價指標,定量分析時間序列的因果關系,對時間序列的類型沒有特殊要求,具有廣泛的適用范圍.第3 類方法是基于狀態空間的因果分析,根據重構狀態空間的映射關系,定量評價兩個系統之間的因果關系強弱,在非線性系統因果分析問題上具有很好的效果.然后,對三類方法的代表性模型進行了對比分析,并指出每類方法適用范圍、存在的主要問題和發展方向.最后,本文總結了因果分析方法在自然、醫學、社會科學領域的實際應用,并進一步討論了模型的適用范圍. 根據因果分析模型的適用范圍,可以將其劃分為線性和非線性、二變量和多變量等不同類型方法,隨著研究的深入,當前因果分析方法主要面向非線性、多變量、非平穩系統.對于今后的研究工作可以從以下幾個方向展開: 1) 針對非線性因果關系分析,可以從三個角度展開研究:a)根據Granger 提出的可預測性理論,建立非線性預測模型,如核方法、神經網絡等;b)基于非線性相關性指標建立因果關系模型,如互信息、Copula 分析等;c)根據非線性狀態空間重構理論,應用狀態空間模型建立因果關系.在實際應用中,采用幾種不同方法的組合,能夠實現對復雜系統的非線性因果關系分析. 2) 針對多變量因果關系分析,可以從兩個角度展開研究:a)建立多變量回歸模型,根據Granger因果理論分析多變量系統因果關系;b)引入條件變量,從條件概率的角度建立多變量因果關系指標.目前,大部分研究成果集中于二維或多維變量的因果分析,對于高維或超高維時間序列的因果分析缺少有效的處理手段.借助于稀疏化建模等技術手段,展開對海量數據的因果分析,是未來的重點研究內容之一. 3)針對非平穩時間序列的因果關系分析,可以從以下兩個方面展開研究:a)對時間序列本身進行處理,實現平穩化,如差分方法、符號化等,然后對平穩化后的時間序列進行因果關系分析;b)建立時變的回歸模型,實現非平穩時間序列的因果關系分析,如時變廣義部分有向相干方法.建立時變參數模型對非平穩時間序列進行因果關系分析是未來的一個研究方向. 4) 對系統的歷史信息或狀態空間的選擇,嚴重影響因果分析的結果.對于Granger 因果模型,確定模型的階數,應用輸入變量選擇算法構建合適的輸入變量,能夠有效提高因果分析的準確性.對于基于狀態空間的因果分析指標及模型,應用非均勻嵌入方法建立狀態空間,有助于降低模型的復雜度,提高因果分析的計算精度.







4 時間序列因果模型的對比及應用
4.1 因果分析模型對比與發展方向

4.2 應用
5 總結與展望