R-vine copula模型與PCBN模型的比較

2016-12-20 12:31:16吳和成

統計與決策 2016年23期

關鍵詞：結構模型

申敏，吳和成

（1.南京工業大學數理科學學院，南京 211816；2.南京航空航天大學經濟管理學院，南京211100）

R-vine copula模型與PCBN模型的比較

申敏1，2，吳和成2

（1.南京工業大學數理科學學院，南京 211816；2.南京航空航天大學經濟管理學院，南京211100）

文章對比了兩類刻畫高維變量相依結構模型——R-vine copula模型和PCBN模型，并將其應用于國民經濟九大行業信用風險相依結構分析，結果表明，與R-vine copula模型相比，PCBN模型能更好地兼顧模型的準確性和簡潔性目標。通過PCBN模型可以發現：國民經濟整個系統內行業間存在條件獨立關系，其中七個行業構成的子系統是整個系統內風險傳染的關鍵媒介，而在子系統內部，水電燃氣、批發零售、信息軟件及金融業是信用風險傳染的關鍵媒介。

R-vine copula；PCBN；行業信用風險；相依結構

0 引言

近年涌現了大量與二元copula族相關的文獻，但除了橢圓類或阿基米德類copula函數外，很少有能直接推廣到多元情形的copula。已有的多維copula函數往往因為對參數的唯一性要求較高、不能很好地刻畫多變量之間復雜的相依關系而逐漸被一種基于copula的分層結構方法所取代。目前較流行的分層結構算法是R-vine copula算法。在Joe[1]的基礎上，Bedford&Cooke[2,3]對該方法進行了系統深入的研究。由于這種分層方法可以集結所有潛在雙變量的pair-copula(PC)，具有高度的靈活性，能夠為種類繁多的復雜相依結構進行建模，非常適宜為高維數據建模，因此備受學者們青睞。然而，這種方法也有一定缺陷，其中主要的問題是隨著變量維度的增加，可選結構的種類以及待估參數數量將隨之以平方函數速度增加，運算量較大。

因此，如何簡化R-vine copula模型，既能快速有效地確定模型結構又能減少待估參數數量，是一個亟待解決的問題。事實上，當多變量中存在某兩變量間的獨立或條件獨立關系時，其PC函數值恒為1，無需估計，此時待估PC數量將會減少。于是，為簡化R-vine copula模型，Brechmann等[4]指出，鑒于R-vine copula結構估計算法建立在第一棵樹具有最強相依關系的基礎上，因此可以假定后面的樹中所有的pair變量間均條件獨立。然而，這種事先設定變量間滿足條件獨立關系的構建方式在現實中顯得不盡合理。

如何合理地簡化多元統計建模？為隨機變量族的條件獨立結構建模的圖模型提供了強有力的工具。根據圖模型所得到的條件獨立關系可以很方便地由圖中表示變量的節點以及表示變量間內在關系的邊所表達[5]，其優點是只需要考慮局部的分布而不需要直接考慮全局分布模型。因此，可以應用于高維模型避免維數災難。圖模型中應用最為廣泛的是貝葉斯網絡（BN），其Markov性質可以通過有向無環圖（DAG）所表現。貝葉斯網絡方法可以認為是高維相依結構的一種稀疏的表現形式。利用有限的數據對相依性進行稀疏化建模的研究近年受到越來越多的關注[6]。其中較為典型的是Bauer[7,8]提出的將pair-copula構建方法與貝葉斯網絡結合的新型多元統計模型——Pair-copula Bayesian Network(PCBN)。

基于上述討論，本文將從模型簡化的角度，對R-vine copula模型與PCBN模型進行比較，并將其應用于國民經濟九大行業的信用風險相依結構分析中。

1 R-vine copula模型及PCBN模型

1.1 R-vine copula模型

由Sklar定理[9]知，高維數據的聯合分布可由邊緣分布與copula函數聯合表出，而R-vine copula算法將聯合copula函數以一列樹集的形式進行分層分解。

具體地，對非空有限點集V，令d∶= ||V，則在V上定義的 R-vine是一列樹集 υ：=(T1，…，Td-1)，其中T1=（V1，E1)，…，Td-1=（Vd-1，Ed-1)，V1=V ，Vi=Ei-1(i≥2)即樹Ti的點是樹Ti-1的邊，用{v，w}表示Ti的一條邊，即Ei?{ }{v，w}|v≠w∈Vi，υ中的每棵樹Ti滿足鄰近條件，即對?{v，w}∈Ei有 ||vΔw=2，其中vΔw=(v∪w) (v∩w)。

為了方便地表達聯合概率分布的分解形式，Mo-rales-Nápoles等[10]提出利用約束集矩陣來存儲R-vine的所有樹和邊的集合υ，這樣每一個條件分布可以根據約束集集合CM=CM(i)∪…∪CM(d-1)來表達，其中第i個約束集是CM(i)={({mi，i，mk，i}，D)|k=i+1，}…，d，D={mk+1，i，…，md，i} (i=1，…，d-1）{mi，i，mk，i}稱為被條件集，D為條件集。

根據Bedford and Cooke[11的推導，運用約束集矩陣的符號表示，可得x=(x1，…，xd)的R-Vine分布密度可以分解為一系列二維PC和邊緣分布密度之積。

其中：

建立一個d維R-vine copula模型結構υ需要定義的PC數量是，其值隨d以二次函數速度增長。DiBmann等[12]提出在眾多可能的模型中確定最恰當模型的最大遍歷樹算法，其中每棵樹Ti的選擇都以使得Vi上滿足所有邊的pair變量相關性之和最大的一棵樹。當d較大時，模型結構的確定及相應PC類型及參數估計的運算量非常大。

然而，當pair變量（pair copula所對應的變量稱為pair變量）間存在獨立或條件獨立關系時，其PC函數值恒為1，此時待估PC數量將會減少。因此，確定變量間的條件獨立關系可以使多元copula函數的分解變得更簡潔。而通過貝葉斯網絡（BN）的有向無環圖（DAG）可以直觀地發現所有具有條件獨立關系的變量。

1.2 PCBN（Pair-copula Bayesian Network）模型

設D=(V，E)是一個DAG，P為d維空間上的概率測度，X為d維隨機變量，則對任意兩兩不相交的集合I，J，K?V，都滿足XK∶=(Xk)k∈K給定時XI與XJ條件獨立，記為則稱P具有全局D-Markovian性質；對所有v∈V，若滿足則稱P具有局部D-Markovian性質。Lauritzen[13]證明了兩個性質是等價的。此時P的概率密度 f可表示為D-遞歸分解形式：

顯然，f的D-遞歸分解形式是以確定的DAG結構（即D=(V，E)）為基礎的。定義D最簡便的方法是通過專家知識，但應用范圍有限，因為專家知識通常很有限或不可得。因此，目前較流行兩類基于數據驅動的DAG結構估計算法——基于約束的算法和評分-搜索算法，其中前者通過一系列條件獨立檢驗來推斷D，后者通過在恰當的搜索空間中優化給定的得分函數（如AIC和BIC）來發現D。

于是，在給定D結構及所有父節點排序的基礎上，相應的聯合概率密度便可分解為如下邊緣分布密度和一系列二元條件copula的乘積[7]。

這種通過DAG和pair copula來構造聯合分布的模型稱為PCBN（Pair-copula Bayesian Network）模型。

2 實證

2.1 樣本與數據的選擇

本文選取的樣本來自按證監會行業分類標準劃分的國民經濟18個門類行業，選擇其中行業市值占全行業市值比重始終處于前9位的行業，即采礦業B、制造業C、電熱水燃氣業D、建筑業E、批發零售業F、交通運輸倉儲業G、信息軟件業I、金融業J、房地產業K，由于9行業總市值始終占全行業總市值的90%以上，因此對樣本行業信用風險的分析可以代表整個國民經濟的信用風險狀況。樣本期為2008年1月至2014年9月，共81個月。本文所有數據均來源于銳思數據庫。

2.2 行業信用風險的R-vine copula建模

依或有權益法（CCA）得出9行業信用風險的表征——違約距離DD，并對違約距離的經驗分布函數序列ui(i=1，…，9)做K-S檢驗（見表1）。

表1 K-S檢驗結果

由表1顯見，各行業違約距離的經驗分布序列均在1%水平下接受服從均勻分布U(0,1)的假設，因此可用于PC模型構建。

根據行業Kendall'τ相關系數矩陣，通過最大生成樹MST-PRIM算法，挑選Kendall'τ相關系數絕對值較大的行業對，同時兼顧“初始節點要保證相關性最強的節點間連接成邊”及“保證每個節點都至少有其中的一條邊與之連接”原則，選擇的pair行業對分別是J-C、C-B、K-I、I-B、B-D、D-G、E-G、G-F，從而確定R-vine的第一棵樹形結構圖，如圖1所示。

圖1 R-vine的第一棵樹形結構圖

類似地，可選擇R-vine的另外7棵樹的結構，從而得到R-vine copula結構矩陣，如圖2所示。

圖2 R-vine copula結構矩陣

圖3 R-vine PC類型矩陣

依據AIC或BIC最小原則，在常見的五類分別用于刻畫變量間的不同相依特征的copula類型族中（Gaussian、t、Clayton、Gumbel、Frank copula,分別用N、t、C、G、F來表示），通過計算每個pair copula（PC）在相應copula族中的AIC或BIC值，最終確定36對PC的類型，與結構矩陣相對應的PC類型矩陣如圖3所示。并通過極大似然估計法，估計所有38個copula參數（限于篇幅，暫未列出）。

2.3 行業信用風險的PCBN建模

以9行業信用違約距離的累計經驗分布序列ui(i=1，…，9)為對象，分別利用基于約束的PC算法和基于評分-搜索的爬山算法(HC)對九維貝葉斯網絡進行結構學習，結果發現PC算法對網絡邊及方向的識別弱于HC算法，因此，本文采納HC算法得到網絡結構。為使得到的DAG為良序，本文將行業序號重排如下：1→B，2→C，3→G，4→J，5→I，6→F，7→D，8→K，9→E。結果如圖4所示。通過計算圖4中各節點與其相應父節點的Kendell相關系數，依從大到小的順序得到父節點排序，其矩陣表示如圖5所示，其中每一列的非零元素個數表示相應列所對應元素的父節點個數，其數值表相應行所對應元素在相應列對應元素的父節點排序，例如，由第K列可知，I＜KC＜KF＜KD。

圖4 良序DAG圖

圖5 父節點順序矩陣

為了與R-vine copula模型相比較，根據良序DAG及父節點排序可得與R-vine約束集矩陣M=(mi，j)i，j=1，…，d定義方式相同的結構矩陣來存儲DAG所包含的所有路徑及邊的集合，結果如圖6所示，其中“×”表示該位置的變量與對角線元素變量存在條件獨立關系，因此可以不予考慮。根據網絡學習原理，網絡結構矩陣第一行元素與對角線元素構成的pair變量間的相依性捕捉了多元相依結構中最重要的相依關系，相應的八對pair行業分別是E-G、K-I、D-G、F-G、I-B、J-C、G-B、C-B。

由圖6得九維聯合分布可分解為如下形式：

圖6 貝葉斯網絡結構矩陣

圖7 貝葉斯網絡PC類型矩陣

依據AIC或BIC最小原則，依然在上述五類copula類型族中通過計算每個pair copula（PC）在相應copula族中的AIC或BIC值，最終確定16對PC的類型，與結構矩陣相對應的PC類型矩陣如圖7所示。通過極大似然估計法，得出所有18個PC參數以及整個模型的極大似然估計值及AIC、BIC值。（篇幅所限，各參數的估計結果暫未列出）

2.4 R-vine copula與PCBN模型比較及結果分析

現將兩模型整體估計結果及相關特征如表2所示。

表2 R-vine copula與PCBN模型比較

由表2可以看出，從模型簡潔性來看，PCBN待估PC數目遠遠小于R-vine copula，因而更為簡潔，更適宜為高維數據建模；同時，從模型準確性來看，雖然R-vine copula模型的似然值較大且AIC較小，但當樣本容量較大時，BIC準則更傾向于選擇較簡潔模型，而PCBN的BIC值相對更小，因此可以較好地刻畫高維數據相依結構；事實上，觀察圖2和圖6，比較R-vine copula結構矩陣和貝葉斯網絡結構矩陣的第一行元素和對角線元素，兩者所確定的pair行業對除了兩對行業不同以外，其他均相同，說明兩模型在捕捉多元相依結構中最重要的相依關系方面基本一致。而且由于構建R-vine時要滿足“鄰近原則”的約束，因此在捕捉最重要相依關系時的表現甚至稍遜于沒有約束的貝葉斯網絡；此外，從模型所蘊含的信息量來看，由于PCBN所對應的網絡結構是有向無環圖（DAG），可發現節點間的因果關系。并且，由于DAG具有D-Markovian性質，可發現節點集間的條件獨立關系，因此模型所含信息量更為豐富。基于以上事實，本文將以PCBN模型估計結果對國民經濟9大行業信用風險相依關系進行分析。

首先，由圖3的DAG圖可見，網絡中的邊數較多，說明行業間存在錯綜復雜的相互關系，其中包含節點K和節點G的邊最多，說明這兩個行業與其他行業聯系最廣泛。聯合概率測度滿足D-Markovian性質，其中{B，C}⊥{E}| {D，F，G，I，J，K}，即，在能源、貨幣、信息、商品等7個廣義上的流通類行業條件下，{采礦、制造業}與{建筑業}這兩大類實體行業信用風險相互獨立。整個系統的危機傳遞路徑從采礦、制造業開始通過流通類行業蔓延到建筑業，從而形成國民經濟系統信用危機。因此，防范系統危機的關鍵是防范流通類行業的信用危機。而在流通類行業子系統中，存在{G}⊥{K}|{D，F，I，J}，即交通運輸業與房地產業在其余4個行業條件下相互獨立，在該子系統中危機傳染路徑從交通運輸業經這4個行業傳遞至房地產業。因此，防范流通類行業子系統信用危機的關鍵在于防范水電燃氣、批發零售、信息軟件及金融業的信用危機。此外，在流通類行業子系統中，G、J、F兩兩相連，構成全網絡，說明3行業關系密切，且由邊的方向可以看出，交通運輸業G可直接影響也可通過金融業J間接影響批發零售業F的信用風險狀況。

另外，從圖6結構矩陣的第一行可以看出，與節點G和節點B構成無條件pair相依關系的節點較多，說明交通運輸業和采礦業在國民經濟行業系統的相依結構中起到相對更重要的樞紐作用，其他行業間的信用風險聯系大多以這兩個行業為條件。而從圖7的PC類型矩陣可以看出，K-I、D-G、C-B適用Clayton copula,，即存在下尾相關，有同時暴跌的可能；E-G、I-J|B適用Gumbel copula，即存在上尾相關，可實現共同繁榮；E-K|G、G-B適用t copula，即存在對稱的尾部相關性；而其他pair變量間則沒有明顯的尾部相關性。

3 結語

本文以國民經濟9大行業信用風險相依結構為研究對象，分別利用R-vine copula模型和PCBN模型為相依結構建模，并從準確性、簡潔性及信息含量豐富性等方面對兩模型進行比較，選出表現較好的模型并對實證結果進行分析。實證結果表明，PCBN模型的BIC值最小，即在兼顧模型的準確性和簡潔性時，PCBN相比R-vine copula模型更適合于為國民經濟行業系統的信用風險相依結構建模。而通過PCBN模型可以發現：國民經濟整個系統內行業間存在條件獨立關系，流通類行業子系統是系統風險傳染的關鍵媒介，而在流通類行業子系統中，水電燃氣、批發零售、信息軟件及金融業是信用風險傳染的關鍵媒介。另外，實證結果還發現了交通運輸業和采礦業在國民經濟行業系統的相依結構中起到相對更重要的樞紐作用，并發現了不同行業及條件行業間的尾部相關性。

[1]Joe H.Families of M-variate Distributions With Given Margins and M (M-1)/2 Bivariate Dependence Parameters[J].Institute of Mathemati?cal Statistics,Hayward.1996,（28）.

[2]Bedford T,Cooke R M.Probability Density Decomposition for Condi?tionally Dependent Random Variables Modeled by Vines[J].Annals of Mathematics and Artificial Intelligence，2001,（32）.

[3]Bedford T,Cooke R M.Vines—A New Graphical Model for Depen?dent Random Variables[J].Annals of Statistics.2002,30(4).

[4]Brechmann E C,Czado C,Aas K.Truncated Regular Vines in High Dimensions With Application to Nancial Data[J].Canadian Journal of Statistics 2012.(40).

[5]Lauritzen S L.Graphical Models[M].Oxford:Oxford University Press, 1996.

[6]Kurowicka D.Cooke R.Uncertainty Analysis With High Dimensional Dependence Modelling[J].Technometrics,2007,49(1).

[7]Bauer A,Czado C.Pair-copula Bayesian Networks.[DB/OL]http://arx?iv.org/abs/1211.5620.23 Nov 2012.

[8]BauerA,Czado C, Klein T.Pair-copula Constructions for Non-gaussian DAG Models[J].The Canadian Journal of Statistics. 2012,40(1).

[9]Sklar M.Fonctioms de Répartition à N Dimension Et Leurs Marges [J].Publ.Inst.Statist.Univ.Paris,1960,(8).

[10]Morales-Nápoles O,Cooke R M,Kurowicka D.About the Number of Vines and Regular Vines on N Nodes[DB/OL].http://scholar.google. ca/citations.2010.

[11]Bedford T,Cooke R M.Probability Density Decomposition for Condi?tionally Dependent Random Variables Modeled by Vines[J].Annals of Mathematics and Articial intelligence,2001,32(1).

[12]Diβanna J,Brechmanna E C,Czadoa C,et al.Selecting and Estimat?ing Regular Vine Copulae and Application to Financial Returns[J]. Computational Statistics and Data Analysis.2013(59).

[13]Lauritzen S L.Graphical Models[M].Oxford:Oxford University Press, 1996.

（責任編輯/浩天）

0212.4

1002-6487（2016）23-0073-04

國家自然科學基金資助項目（71401074）；江蘇省哲學社會科學基金重點項目（14GLA003）；江蘇省高校研究生科研創新計劃項目（KYZZ_0099）；江蘇省教育廳高校哲學社會科學研究項目（2016SJB630030）

申敏(1978—)，女，安徽鳳陽人，博士研究生，講師，研究方向：金融風險管理。

吳和成(1963—)，男，江蘇啟東人，教授，博士生導師，研究方向：金融風險管理、區域創新管理。