馬 薇,葛 通,肖 凱
(天津財經大學 統計學院,天津 300222)
協整分析是時間序列數據研究的基礎方法,具有廣泛的用途和蓬勃的理論生命力。近來,協整模型的研究范圍得到進一步拓寬,發展出非線性協整、變結構協整、分數協整等理論。但是作為一個理論體系,廣義上的協整模型形式龐雜、檢驗困難,這增加了研究的難度。本文試圖借助非參數回歸,對這一體系進行簡化。
對非參數、半參數方法在協整模型中的應用,現有文獻已經做了深入的討論。Park和Philips(2001)[1]討論了最優擬合核回歸的殘差的分布問題;Karlsen等(2007)[2]使用馬爾科夫鏈技術對不同類型的非平穩序列非參自回歸殘差做了擬合;Wang 和 Philips(2009)[3,4]詳細考察了單位根及近單位根序列做非參擬合在小窗寬大樣本下的極限分布。在協整檢驗和關聯關系識別中,核回歸技術的應用細節,尤其是回歸窗寬的選擇,有待進一步研究。
窗寬是分析數據的角度,不同角度查看數據會看到不同的特征,有時會得到不同的結論。窗寬選擇是否有理有據關系到研究的公信力。偏大的窗寬側重考察全局共性、考察時空間的關聯性、追求模型本身的穩健程度;偏小的窗寬側重捕捉局部個性、捕捉特定觀測值的異質性和變機制、追求樣本數據的擬合效果。為更好地指導應用,有必要在理論上給出可靠的窗寬選擇方法,為數據分析提供全面客觀的角度。本文提出了基于交錯鑒定的窗寬選擇方法,可有效提升模型的穩健性。同時,本文還將部分統計量視為窗寬的函數,選擇不同的研究角度(即窗寬),讓機器反饋統計量的計算結果,給出統計性質的“全景描述”。這種用“人機結合”簡化“模型窮舉”的研究方式,達到了全面認識數據、簡化研究過程的效果。
非參數方法在不同統計領域的研究,可使傳統統計模型的應用范圍得到拓展,具有重要的理論意義。另一方面,隨著國際金融環境日趨復雜,互聯網金融、供應鏈金融、區塊鏈技術不斷發展,高頻數據的收集變得簡單,對統計推斷的要求也變得越來越高。非參技術提供了一個簡捷穩健的協整分析方法,具有廣泛的應用價值。
兩個單位根過程不存在檢驗意義上的協整關系,是指以線性協整關系為原假設,數據沒表現出統計上存在關聯特征。傳統檢驗所發現的非協整,或許存在某種棄真,背后的原因是回歸模型形式被誤設。使用非參數擬合,可以最大程度上囊括可能存在的協整關系模型形式,發現經濟規律。下面重新定義協整關系,并討論了關系的非參數擬合。
當Pt與ln(Qt)或者Q2t序列存在線性協整關系,但是觀測到的數據只是Pt與Qt,那么,基于傳統線性協整建模未必能發現經濟變量間的存在負反饋機制。隨著對變量關聯機制認識的深入,需要拓寬協整關系的定義如下:
定義1:若存在f(x),使得Yt-f(Xt)=ut,其中,Xt~I(d),Yt~I(d),u~I(b),且b<d,則稱兩變量存在廣義協整關系。
若f(x)為線性函數,則稱序列存在線性協整關系;不預設f(x)的函數形式,用核回歸技術估計變量間的關聯關系,稱存在非參數協整關系。實際研究當中,有時還會采用半參數模型建模。
接下來的建模僅考慮經濟上較為常見、數學上也更易處理的b=0且d≥1的情況。
對關聯關系的擬合,采用Nadaraya-Watson核估計,即尋找最優窗寬,使得y?t=gh(xt)。
g(xt)有如下表達式:

其中K為核函數,而wi,t描述的是在估計t期y值時,i期y值所占的權重(或視為兩組隨機變量間的某種相關度)。
回歸擬合是通過逐點估計來實現的,每一點的估計過程,可看成全部被解釋變量在特定權重下的加權均值(在估計yi時,yj值的權重是依據xj距離xi的遠近所決定的)。
用來檢驗協整關系的殘差同樣是窗寬的函數。

考慮到局部常數核回歸在邊界附近的估計值可能存在較大的偏差,而尾部相關性質對金融數據的研究至關重要,因此在實際研究當中,回歸擬合有時也會選擇局部線性、局部多項式等其他非參數回歸形式。
擬合過程中最重要的工作,是基于特定準則尋找理想窗寬。這種尋找,通常試圖追求較好的擬合效果。考慮到解釋變量和被解釋變量都是非平穩的,在這種數據生成過程的影響下,xi與xi+1取值較為接近,yi與yi+1取值同樣較為接近。劃定一個較小的窗寬做回歸,窗寬內相近取值的x有很大的概率對應臨近時期,進而對應相近取值的y。這種對應之下,非參估計將取得良好的擬合效果。但這種效果的取得,并不是因為非參估計發現了關聯關系,這容易導致過擬合(即將無關序列擬合出某種長期關系,進而使得殘差不再具有長記憶性)。
本文認為,在協整識別回歸過程中,估計的目標不應是擬合出精細的關聯關系,而應該是發現一種機制來消解序列的記憶性。選擇窗寬需要注意避免協整檢驗意義上的過擬合。
對殘差性質的研究,現有工作集中在極限窗寬下殘差的漸進分布。在數據足夠多、窗寬足夠小的情況下,模型的確不用擔心擬合不足或者過擬合的問題[5,6]。但實際數據分析工作的窘境在于,在有限的數據下,不同的窗寬有時會帶來不同的結論,然而很難找到充分的理由選擇或者拒絕某些窗寬,因此也就無法得到有說服力的結論。
本文給出了兩種辦法來回應,一是采用機器學習的思路,通過樣本抽樣訓練、模型交錯鑒定,最終找到協整檢驗意義上穩健的窗寬;二是全面展示不同窗寬下的殘差性質及性質隨窗寬變化表現出來的特征,讓讀者自己判斷變量間的關聯關系。
協整分析的過程大致可以分解為四步,分別是對原序列做記憶性檢驗、對協整關系做擬合、對擬合殘差做記憶性檢驗和對模型做解釋。在非線性協整的背景下,每一步都變得更為復雜。
協整分析僅針對去勢后仍非平穩的數據。認識變量序列性質是協整檢驗的前提,這里的性質指序列平穩性和結構穩健性。
時間序列的變結構檢驗和平穩性檢驗已經有了較為廣泛的研究。對于機制穩健的時間序列,常用的平穩性檢驗方法有ADF檢驗、PP檢驗和KPSS檢驗。變結構問題同樣是計量理論歷久彌新的問題[7-9],對非平穩序列的結構穩健性有單獨的研究[10],對變結構模型的平穩性檢驗,有代表性的研究有文獻[11-13]。
Nadaraya(1964)及Watson(1964)提出了著名的Nadaraya-Watson核估計。為了避免出現過擬合,可以采用交錯鑒定原則約束窗寬的選擇。方法大致可以表述為:把數據劃分成訓練集和測試集,使用訓練集選擇合適窗寬,然后使用測試集擬合數據、求解殘差、對殘差做單位根檢驗;反復地隨機劃分數據,選擇出一個較大的窗寬,使得不同分組下單位根檢驗的結果趨于一致。
關于回歸擬合,還有一點須補充,要選擇合適的變量做回歸的被解釋變量。線性模型的設定下的二元方程(如y=kx+b),解釋變量與被解釋變量一一對應(給定x有唯一y與之對應,反之亦然)。因此在傳統線性關系的設定下,即便選擇不同的被解釋變量,回歸之間都可以等價變換。然而,在非線性關系的設定下,變量間的關系不再是嚴格的一一對應,這給回歸擬合帶來挑戰(回歸方法難以處理同一個自變量對應多個不同因變量的情況)。在實際研究當中,探索負反饋機制并不是簡單地誰決定誰。使用非參數回歸擬合非線性協整關系時,需要對比選擇不同變量作為被解釋變量來擬合所取得的效果,選擇擬合效果好的形式。
對擬合殘差的單位根檢驗是識別協整關系的關鍵。在復雜數據的背景下,殘差可能存在變結構和變機制,平穩性的檢驗方法可以參照對原序列的檢驗過程。需要注意,殘差平穩性的檢驗方法應該與原序列的平穩性檢驗方法保持一致。
非參數技術對協整的建模,是基于“模型窮舉”的手段,為協整關系分析劃定一個應用的邊界。自變量回歸窗寬的寬窄有經濟上的含義。較大窗寬下的非參數協整描述的是穩健、相對持久的關聯關系,而較小窗寬下的非參數協整描述的是一種不穩定的變機制關聯關系。
非參數模型本身是不可解釋的。在識別出協整關系之后,可以采用平滑手段、交錯鑒定,用參數化的非線性模型替代已識別的非線性關系,一定程度上簡化對模型的解釋。這種簡化也不是沒有代價,通常需要伴隨對異常點的解釋。此外,對于非線性協整解釋,常常要考察兩個角度,即數據生成過程的非線性和關聯關系機制的非線性。
國內國外兩個金融市場的需求,造成了匯率價格的短期波動;相應的,產品市場供求的變化造成了出口交易額的波動。匯率與出口額之間,一方面存在價格沖擊供求造成的短期關聯機制,另一方面某種的長期負反饋機制,適合開展協整分析。本文搜集月度數據,使用非參技術,對匯率與出口額間的關系做了協整分析。
匯率數據來自IMF月度數據(人民幣/美元),當期出口總值取自海關月度數據。考慮到2005年7月,人民幣匯率形成機制不再盯住美元,開啟了對美元逐漸升值的過程,本文采集了1996—2005年和2006—2017年兩組數據。在前一個時期,出口總值與人民幣兌美元匯率不存在長期關聯機制;而在后一個時期,一般認為金融市場與產品市場存在關聯且關系是非線性的,示例試圖檢驗出口額與匯率間的長期關聯關系。
數據統計性質如表1所示:

表1 匯率數據與出口數據的統計性質 (單位:千美元,人民幣元/1美元)
不難發現,涉及到的序列均存在顯著的單位根特征。后續計算對出口序列做季節性調整和取對數去勢等整理,對匯率數據不作調整。數據分作兩期討論,不考慮兩期間的關聯關系。
在實際非線性協整檢驗時,通常要對序列的變結構特征和非線性特征做進一步的檢驗,而這些特征通常還會傳遞給回歸的殘差,以上都是檢驗殘差平穩性所需的先驗信息。數據整理后的折線圖如圖1所示:

圖1 整理后出口總額、改革前匯率與改革后匯率三組數據的時間序列折線圖
出口額隨時間變化,一段時間穩定上述(除了在2008年前后有一次顯著的變結構)。匯率值在2005年有一次顯著的變結構,從此人民幣進入上升通道,然后又在2008年經歷了一段時間的穩定,接著繼續升值,到了近三年,出現了回調和反復。匯率的變動,一定程度上緣于巨量產品出口帶來的金融市場倒逼。為了探尋長期關聯關系,繪制出口額與匯率值的散點圖如圖2所示:

圖2 處理后的當期出口總額與當期匯率的散點圖(時期分別是:1996-2017年,1996-2005年,2006-2017年)
散點圖顯示,數據間沒有明顯的線性關聯關系。結合經濟背景,2005年之前的匯率形成機制與產品市場無關,是一種盯緊美元的機制,波動源于金融市場。而2006年以來,匯率與出口額具有一定的關聯關系,海外產品市場需求推動人民幣升值(一個證據是,海外市場需求的下滑突變中斷了人民幣的持續升值)。
下面采用傳統兩步法,傳統非參兩步法(窗寬修正前)和修正非參兩步法(窗寬修正后),分別對回歸的效果和殘差的平穩性做了檢驗。同時將被解釋變量用AR(1)模型擬合,幫助我們認識其他回歸的擬合效果與殘差平穩性。見表2。

表2 回歸擬合效果與殘差平穩性檢驗
協整檢驗的首要任務是發現關聯關系,下面首先考察2006年之后數據在各模型下協整檢驗的表現。見圖3。

圖3 2006年后數據函數關系的參數回歸和非參數回歸
不難看出,非參回歸較參數回歸實現了更細致的擬合效果。在中國制造全面崛起初期,隨著出口需求的增加,人民幣兌美元匯率加速下降,其背后是人民幣需求的快速上升。而隨著出口需求增速放緩,背后的人民幣升值的腳步表現出較慢增速和較大方差。

圖4 原始序列,線性擬合值的時間序列和非參數回歸擬合值的時間序列
由圖4,對比yt與y?t可見,在2008年之前,使用出口貿易額所擬合的匯率低于實際匯率,這一定程度上描述了中國制造崛起帶給人民幣升值的壓力。而2008年前后實際匯率低于擬合匯率,背后的故事是,人民幣沒有因需求停滯而大幅貶值。目前,隨著全球經濟回暖和中國供給側改革,國際市場對中國制造(和交易所需人民幣)的需求隨之上揚,人民幣再次迎來一定的升值壓力。
在這個回歸當中,非參數模型比線性模型更接近歷史真實值。這反映了線性模型擬合的不足。正是這種不足妨礙了協整關系的識別。
考察殘差平穩性,檢驗發現線性擬合得到的殘差非平穩。這意味著,線性兩步法無法識別原序列的非線性協整關系。而非參數兩步法所得到的殘差,殘差變得平穩。此外本文還應用交錯鑒定法修正了非參擬合,對回歸做了平滑處理(這是以損失擬合效果為代價的),經檢驗,這種平滑對協整檢驗的影響并不顯著。由此可見,非參數協整檢驗可以發現線性協整檢驗所不能發現的長期關聯關系,并簡化了非線性協整的建模。
將非參技術引入協整檢驗,需要避免因過擬合引起的檢驗取偽。上文說明了如何使用機器學習交錯鑒定尋找約束下的最優窗寬,方法可以在一定程度上避免過擬合。回歸結果如圖5,上兩圖為時序圖,下兩圖為函數關系圖,左側為傳統窗寬擬合,右側為修正窗寬下的擬合。

圖5 小窗寬下與大窗寬下擬合效果的比較
而使用經驗窗寬,在較好擬合被解釋變量的同時,傾向于帶來協整檢驗意義上的過擬合。而使用經驗窗寬完成的非參擬合,所得殘差平穩。而使用交錯鑒定修正之后,擬合效果并沒有顯著降低,但殘差單位根檢驗效果更加穩定,殘差不再平穩。這避免了非參回歸可能造成的協整檢驗取偽。
通常認為2005年之前的出口總值與匯率之間不存在關聯關系。使用線性回歸下的兩步法協整檢驗,未能發現協整關系;基于交錯鑒定做修正后的非參回歸,殘差也表現記憶性,未能發現協整關系。然而,在經驗窗寬下對變量做非參數擬合,殘差的記憶性將被回歸破壞了。交錯鑒定法選擇窗寬,可以在一定程度上避免協整檢驗的取偽。
使用交錯鑒定法修正窗寬,是對擬合做平滑的一種常用方法,可以盡量幫助研究在識別非線性協整的同時,避免協整檢驗意義上的過擬合(即避免檢驗取偽)。精準和穩健是兩個目標,通常是矛盾的。實際應用時很難找到真正的最佳窗寬,或者說,不同窗寬下所做的回歸都是有價值的,分別從不同角度上為研究提供了重要的信息。
為此本文考察非參回歸當中重要統計量(R2值、AIC統計量、以及殘差在ADF檢驗當中落入接受域的概率值)隨回歸窗寬變動的情況。這種變動的規律,可以加深我們對數據關聯關系的認識。

表3 重要統計量隨窗寬的變動情況
對于無關數據(2005年前的數據),統計量隨窗寬變化而變化顯著;而對于存在協整關系的數據而言,非參擬合從一開始就取得了較好的表現,在理想窗寬附近,并不存在統計量顯著變化的過程。以回歸的擬合優度為例描述統計量隨窗寬變化的過程,如圖6:

圖6 擬合優度隨窗寬的變動情況
隨著回歸所選的窗寬趨近于0,協整數據(2006—2017年)與無關數據(1996—2005年)的回歸擬合優度都是趨于上升的。然而,協整數據的上升速度較為平緩,無關數據的擬合優度則快速上升。不同窗寬下,對殘差做ADF單位根檢驗,可以得到類似的發現,示例如圖7:

圖7 P值隨窗寬的變動情況
在窗寬較大時,兩組數據的檢驗均呈現出較為穩定的P值,但是隨著窗寬逐漸減小,無關數據率先經歷了P值降低的過程(這時P值的快速突變是因為過擬合),而協整數據回歸殘差的單位根檢驗P值變化相對平緩。
研究還做了許多模擬數據實驗,與上述數據所得結論基本一致。從擬合的角度來看,越復雜的非線性關聯關系,往往需要越小的窗寬予以擬合。但是從協整檢驗的角度來看,使用較大窗寬的非參擬合,就可以實現對長期關聯關系的識別,使得回歸殘差達到檢驗所要求的平穩。
非線性協整關系的研究,通常關聯復雜的數據生成過程、復雜的結構變化特征、復雜的關聯關系形式。對這類數據做非參數回歸,需要特別注意一些重要的技巧。本文對單位根檢驗、被解釋變量選擇、殘差單位根檢驗等步驟中的注意事項做了提示,并針對非參擬合可能出現的過擬合問題做了討論,給出了基于交錯鑒定的窗寬選擇方法。這種窗寬選擇方法提升了協整檢驗的穩健性。
使用不同窗寬對數據做擬合,可以看成站在不同角度查看數據間的關聯關系。非參回歸所產生的相關統計量,一方面是樣本的函數,另一方面也是窗寬的函數。不同窗寬下的回歸統計量可以看成是不同的統計量。考察這些不同的統計量,可以得到評價關聯關系的重要信息。“多窗寬”研究為我們提供了對數據的全景描述,讓數據分析的視角變得全面客觀。