王 慧,魏 勇
(西華師范大學 數學與信息學院,四川 南充 637009)
灰色關聯分析是灰色系統理論的一個重要分支,它對作用對象的數量和有無規律性沒有要求,計算量小,彌補了采用傳統數理統計方法時導致的缺點[1]。學者們以鄧聚龍的灰色關聯四公理為理論基礎,基于不同研究對象的實質,提出了不同類型的灰色關聯度,如鄧氏關聯度、灰色B型關聯度、灰色絕對關聯度、灰色C型關聯度等。但對于現實而言,數據的復雜程度決定了學者們應著力于灰色關聯分析在多指標的面板數據中的應用研究。觀察相關文獻[2-6]可以發現,應用于面板數據時學者們基于不同的理論點提出了不同的關聯度計算方法,相似性關聯度和接近性關聯度是其中的核心部分,已有的文獻暫時沒有一個可以公理化這兩大類關聯度計算式的定義,不能清楚地說明各種關聯度可以反映哪種實際應用,從而導致其他方向應用關聯度時因為概念混淆而錯誤判斷關聯程度。在此基礎上,文獻[7]指出對于時間數據序列而言,不可能定義一個既能反映相關性又能反映接近性的關聯度,應分門別類地討論相似性和接近性關聯度。而且很多關聯度計算式在滿足鄧氏關聯四公理的規范性前提下不能均勻分布在[0,1]區間內,導致結果的辨析程度較差,出現多個關聯度間結果差距較小,或者差距太大,不能較好反映序列間關聯程度差異。
針對以上情況,本文首先提出了一種新的面板數據初始化方法,能較好地反映數據在均值附近波動的情況,從而便于觀察數據序列間變化形式的相似性,其次分別公理化了面板數據的接近性關聯度和相似性關聯度并給出案例,探討了在規范性前提下利用分辨系數ξ(0<ξ<+∞)來拓展關聯度取值分布,提高了對結果的辨析程度,最后通過實例分析來說明結論的可靠性。
面板數據也叫平行數據,是指在時間序列上取多個截面,在這些截面上同時選取樣本觀測值所構成的樣本數據,區別于傳統的單指標時間數據序列,面板數據具有時間維度、指標維度和樣本維度,是多樣本多指標時間序列。對面板數據進行關聯分析首先要了解其數學表達,設樣本總體數量為N,指標數量為m,時間長度為n,文獻[2]采用三維數據表來描述面板數據,由于數據表不能體現出面板數據的幾何特征,故將二維表中的值對應為三維坐標中的點,將其在三維空間中每一個點記作xi(s,t),表示樣本i關于指標s在時間t處的值。
定義1[2]:若面板數據X中的樣本i關于指標s在時間t的數值為xi(s,t),則稱

為樣本i的行為矩陣。
定義 2[6]:面板數據序列X=(X1,X2,…,XN)為其樣板序列,將面板數據投射到n維空間中的n維向量,則設樣本序列中的Xi滿足:

其中xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m,稱xi(s)為這組面板數據中樣本i關于指標s的時間序列。
定義3:Xi是樣本i的面板數據,D是初始化算子,若:

灰色關聯分析基本思想中的兩大類,一是根據時間數據序列曲線幾何形狀的相似程度來判斷其關聯程度大小,二是根據時間數據序列的接近程度來判斷其關聯程度大小,對于空間中的向量而言,一方面向量夾角越小其相似程度越高,其關聯程度也越大,另一方面兩向量之差的模長越小,則越接近關聯程度越大,因此可以利用向量夾角和向量差的模長來描述相似性和接近性關聯度。
定義4:設樣本i與樣本j在s指標下通過均值波動算子初始化后的的時間序列為:

則兩指標序列的夾角為:

值得注意的是利用向量差的模長計算接近性關聯度來判斷序列間關聯程度大小是不能用均值波動算子處理數據的,因為均值波動算子會改變原向量在空間中的位置及距離。
定義5(面板數據的接近性關聯度):設面板數據序列為X=(X1,X2,…,XN),其中X0=(x0(1),x0(2),…,x0(m))為系統特征序列,Xi=(xi(1),xi(2),…,xi(m)),i=1, 2,…,N為系統比較序列,且Xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m。若實數γ(Xi,Xj)滿足:
(1)規范性:0<γ(Xi,Xj)≤1 且γ(Xi,Xj)=1?Xi=Xj即γ(Xi,Xj)=1?Xi(s,t)=Xj(s,t),s=1,2,…m,t=1,2,…,n;
證明:(1)規范性:
顯然 0<γ(Xi,Xj)≤1,還需證明γ(Xi,Xj)=1 ?Xi=Xj?Xi(s,t)=Xj(s,t)s=1,2,…,m;t=1,2,…,n。

(2)接近性:

可以發現案例中的接近性關聯度使得除了完全相同的兩面板數據在任何分辨系數下關聯度為1保持不變以外,其他任何不同的兩面板數據都會隨著分辨系數增大而關聯度值減小,隨著分辨系數減小而關聯度值增大,從而起到了調節辨析率的作用。
此處分辨系數ξ為0<ξ<+∞,并建議根據具體研究對象的實質以及計算出的關聯度差異來動態地確定ξ的取值。如當計算出的兩不同方案數據序列關聯度值均接近于1時接近程度高,不易辨析其二者差異時,可通過分辨系數動態地取值來調節差距,這時分辨系數ξ越大,關聯度值就越小,就如同放大鏡來放大差距,提高辨析程度。分辨系數ξ越小,關聯度值就越大,且關聯度值越接近于1,就越來越淡化其差異,肯定其接近程度,如果允許ξ=0,則將完全抹殺所有序列之間的差異,關聯度值衡為1,從而是一種毫無意義的關聯度。
值得注意的是:接近性關聯度不能對數據進行初值單位化、零像化等操作,因為初值單位化會抹殺對應項成比例的兩序列之間的差異,初值零像化會抹殺序列各坐標平移某固定常數前后之間的差異,均會導致對應坐標相聚甚遠而關聯度值較大的情形,這就必然失去通過計算其接近性關聯度來判斷關聯程度大小的真實性。
定義6(面板數據的相似性關聯度):設面板數據序列為X=(X1,X2,…,XN),其中X0=(x0(1),x0(2),…,x0(m))為系統特征序列,Xi=(xi(1),xi(2),…,xi(m)) ,i=1,2,…,N為系統比較序列,且Xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m。若實數ρ(Xi,Xj)滿足:
(1)線性相關規范性
0<ρ(Xi,Xj)≤1且ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi滿足Xi=αsiXj+βsi;即ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi使xi(s,t)=αsixj(s,t)+βsi,t=1,2,…,n
(2)線性相關接近性:
ρ,?αsi≠0,βsi滿 足αsi,即≠0,βsi滿足:則稱ρ(Xi,Xj)為面板數據樣本序列中Xi與Xj的相似性關聯度。
證明:(1)線性相關規范性:
顯然,0<ρ(Xi,Xj)≤1,還需證明ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi滿足Xi=αsiXj+βsi,即ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi使xi(s,t)=αsixj(s,t)+βsi,t=1,2,…,n
先證必要性:

再證充分性:

即ρ(Xi,Xj)滿足線性相關規范性。
(2)線性相關接近性:
先證必要性:


再證充分性:
?s=1,2,…,m, ?αsi≠0,βsi滿足(s,t)

即ρ(Xi,Xj)滿足線性相關接近性。
此處分辨系數ξ仍然為0<ξ<+∞,也建議根據具體研究對象的實質以及計算出的關聯度差異來動態地確定ξ的取值。當一組并不完全線性相關的數據序列計算出的關聯度值均不等于1但接近于1時,不易辨析,可通過分辨系數動態地取值來調節差距,這時分辨系數ξ越大,關聯度值就越小。分辨系數ξ越小,關聯度值就越大,關聯度值越接近于1,就越來越淡化其并不完全相關的事實。另外,與接近性關聯度一樣決不允許ξ=0。
值得注意的是:相似性關聯度與接近性關聯度相反,能容忍對數據作平移和數乘變換,因為兩序列各自平移、數乘任意常數不影響線性相關程度。
案例1:設西部某省A、B、C、D四市在一項政府新政策下達后2014—2016年平均每戶家庭每月在飲食、旅游、教育上的金額如下(單位:千元),X0為A市面板數據,X1,X2,X3為B、C、D市的面板數據,若想要以此探討此項新政策對四市的經濟發展情況的影響,應如何運用灰色關聯分析?

首先應分析題意,選擇接近性或者相似性關聯度,題中描述此面板數據體現的是在該項新政策影響下平均每戶家庭每月在飲食、旅游、教育上的金額的變化情況,強調在該政策下不同市之間每戶家庭在不同指標下金額的變化情況的相似性,而不是消費水平的接近性,所以應采用相似性關聯度來計算,本例即選取例2的相似性關聯度:

經過均值波動算子處理后的面板數據為:取ξ=1時通過改進的關聯度計算得到:ρ01=0.6032 ,ρ02=0.8522 ,ρ03=0.2947
即從關聯程度上看,有ρ02>ρ01>ρ03,且從時間維度上觀察面板數據初始化后在每個指標下的時間序列,X0與X2的變化趨勢確實比X0與X1的變化趨勢接近,X0與X1的變化趨勢也確實比X0與X3的變化趨勢更接近,結果與實際相符,另本例中設出的數據與文獻[6]的相同,得到的結論也是一樣的,更加說明此例中采用的關聯分析的正確性。
案例2:現有A、B、C、D四省在2014—2016年平均每戶家庭每月在飲食、旅游、教育上的金額如下(單位:千元),X0為A省面板數據,X1,X2,X3為B、C、D省的面板數據,若需要以此為依據分析A、B、C、D四省的經濟發展情況,該如何利用灰色關聯分析?

首先分析題意,選擇接近性或者相似性關聯度,題中描述的面板數據是平均每戶家庭每月在飲食、旅游、教育上的金額,強調的是西部四個不同省份之間每戶家庭在飲食、旅游、教育三個指標下消費水平的接近性而不是相似性,所以應采用接近性性關聯度來計算,本例即選取例1中的接近性關聯度,因為是探討的接近性,所以不能對數據進行初值單位化、零像化等操作,取分辨系數ξ=1,直接利用式子計算后得:

即從關聯度來看ρ02>ρ03>ρ01,從分指標的時間序列來看,確實C省的數據與A省更接近,但B、D兩省與A省計算出的關聯度太接近,可嘗試適當調節分辨系數來增強辨析性,當ξ=1.5時,有ρ03=0.2649>ρ01=0.2702,增大了二者之間差值,但關聯序沒有變化,更說明了D省與A省的關聯程度比B省與A省的關聯程度大。
本文主要作了以下幾方面工作:
(1)提出了基于面板數據的接近性和相似性兩類性質炯然不同的關聯度之公理化定義,舉出的接近性或相似性相應類型關聯度的實例僅僅是示范,并不唯一;
(2)給出一種的面板數據初始化方法,但并不是硬性要求,因為初值化與否并不影響關聯度值的計算結果;
(3)強調通過適當添加分辨系數來調節關聯度,此時分辨系數應是動態的,提高關聯度的辨析性,分辨系數不局限在(0,1),而是所有可能的正數;
(4)就接近性關聯度和相似性關聯度在實際中的應用分別給出實例,并解釋采用哪種類型關聯度的原因,為之后的針對應用問題的相關實質選擇所需關聯度提供參考示例。