劉 兵
(淮南師范學院 經管系,安徽 淮南 232038)
面板數據,即Panel Data,又有人稱之為綜列數據集,是指同一截面單元集上的重復觀察值,是截面數據與時間序列綜合起來的一種數據資源。例如,在一個時點上,從某總體中隨機地收集了一些人的個人工資、工作時間、學歷和其他因素的一個綜列數據集,那么,在以后的若干各時點上,要對同樣的這些人反復采訪,以便得到一群人在不同年份里的工資、工作時間、學歷等數據。目前絕大多數的有關面板數據的研究都是從計量建模入手,Bonze D.C.和Hermosilla.A.Y.等統計學家則開創性地將多元統計方法引入到面板數據的分析中來[1]。在此之后國內外的對此相關的研究甚少,國內學者朱建平曾對單指標面板數據的聚類分析進行了一定的研究,并作了實證分析[2]。鄭兵云構造了多指標面板數據的距離函數和離差平方和函數,在此基礎上,說明了多指標面板數據的聚類分析過程[3]。但時序數據是變化復雜的,鄭兵云雖然沒有在構造面板數據的離差平方和函數時談及不同時點的權重,實際上認為時序數據是等權重的了。這里筆者在面板數據聚類分析中引入時間序列趨勢外推預測方法,進行進一步深入探討。
時間序列的基本特征是,其數值是依時間的變化而變化,起伏交替,有起有伏的,有些有某些變化趨勢??紤]以下幾種序列:(1)具有水平趨勢的數據序列;(2)具有非水平趨勢的數據序列;(3)具有線性趨勢的數據序列。
研究總體共有N個樣品,每個樣品的特征用p個指標表示(X1,X2,…,Xj,…,Xp),時間長度為 T,則 Xij(t)表示第 i個樣品第j個指標在時間t的數值。
Xij(t)(t=1,2…T)表現為在某一水平線上下波動,Xij=βij+εt,εt~N(0,σ2)則
X^ij=(Xij(1)+Xij(2)+…+Xij(T))/T
其中X^ij表示為第i個樣品第j個指標的估計值。Xij(t)(t=1,2…T)對X^ij的貢獻是等權的。

考慮到非水平趨勢,可選用加權平均法,

其中,α1,α2,…,αT≥0,為加權因子,當 α1,α2,…,αT>0時,意味著所有時點數據都有價值。

在線性的時間序列中,存在到底是運用哪一期的估計值的問題,具體要看所要研究的問題。
常見聚類統計量有距離和相似系數。距離多用于樣品的分類,常見聚類有明氏距離、歐式距離、馬氏距離和蘭氏距離,因而這里以歐式距離為例。假設面板數據中指標具有相同的時序趨勢,設Drk表示為歐式空間距離,drk表示為對原面板數據進行壓縮后得出的歐式距離。
具有水平趨勢的數據序列的歐式距離,將第r樣品與第k樣品之間的歐式空間距離記為

也可以對原面板數據進行壓縮,由上節可知,X^ij=(Xij(1)+Xij(2)+…+Xij(T))/T,則面板數據的問題回歸到一般的截面數據的聚類分析中,

也可以對原面板數據進行壓縮,由上節可知,

則面板數據的問題回歸到一般的截面數據的聚類分析中。
如果對于某些研究樣品,不同研究目的導致不同時點的觀察值的價值有差異,如研究各省、市、自治區城鎮居民生活消費的分布規律,進而預測未來城鎮居民生活消費的分布情況,在這個例子中年份越近的數據對于居民生活消費的未來分布規律影響越大,因而,越近的時點數據可以賦予更高的權重,αT>αT-1>…>α1。
由上節知,X^ij(t)=aij+bijt
如果考察初始時期總體樣品的類別,可選用X^ij(0)或X^ij(1),選擇X^ij(0)則更考慮初始化時期總體樣品的類別。
如果想要考察未來時期的聚類情況,可選用未來時點T+t的估計值X^ij(T+t)=aij+bij(T+t)

如果想要考察總體樣品的變化情況的類別,可選用一階差分,即 ΔX^rj(t)=bij。

聚類分析的方法很多,有系統聚類、動態聚類、有序聚類等,系統聚類法是目前國內外使用得最多的一種方法,常用的聚類方法有最短距離法、最長距離法、重心法、離差平方和法等,這里主要選擇離差平方和法來說明各類面板數據的聚類過程。
記第g類樣品間的空間離差平方和為Sg,

其中,ig表示第g類中所有樣品序號的集合,)表示第g類所有樣品第j個指標在t時間的平均值。

其中,ig表示第g類中所有樣品序號的集合, 表示第g類所有樣品第j個指標的估計值的平均值。
記第g類樣品間的空間離差平方和為Sg,

其中,ig表示第g類中所有樣品序號的集合,t)表示第g類所有樣品第j個指標在t時間的平均值,
如果進行壓縮數據,=(α1Xij(1)+α2Xij(2)+…+αT,記第g類樣品間的離差平方和為sg,則

其中,ig表示第g類中所有樣品序號的集合 表示第g類所有樣品第j個指標的估計值的平均值。

如果想要考察總體樣品的變化情況的類別,記第g類樣品間的差分離差平方和為Δsg,

其中,ig表示第g類中所有樣品序號的集合,表示第g類所有樣品第j個指標的bij的平均值。

其中,ig表示第g類中所有樣品序號的集合,表示第g類所有樣品第j個指標在t時間的估計值的平均值。
面板數據的聚類分析只是面板數據在多元統計分析中的一個方面,本文對面板數據的聚類分析作了一些基礎性的研究和實證分析,這里僅僅考慮有限的數據時間序列趨勢,而且要求同個面板數據中時序趨勢是屬于同一類的,不同的類聚類分析還需要進一步的研究,可喜的是非等時間間隔的面板數據的聚類方法的研究可以依照此思路開展下去,有待于進一步探討。
[1]Bonzo D.C.,Hermosilla A.Y.Clustering Panel Data via Perturbed Adaptive Simulated Annealing and Genetic Algorithms[J].Advances in Complex Systems,2002,(4).
[2]朱建平,陳民懇.面板數據的聚類分析及其應用[J]統計研究,2007,(4).
[3]鄭兵云.多指標面板數據的聚類分析及其應用[J].數理統計與管理,2008,(3).