黨耀國,侯荻青
(南京航空航天大學經濟與管理學院,南京211106)
基于特征提取的多指標面板數據聚類方法
黨耀國,侯荻青
(南京航空航天大學經濟與管理學院,南京211106)
多指標面板數據能夠較全面的提供研究對象的信息和數據特征,但復雜的數據結構也給其聚類分析帶來了一定的困難。針對這一問題,文章提出了基于特征提取的多指標面板數據聚類方法,該方法將能夠表征面板數據動態變化的“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征及“趨勢”特征引入動態聚類算法中,可以避免以往采用歐式距離進行聚類的局限性,還可以處理帶有缺失數據的面板數據,同時大大提高了聚類效率,并最大限度地保證時間維度信息不受損失。利用該方法分析了2001至2013年我國不同省份道路交通事故的不平衡狀況,通過實證分析表明該方法能夠解決多指標面板數據聚類的問題。
面板數據;特征提??;動態聚類;交通事故
面板數據又稱時間序列截面數據或混合數據,是由不同個體在多個時期上觀測得到的數據,它綜合了時間序列與截面數據的特征,能夠描述研究對象的動態特征,在經濟與管理問題的建模與分析中具有重要的地位。面板數據的聚類分析是指依據不同指標的觀測數據,把數據劃分為若干類,以尋找每一類的模式或各種潛在的有用信息,有效的聚類結果還可以作為面板數據計量研究前的預處理步驟,避免僅靠經驗分類造成的誤差[1]。
本文指出了目前常用的歐式距離在聚類時的缺點,然后提出了一種基于特征提取的面板數據聚類方法:首先從多個角度出發描述面板數據的統計特征,通過提取的特征值構建特征向量來反映面板數據的主要信息,之后通過動態聚類的方法對這些特征進行聚類,以提高聚類效率,并最大限度保證時間維度信息不受損失。
1.1單指標面板數據
單指標面板數據是由多個樣本在不同時點的指標值構成的數據集合,與截面數據數據格式類似,都可用二維表或矩陣的形式來表示。其聚類分析的思路有兩種:第一,將單指標面板數據的時間維度轉換為截面數據的指標維度,采用與截面數據完全相同的方法進行聚類;第二,將單指標面板數據的每個樣本看做一條時間序列,通過衡量時間序列的相似程度進行聚類??偟膩碚f,單指標面板數據的聚類分析比較簡單,聚類方法一般包括系統聚類、動態聚類、灰色聚類等。
1.2多指標面板數據
多指標面板數據從橫截面上看,是由若干個體在某一時刻構成的截面觀測值,從縱剖面上看則是一組時間序列,其包含的每個數據點可用三下標變量表示,例如,i=1,2,…,N,k=1,2,…,P,t=1,2,…,T。N表示面板數據中含有的個體數;P表示指標變量的總數;T表示時間序列的最大長度。嚴格來說,多指標面板數據應該以空間三維表的形式來表示,但考慮到面板數據是由不同個體的多個指標隨時間變化的序列構成,本文從個體維度將多指標面板數據展開為平面上的二級矩陣,重點從時間維度來設計面板數據的統計量。
樣本總體X可表示為矩陣[X1…Xi…XN]T,其中,總體的一個樣本Xi的矩陣表示為:

(1)樣本i的第k個指標的均值μki
(2)樣本i的第k個指標的標準差:

1.3多指標面板數據的時間序列特征
多指標面板數據不僅能反映某一時期指標發展的絕對水平,還能反映其描述的對象在一段時期內的發展趨勢、波動程度等動態演化規律。這些特點決定了在對多指標面板數據進行聚類分析時,要綜合考慮其時空特征。多指標面板數據的時空特征至少包括以下四方面的信息:(1)某時期指標發展的絕對水平;(2)對某個特定個體而言,某項指標的增長變化情況,即趨勢;(3)對某個特定個體而言,某項指標的起伏變化或波動情況;(4)對某個特定個體而言,某項指標的分布特征。
已有文獻雖然對面板數據的增量變化進行了一定的討論,但并未對面板數據的動態變化進行深度挖掘,且計算量異常繁重,使得方法的實用性有所削弱。此外,過去的文獻大多采用歐氏距離來刻畫面板數據之間的相似性,而歐式距離在處理帶有時間序列的數據時存在固有的缺陷。例如,從面板數據中抽取某樣本不同指標的兩條數據序列與,二者取值時點相同,并且在相同時點上所取的值都相差一個相同的常數,即序列是由向下平移c個單位得到的,兩條序列的波動情況完全是相似的,但如果計算歐氏距離,很可能因為兩者之間距離過大而得出不屬于同一類的結論。
盡管已有一些改進,例如構建反映面板數據波動情況的綜合距離,并通過權重的調節來減少上述誤差,但是這些改進仍然不支持面板數據可能出現的線性漂移和時間彎曲。如圖1所示,兩條單指標序列的波形基本相似,但是波峰和波谷的位置并沒有完全對齊,而是略有偏差,在歐式距離下這兩條時間序列卻不會被認為是相似的,這是因為歐式距離只能考察不同樣本在對應時點上取值的差異,沒有考慮到樣本是隨時間變化的一列值。

圖1 兩條單指標序列不同時期的波形
2.1面板數據的標準化處理
由于面板數據的各指標量綱不盡相同或數值范圍相差較大,因此需要對進行標準化處理,標準化公式較多,這里采用均值化的方法,即


即均值化后各指標的方差是各指標變異系數的平方,這樣既消除了量綱和數量級的影響,又可以保留指標值的變異信息,突出后續所提取特征的差異性。為方便表示,下文仍用來表示標準化后得到的
2.2特征提取的基本思想
聚類之前對面板數據進行特征提取,可以揭示其潛在的相似變化機制和結構,從而發現更有意義的聚類結果。本文利用盡可能少的特征來反應面板數據的主要信息,然后再將這些特征進行聚類,可避免上述提到的采用歐式距離進行聚類的缺陷;此外,由于提取的特征來自數據本身,且具有特定的含義,所以最后的聚類結果也具有可解釋性。可將基于面板數據的特征提取概括為兩個步驟:特征值的計算與特征向量的構建[2,3]。
2.3面板數據特征向量的設計與度量
為了能夠準確的刻畫面板數據的時空特征,必須考慮指標在考察期內發展的絕對水平、趨勢、波動程度、分布情況等,因此,對面板數據聚類的特征向量的設計必須是幾方面信息的有效融合。對于面板數據集,設其有N個樣品,每個樣品有T個時期的P項指標。
定義1樣本i的第k個指標的全時“絕對量”特征(AbsoluteQuantity Feature),簡記為

定義2樣本i的第k個指標的全時“波動”特征(Variance Feature),簡記為VF

定義3樣本i的第k個指標的全時“偏度”特征(SkewnessCoefficientFeature),簡記為SCF

定義4樣本i的第k個指標的全時“峰度”特征(KurtosisCoefficientFeature),簡記為KCF

該特征表征了個體i在整個時期T內指標值的集中程度或分布曲線的尖峭程度,若大于0,表示指標值的分布比正態分布更集中在平均值周圍;若小于0,表示指標值的分布比正態分布更分散。定義3和定義4都反映了樣本數據的分布特征,若兩個樣本隨時間發展呈現較一致的分布,則說明二者更相似。
定義5樣本i的第k個指標的全時“趨勢”特征(Trend Feature),簡記為

定義6樣本i的特征向量(Feature Vector),簡記為M i:

其中

3.1動態聚類分析的基本思想
為了克服系統聚類法效率太低的缺點,就需要避開全面的計算和比較,基于這種思想產生了動態聚類法,又稱逐步聚類法。動態聚類法利用迭代法的思想聚類,在局部分析的基礎上,作出較為粗略的分類,然后再按某種最優的準則進行修正,直至分類比較合理為止,這樣就得到了最終的分類結果。
動態聚類法有許多種方法,目前運用最為普遍的是重心法,又稱k均值法,它是麥奎恩(MacQueen)于1967年提出的。這一方法的基本思想是:按照一定的原則,從樣本集中選取K個點作為初始聚類中心,記為,括號內序號為迭代次序號;計算各樣本點與初始聚類中心的距離D,按照距離最小的原則將樣本集分為K類,記為再計算各個類的重心,從而得到新的分類結果重復以上兩步,得到分類結果序列給定充分小的允許誤差值,當兩次分類結果不超過該誤差值時,即得到最終分類[4]。
3.2距離的定義
由于聚類算法以距離作為聚集的基礎,因此本文采用了標準的歐氏距離來計算類直徑以及類之間的距離。對于包含T個時期,P個指標,N個樣品的面板數據,我們需要對上文得到的由特征向量Mi表示的不同樣本進行聚類,為便于表示,用代替特征向量Mi中的元素,由于向量Mi中包含有P×5個特征值,顯然。

這里給出類直徑與類間距離的相應公式:
類Gi的直徑:

類Gi與類Gj之間的距離:

3.3初始聚類數目的確定
需要指出的是,動態聚類法中的聚類數目K需要事先確定。一般來說,聚類數目的增加會導致類內距離下降,類間距離增加,因此,要得到一個絕對最優的聚類數是不可能的。此外,由于經濟領域的聚類分析主要用于探索性研究,其分析結果可以存在多個可能解。所以應根據研究目的,針對面板數據的數據信息,并結合所研究問題的實踐意義,先初步確定聚類數目的合理區間,進而在上述聚類數目確定方法的基礎上,根據實際問題的需要,通過不斷篩選和調整,最終獲得相對滿意的聚類數目,以實現類內相似度和類間相似度二者的協調[5]。
先定義如下函數

可根據實際情況設定最大和最小的聚類數K1和K2,然后從K1到K2進行聚類計算,從中選取使達到最大的K作為最佳聚類數目。
3.4面板數據動態聚類的步驟
設有N個樣品,每個樣品有T個時期的P項指標,面板數據動態聚類的具體步驟如下:
步驟2根據式(2)到(6)、(8)分別計算特征值及標準化,根據式(7)得到每個樣本的特征值向量Mi,由此構成特征向量集合Ω={Mi| i=1,2,…,N};
步驟3從特征向量集合Ω中選取K個點作為初始聚類中心,記為L(0)={A1(0),A2(0),···,Ak(0)},根據式(10)計算各樣本與初始聚類中心的聚類D,若D[Mi,Ah(0)]=min{D[Mi,Aj(0)],?j=1,2,···,K,j≠i},則判斷Mi∈Gh(0),由此把Ω中的向量分為K類,記為Θ(0)={G1(0),G2(0),···,Gk(0)};
步驟6根據式(11)計算各類之間的聚類,得到最終的聚類結果。
本文對2001年至2013年我國31個省區的交通事故情況進行聚類分析,呈現了我國地區間交通事故的不平衡狀況,并對造成這種差異性的可能原因進行了分析。
4.1數據來源和處理方法
本文選取交通事故次數、死亡人數、受傷人數以及直接經濟損失這四個指標來考察我國的交通事故情況。該四項指標既是認識交通事故的起點,又是構造其他交通事故統計指標的基礎,基本涵蓋了道路交通事故所造成各種損害的主要方面,表征的交通事故情況直觀、明確,在交通事故統計分析中具有重要意義。本文使用的數據來源于中國統計年鑒(2002年-2014年)。
4.2聚類分析結果
按照前文提出的面板數據聚類方法與步驟,借助SPSS19與EXCEL2007運算工具對各省交通事故數據進行了聚類。為了對聚類結果進行對比分析,本文分別計算了特征向量取不同權重時的聚類結果,見表1。顯然,可以看出,不同權重系數確定的分類結果存在一定的差異,一般來說,某個特征值的權重系數越大,最終的聚類結果越能反映該方面的特點。對權重向量W1、W2、W3的賦值分別側重于反映面板數據的絕對量、長期趨勢及發展波動情況。例如,在權重W=(0,0.25,0.25,0.25,0.25)時,上海、江蘇、浙江、福建、山東、河南、廣東被聚為一類,這幾個省份每年交通事故的指標值有較大差異,但波動情況十分相似,各項指標幾乎同時在2002年達到最大值,之后快速下降,這與2003年《道路交通安全法》的出臺應該存在直接的關系,說明該法的頒布實施對這些地區維護交通安全和預防交通事故,起到了至關重要的作用。

表1 不同權重下交通事故的面板數據聚類結果
本文在專家調查的基礎上,通過AHP法得到了面板數據5個特征的主觀權重系數,即:W=(0.375,0.125,0.1,0.1, 0.3),此權重系數表明:決策者最看重的是中國交通事故發展的絕對量特征,其次是趨勢特征,此時31個省的交通事故狀況被分為三類。
第一類包括北京、天津、山西、內蒙古、遼寧、吉林、黑龍江、安徽、江西、湖北、湖南、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆,多為西南和東北地區,這些地區地域廣闊、人口密度低、經濟相對落后,道路的技術等級和通達性總體較差,交通機動化程度和運輸規模均很低,交通安全狀況相對較好,但北京和天津為例外;第二類包括河北、上海、江蘇、福建、山東、河南、四川,這些地區作為全國社會經濟發展的中間帶,交通安全狀況一般;第三類包括浙江、廣東,由于社會經濟活躍、人口總量大,不僅道路條件好,而且機動化程度高、交通運輸規模和道路通行率很大,所以交通狀況最差,各項指標值都遠高于其他各省。
經濟發展必然依賴并帶動人員出行和物資流通,從而導致交通運輸規模的擴張,因此,經濟的發展在初期會導致交通事故的增加;但隨著經濟的進一步發展,為交通建設提供了財力保障,政府和社會也會更加重視交通安全,積極加強交通管理和行為規范,從而有利于降低車輛的事故率[6,7]。這就解釋了為什么北京市和天津市的經濟發達程度明顯優于其他各省,但交通安全狀況卻較好。另一方面,浙江和廣東雖然經濟發達程度也很高,但本身常住人口密度大,且外來務工人員多,流動性大,無形中增加了交通管制的難度,但交通規模擴大后的交通沖突增加,仍會使事故的總量提高,所以交通事故的各項指標值都位于各省前列,交通安全形勢依然嚴峻。
本文聚類方法適用于多指標面板數據的樣本分類問題,綜合考慮多指標面板數據的動態特征,提出了用“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征、“趨勢”特征來表征多指標面板數據,并在此基礎上提出了多指標面板數據的動態聚類方法,利用該方法分析了2001至2013年我國不同省份道路交通事故的不平衡狀況,通過實證分析表明該方法能夠解決多指標面板數據聚類的問題。需要指出的是,本文中的特征提取思想實際上是一種數據的壓縮處理,勢必會造成部分信息的損失,因此僅適用于具有較長時間維度的面板數據的聚類(T≥10);此外,本文僅僅構造了幾個基礎性的特征統計量來反映經濟管理中面板數據的動態特征,其他更深層次更復雜的特征統計量還有待進一步研究。
[1]劉文麗,郝萬祿,夏球.我國科技金融對經濟增長影響的區域差異——基于東部、中部和西部面板數據的實證分析[J].宏觀經濟研究,2014,(02).
[2]Wang X,Wirth A,Wang L.Structure-based Statistical Features and Multivariate Time Series Clustering[R].Proceedings of the Seventh IEEE InternationalConferenceon DataMining,2007.
[3]宋辭,裴韜.基于特征的時間序列聚類方法研究進展[J].地理科學進展,2012,10(31)
[4]徐華鋒,方志耕.面板數據聚類分析的投影尋蹤模型[J].統計與決策,2010,(04).
[5]卞亦文.大樣本數據聚類的改進方法[J].統計與決策,2009(01).
[6]王明霞.道路交通安全與社會經濟影響因素的綜合關聯分析[J].管理世界,2011(03).
[7]王洪明.我國區域道路交通安全形勢對比與影響因素分析[J].中國安全科學學報,2010,(06).
(責任編輯/易永生)
0212,C812
A
1002-6487(2016)19-0068-05
國家自然科學基金資助項目(71071077,71371098);中央高?;究蒲袠I務費專項資金資助項目(NC2012001);南京航空航天大學基本科研業務費專項科研資助項目(NZ2010006)
黨耀國(1964—),男,江蘇南京人,教授,博士生導師,研究方向:灰色系統理論、數量經濟。