唐婷婷,鄧光明
(桂林理工大學 理學院,廣西 桂林 541006)
面板數據是現實數據庫中極為常見的數據形式,是一種多指標的時間序列,包含的信息量較充足,且具有截面數據和時間序列的雙重特性,用面板數據進行聚類分析能夠更好反映指標的動態發展趨勢和發展狀態,因此,大多數學者為得到更為精確的聚類結果,經常使用面板數據進行聚類分析。面板數據聚類的基本思想是圍繞如何找到更為精準的相似性度量和采用何種方法進行聚類這2個方面展開,其聚類方法大致可分為多元統計方法和非多元統計方法,非多元統計方法主要從數學和計算機角度入手,主要包括:灰色聚類[1-3]、模糊C均值聚類[4-6]、基于投影尋蹤的聚類[7]等方法。在基于多元統計方法的面板數據聚類中,其聚類的主要思想就是從多元統計的角度尋找更為精準的相似性度量,如李因果等[8]為了能夠展現指標的動態發展趨勢,選用“絕對量”“增長速度”和“變異系數”分別表示面板數據的“絕對量”“相對量”和“時序波動”特征,根據實際需求賦予這3個特征相應的權重,采用歐氏距離重構了相似性度量的“綜合”距離函數,改進了Ward聚類算法;任娟[9]提取了面板數據的水平指標、增量指標和增長變化率,選擇歐式距離來描述樣品之間的鄰近程度,重構了離差平方和函數,再進行系統聚類;黨耀國等[10]針對面板數據聚類中采用歐氏距離進行聚類存在缺陷這一問題,對面板數據的動態變化進行深度挖掘,通過提取“絕對量”“波動”“偏度”“峰度”等特征來構建新的特征向量,進而進行聚類分析。但這些方法都存在著不足之處,其一,歐氏距離無法處理對應數據間沿時間軸方向彎曲、伸縮等問題,無法合理的反應2個時間序列趨勢的相似性;其二,用特征提取的方法對面板數據進行降維之后,需依據現實需求或主觀給定相應的特征權重,這無法保證賦權的客觀性和合理性。
基于歐氏距離無法合理反應時間序列趨勢相似性和賦權問題,劉云霞[11]提出了一種基于動態時間規整的面板數據聚類方法,運用了主成分的思想對面板數據進行降維,再對降維后的時間序列采用動態時間規整的方法進行面板數據的聚類分析,這一方法具有一定的普適性且可視化效果較好,既能反映面板數據的動態發展趨勢,又能夠避免由于賦權不合理而影響聚類結果這一問題。但這一方法易受離群值的影響,數據中存在離群值會影響時間序列提取的準確性,進而影響聚類的效果,因此本文運用穩健統計量對動態時間規整的面板數據聚類方法進行改進,通過獲得穩健的時間序列,消除離群值對動態時間規整結果的影響。
穩健一詞在統計學中是用以表征控制系統對特性或參數擾動的不敏感性。Box認為:若過程在所基于的假設違背的條件下,仍然能給出較好的結果即為穩健[12]。在統計分析中,通常用穩健性來度量模型對離群值的敏感性,采用穩健統計量來優化不符合規格的模型,進而提升模型對離群值的抵御能力。穩健統計的思想和估計方法最早由Huber等[13]提出,Rousseeuw提出的最小協方差(minimum covariance determinant,MCD)是最具代表性的一種估計方法[14]。MCD估計是一種最經典的用于尋找穩健協方差估計量的方法,其目的是通過構造穩健的樣本協方差矩陣來抵御離群值的影響[15]。MCD估計主要利用迭代和馬氏距離的思想構造一個穩健的協方差矩陣估計量,其基本步驟如下:
步驟1從n行p列的矩陣中選取h個樣本,計算這h個樣本數據的樣本均值和協方差矩陣,樣本均值記為T1,協方差矩陣記為S1。
步驟2計算n個樣本數據到T1的距離,此處采用的是馬氏距離:

步驟3選取n個距離中最小的h個距離,計算這h個距離所對應的樣本數據的樣本均值和協方差矩陣,樣本均值記為T2,協方差矩陣記為S2。
步驟4 不斷迭代步驟3,當det(Sk)=det(Sk-1)時,迭代停止,當且僅當T1=T2,S1=S2時,det(1)=det(2)。
步驟5根據得到的Sk對其進行加權,即可得到穩健的協方差矩陣估計量,記為S*。
但這一方法計算復雜度較高,因此,在實際應用中,通常采用的是Rousseeuw提出的快速MCD(FAST-MCD)方法來構造算法,獲得穩健的協方差矩陣,進而計算出穩健相關矩陣并進行聚類分析[16]。
動態時間規整(dynamic time warping,DTW)是度量時間序列相似性的一種方法,也是時間序列的聚類方法之一[11]。該方法與歐氏距離是用于衡量時間序列相似性的2種常用的度量方法,不同于歐氏距離的是,該方法可以用于時間序列不等長的情況,并且在整體波形形狀很相似,但在時間軸上不對齊的情況下,使用DTW來度量2個時間序列的相似性更為合理。DTW是一個典型的優化問題,通過把時間序列進行延伸和縮短,從而達到將2個不等長的時間序列進行對齊的目的,進而找到2個波形對齊的點,在滿足約束條件的眾多路徑中,選取距離最短的那條路徑來計算2個時間序列之間的相似性,將相似性較高的序列劃分為同一組。DTW方法用于面板數據聚類時,對時間序列的提取效果有較高的要求,時間序列的提取效果不好對DTW聚類的結果會產生很大的影響,因此,提升時間序列提取的準確性能夠得到更為準確的DTW距離矩陣,進而提升聚類效果。計算DTW距離的方法如下:
假定比較2個時間序列X=(x1,x2,…,xn)和Y=(y1,y2,…,ym),若m=n,則這2個時間序列為等長時間序列,若m≠n則需要通過動態規劃的思想將X和Y這2個時間序列進行對齊。
首先計算2個時間序列中每對元素xi和yj的局部相異性測度函數f(·),即元素xi和yj間的歐氏距離。有

彎曲曲線(warping curve)定義為:

式中:彎曲函數Φx(k)和Φy(k)分別映射x和y的時間指數,k=1,…,T,Φx(k)、Φy(k)∈{1,…,t}。
在給定彎曲路徑Φ的前提下,計算彎曲時間序列X和Y的平均累積變形,即X和Y動態規整后的距離為:

式中:mΦ(k)是權重系數;MΦ(k)是對應的歸一化常數;Φx(k+1)≥Φx(k)。
在眾多規整路徑之中找到時間序列X和Y整體代價最小的路徑,即時間序列X和Y的最優配置Φ,此路徑對應的動態規整后的距離即為時間序列X和Y的DTW距離,即:

動態時間規整是一種時間序列的聚類方法,作用于面板數據提取時間序列之后,因此時間序列的提取會對動態時間規整的結果產生影響,而離群值的存在會影響時間序列提取的準確性,進而影響最后的聚類結果,因此本文為了提升時間序列提取的準確性,將穩健統計量與動態時間規整相結合,構建出穩健動態時間規整的面板數據聚類方法,具體步驟如下:
1)用Fast-MCD方法計算t個時間點上的樣本穩健均值向量Tt和穩健協方差矩陣,再根據穩健協方差矩陣計算出穩健相關矩陣:


3)為了減少數據信息流失,本文取全部主成分計算每個樣本在每個時間點上的綜合得分F*h。
4)將所得到的F*h作為新的數據集,利用DTW方法來度量各綜合得分時間序列的相似性,得到樣本間的初始距離矩陣:

5)根據DTW距離矩陣,采用系統聚類法中的Ward法進行聚類。
選取2005—2019年,我國31個省市自治區人口總數、城鎮人口數、農村人口數、死亡率、出生率和自然增長率這6項人口情況數據,并根據上述數據對31個省市自治區進行聚類分析。本文所使用數據均源自《中國統計年鑒》。
首先,以地區為單位,將原始數據分成31個樣本,對每個樣本分別進行穩健主成分分析來獲取穩健主成分綜合得分,如表1所示。由于篇幅有限,表1給出的是2019年31個省市自治區的綜合得分,為了便于比較,表1中還給出了未進行穩健處理的主成分綜合得分。

表1 2019年31個省市自治區穩健前后的綜合得分
從表1中可以看出:重慶、湖南、新疆、湖北、上海、廣東和遼寧7個地區在引入穩健統計量前、后的綜合得分變化較大,說明數據中存在離群值,這7個地區所對應的數據在引進穩健統計量后,偏離樣本中心的樣本點被排除了,使得引入穩健統計量后的綜合得分發生了改變。
接下來運用動態時間規整方法計算引進穩健統計量后的各時間序列間的距離,然后用系統聚類法中的Ward法進行聚類。在聚類之前,需要確定合理的聚類數,聚類的數目可參照碎石圖來確定,圖1給出的是DTW方法的系統聚類碎石圖。

圖1 穩健DTW方法的系統聚類碎石圖
從碎石圖中可以看出,當聚類數目取4的時候,曲線坡度變化較小,逐漸趨于穩定,因此聚類數目取4類較為合理。最后采用系統聚類法中的Ward法進行聚類,將31個省市自治區分為4類,聚類結果如圖2所示。

圖2 改進后的DTW聚類結果
為了便于比較改進前后聚類結果的差異,將改進前與改進后的DTW聚類結果一并放入表2中。

表2 改進前后的DTW聚類結果
從聚類結果中可以看出:改進前后的聚類結果差異較大。綜合得分發生較大變化的重慶、湖南、新疆、湖北、上海、廣東和遼寧這7個地區在聚類后的變化較為明顯,改進前的聚類結果中,上海、湖南和遼寧聚為一類;廣東一類;新疆、重慶和湖北聚為一類。改進后這7個地區中,重慶、湖南和新疆聚為一類;湖北、遼寧各自為一類;上海和廣東聚為一類。
從總體聚類效果來看,改進前的DTW聚類結果將浙江獨自聚為第1類,但在實際情況中,浙江人口情況數據的變化趨勢并不是特有的,其總人口數和城鎮人口數逐年平穩增長,農村人口數逐年遞減,出生率和自然增長率在近2年都顯著降低,與重慶、湖南等城市的人口情況數據變化趨勢高度相似,因此,將浙江獨自聚為一類顯然是不合理的。第3類中將云南與上海、北京聚為一類,但從人口情況數據的變化趨勢來看,云南的各項人口情況數據的總體變化趨勢較為平穩,而北京、上海的總人口數增長速度較快,且自然增長率和出生率的波動起伏較大,與云南的人口情況數據變化趨勢差異較大,因此,將云南與上海、北京等地區聚為一類也是不合理的。
改進后的聚類結果將浙江與重慶、湖南、新疆聚為一類,這4個地區的總人口數和城鎮人口數逐年平穩增長,農村人口數逐年遞減,出生率和自然增長率在近2年都顯著降低,可見將這4個地區聚為一類是合理的。第2類將山東、福建、陜西、湖北、江西、山西、寧夏、青海、內蒙古、西藏、河北、吉林、四川、甘肅、黑龍江和海南聚為一類,這類地區的總人口數增長較為平穩,且增長幅度非常小,總人口數基本保持不變,出生率和自然增長率均呈現平穩或下降的趨勢,這類地區經濟發展相對穩定,人口流動形式多屬于省內人口流動。第3類將上海、北京、天津和廣東聚為一類,這類地區城鎮人口數的增長速度較快,農村人口下降幅度非常小,自然增長率總體呈現較為平穩的趨勢,但具體變化趨勢波動性較大,北京、天津、上海、廣州這類地區經濟發展較為迅速,人才流入量較大,這在一定程度上致使總人口數和城鎮人口數增長速度較快。第4類將貴州、廣西、江蘇、安徽、河南、云南和遼寧聚為一類,這類地區的城鎮人口數的增長速率與農村人口數的下降速率基本一致,總人口數基本持平,自然增長率、死亡率和出生率非常平穩,無太大的改變,這類的城市經濟發展與文化發展都非常穩定。
為了進一步直觀反映改進后的聚類效果,本文給出2005—2019年各類地區取全部主成分后的綜合得分趨勢圖,如圖3所示。

圖3 改進后2005—2019年各類地區綜合得分趨勢圖
從圖中可以較為直觀的看出每一類中的樣本的綜合得分走勢十分相似,第1類呈現穩定增長的趨勢,第2類呈現穩定下降的趨勢,第3類呈現先下降后平穩的趨勢,第4類呈現先平穩后下降的趨勢,說明聚類結果較為穩健。
為了更加直觀地比較2種方法的聚類效果,本文還給出了改進前的各類地區綜合得分趨勢圖,如圖4所示。

圖4 改進前2005—2019年各類地區綜合得分趨勢圖
從圖中可以看出:第1類的綜合得分趨勢,將增長的趨勢與下降的趨勢聚為一類,顯然是不合理的,且第2類的綜合得分趨勢與第1類中部分變量的增長趨勢相似卻獨自聚為一類也是不合理的。因此,通過比較2種方法得出的綜合得分趨勢圖可以得出以下結論:采用改進前的方法進行聚類的效果不是非常合理,而改進后的綜合得分趨勢圖中,每個類別中的變量綜合得分趨勢都十分相似,說明此方法能夠更加準確地將綜合得分趨勢相近的城市聚成一類,與改進前的方法相比,改進后的DTW聚類方法得到的聚類效果更好。
綜上所述,將2種方法得到的結果與實際情況相驗證,可知改進后的動態時間規整的面板數據聚類的聚類效果要比改進前的動態時間規整的面板數據聚類的聚類結果好,提升了時間序列提取的準確性,能夠很好地抵御離群值的影響,使聚類效果更好,更穩健,更貼合實際意義。
文中引進Fast-MCD穩健統計量消除離群值給聚類結果的影響,提升時間序列提取的準確性,消除了離群值對動態時間規整結果的影響,得到較為穩健的聚類結果,實證結果表明:引進穩健統計量后的DTW聚類結果較為穩健且更符合實際。