999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

穩健動態時間規整的面板數據聚類

2021-07-14 05:35:18唐婷婷鄧光明
關鍵詞:方法

唐婷婷,鄧光明

(桂林理工大學 理學院,廣西 桂林 541006)

面板數據是現實數據庫中極為常見的數據形式,是一種多指標的時間序列,包含的信息量較充足,且具有截面數據和時間序列的雙重特性,用面板數據進行聚類分析能夠更好反映指標的動態發展趨勢和發展狀態,因此,大多數學者為得到更為精確的聚類結果,經常使用面板數據進行聚類分析。面板數據聚類的基本思想是圍繞如何找到更為精準的相似性度量和采用何種方法進行聚類這2個方面展開,其聚類方法大致可分為多元統計方法和非多元統計方法,非多元統計方法主要從數學和計算機角度入手,主要包括:灰色聚類[1-3]、模糊C均值聚類[4-6]、基于投影尋蹤的聚類[7]等方法。在基于多元統計方法的面板數據聚類中,其聚類的主要思想就是從多元統計的角度尋找更為精準的相似性度量,如李因果等[8]為了能夠展現指標的動態發展趨勢,選用“絕對量”“增長速度”和“變異系數”分別表示面板數據的“絕對量”“相對量”和“時序波動”特征,根據實際需求賦予這3個特征相應的權重,采用歐氏距離重構了相似性度量的“綜合”距離函數,改進了Ward聚類算法;任娟[9]提取了面板數據的水平指標、增量指標和增長變化率,選擇歐式距離來描述樣品之間的鄰近程度,重構了離差平方和函數,再進行系統聚類;黨耀國等[10]針對面板數據聚類中采用歐氏距離進行聚類存在缺陷這一問題,對面板數據的動態變化進行深度挖掘,通過提取“絕對量”“波動”“偏度”“峰度”等特征來構建新的特征向量,進而進行聚類分析。但這些方法都存在著不足之處,其一,歐氏距離無法處理對應數據間沿時間軸方向彎曲、伸縮等問題,無法合理的反應2個時間序列趨勢的相似性;其二,用特征提取的方法對面板數據進行降維之后,需依據現實需求或主觀給定相應的特征權重,這無法保證賦權的客觀性和合理性。

基于歐氏距離無法合理反應時間序列趨勢相似性和賦權問題,劉云霞[11]提出了一種基于動態時間規整的面板數據聚類方法,運用了主成分的思想對面板數據進行降維,再對降維后的時間序列采用動態時間規整的方法進行面板數據的聚類分析,這一方法具有一定的普適性且可視化效果較好,既能反映面板數據的動態發展趨勢,又能夠避免由于賦權不合理而影響聚類結果這一問題。但這一方法易受離群值的影響,數據中存在離群值會影響時間序列提取的準確性,進而影響聚類的效果,因此本文運用穩健統計量對動態時間規整的面板數據聚類方法進行改進,通過獲得穩健的時間序列,消除離群值對動態時間規整結果的影響。

1 穩健統計量的選取

穩健一詞在統計學中是用以表征控制系統對特性或參數擾動的不敏感性。Box認為:若過程在所基于的假設違背的條件下,仍然能給出較好的結果即為穩健[12]。在統計分析中,通常用穩健性來度量模型對離群值的敏感性,采用穩健統計量來優化不符合規格的模型,進而提升模型對離群值的抵御能力。穩健統計的思想和估計方法最早由Huber等[13]提出,Rousseeuw提出的最小協方差(minimum covariance determinant,MCD)是最具代表性的一種估計方法[14]。MCD估計是一種最經典的用于尋找穩健協方差估計量的方法,其目的是通過構造穩健的樣本協方差矩陣來抵御離群值的影響[15]。MCD估計主要利用迭代和馬氏距離的思想構造一個穩健的協方差矩陣估計量,其基本步驟如下:

步驟1從n行p列的矩陣中選取h個樣本,計算這h個樣本數據的樣本均值和協方差矩陣,樣本均值記為T1,協方差矩陣記為S1。

步驟2計算n個樣本數據到T1的距離,此處采用的是馬氏距離:

步驟3選取n個距離中最小的h個距離,計算這h個距離所對應的樣本數據的樣本均值和協方差矩陣,樣本均值記為T2,協方差矩陣記為S2。

步驟4 不斷迭代步驟3,當det(Sk)=det(Sk-1)時,迭代停止,當且僅當T1=T2,S1=S2時,det(1)=det(2)。

步驟5根據得到的Sk對其進行加權,即可得到穩健的協方差矩陣估計量,記為S*。

但這一方法計算復雜度較高,因此,在實際應用中,通常采用的是Rousseeuw提出的快速MCD(FAST-MCD)方法來構造算法,獲得穩健的協方差矩陣,進而計算出穩健相關矩陣并進行聚類分析[16]。

2 動態時間規整原理

動態時間規整(dynamic time warping,DTW)是度量時間序列相似性的一種方法,也是時間序列的聚類方法之一[11]。該方法與歐氏距離是用于衡量時間序列相似性的2種常用的度量方法,不同于歐氏距離的是,該方法可以用于時間序列不等長的情況,并且在整體波形形狀很相似,但在時間軸上不對齊的情況下,使用DTW來度量2個時間序列的相似性更為合理。DTW是一個典型的優化問題,通過把時間序列進行延伸和縮短,從而達到將2個不等長的時間序列進行對齊的目的,進而找到2個波形對齊的點,在滿足約束條件的眾多路徑中,選取距離最短的那條路徑來計算2個時間序列之間的相似性,將相似性較高的序列劃分為同一組。DTW方法用于面板數據聚類時,對時間序列的提取效果有較高的要求,時間序列的提取效果不好對DTW聚類的結果會產生很大的影響,因此,提升時間序列提取的準確性能夠得到更為準確的DTW距離矩陣,進而提升聚類效果。計算DTW距離的方法如下:

假定比較2個時間序列X=(x1,x2,…,xn)和Y=(y1,y2,…,ym),若m=n,則這2個時間序列為等長時間序列,若m≠n則需要通過動態規劃的思想將X和Y這2個時間序列進行對齊。

首先計算2個時間序列中每對元素xi和yj的局部相異性測度函數f(·),即元素xi和yj間的歐氏距離。有

彎曲曲線(warping curve)定義為:

式中:彎曲函數Φx(k)和Φy(k)分別映射x和y的時間指數,k=1,…,T,Φx(k)、Φy(k)∈{1,…,t}。

在給定彎曲路徑Φ的前提下,計算彎曲時間序列X和Y的平均累積變形,即X和Y動態規整后的距離為:

式中:mΦ(k)是權重系數;MΦ(k)是對應的歸一化常數;Φx(k+1)≥Φx(k)。

在眾多規整路徑之中找到時間序列X和Y整體代價最小的路徑,即時間序列X和Y的最優配置Φ,此路徑對應的動態規整后的距離即為時間序列X和Y的DTW距離,即:

3 穩健動態時間規整的面板數據聚類

動態時間規整是一種時間序列的聚類方法,作用于面板數據提取時間序列之后,因此時間序列的提取會對動態時間規整的結果產生影響,而離群值的存在會影響時間序列提取的準確性,進而影響最后的聚類結果,因此本文為了提升時間序列提取的準確性,將穩健統計量與動態時間規整相結合,構建出穩健動態時間規整的面板數據聚類方法,具體步驟如下:

1)用Fast-MCD方法計算t個時間點上的樣本穩健均值向量Tt和穩健協方差矩陣,再根據穩健協方差矩陣計算出穩健相關矩陣:

3)為了減少數據信息流失,本文取全部主成分計算每個樣本在每個時間點上的綜合得分F*h。

4)將所得到的F*h作為新的數據集,利用DTW方法來度量各綜合得分時間序列的相似性,得到樣本間的初始距離矩陣:

5)根據DTW距離矩陣,采用系統聚類法中的Ward法進行聚類。

4 實證分析

選取2005—2019年,我國31個省市自治區人口總數、城鎮人口數、農村人口數、死亡率、出生率和自然增長率這6項人口情況數據,并根據上述數據對31個省市自治區進行聚類分析。本文所使用數據均源自《中國統計年鑒》。

首先,以地區為單位,將原始數據分成31個樣本,對每個樣本分別進行穩健主成分分析來獲取穩健主成分綜合得分,如表1所示。由于篇幅有限,表1給出的是2019年31個省市自治區的綜合得分,為了便于比較,表1中還給出了未進行穩健處理的主成分綜合得分。

表1 2019年31個省市自治區穩健前后的綜合得分

從表1中可以看出:重慶、湖南、新疆、湖北、上海、廣東和遼寧7個地區在引入穩健統計量前、后的綜合得分變化較大,說明數據中存在離群值,這7個地區所對應的數據在引進穩健統計量后,偏離樣本中心的樣本點被排除了,使得引入穩健統計量后的綜合得分發生了改變。

接下來運用動態時間規整方法計算引進穩健統計量后的各時間序列間的距離,然后用系統聚類法中的Ward法進行聚類。在聚類之前,需要確定合理的聚類數,聚類的數目可參照碎石圖來確定,圖1給出的是DTW方法的系統聚類碎石圖。

圖1 穩健DTW方法的系統聚類碎石圖

從碎石圖中可以看出,當聚類數目取4的時候,曲線坡度變化較小,逐漸趨于穩定,因此聚類數目取4類較為合理。最后采用系統聚類法中的Ward法進行聚類,將31個省市自治區分為4類,聚類結果如圖2所示。

圖2 改進后的DTW聚類結果

為了便于比較改進前后聚類結果的差異,將改進前與改進后的DTW聚類結果一并放入表2中。

表2 改進前后的DTW聚類結果

從聚類結果中可以看出:改進前后的聚類結果差異較大。綜合得分發生較大變化的重慶、湖南、新疆、湖北、上海、廣東和遼寧這7個地區在聚類后的變化較為明顯,改進前的聚類結果中,上海、湖南和遼寧聚為一類;廣東一類;新疆、重慶和湖北聚為一類。改進后這7個地區中,重慶、湖南和新疆聚為一類;湖北、遼寧各自為一類;上海和廣東聚為一類。

從總體聚類效果來看,改進前的DTW聚類結果將浙江獨自聚為第1類,但在實際情況中,浙江人口情況數據的變化趨勢并不是特有的,其總人口數和城鎮人口數逐年平穩增長,農村人口數逐年遞減,出生率和自然增長率在近2年都顯著降低,與重慶、湖南等城市的人口情況數據變化趨勢高度相似,因此,將浙江獨自聚為一類顯然是不合理的。第3類中將云南與上海、北京聚為一類,但從人口情況數據的變化趨勢來看,云南的各項人口情況數據的總體變化趨勢較為平穩,而北京、上海的總人口數增長速度較快,且自然增長率和出生率的波動起伏較大,與云南的人口情況數據變化趨勢差異較大,因此,將云南與上海、北京等地區聚為一類也是不合理的。

改進后的聚類結果將浙江與重慶、湖南、新疆聚為一類,這4個地區的總人口數和城鎮人口數逐年平穩增長,農村人口數逐年遞減,出生率和自然增長率在近2年都顯著降低,可見將這4個地區聚為一類是合理的。第2類將山東、福建、陜西、湖北、江西、山西、寧夏、青海、內蒙古、西藏、河北、吉林、四川、甘肅、黑龍江和海南聚為一類,這類地區的總人口數增長較為平穩,且增長幅度非常小,總人口數基本保持不變,出生率和自然增長率均呈現平穩或下降的趨勢,這類地區經濟發展相對穩定,人口流動形式多屬于省內人口流動。第3類將上海、北京、天津和廣東聚為一類,這類地區城鎮人口數的增長速度較快,農村人口下降幅度非常小,自然增長率總體呈現較為平穩的趨勢,但具體變化趨勢波動性較大,北京、天津、上海、廣州這類地區經濟發展較為迅速,人才流入量較大,這在一定程度上致使總人口數和城鎮人口數增長速度較快。第4類將貴州、廣西、江蘇、安徽、河南、云南和遼寧聚為一類,這類地區的城鎮人口數的增長速率與農村人口數的下降速率基本一致,總人口數基本持平,自然增長率、死亡率和出生率非常平穩,無太大的改變,這類的城市經濟發展與文化發展都非常穩定。

為了進一步直觀反映改進后的聚類效果,本文給出2005—2019年各類地區取全部主成分后的綜合得分趨勢圖,如圖3所示。

圖3 改進后2005—2019年各類地區綜合得分趨勢圖

從圖中可以較為直觀的看出每一類中的樣本的綜合得分走勢十分相似,第1類呈現穩定增長的趨勢,第2類呈現穩定下降的趨勢,第3類呈現先下降后平穩的趨勢,第4類呈現先平穩后下降的趨勢,說明聚類結果較為穩健。

為了更加直觀地比較2種方法的聚類效果,本文還給出了改進前的各類地區綜合得分趨勢圖,如圖4所示。

圖4 改進前2005—2019年各類地區綜合得分趨勢圖

從圖中可以看出:第1類的綜合得分趨勢,將增長的趨勢與下降的趨勢聚為一類,顯然是不合理的,且第2類的綜合得分趨勢與第1類中部分變量的增長趨勢相似卻獨自聚為一類也是不合理的。因此,通過比較2種方法得出的綜合得分趨勢圖可以得出以下結論:采用改進前的方法進行聚類的效果不是非常合理,而改進后的綜合得分趨勢圖中,每個類別中的變量綜合得分趨勢都十分相似,說明此方法能夠更加準確地將綜合得分趨勢相近的城市聚成一類,與改進前的方法相比,改進后的DTW聚類方法得到的聚類效果更好。

綜上所述,將2種方法得到的結果與實際情況相驗證,可知改進后的動態時間規整的面板數據聚類的聚類效果要比改進前的動態時間規整的面板數據聚類的聚類結果好,提升了時間序列提取的準確性,能夠很好地抵御離群值的影響,使聚類效果更好,更穩健,更貼合實際意義。

5 結論

文中引進Fast-MCD穩健統計量消除離群值給聚類結果的影響,提升時間序列提取的準確性,消除了離群值對動態時間規整結果的影響,得到較為穩健的聚類結果,實證結果表明:引進穩健統計量后的DTW聚類結果較為穩健且更符合實際。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 中文精品久久久久国产网址| 国产9191精品免费观看| 国产性爱网站| 久久96热在精品国产高清| 国产午夜精品鲁丝片| 91精品国产自产91精品资源| 久久永久视频| 国产精品免费久久久久影院无码| 中文成人在线| 国产一级二级三级毛片| 多人乱p欧美在线观看| 欧美日韩综合网| 亚洲天堂成人在线观看| 免费jizz在线播放| 日韩在线成年视频人网站观看| 人人爽人人爽人人片| 欧洲免费精品视频在线| 日韩午夜福利在线观看| 91午夜福利在线观看精品| 伊人色综合久久天天| 日韩精品毛片人妻AV不卡| 精品国产免费第一区二区三区日韩| 色婷婷视频在线| 国产精品理论片| 日韩无码真实干出血视频| 国产一级毛片在线| 波多野结衣久久精品| 亚洲中文精品人人永久免费| 国产xx在线观看| 日本a级免费| 久久精品日日躁夜夜躁欧美| 国产视频 第一页| 中文字幕日韩久久综合影院| 亚洲色图综合在线| 91精品免费久久久| 青青草原国产免费av观看| 老司机午夜精品网站在线观看 | 日韩不卡高清视频| 国产一级视频在线观看网站| 国产精品第一区在线观看| 亚洲成在人线av品善网好看| 国产女人爽到高潮的免费视频 | 成人午夜网址| h视频在线播放| 青草视频久久| 伊人五月丁香综合AⅤ| 午夜三级在线| 久热精品免费| 人人爽人人爽人人片| 国产白丝av| 伊人久久精品亚洲午夜| 又大又硬又爽免费视频| 欧美日韩精品综合在线一区| 黄色成年视频| 国产成人超碰无码| 九九九久久国产精品| 一区二区欧美日韩高清免费| 国产网站黄| 国产在线观看成人91| 91久久精品国产| 波多野结衣久久精品| 日本人又色又爽的视频| 亚洲精品人成网线在线| 亚洲一级无毛片无码在线免费视频| 亚洲中文精品人人永久免费| 老司机午夜精品网站在线观看| 91成人免费观看在线观看| 国产情精品嫩草影院88av| 国产视频a| 人妻一区二区三区无码精品一区| 中文字幕波多野不卡一区| 欧美日韩一区二区在线免费观看| 国产草草影院18成年视频| 青青草原国产精品啪啪视频| 国产免费福利网站| 国产91高清视频| 亚洲欧美日韩天堂| 国产对白刺激真实精品91| 国产精品刺激对白在线| 国产精品片在线观看手机版| 国产成人狂喷潮在线观看2345| 18禁影院亚洲专区|