999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分位點回歸系數聚類的時間序列分類方法

2011-10-18 10:32:40孫曉丹張鳴鳴
統計與決策 2011年6期
關鍵詞:分類方法

孫曉丹,張鳴鳴

(1.哈爾濱工程大學經濟管理學院,哈爾濱150001;2.中國社會科學院研究生院,北京100102)

基于分位點回歸系數聚類的時間序列分類方法

孫曉丹1,張鳴鳴2

(1.哈爾濱工程大學經濟管理學院,哈爾濱150001;2.中國社會科學院研究生院,北京100102)

時間序列曲線分類的目的是為了找到曲線之間相似波動結構、減少建模工作量和進行預測,所以分類的結果將直接影響模型的質量和預測的精度。為此,文章提出了一種新的時序曲線分類方法—分位點回歸系數聚類法。它可以有效地避免一些分類方法帶來的局限性,能夠更為全面、詳盡地考查待分類時序數據的運行方式,改善分類的效果并為預測提供強大的支持。

分位點回歸;公共變量;層次聚類;整體預測

0 引言

時間序列曲線分類方法作為一個新的研究領域,在經濟分析、時間序列數據挖掘、以及計算機科學中已經得到研究工作者們極大的關注。Liao(2005)把時間序列分類方法研究分為了三個主要的方向[1]:(1)基于原始數據分類法;(2)基于序列特征分類法,例如A.M.Alonso(2006);(3)基于模型分類法。本文所提出的分類方法屬于上述的第三個方向?,F在較為流行的基于模型分類方法是源于自回歸AR過程,大多數研究過程是通過找到數據均值過程的結構和AR distance來進行分類的,例如Piccolo(1990)[2],Maharaj(1996)[3]和Maharaj(1999)[4],Xiong和Yeung(2002)[5]等。

除了上述三種分類方法外,利用平滑曲線的方法進行分類應該屬于一種純統計手段。雖然它可以把趨勢大致相同的曲線歸為一類,但由于沒有考慮到時間序列曲線其中較為頻繁的波動,所以這種方法就會把一些本應該歸為不同類別的曲線因其趨勢大致相同而被歸為了一類。另外,還有一種采用先提出若干種典型的模式,再按照模式對數據進行分類的方法[6]。筆者認為:(1)由于曲線的形式千差萬別,幾種典型的曲線模式不可能把曲線的所有形態都包含進去;(2)典型的曲線模式雖然可以使預測變的簡單,但對于特殊形態曲線的分類及預測并無好的效果。

在本文中,我們擬提出一種基于模型的分類方法QRP Clustering,這是利用回歸參數進行聚類,最終達到劃分曲線的一種方法??紤]到眾多時間序列曲線(股票價格序列)其波動形態、趨勢大都不同,采用普通最小二乘回歸不能完全體現因變量(待分類曲線變量)的分布特征。在這種意義下,時間序列在高點位和低點位運行的分布形態并沒有被展現出來,這主要是因為普通最小二乘回歸只是在平均意義下研究因變量與自變量之間的關系。本文所應用的分位點回歸Koenker and Bassett(1978)[7]可以為研究隨機變量間統計關系提供一種更為全面的視角。

1 從經典最小二乘回歸到分位點回歸

最小二乘回歸中的經典估計方程—條件均值方程,它的作用體現在描述因變量的均值是如何隨著自變量向量X觀測的變化而變化的。但是,當我們關心的不是這種均值變化,而是試圖描述y的分布狀態時,最小二乘回歸就不能滿足我們的需要。而本文引入的分位點回歸則采用條件分位數方程,即因變量y的條件分布的分位數被表示為已觀測自變量的方程,并通過最小化加權絕對值殘差和來進行估計[8]。

1.1 經典最小二乘回歸與中位數回歸

對于單自變量普通回歸模型:y=XTβ+ε,其中X=(1,x)T,β=參數向量β一般是通過二次損失函數r(u)=u2來估計的,確切的說就是給定一組觀測值最小化損失函數來求得β,損失函數為:

與普通回歸相類似,中位數回歸所關心的也是條件期望的參數估計問題,只不過期望函數、損失函數變成了E[|Y-θ|| X=x]和ρ0.5(u)=0.5|u|,其參數估計過程是最小化β)來求得β。中位數回歸是分位點回歸的一種特例,它是分位數等于0.5時的分位點回歸,分位點回歸則更具有一般性。

1.2 分位點回歸模型

分位點回歸估計的是條件分位數方程參數的問題。考慮一般性回歸模型的設定:y表示因變量,為自變量,并且有n個獨立的觀測值對于任意的0<τ< 1:Q(τ)=inf{y:F(y)≥τ}表示y的τ分位數。所以線性條件分位數方程就可以定義為:

對于任意的0<τ<1,定義損失函數,ρτ(u)=u(τ-I(u<0)),其中I(u<0)為示性函數在上述定義的基礎上,就可以得到條件分位點回歸參數向量β的估計值:

2 時序數據分類過程

2.1 基于一元分位點回歸的考慮

本文只用一元線性分位點回歸,沒有用多項式分位點回歸及非參數分位點回歸,是基于以下考慮:第一,應用多項式分位點回歸時,每一分位點的回歸系數至少會增加一個,這會帶來聚類變量的成倍增加。同時,由于多項式回歸是由自變量的一次方項、二次方項等構成,這還會導致聚類變量出現嚴重的多重共線性。第二,采用非參數分位點回歸,即y=m (X),由于其對應每條曲線回歸函數形式并不一定相同,故無法確定聚類變量。

2.2 實證序列數據

(1)待分類時間序列數據:上證180中的64支股票2007年1月4日至2008年4月30日322個交易日每日收盤價格序列(如:圖2)。(2)公共變量:上證綜合指數序列。公共變量是基于上海證券交易所掛牌交易的個股收盤價序列與上證綜合指數序列在某種程度上存在著一定的數量關系而選取的,數據情況見圖2。

2.3 分位點回歸系數聚類步驟及分類結果

在聚類分析中需要定義點點距離的算法,我們選取最為常用的歐氏(Euclid)距離。

這里的“點”指的是p維空間點,點點距離表示由p個變量構成的兩個樣本點之間的距離。

在本文中,設有n條待分類時間序列曲線S1,S2,…,Sn,每條時序曲線所對應的數據作為自變量與公共變量S做分位點回歸,則第i條序列曲線與S的回歸系數與回歸截距分別為和把和作為聚類變量進行聚類分析,數據矩陣表示如下:

在聚類分析中,不僅要考慮各個類的特征,而且要計算類與類之間的距離。為了使同類樣品(曲線)之間的離差平方和較小,類與類之間的離差平方和較大,所以選擇了層次聚類中的Ward method(離差平方和法)作為聚類方法。下面列出了QRP Clustering主要的四個步驟。

(1)選取公共變量。對于同屬性待分類的時間序列數據,總能找到與之有關聯的公共變量,這是進行分位點回歸的關鍵。另外,公共變量的選取也可以采用對各條曲線求平均的做法,那么這條平均線就與各個待分類曲線具有一定的相關關系。

(2)時序數據的標準化。

(3)利用R語言編程,把時序數據分別進行分位點回歸,回歸方程的自變量為公共變量(本文為上證綜合指數)(這里采用0.05;0.25;0.5;0.75;0.95,五個分位數)。

(4)5個分位點回歸系數及5個回歸截距被看作為10個聚類變量進行聚類分析,得到分類結果見圖3~9。利用一元線性回歸系數聚類得到的分類結果見圖10~16。

聚類分析可以根據實際的要求選擇分類數目。對于具有較大數目的時間序列曲線,我們本著既要使類與類之間有較大的區分度,又要使類內有較好的一致性。一般情況下,分類的時候既不能分類太少,因為這樣必然會導致類內曲線參差不齊無法達到分類的效果,甚至對以后的整體預測帶來很大的影響;而且又不能分類太多,因為這就失去分類的真正意義了。本文實際數據共64條曲線樣本,分別進行了4個不同分組數目的實驗(Clusters=5,6,7,8;見表1),經過比對選擇了7類(Clusters=7)作為最終的分類數目。

3 結論及意義

本文利用分位數回歸系數作為聚類變量,把64條時間序列曲線分成了7個曲線組,每一組曲線都具有大致相同的趨勢與波動形態,其中與一元線性回歸系數聚類方法所得到的結果(圖10~16)進行對比也充分說明了QRP Clustering達到了很好的分類效果,有效地提高了分類的精度。對于那些趨勢大體相同階段波動不同的曲線,利用分位點回歸可以更全面地分析時序曲線的特征,因為分位點回歸可以根據分位數的設定把兩個時序變量的關系變成多個回歸形式,這樣就可以更為全面、詳盡地考查待分類時序數據的運行方式,尤其是對那些波動劇烈且具有極端值的序列曲線。

對于分類完成后的各組曲線,可以分析各組曲線的特征,并進一步達到建模和整體預測的需要。這里我們闡述兩個問題:

(1)建模。對每組曲線(已分類)建立模型可以有多種選擇。例如,①選擇該組任意一條曲線作為該組的代表曲線進行建模;②選擇處于中間位置的曲線作為代表曲線;③對該組曲線在每一時點上的曲線數值進行平均化處理,這便會形成一條新的序列曲線,然后用得到的新曲線作為代表曲線進行建模。

(2)整體預測。當代表曲線選擇完成后,具體的建模方法就要根據進一步的時序曲線的特征分析來進行。常用的時間序列曲線模型有ARMA、ARIMA、ARCH、GARCH等等。模型建立完畢后,就可以根據建立的時間序列模型進行每組曲線的整體預測。

[1]Liao,T.Clustering Time Series Data:A survey[J].Pattern Recognition,2005,(38).

[2]Piccolo,D.A Distance Measure for Classifying ARIMA Models [J].Journal of Time Series Analysis,1990,(11).

[3]Maharaj,E.A.A Significance Test for Classifying ARMA Models [J].Journal of Statistical Computation and Simulation,1996,(54).

[4]Maharaj,E.A.Comparison and Classification of Stationary Multivariate Time Series[J].Pattern Recognition,1999,(32).

[5]Xiong,Y.,Yeung,D.Y.Mixtures of ARMA Models for Model-Based Time Series Clustering[J].In:Proceedings of the IEEE International Conference on Data Mining,2002,1~4.

[6]范新洪,張春梅,葉慧萍.基于負荷曲線分類的電力負荷預測方法[J].現代計算機,2007,(6).

[7]Koenker,R.Bassett,G.,Regression Quantile[J].Econometrica,1978, (46).

[8]Yu,K.,Lu,Z.,Stander,J.Quantile Regression:Application and Current Research Areas[J].The Statistician,2003,(52).

(責任編輯/亦民)

O212

A

1002-6487(2011)06-0021-03

孫曉丹(1980-),男,黑龍江齊齊哈爾人,博士后,講師,研究方向:復雜數據經濟統計分析與產業經濟。

張鳴鳴(1981-),女,黑龍江塔河人,博士研究生,研究方向:服務經濟與財稅政策。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 国产精品对白刺激| 亚洲国产精品日韩av专区| 欧美日韩国产一级| 萌白酱国产一区二区| 亚洲色图在线观看| 国产精品久久久久无码网站| 国产精品无码AV中文| 免费AV在线播放观看18禁强制| 国产精品夜夜嗨视频免费视频| 97精品国产高清久久久久蜜芽| 日韩色图区| 久久综合国产乱子免费| 在线观看国产精美视频| 国产精品亚洲va在线观看| 99久久人妻精品免费二区| 香蕉伊思人视频| 成年人视频一区二区| 国产91特黄特色A级毛片| 欧美日韩一区二区在线免费观看| 综合亚洲色图| 91在线精品麻豆欧美在线| 少妇精品久久久一区二区三区| 国产成人狂喷潮在线观看2345| 亚洲中文字幕在线观看| 欧美日韩精品一区二区在线线 | 人妻无码中文字幕第一区| 男人天堂亚洲天堂| 在线看片免费人成视久网下载| 日韩精品免费一线在线观看| 亚洲va视频| 日韩专区第一页| 欧美成人精品一级在线观看| 日韩精品高清自在线| 污网站免费在线观看| 97在线碰| 国产成人精品高清在线| 欧美一级黄片一区2区| 无码aaa视频| 2020精品极品国产色在线观看| 国产亚洲精品在天天在线麻豆| 成人av专区精品无码国产 | 精品91视频| 日韩av无码DVD| 99爱在线| 风韵丰满熟妇啪啪区老熟熟女| 国产全黄a一级毛片| 国产美女91视频| 欧美成人一区午夜福利在线| www.亚洲天堂| 青青操视频免费观看| 国产一级视频在线观看网站| 国产成人艳妇AA视频在线| 91精品国产情侣高潮露脸| 国产白浆在线观看| 在线观看国产精品日本不卡网| 一级成人a毛片免费播放| 99久久亚洲精品影院| 国产打屁股免费区网站| 日本亚洲成高清一区二区三区| 麻豆精品在线播放| 国产网站一区二区三区| 国产欧美日韩91| 国产精品19p| 精品国产网| 国产精品制服| 国产精品一区二区无码免费看片| 中文成人无码国产亚洲| 亚洲一区国色天香| 9cao视频精品| 91日本在线观看亚洲精品| 成人毛片免费观看| 中文字幕乱码中文乱码51精品| 一本大道无码高清| 无码av免费不卡在线观看| 美女被躁出白浆视频播放| 少妇被粗大的猛烈进出免费视频| 第一页亚洲| 九九这里只有精品视频| 国产剧情一区二区| 欧美国产成人在线| 幺女国产一级毛片| 亚洲天堂免费|