999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

函數數據聚類及其在金融時序分析中的應用

2010-05-18 08:03:24朱建平王桂明
統計與決策 2010年9期
關鍵詞:方法

朱建平,王桂明

(廈門大學 經濟學院,福建 廈門 361005)

0 引言

隨著現代信息技術的發展,許多科研領域不斷涌現出大量形式各異、類型復雜的數據集,如高維數據,缺失數據等等,使得傳統的統計分析方法越來越不適應于分析此類數據,而近年來漸成研究熱點的函數數據分析(Functional data analysis,以下簡稱FDA)是處理這類數據的一個有效方法。從函數的視角進行數據分析,將觀測到的樣本數據看作是一個函數帶有噪聲的離散實現,而不是一個觀測向量,是FDA不同于傳統統計分析的根本所在。

經過近20年的發展,FDA在理論和應用上都取得了長足的發展,主要從兩個方面展開研究[1]:(1)擴展多元統計分析方法在函數數據中的應用;(2)在實踐中應用隨機過程的理論研究成果。由J.Ramsay和B.Silverman兩位統計學家合著的《Functional data analysis》[2]及其應用案例《Applied Functional Data Analysisi》[3]堪稱FDA發展道路上的里程碑,書中總結了上述兩種研究思路及方法,被視為現代FDA的起點,并且從中可以看到,一些傳統的統計分析方法已經得到改進使之適用于函數數據的分析,如主成分分析,線性回歸分析,典型判別分析等,但是未系統介紹函數數據的聚類分析。近年來不少國外學者從多方面多角度展開函數數據的聚類分析研究,Heckman和Zamar[4]基于函數曲線的形態特征(如曲線的局部極值點),構造曲線間的秩相關系數作為曲線聚類的相異性(或距離,親疏程度)度量,當兩條曲線具有完全一致的形態時,秩相關系數為1;Abraham et al[5]提出利用B樣條基函數構造函數數據,再對基函數系數進行K均值聚類分析;James和Sugar[6]提出基于混合效應的混合模型,適用于樣本點分布稀疏的函數數據聚類分析。國內方面,嚴明義[7]首次系統性地介紹了函數數據統計分析的基本思想和方法;有一些學者提出了基于導數分析的函數數據區間聚類分析方法,利用函數數據在不同觀測區間上的導數情況進行聚類分析,缺點是隨著聚類區間的不斷劃分,對函數數據導數階數的要求也相應提高,物理意義的解釋也將變得困難,且聚類結果隨著劃分區間的不同而不同,不能從整體上反映函數數據的聚類情況。

本文嘗試在LP空間探討函數數據之間的相異性度量的基礎上,提出了函數數據的聚類分析方法,并將其應用于時間序列的模式挖掘,得到了良好的效果。

1 函數數據相異性指標的構造

函數數據通常為連續函數,多表現為平滑的曲線。設ft(t),i=1,…,n為第 i個函數數據,此處 t表示時間,當然可以代表更一般的實際意義,如觀測樣本的維數或特征等等。實際操作中,我們常常在某區間[a,b]上的Ti個觀測點處收集到第i個樣本fi(t)離散的帶有噪聲的yi=(yi1,…,yiTi)'信息。函數數據分析的基本統計模型為:

其中,tij為第i個樣本的第j個觀測點,誤差項εi(tij)滿足經典的回歸假設(獨立同分布,均值為0,方差為常數σ2)。由于允許存在 Ti≠Tj(i≠j,i,j=1,2,…,n)的情況,因此,函數數據分析適于處理諸如高維數據,缺失數據以及樣本觀測點不規則分布等特殊的數據類型。本文對文獻[8]中定義的相異性指標進行推廣,將在LP空間中定義函數數據的相異性指標。

設T=[a,b]為一可測實值區間,記Lp(T)為 T上所有p次可積可測函數組成的完備可分的希爾伯特空間,即:

對任意 f∈Lp(T),稱:

為f的Lp范數或Lp模。

則對于Lp(T)中的兩個函數fi和fj,定義

為函數fi和fj的Lp距離。

我們知道,作為距離的度量一般要求滿足三個條件:(1)非負性,即 dij≥0,且 dij=0 當且僅當 fi=fj;(2)對稱性,即 dij=dji,對所有的 i和 j;(3)三角不等式,即 dij≤dik+dkj,對所有的 i、j和k。對于(3)式定義的距離度量,由Lp范數的非負性可知條件(1)成立,條件(2)是顯然成立的,由 Lp范數的 Minkowski不等式(即三角不等式)可知條件(3)成立,即有如下定理:

定理 對任意 fi,fj∈Lp[a,b],p≥1,Minkowski不等式:

成立。

(4)式可簡寫為:||fi+fj||P≤||fi||P+||fj||P,即為 Lp范數的三角不等式。

因此,(3) 式也可定義為函數 fi和 fj的明氏(Minkowski)距離。

當p=1時,

稱為絕對距離或L1距離。

當p=2時,

稱為歐氏距離或L2距離。

當p=∞時,

稱為切比雪夫距離或L∞距離。

函數數據相異性指標的構造,以距離的概念來體現,在進行函數數據聚類分析時,根據問題研究的實際背景和分析的要求選取適當相異性,來描述函數數據之間的相似性。

2 基于基函數方法的函數數據聚類分析

2.1 離散數據的函數化

函數數據分析的首要工作是要將離散的觀測值轉化為平滑的函數來重構隱含在觀測數據背后的真實函數,即離散數據的函數化。目前主要利用基函數方法來解決離散數據的函數化問題,因為利用基函數方法可以同時達到降維、減少計算復雜度、消除數據噪聲的目的。

設基函數系為{φk(t),k=1,…,K},利用這 K 個基函數的線性組合,即

作為真實函數fi(t)的估計,其中Ci(ci1,…,ciK)'為基函數系數向量,即 fi(t)在基函數系{φk(t),k=1,…,K}下的坐標向量。 常用的具有優良性質的基函數有B樣條基、Fourier基、小波基等等。通常使用最小二乘準則確定系數cik,即最小化殘差平方和SSEi:

2.2 基于基函數的函數數據聚類分析基本思想

如果已經知道fi(t)的具體形式,就可以利用前述定義的函數數據明氏距離進行函數數據的聚類分析,而通常情況下我們并不知道fi(t)的具體形式,只是通過基函數方法得到fi(t)的近似估計 fi(t,Ci)。 事實上,由于是 fi(t)估計,且每個函數都投影于相同的K個基函數組成的K維線性空間,則每個函數數據對應的坐標向量C^i刻畫了函數數據之間的差異性,對于B樣條基函數,附加的條件是所有函數選取的節點(knot)相同[5]。因此,對函數數據的聚類轉化為對坐標向量C^i的聚類。

特別地,當投影于正交基函數系時,聚類過程具有如下性質:

(1)當基函數系標準正交時,坐標向量C^i之間的歐氏距離等于函數數據的L2距離:

(2)對通過最小二乘估計得到的基函數系數進行聚類的結果接近于直接對原始數據進行聚類的結果[9]。

在基函數框架下,(1)式轉變為如下形式:

從(13)式可以看出,經過正交變換的原始數據中包含兩個部分:正交回歸系數和一個純誤差項因此,只要 εi的方差足夠小,對聚類的結果將接近于對yi聚類的結果,當εi的方差也等于0時,兩者聚類的結果一致。

3 實證分析

基于基函數方法的函數數據聚類操作簡單,只需估計得到每個函數數據的基函數系數向量,就可以利用常用的統計軟件針對系數向量進行聚類分析。以下以K均值聚類為例,以R統計軟件為工具,應用函數數據的K均值聚類對時間序列模式挖掘進行研究。

時間序列模式挖掘有固定模式挖掘(如證券市場的波浪理論)和數據驅動模式挖掘之分,本文主要探討數據驅動模式挖掘,其主要工作又集中于時間序列的模式識別,傳統的時間序列模式識別算法[10]首先利用滑動窗將時間序列分解為子序列,然后通過某種相似性度量將這些子時間序列聚類,從而得到時間序列中的趨勢或者說結構,這種方法適用于短期時序模式識別,然而,隨著滑動窗的增大,子序列的維數將隨之增加,且對于金融時間序列,如股票數據,每個子序列也會由于各種原因停牌(如召開股東大會)從而存在不同程度的缺失值,此時傳統方法的應用將變得困難。不同于傳統方法,在利用滑動窗得到子序列后,本文從函數數據的角度進行子時間序列的聚類分析。

本文以1996年12月17日(設置漲跌幅限制)至2008年11月25日的上證日收盤指數為例,通過函數數據聚類來挖掘指數變化中的模式,這些模式通常能刻畫出股市的波動性,如小幅震蕩上漲,急劇下跌后小幅反彈,暴漲暴跌等等。以每個聚類中心代表這些模式,通過關聯規則挖掘頻繁模式之間的匹配關系,為股指趨勢的分析決策提供參考支持。我們知道,在現實中對趨勢的把握,對市場人士的參考意義要遠大于一個準確的預測數字。

3.1 時間序列的分解和子序列聚類

給定一時間序列 s=(x1,x2,…,xn),滑動窗的寬度 w 和窗口的移動步長v,此處設v=1,則可以將序列s連續分解為子序列的集合W(s)={si|i=1,…,n-w+1},si=(xi,…,xi+w-1),整個序列s的波動情況可以由子序列依次拼接而成,對于上證指數時間序列,n=2884,從而得n-w+1=2834到個子序列,假設進行一項中期投資計劃,取w=51個交易日,采用B樣條基函數通過最小化(8)式將子序列轉化為函數數據進行K均值聚類,設WK表示聚類個數為K時的類內離差平方和,以DK=WK-1-WK衡量聚類個數為K時類內離差平方和的縮減情況,通過觀察圖1(DKversusK),當K=8時DK呈水平狀況,變化不再明顯,因此取K=8,得到的8種模式如圖2所示。

圖1 versus

從圖2可以看出,8種模式各不相同,代表不同的中期發展趨勢,如shape1可表示橫盤后見頂暴跌,末期出現小的反彈;shape2表示見底后的一波牛市;shape3表示暴跌后的暴漲,與之相反,shape6則表示暴漲后的暴跌;shape4表示單邊下跌而shape5表示單邊上漲;shape7表示下跌后筑底急升,但是不能確定上升的持續性;shape8表示下跌后出現反彈,但是反彈力度較弱,可能是下跌中繼。

3.2 模式間的關聯規則挖掘

將得到的8種模式shape1,…,shape8簡記為s(1),…,s(8),則分解后的序列集合可用D(s)={s1j1,s2j1,…,s2834j2834}表示,其中 siji∈{s(1),…,s(8)},i=1,…,2834,考慮最簡單的模式關聯規則:s(m)→Ts(h),m,h=1,…,8,表示 s(m)發生后 s(h)將在T時間內發生。設sup(s(m))表示s(m)在D(s)中的支持度,com(s(m),s(h),T)=sup(s(m),s(h),T)/sup(s(m))表示置信度,其中:

式中|*|表示基數,之所以從第m+w處開始查找,是因為s(m),s(m+1),…s(m+w-1)之間存在相互重疊的部分,在挖掘過程中必然表現出強的關聯性。假設取T=21,51,給定最小支持度和置信度分別為0.03和0.3,表1顯示了關聯規則挖掘的部分結果。

表1中所列規則的意義表明,以T=21,s(2)→s(2)為例,表示如果指數遵循模式shape2的走勢,那么在未來3周內指數可能還將呈現出shape2的走勢,這表明趨勢是向上的。

圖2 8種模式

表1 模式關聯規則挖掘

通過上述實證分析可以知道,時間序列模式挖掘所依賴的參數有:滑動窗口的寬度w,窗口的移動步長v,基函數的選取,聚類算法的選擇,聚類個數的選取方法,時間間隔T。不同的參數組合可以得到不同的結果。另外,還可以將方法擴展至包含更加復雜的關聯規則,如 s(1)∩s(2)∩…∩s(m)→Ts(n),以及多個時間序列(既多維時間序列)、不同分辨率(既不同的寬度)時間序列之間的模式關聯規則挖掘等等,這些都是值得研究的方向。

4 結束語

本文對函數數據聚類分析作了一些基礎性的研究和實證分析,通過基函數方法,將傳統聚類分析方法(層次聚類法、K均值聚類法)應用于函數數據的聚類分析。本文敘述的方法特別適用于高維、高頻、樣本觀測點不規則分布的數據類型。同時,方法本身也存在一些不足之處,主要表現在:(1)當樣本包含過多的缺失數據,即樣本點分布過于稀疏時,由于所能利用的樣本數據太少,必然導致曲線估計結果的不穩定性;(2)層次法和K均值聚類法同屬啟發式算法,不同的相異性度量方式可能產生不同的結果,且K均值聚類的聚類結果與數據的加權方式有關,另外不同的基函數系對應不同的線性變換,得到的基坐標向量不同,因此也決定了本文所述方法的啟發式性質;(3)目前的研究工作還局限于單指標的函數數據聚類分析,而現實的情況是復雜的,單指標包含的信息量太少,不能充分反映現象的本質。如何設計高效的針對稀疏數據類型和多指標情況的函數數據聚類方法將是本文下一步研究工作的重點。

[1]Mariano J.Valderrama.An Overview to Modelling functional Data[J].Computational Statistics,2007,22(3).

[2]Ramsay J.O.,Silverman B.W.Functional Data Analysis[M].New York:Springer,2005.

[3]Ramsay J.O.,Silverman B.W.Applied Functional Data Analysis:Methods and Case Studies[M].New York:Springer,2002.

[4]Heckman N E,Zamar R H.Comparing the Shapes of Regression Functions[J].Biometrika,2000,87(1).

[5]Abraham C.,Cornillion P.A.,Matznerp-Lober E.,Molinari N.Unsupervised Curve Clustering Using B-splines[J].Scandinavian Journal of Statistics,2003,30(3).

[6]James G.M.,Sugar C.A.Clustering Sparsely Sampled Functional Data[J].Journal of the American Statistical Association,2003,98(1).

[7]嚴明義.函數性數據的統計分析:思想、方法和應用[J].統計研究,2007,24(2).

[8]朱建平,陳民懇.面板數據的聚類分析及其應用[J].統計研究,2007,24(4).

[9]Thaddeus Tarpey.Linear Transformations and the K-Means Clustering Algorithm:Applications to Clustering Curves[J].The American Statistician,2007,61(1).

[10]Das G,Mannila H,et al.Rule Discovery from Time Series[A].Proceedings of Fourth Annual Conference on Knowledge Discovery and Data Mining[C].New York:AAAI Press,1998.

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 97国产在线视频| 日韩欧美视频第一区在线观看 | 欧美日韩精品一区二区在线线 | 成人精品免费视频| 人人爱天天做夜夜爽| 国产精品99久久久| 美女裸体18禁网站| 国产一区二区影院| 婷婷亚洲视频| 黄色免费在线网址| 九九九久久国产精品| 97在线观看视频免费| 色老头综合网| 青青久久91| 四虎影视8848永久精品| 久久精品人人做人人爽电影蜜月 | 美女视频黄又黄又免费高清| 亚洲香蕉伊综合在人在线| av大片在线无码免费| 国产一区二区三区精品久久呦| 国产精品亚洲αv天堂无码| 毛片基地视频| 色噜噜在线观看| h视频在线观看网站| a欧美在线| 国产女人综合久久精品视| 中文成人在线视频| 久久综合色天堂av| 先锋资源久久| 久久国产热| av一区二区三区在线观看| 国产精品久久久久久久久| 亚洲第一成人在线| 亚洲视频四区| 国产黄色片在线看| 男人天堂亚洲天堂| 国产欧美在线观看一区| 欧美日韩亚洲综合在线观看 | 精品国产一区二区三区在线观看| 国产视频a| 丁香亚洲综合五月天婷婷| 88av在线| 呦女亚洲一区精品| 99视频在线免费| 国产日韩精品欧美一区灰| 国产特级毛片| 国产日韩精品欧美一区灰| yy6080理论大片一级久久| 日韩av手机在线| 欧美精品啪啪| 久久久久久尹人网香蕉| 伊人AV天堂| 亚洲精品第1页| 国产欧美精品一区二区| 在线免费无码视频| 精品久久人人爽人人玩人人妻| 欧美一级99在线观看国产| 成人在线不卡视频| 国产亚洲视频免费播放| 久久精品国产精品青草app| 日韩欧美在线观看| 粗大猛烈进出高潮视频无码| 日韩精品一区二区三区中文无码| 日韩福利在线视频| 2020极品精品国产| 97超碰精品成人国产| 热99精品视频| 国产精品美女自慰喷水| 欧美日韩国产精品va| 国产精品页| 精品少妇人妻av无码久久| 成人国产免费| 国产精品亚洲αv天堂无码| 欧亚日韩Av| 风韵丰满熟妇啪啪区老熟熟女| 国产在线拍偷自揄观看视频网站| 456亚洲人成高清在线| 婷五月综合| 亚洲区第一页| 综合亚洲色图| 国产成人狂喷潮在线观看2345| 亚洲资源站av无码网址|