趙 沖
(首都經(jīng)濟(jì)貿(mào)易大學(xué),北京100070)
時間序列聚類在很多領(lǐng)域有重要的作用,如金融和經(jīng)濟(jì),工程學(xué)和生命科學(xué)等等。時間序列聚類有多種方法,聚類時通常要構(gòu)建兩個時間序列之間的相異度度量。如Piccolo (1990)[14]和Maharaj(1996)[12]提出的基于擴(kuò)展的自相關(guān)系數(shù)的距離,Galeano(2000)[7]提出基于自相關(guān)的距離,Tong 和Dabas(1990)[15]提出基于殘差擬合的距離,Bohte(1980)[3]提出基于交叉相關(guān)系數(shù)距離,Caiado(2006)[5]提出基于周期圖的距離,Maharaj 和D’Urso(2010)[13]提出基于譜的相異度度量,Berndt 和Clifford (1996)[2]提出動態(tài)時間扭曲距離,De Gregorio(2008)[6]提出馬爾科夫算子距離,等等。
時間序列聚類分析在金融領(lǐng)域顯得尤為重要,因?yàn)榻鹑趶臉I(yè)人員對金融資產(chǎn)之間的相似性很感興趣,通過研究資產(chǎn)之間的相似度,對資產(chǎn)進(jìn)行聚類,來進(jìn)行投資和風(fēng)險管理。因此,金融研究者提出了很多統(tǒng)計方法來分析資產(chǎn)價格序列的相似結(jié)構(gòu)。例如,Mantegna 和Bonanno(2001)[4]使用Pearson 相關(guān)系數(shù)來度量兩個股票收益率序列之間的相似度。考慮到金融時間序列的波動性,Caiado 和Crato(2006)[5]提出了一種描述兩個股票收益率數(shù)據(jù)之間動態(tài)特征的的類Mahalanobis 距離度量方式,并且提出了一種聚類程序來對DJIA 指數(shù)進(jìn)行聚類。
本文中,通過Hoeffding’D,Kendall’sτ和Spearman’sρs三種相關(guān)系數(shù)分別來定義金融時間序列的相似度,然后運(yùn)用PAM、agnes、diana 三種聚類方法對相異度度量矩陣進(jìn)行聚類,從而對不同的相似度度量方法和聚類方法進(jìn)行比較。這對實(shí)際中進(jìn)行金融時間序列分析有借鑒作用。
文章結(jié)構(gòu)分為四個部分,第一部分介紹幾種了相關(guān)系數(shù)和相異度度量方法;第二部分介紹了幾種聚類方法和聚類評價標(biāo)準(zhǔn);第三部分運(yùn)用股票收益率數(shù)據(jù)進(jìn)行了實(shí)證分析;第四部分做出總結(jié)并提出相關(guān)建議。
在對金融時間序列數(shù)據(jù)進(jìn)行聚類之前,首先要獲得適合于聚類算法的數(shù)據(jù)結(jié)構(gòu)。Kaufman 和Rousseeuw(1990)[10]提出,聚類算法的數(shù)據(jù)結(jié)構(gòu)通常有兩種:第一種數(shù)據(jù)結(jié)構(gòu)是對象—屬性的n×p 矩陣,其中矩陣的行代表對象,矩陣的列代表屬性;第二種數(shù)據(jù)結(jié)構(gòu)是相異度矩陣,矩陣的行和列的性質(zhì)一樣,代表的都是兩個對象之間的相異度。本文運(yùn)用的是相異度矩陣數(shù)據(jù)結(jié)構(gòu),因此首先介紹一些相關(guān)系數(shù)和相異度的概念。
相關(guān)系數(shù)是最常用的相似度的度量方式,常用的相關(guān)系數(shù)包括:Pearson 相關(guān)系數(shù)ρp,Hoeffding’D,Kendall’sτ 和Spearman’s ρs。其中Pearson 相關(guān)系數(shù)ρp是一種線性相關(guān)系數(shù),其他三種均為非線性相關(guān)系數(shù)。由于金融時間序列不服從正態(tài)分布,而呈現(xiàn)的是一種厚尾分布,不適合用線性相關(guān)系數(shù)進(jìn)行兩個金融時間序列的相關(guān)性度量。因此,本文主要考慮后三種非線性相關(guān)系數(shù)。
1.相關(guān)系數(shù)ρp
Pearson 相關(guān)系數(shù)描述的是一種線性相關(guān)關(guān)系,相關(guān)系數(shù)的值在[- 1,1]之間,數(shù)值越接近于1 或- 1,說明兩個變量相關(guān)程度越大,數(shù)值越接近于0,說明兩個變量之間相關(guān)程度越小。如果ρp(X,Y)=0,則說明X 和Y 是相互獨(dú)立的,反之則不成立。
2.Kendall’sτ
假設(shè)(X1,Y1)和(X2,Y2)是兩個二維的隨機(jī)向量,Hollander 和Wolfe(1999)[9]把Kendall 相關(guān)系數(shù)定義為:
當(dāng)且僅當(dāng)事件{X2>X1且Y2>Y1}或事件{X2<X1且Y2<Y1}出現(xiàn)時,事件{(Y2- Y1)(X2- X1)>0}才會出現(xiàn)。因?yàn)槭录X2>X1且Y2>Y1}和事件{X2<X1且Y2<Y1}是
互斥的,因此有:
如果X 和Y 相互獨(dú)立,則
同樣,我們可以得到P(X2<X1,Y2<Y1)=1/ 4。因此如果X 和Y相互獨(dú)立,則Kendall 相關(guān)系數(shù)ρτ=2(1/4+1/4)- 1=0,反之,則不成立。
3.Spearman’s ρs
在定義Spearman 相關(guān)系數(shù)之前,首先考慮來自二元分布中的三個獨(dú)立觀察值[11]:(X1,Y1),(X2,Y2)和(X3,Y3)。定義(X1,Y2)和(X2,Y3)這兩個觀察值之間一致
的概率:
再定義(X1- Y2)和(X2- Y3)之間不一致的概率?d:
用一致的概率?c 減去不一致的概率?d:
當(dāng)X 和Y 獨(dú)立時,則這個值是0,反之則不成立。這個值介于[- 1/ 3,1/ 3],只有當(dāng)Y 是X 的嚴(yán)格的單調(diào)函數(shù)時,才會取到最大值或最小值。
從上式可知,?c的取值范圍在[1/ 3,2/ 3]之間,2?c- 1 的值在[- 1/ 3,1/ 3]之間。最終要把這個值變換到[- 1,1]之間,只需乘以3 即可:
當(dāng)ρs接近于1 時,表示連個變量之間相關(guān)程度越大,當(dāng)ρs接近0 時,表示兩個變量之間相關(guān)程度越小,但是當(dāng)ρs=0 時,兩個隨機(jī)變量不一定獨(dú)立。
4.Hoeffding’s D
Hoeffding[8]提出了一種檢驗(yàn)兩個具有連續(xù)分布函數(shù)的隨機(jī)變量是否獨(dú)立的檢驗(yàn)統(tǒng)計量D,這個檢驗(yàn)統(tǒng)計量D 只依賴于觀察值的順序。假設(shè)(X,Y)的聯(lián)合分布密度f(x,y)連續(xù),統(tǒng)計量D 要解決的問題是通過隨機(jī)抽取的容量為n 的樣本,檢驗(yàn)兩個隨機(jī)變量X,Y 之間是否獨(dú)立。如果F(x,y)是一個二元分布函數(shù),定義:
和
當(dāng)且僅當(dāng)D(x,y)=0 時,具有聯(lián)合分布F(x,y)的隨機(jī)變量X,Y是獨(dú)立的。Hoeffding 還提出:0≤Δ≤1/ 30,只有當(dāng)Y 是X 的單調(diào)函數(shù)時才能得到上限值1/ 30。同時Hoeffding 還提出了D 的取值范圍為:- 1/ 60≤D≤1/ 30,這個值越高,X 和Y 相關(guān)程度越大。D統(tǒng)計量是Hoeffding 用來對兩個隨機(jī)變量是否獨(dú)立進(jìn)行檢驗(yàn)的,因此和前面的幾種相關(guān)系數(shù)都有所不同。
在實(shí)際應(yīng)用中,通常把Hoeffding 系數(shù)擴(kuò)大30 倍,及D*=30D,因此它的取值范圍在[- 0.5,1]之間。
以上介紹了幾種常用的相關(guān)系數(shù),但是得到的相關(guān)系數(shù)矩陣還不能直接用于聚類,要通過對相關(guān)系數(shù)進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換,使之變?yōu)槟軌驊?yīng)用于聚類算法的相異性度量。此處介紹了相似系數(shù)和相異系數(shù),以及從相關(guān)系數(shù)到相似系數(shù)之間的轉(zhuǎn)換方法。
相似系數(shù)s(i,j)表示兩個對象i 和j 之間的接近程度,s(i,j)越大,兩個對象就越接近。Kaufman 和Rousseeuw 認(rèn)為相似度應(yīng)該滿足一下三個條件:
(1)0≤s(i,j)≤1;
(2)s(i,i)=1;
(3)s(i,j)=s(j,i)。
可以先計算相關(guān)系數(shù),然后對相關(guān)系數(shù)和相似系數(shù)之間進(jìn)行轉(zhuǎn)換,把相關(guān)系數(shù)矩陣轉(zhuǎn)換為一個相似度矩陣:
對于Hoeffding' s D 相關(guān)系數(shù),則可以通過下式進(jìn)行轉(zhuǎn)換:
最終得到的s' (i,j)總是處在[0,1]之間,當(dāng)s' (i,j)接近0 時,表示兩者相似程度低,當(dāng)s' (i,j)接近1 時,表示兩者的相似程度很高。
在有些情況下則可以通過相似系數(shù)矩陣來得到相異度矩陣:
則:
從上式可知,當(dāng)α=1 時,s'(i,j)=s(i,j),其他α 值情況下,兩者不一樣。通常情況下,α 可選取1/ 2,1 和2,本文中α 選取為1/ 2[1]。
相對于基于對象- 屬性矩陣的聚類方法,基于相異度矩陣的聚類方法使用范圍更廣,因?yàn)樵诤芏鄬?shí)際情況中,獲得對象之間的相異性矩陣要比取得對象- 屬性矩陣要容易。因此以下主要介紹一些適用于相異度矩陣的聚類方法。
1.PAM(圍繞中心點(diǎn))方法。PAM 方法是一種基于劃分的聚類方法,它不僅可以對對象- 屬性矩陣進(jìn)行聚類,也可以對相異度矩陣進(jìn)行聚類,本文用于對相異度矩陣進(jìn)行聚類。這種方法是由Kaufman 和Rousseeuw 提的,又被稱為k- medoid 方法。
PAM 的聚類算法如下:
(1)首先選擇k 個對象,這k 個對象應(yīng)當(dāng)為它們各自所定義的類的中心,使得每個類中其他對象到它的平均距離最短,這k 個對象被稱為代表性對象。從這可知,最初的k 個代表對象不是隨機(jī)選擇的,這也是這種方法和k- means 方法的主要不同點(diǎn)。
(2)把剩余的對象歸到離它最近的代表對象的一類。
Kaufman 和Rousseeuw 認(rèn)為這種方法在對有離群值的對象進(jìn)行聚類時,比k- means 方法更好,而且k- means 方法不能對相異度矩陣進(jìn)行聚類,它只能對對象- 屬性矩陣進(jìn)行聚類。但是k- medoid 方法一般適用于對具有球形形狀的類進(jìn)行聚類,而不適用于對長條形的類進(jìn)行聚類。
2.anges(層次凝聚)方法。由Kaufman 和Rousseeuw 提出的另外一種方法是agnes 方法,這是一種凝聚的層次聚類算法,即一開始分別把每個對象分為一類,聚類每進(jìn)行一步,就把上次聚類結(jié)果中的兩個類又聚為一個類,直到最后把所有的對象歸為一個類。這種聚類方法既適用于對象- 屬性的矩陣,也適用于相異度矩陣。
anges 方法的算法為:
(1)首先把兩個最近的類歸為一個類。
(2)在后來的每一個步驟中,最近的兩個類又被聚成一類,此處兩個類之間的相異度度量基于類間對象的相異度度量。
Kaufman 和Rousseeuw 提出了四種定義類間距離的方法:Average linkage,Single linkage,Complete linkage 和Ward' s Method,本文運(yùn)用Average linkage 和Ward' s Method 這兩種方法,分別記為agnesA 和agnesW。
3.diana(分裂層次聚類)方法。diana 方法是一種分離的層次聚類法,聚類程序和anges 方法相反。首先,把所有的對象歸為一個類,然后把距離最遠(yuǎn)的兩個類分開,直至所有的對象都分別分為一類。
聚類程序如下:
(1)首先,找到和其他對象的平均相異度最大的一個對象。
(2)然后,把一個對象從一個類移動到另一個類,這兒移動的根據(jù)是移動對象和剩余的類的距離和分出去的類的聚類。若前者大于后者,則移動。
(3)最后,把類規(guī)模最大的一個類進(jìn)行分割。
diana 方法適用于處理球形的類的聚類,既可以對對象- 屬性矩陣進(jìn)行聚類,也可以對相異度矩陣進(jìn)行聚類。
在得到聚類結(jié)果以后,需要對得到的結(jié)果進(jìn)行評價,可以根據(jù)評價標(biāo)準(zhǔn)選擇聚類數(shù),然后在給定聚類數(shù)的情況下,選擇最好的聚類方法。現(xiàn)有有很多種統(tǒng)計量可以對不同的聚類結(jié)果進(jìn)行評價,如ASW,CH,PH,g2,g3,cRand。根據(jù)在不同的聚類數(shù)目下的統(tǒng)計量的性質(zhì),有兩種方法來定義最好的聚類方法。第一種方法:如果隨著聚類數(shù)目的增加,統(tǒng)計量未呈現(xiàn)出一種增加或減少的趨勢,那么統(tǒng)計量的值最大或最小的方法是最佳的聚類方法。第二種方法:如果隨著聚類數(shù)目的增加,統(tǒng)計量呈現(xiàn)出一種遞增或遞減的趨勢,則統(tǒng)計量在相應(yīng)的聚類數(shù)目有一個顯著的局部變化的方法為最佳的聚類方法,其中出現(xiàn)顯著局部變化的這個點(diǎn)被稱為一個關(guān)節(jié)點(diǎn)。下面只介紹一種常用的驗(yàn)證統(tǒng)計量ASW(average silhouette width)。
Kaufman 和Rousseeuw 提出了“silhouette- width”的定義:對于數(shù)據(jù)集中的一個對象i,它是類Ck中的一個對象,i 的silhouette- width 為:
其中是i 到Ck中的其他對象的平均相異度。是i 到和它距離最近的類Ch≠Ck中的所有對象的平均距離。
Ch被稱為i 的鄰類,除了Ck,Ch將是距離i 最近的一類。s(i)的值在[- 1,1]之間,當(dāng)s(i)接近1 時,說明類內(nèi)的相異度a(i)比類間最小的相異度還要小得多,此時對象i 被正確地分類。當(dāng)s(i)接近0 時,聚類結(jié)果不清晰,此時對象i 到自己類的距離和到鄰類的距離幾乎相等。當(dāng)i 接近- 1 時,說明i 被錯誤分類。ASW 值越大,說明聚類的結(jié)果越好。
本文選取了我國股市中房地產(chǎn)、金融、醫(yī)藥、通信、交通運(yùn)輸、能源、電力7 個不同行業(yè)的股票數(shù)據(jù),總共有44 個公司。采用的數(shù)據(jù)是從2010 年1 月1 日到2013 年1 月1 日的每家公司股票的日收盤價,總共記錄729 個交易日。數(shù)據(jù)來源為國泰安CSMAR 數(shù)據(jù)庫。首先通過以下的方法把股票日收盤價轉(zhuǎn)化為股票收益率:
以下的結(jié)果是基于股票日收盤價的對數(shù)收益率來進(jìn)行的。
然后計算兩個股票之間的相關(guān)系數(shù),這樣可以對相異性程度進(jìn)行量化。由于金融時間序列不服從多元正態(tài)分布,因此此處不應(yīng)該用Pearson 相關(guān)系數(shù),而是運(yùn)用一些非參數(shù)的相關(guān)系數(shù),如Hoeffding’s D,Kendall' sτ 和Spearman’sρ。為了選擇最好的聚類方法和最合適的聚類數(shù)目,本文中運(yùn)用的檢驗(yàn)統(tǒng)計量為Average silhouette width(ASW)。
圖3.1 基于Hoeffding’s D 的聚類結(jié)果
從圖3.1 中可以看出,當(dāng)對由Hoeffding’s D 變換而來的相異度矩陣進(jìn)行聚類時,在ASW 的驗(yàn)證標(biāo)準(zhǔn)下,agnesA 方法的ASW值開始成遞增的趨勢,增加的速度比較緩慢,在k=7 處達(dá)到了最大值,此后呈遞減趨勢,因此可知agnesA 方法的最佳聚類數(shù)為k=7。diana 方法始終呈現(xiàn)出一種遞增的趨勢,因此最佳聚類數(shù)目在ASW值最大處取得,即k=8。由于agnesW 方法是一種針對歐幾里德距離矩陣進(jìn)行聚類的方法,因此,在此處的聚類結(jié)果并不可靠,只作為一種參考。PAM 方法的ASW 值在k=7 時達(dá)到最大值,而且此時出現(xiàn)了一個明顯的峰值,因此,PAM 方法的最佳聚類數(shù)目也為7。綜上,對Hoeffding 進(jìn)行聚類的結(jié)果可知,最終的聚類數(shù)目為k=7,在四種聚類方法中,最佳的聚類方法為PAM 方法,因?yàn)榇朔椒ǖ腁SW 值在k=7 時有一個明顯的峰值,而其他方法都沒有出現(xiàn)明顯的峰值點(diǎn)。
圖3.2 基于Kendall’sτ 的聚類結(jié)果
從圖3.2 中可以看出,agnesA 方法和diana 方法對Kendall 的聚類結(jié)果在ASW 的驗(yàn)證標(biāo)準(zhǔn)下,當(dāng)聚類數(shù)目k 從3 到4 時,ASW值有一個明顯的下降,從4 到6 時,兩種聚類方法的ASW 值都呈增加趨勢,到k=6 時,agnesA 的ASW 值還繼續(xù)增加,但是增加的幅度不大,而diana 方法呈現(xiàn)明顯的下降,在k=6 的地方出現(xiàn)一個明顯的轉(zhuǎn)折點(diǎn)。而agnesW 方法和PAM 的ASW 值一直呈現(xiàn)一種遞增的趨勢,在k=3 到k=6 時ASW 值增加的速度很快,而k=6 之后增加的幅度減少,在k=6 時出現(xiàn)一個轉(zhuǎn)折點(diǎn)。綜上,可以的出對Kendall 的聚類結(jié)果中最佳聚類數(shù)目為k=6,最佳聚類方法為diana方法。
圖3.3 基于Spearman’sρ 的聚類結(jié)果
從圖3.3 中可以看出,聚類數(shù)目從3 到7 時,agnesW 和PAM方法的ASW 值呈現(xiàn)出一種上升的趨勢,在k=7 之后,agnesW 方法的ASW 值處于一種水平狀態(tài),而PAM 方法的ASW 值則呈現(xiàn)下降的趨勢,在k=7 處出現(xiàn)一個明顯的峰值。而agnesW 和diana 方法的ASW 值從k=3 到4 時,有一個微小的下降,此后agnesA 的ASW 值呈現(xiàn)明顯的上升趨勢,在k=7 處ASW 值達(dá)到最大,而diana 方法的ASW 值在k=8 處達(dá)到最大。綜上,對的聚類結(jié)果中最佳聚類數(shù)目為k=7,最佳的聚類方法為PAM 和agnesA 方法。
綜合以上對三種相關(guān)系數(shù)的聚類結(jié)果,可得最佳的聚類數(shù)目k=7,PAM 方法在三種相關(guān)系數(shù)聚類結(jié)果中表現(xiàn)優(yōu)于另外幾種聚類方法,在對Hoeffding‘D 相關(guān)系數(shù)進(jìn)行聚類時,PAM 方方法的結(jié)果最好,下表給出當(dāng)用PAM 方法對Hoeffding’D 進(jìn)行聚類的結(jié)果。
表1 用PAM 方法對Hoeffding’D 聚類為7 類時的結(jié)果
從上表中可以看出,聚類結(jié)果的第一類為房地產(chǎn)行業(yè),第二類和第三類屬于金融行業(yè),第四類屬于醫(yī)藥行業(yè),第五類屬于運(yùn)輸行業(yè),第六類為能源行業(yè),第七類為電力行業(yè)。其中第五類中的錯分率比較高,但是所有運(yùn)輸行業(yè)的公司均在此類中,因此可以把它看為運(yùn)輸行業(yè)。聚類結(jié)果中,雖然有些行業(yè)的分類情況和初始分類不一致,但是很多公司的分類是一致的。說明同一個行業(yè)的公司之間收益率相關(guān)程度很高。
圖3.4 基于Hoeffding’s D 的多元尺度圖
圖3.4 通過多元尺度圖使得通過Hoeffding’s D 度量的公司之間的相似度在二維空間可視化。可以看出,在二維空間中,除了電信行業(yè)和運(yùn)輸行業(yè)外,其他各個行業(yè)得到很好的區(qū)分。
以上通過對股票收益率進(jìn)行聚類,在ASW 的評價標(biāo)準(zhǔn)下,把44 家公司聚為7 個類。從聚類結(jié)果可知,屬于同一個行業(yè)的公司幾乎被聚在同一個類中,只有個別公司聚類結(jié)果和所屬行業(yè)不一致。因此得出結(jié)論:屬于同一個行業(yè)的公司股票收益率相似程度比較大,而屬于不同行業(yè)的公司股票收益率相似程度比較小。從描述相似度的三種相關(guān)系數(shù)來看,Hoeffding D 和Spearman 相關(guān)系數(shù)的結(jié)果要優(yōu)于Kendall 相關(guān)系數(shù)的結(jié)果,因?yàn)獒槍烧叩木垲惤Y(jié)果比較明顯,而針對Kendall 相關(guān)系數(shù)的聚類結(jié)果不清晰。最后,通過比較三種不同的聚類方法,可知PAM 方法對收益率序列的聚類結(jié)果要優(yōu)于agnes 和diana 兩種聚類方法。
文中對金融時間序列的相關(guān)性度量采用的是一些比較簡單的相關(guān)系數(shù),而且這些相關(guān)系數(shù)描述的是整個金融時間序列的相關(guān)情況,然而在實(shí)際情況中,我們更加關(guān)心的是出現(xiàn)虧損時候的序列之間的相關(guān)情況,因此可以通過研究金融時間序列的尾部相關(guān)情況來進(jìn)行更進(jìn)一步的分析。
[1]Ana Teresa YanesMusetti.2012,Clustering methods for financial time series.Seminar for Statistics.1-74.
[2]Berndt, DJ and Clifford,J.1996,Finding patterns in time series:A dynamic programming approach [J].In Advances in Knowledge Discovery and Data Mining,229-248.
[3]Bohte,ZD.Cedar,D.andKosmelu,K.1980,ClusteringofTimeSeries[J].COMPSTAT 80:587-593.
[4]Bonanno,G,Lillo,F and Mantegna,R.2001,High-frequency crosscorrelation in a set of stocks[J]. Quantit.Finance,1:96-104.
[5]Caiado,J.Crato,N and Pe?a,D.2006,A periodogram-based metric for time series classification [J].Comput.Statist.Data Anal.,50:2668-2684.
[6]De Gregorio,A and Iacus,SM.2008,Clustering of discretely observed diffusion processes[J].Comput.Statist.Data Anal.,54:598-606.
[7]Galeano,P and Pe?a,D.2000,Multivariate analysis in vector time series[J].Resenhas,4:383-404.
[8]Hoeffding.W.1948,A non-parametric test of independence.The Annals of Mathematical Statistics,19(4):546-557
[9]Hollander.M.andD.Wolfe.1999,Nonparametric Statistical Methods.John Wiley&Sons.
[10]Kaufman.L.andP.Rousseeuw.1990,Finding groups in Data:An Introduction to Cluster Analysis,John Wiley and Sons,Inc.
[11]Kruskal.W.1958,Ordinal measures of association.Journal of the American Statistical Association.,284(53):814-861.
[12]Maharaj,EA.1996,A significance test for classifying ARMA models[J].J.Statist. Comput.Simul., 54:305-331.
[13]Maharaj,EA and D'Urso,PA.2010,A coherence-based approach for the pattern recognition of time series [J].Physica A:Statist.Mech.Applic.,389:3516-3537.
[14]Piccolo,D.1990,A distance measure for classifying ARIMA models[J].J.Time Ser.Anal.,11:152-164.
[15]Tong,H and Dabas,P.1990,Cluster of time series models: An example[J].J.Appl. Statist.,17:187-198.