王惠文,王圣帥,黃樂樂,王成
(北京航空航天大學 經濟管理學院,北京100191)
符號數據分析(SDA)可以對海量巨維數據的分析提供行之有效的解決思路,因而成為目前統計學研究的前沿領域,具有眾多的理論研究成果和廣泛的實際應用案例[1-4].區間數據作為一種符號數據,因其具有廣泛的應用價值而得到關注[5-6].尤其在面對海量數據時,采用區間數據可以極大地約簡原始數據,進而基于區間數據分析的方法進行數據處理[7-9].
區間數據分析的眾多研究文獻,無論是采用頂點法、均值法還是引入內積運算、平方范數等,都是基于數據在某一個閉區間(或緊致集合)上服從均勻分布的假定,且區間數據分析的理論性質均基于此假定.而在實際數據處理中,假設數據來源于某一固定區間,并且在該區間上服從均勻分布,通常是難以滿足的.例如在統計學處理中,通常會假設數據服從正態分布而不是均勻分布.一旦均勻分布這一假定不滿足,其良好的理論性質均不再成立.因此,均勻分布這一假定在區間數據分析中起著基礎性的重要作用,需要對區間數據分析的這一假定進行重新審視,并在數據不服從均勻分布時給出合理化的解決方法[10-11].
基于以上考慮,僅假定原始數據來源于某一連續分布,本文提出一種基于數據驅動的變換,對原始數據進行該變換后,從理論上證明在樣本容量足夠大時其服從均勻分布,在實際數據處理操作中可對其是否服從均勻分布進行假設檢驗,進而可采用已有的區間數據分析方法進行后續分析,如主成分分析、回歸分析等.數據模擬的結果可以看出,經過變換后的數據基本可以通過假設檢驗,即使是在樣本量較小的情形下.
本節從最簡單的情形出發,基于經驗分布函數給出數據變換公式.
設X為服從某一連續分布的隨機變量,(x1,x2,…,xn)是已得到的一組樣本數據,將其轉化為區間數據的方法是取其最大值和最小值作為區間的兩個端點,假定其他樣本在這個區間服從均勻分布[5].這一假定明顯過于嚴格,如果樣本服從其他分布,會導致這一假定及其后續分析的結果失效.
令X的分布函數為 F(t),經驗分布函數Fn(t)定義為

其中I為示性函數.注意到,對于任意給定的t,nFn(t)服從二項分布,即 nFn(t)~B(n,F(t)),從而可以計算Fn(t)的期望和方差為
?參見龔廷泰《當代法律帝國主義的本質及其表征——以列寧〈帝國主義論〉為方法論視角》,《法治現代化研究》2017年第5期。

從而可知,經驗分布函數Fn(t)二階收斂到真實的分布函數F(t).
設隨機變量F(X)的分布函數為H,則有

由此可知,F(X)服從(0,1)區間上的均勻分布(U(0,1)),而 Fn(Xi)二階收斂到 F(Xi).因而在樣本量足夠大時可以近似認為Fn(Xi)服從(0,1)上的均勻分布.
從以上分析可知,對于原始數據(x1,x2,…,xn)可以通過式(3)的變換得到(z1,z2,…,zn),轉化為理論上服從(0,1)均勻分布的區間數據進行后續的處理和分析.

這里使用經驗分布函數對真實的分布函數進行估計,但經驗分布函數不是可逆的,可以考慮采用其他估計量.例如在單調約束下采用核方法等非參數方法進行估計,在一定光滑性條件下保證得到的估計量具有逆函數,從而保證變換是可逆的.直接對分布函數F(t)進行估計,需要考慮單調約束;如果轉化為估計密度函數f(t),則不需要在單調約束條件下進行估計,并且密度估計具有較多的已有成果可以借鑒,這里考慮核密度估計方法[12],之后通過積分變換得到分布函數的估計量.

將式(1)換一種表達形式為其中ωi=1/n可看作是基于離散均勻測度構造的權重,將這一權重函數進行推廣可以得到核估計,具體過程如下.

其中,K(·)是核函數;h是窗寬.通常核函數K(·)是對稱函數,且滿足:

常見的核函數有正態核、Epanechnikov等,具體可參見文獻[13].由于(x)非負,所以估計得到的F^(t)具有單調性,因而這是個可逆變換.在使用核方法進行估計時,核函數的選擇并不關鍵,重要的是要對窗寬h進行選擇.這里采用基于似然函數的交叉驗證指標:

第1節中本文基于經驗分布函數構造了變換,本節討論對變換后的數據進行是否服從均勻分布的假設檢驗.
考慮如下假設檢驗問題:

針對數據是否服從某一給定分布的假設檢驗問題,文獻中有著較多的檢驗統計量,基本上分為基于經驗分布函數的、基于次序統計量的和基于距離的3 種[14],包括常見的 Kolmogorov-Smirnov統計量[15]、Anderson-Darling 統計量[16]、Cramér-von Mises統計量[17]等.文獻[18]提出了式(6)和式(7)的統計量,與常見的統計量相比具有較高的功效,因此這里采用該統計量.

其中z(i)為第i個次序統計量.ZA,ZC的精確分布難以得到,文獻[18]給出了各個水平下ZA和ZC在不同樣本容量時的拒絕域.(z1,z2,…,zn)通過均勻分布假設檢驗,則可以采用區間數據分析的方法進行后續分析.由于經過第1節中的變換后得到的zn=1,因此筆者對文獻[18]中的統計量略加改造.
注意到,經過變換后的數據均分布在(0,1)上,從而不需要估計均勻分布所在區間的端點值.實際上,文獻中通常是采用最小值和最大值來作為區間端點的估計值.在均勻分布情形下可以證明,最小值和最大值并非區間端點的無偏估計量.本文的方法避免了這一偏差的存在.
本節將原始數據經過變換后得到的數據整理成區間數據表,以便進行后續分析.
根據原始數據定義數據矩陣如下:

其中X的每一行為一組觀測數據,每一列為一個變量的觀測值.假設觀測值分為M類,不妨令(x1,…,xn1),(xn1+1,…,xn2),…,(xnM-1+1;xn)分別屬于不同的類別,即樣本本身具有一定的分類結構,這種情形在數據分析中經常會出現.因此,可以對變換后的數據分組進行約簡,將其整理成區間數據表.
定義

則可以得到


進一步對每一類內部的樣本進行整理可以得到這時得到的數據表為Y,是個典型的區間數據表,基于此可以進行主成分、回歸分析等.
經過變換后得到的區間數據所有的取值都落在0~1之間.從數據信息的角度考慮,所做變換相當于對原始數據進行了方差壓縮,消除了不同變量量綱不同的影響.
類似于經驗分布函數變換,也可以對數據進行基于核估計函數的變換,然后整理成區間數據表.
本節討論在不同樣本容量下,取自不同分布(正態分布N(0,1)、指數分布Exp(2)、柯西分布Cauchy和均勻分布 U(0,1),U(5,10))的樣本,經過變換后是否能通過均勻分布檢驗,采用第2節中提到的統計量.表1是模擬的結果.每組模擬進行1000次,計算原假設不被拒絕的頻率(在0.05的水平下),采用的統計量是ZA.

表1 對不同樣本容量下來自不同分布的樣本進行均勻分布檢驗的結果Table1 Test results on unifrom distribution with different sample sizes and distributions
由表1的結果可知,如果數據本身來源于某些不是均勻分布的常見分布,進行假設檢驗時很難認為其服從均勻分布;只有當原始數據來源于均勻分布時,可以在一定水平下不能拒絕其來自于均勻分布.而采用經過變換后的數據時,數據都成為樣本容量倒數的整數倍,因而可以通過檢驗,是來自均勻分布的.
筆者在不同分布中分別采用經驗分布函數和核估計方法對分布函數進行估計,具體結果如圖1所示.這里所適用的樣本容量是50.樣本容量為50時,二者都較好地擬合了分布函數.隨著樣本容量增大,二者對分布函數的擬合都具有較好效果.經驗分布函數是階梯函數,比較粗糙,而分布函數的核估計則相對光滑.
表2給出了利用經驗分布函數和核方法對分布函數進行估計的偏差.在模擬中,隨著樣本容量的增大,兩種估計的偏差都在不斷減小,但核方法在區間端點處對分布函數的估計效果略差.在數據來源于重尾分布(表2中所示的Cauchy分布)時,兩種估計的偏差相對都較大.

圖1 對不同分布的分布函數分別采用經驗分布函數和核方法進行估計的結果Fig.1 Simulation results for estimating the cumulative distribution function by empirical distribution and kernel method

表2 不同分布不同樣本容量下使用經驗分布和核估計的偏差Talbe 2 Bias of estimation for distributions by empirical distribution and kernel estimator with different sample sizes
本文針對區間數據分析中的均勻分布基本假定在實際數據分析中往往得不到滿足的情況,提出一種利用連續型隨機變量的性質,依賴經驗分布函數和核估計方法對其分布函數進行估計,從而構造了兩種數據變換,使得經過變換后的數據滿足均勻分布的假設.因此,在使用區間數據分析方法前,應先對數據是否服從均勻分布進行假設檢驗,若無法通過檢驗則考慮對數據進行變換,本文基于經驗分布函數給出了這樣的變換.以變換后的數據作為分析對象,進行后續的區間數據分析更加合理.所提出的變換可推廣到使用區間數據分析方法的數據預處理中,使得已有的分析方法更加嚴謹.
進行變換后的數據滿足均勻分布的假設,可進行主成分分析、聚類分析、回歸分析等,這是下一步的研究工作.
References)
[1] Sankararaman S,Mahadevan S.Likelihood-based representation of epistemic uncertainty due to sparse point data and/or interval data[J].Reliability Engineering & System Safety,2011,96(7):814-824.
[2] Diday E,Noirhomme-Fraiture M.Symbolic data analysis and the SODAS software[M].London:Wiley Online Library,2008:81-92.
[3] Billard L.Symbolic data analysis:what is it?[M].New York:Springer,2006:261-268.
[4] Diday E,Esposito F.An introduction to symbollic data analysis and the SODAS software[J].Intelligent Data Analysis,2003,7(6):583-601.
[5] Wang H W,Guan R,Wu J J.CIPCA:complete-informationbased principal component analysis for interval-valued data[J].Neurocomputing,2012,86:158-169.
[6] Wang H W,Guan R,Wu J J.Linear regression of interval-valued data based on complete information in hypercubes[J].Journal of Systems Science and Systems Engineering,2012,21(4):422-442.
[7] Yue Z L.A group decision making approach based on aggregating interval data into interval-valued intuitionistic fuzzy information[J].Applied Mathematical Modelling,2014,38(2):683-698.
[8] Cerny M,Hladík M.The complexity of computation and approximation of the t-ratio over one-dimensional interval data[J].Computational Statistics and Data Analysis,2014,80:26-43.
[9] Yang X J,Yan L L,Peng H,et al.Encoding words into cloud models from interval-valued data via fuzzy statistics and membership function fitting[J].Knowledge-Based Systems,2014,55:114-124.
[10] 郭均鵬,陳穎,李汶華.一般分布區間型符號數據的K均值聚類方法[J].管理科學學報,2013,16(3):21-28.Guo J P,Chen Y,Li W H.K-means clustering of generally distributed interval symbolic data[J].Journal of Management Sciences in China,2013,16(3):21-28(in Chinese).
[11] 高颯.一般分布區間型符號數據的聚類分析方法研究[D].天津:天津大學,2009.Gao S.The clustering analysis of generally distributed interval symbolic data[D].Tianjin:Tianjin University,2009(in Chinese).
[12] Silverman B W.Density estimation for statistics and data analysis[M].London:Chapman and Hall,1986:34-48.
[13] Fan J Q,Yao Q W.Nonlinear time series:nonparametric and parametric methods[M].New York:Springer Verlag,2003:193-212.
[14] Marhuenda Y,Morales D,Pardo M C.Power results of tests for the uniform distribution,I-2005-09[R].Spain:Miguel Hernandez University of Elche,2005.
[15] Kolmogorov A N.Sulla determinazione empirica di una legge di distribuzione[J].G Inst Ital Att,1933,4:83-91.
[16] Sinclair C D,Spurr B D.Approximations to the distribution function of the anderson:darling test statistic[J].Journal of the American Statistical Association,1988,83(404):1190-1191.
[17] Conover W J.Practical nonparametric statistics[M].New York:Wiley,1999:63-70.
[18] Zhang J.Powerful goodness-of-fit tests based on the likelihood ratio[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2002,64(2):281-294.