孫夢哲,包研科
基于樣本協方差矩陣的多維隨機數生成方法
孫夢哲,包研科
(遼寧工程技術大學理學院,遼寧阜新123000)
對于概率模型未知的多維數據樣本容量擴充問題,根據主成分分析原理以及多維正態分布的性質,討論并給出了與已知多維樣本數據有相同協方差結構的模擬數據生成算法,并在此基礎上給出了變量的離散化處理方法.實現了在小樣本數據基礎上不改變變量間協方差結構的樣本容量擴充,為小樣本條件下的數學建模、檢驗和分析提供樣本數據支撐.
多維數據;樣本協方差矩陣;模擬;離散化處理
通常,在各方面條件限制的情況下,由觀察或試驗得到的樣本容量總是有限的.這些容量有限的樣本有可能不足以支撐試驗結論的驗證或數學模型的建立.因此,當樣本容量不夠所需時,有必要通過模擬樣本數據來擴充樣本容量.
對于一維樣本數據的模擬,大致可分為兩種情形.一種是在概率模型和先驗知識已知的情況下,生成與樣本數據同分布的模擬數據.此類問題屬于經典的蒙特卡洛模擬問題,相關論述與文獻資料[1-5]較為豐富,較為權威的書籍如參考文獻[6].另一種情形是對動態時間序列的模擬,此類問題的相關討論也較為充分.此類問題的共同技術特征是先提取出時間序列的趨勢特征、周期性特征等,之后再通過適當的加噪技術生成模擬數據[7-8].
然而,多維樣本數據的模擬問題就復雜多了,文獻中偶有討論,且模擬過程多集中在幾種特定類型的概率分布模型下進行.同樣,在概率模型和先驗知識未知的情況下,如何模擬出滿足問題所需的樣本數據,目的或旨意明確的文獻較為匱乏.本文研究在已有樣本數據的基礎上生成模擬數據,使其在容量擴充的同時,保證模擬數據的協方差結構與樣本數據的協方差結構一致,即協方差矩陣統計相等.
本文借鑒平穩隨機過程研究,以正態過程為“模特”的思想方法,在確保模擬數據與樣本數據協方差結構統計相等的條件下,賦予模擬數據以正態性,方便進一步的統計分析.
2.1 問題的數學描述
設p維隨機向量Y=(Y1,Y2,···,Yp),其協方差矩陣ΣY是非對角陣.通常,模擬生成容量為N的Y的樣本數據矩陣時,ΣY一般未知.
本文討論由線性變換Y=AX+μ和Y(0)生成容量為N的Y的模擬數據矩陣

的方法,其中N?n,μ=E(Y),X=(X1,X2,···,Xp),


顯然,這一問題的關鍵是求變換矩陣A,使得其中S1是Y(1)的協方差矩陣,μ1是Y(1)的均值向量.
2.2 模擬數據的生成
由于在Y=AX+μ與Y=AX下,ΣY始終不變(ΣY=AΣXAT).因此,本文的討論在Y=AX下進行.
注意到ΣY為非對角陣,而ΣX為對角陣的特征,若令X=BY,則求變換矩陣B的問題可轉化為在?ΣY=S0條件下的主成分分析問題.根據主成分分析原理以及多維正態分布的性質[9],由線性變換Y=AX+μ和Y(0)生成Y(1)的算法如下:
(1)求S0=cov(Y(0))與μ0=E(Y(0));
(2)求S0的特征值與單位正交化特征向量,記S0的特征值λ1,λ2,···,λp對應的單位正交化特征向量為β1,β2,···,βp,不妨按λ1≥λ2≥···≥λp≥0排序;
(3)令B=(β1,β2,···,βp);
(4)令A=B?1;
(5)令ΣX=diag(σ21,σ22,···,σ2p),其中σ2i=λi,i=1,2,···,p;
(6)由計算機生成p維正態隨機向量X~Np(0,ΣX);
(7)計算Y(1)=AX+μ0.
在上述算法中由主成分分析原理可證ΣY=BΣYBT,其中B為正交陣,B?1=BT,于是ΣY=BΣXBT,即A=B?1;又由多維正態分布的線性變換不變性,若X~Np(0,ΣX),則Y(1)=AX+μ0~NN(μ0,AΣXAT).
容易證明,模擬數據的生成算法具有如下性質:
(1)協方差結構不變,即樣本數據矩陣Y(0)與模擬數據矩陣Y(1)的協方差矩陣統計相等;
(2)樣本數據矩陣Y(0)與模擬數據矩陣Y(1)的均值統計相等;
(3)無論樣本數據矩陣Y(0)來自怎樣的分布,Y(1)都將被賦予額外的正態性.
其中,性質(1)與性質(2)是判定模擬數據是否可以實際應用的準則,判定程序是如下兩個檢驗條件:
(1)檢驗假設H0:S1=S0.
(2)檢驗假設H0:μ1=μ0.
若兩個檢驗均不能拒絕H0,則Y(1)可用.由于算法中μ0=E(Y(0)),X~Np(0,ΣX)且Y(1)=AX+μ0,故(2)即均值向量統計相等的檢驗可以省略.Y(1)額外的正態性能方便進一步計算誤差或決策風險等問題的定量分析.
由于研究問題的背景不同,樣本數據各維度變量的含義也不同.因此,有些變量取連續值,如長度、深度等;有些變量則取離散值,如等級、類型等.上節介紹的方法只適用于生成取連續值變量的模擬數據,若要生成取離散值變量的模擬數據,則需要對這類變量的模擬數據進行離散化處理.
設Y中第j個維度的變量Yj(j的可能取值為1,2,···,p)取m(m≤n)個不同的離散值,k=1,2,···,m,不妨按<<···<排序.Yj在Y(0)上的經驗分布為:

對上節模擬數據矩陣Y(1)的第j列可按如下方法進行離散化處理:
(1)在Y(0)上統計,k=1,2,···,m的累積頻率:

(3)模擬Yj的離散化取值.
設Y(1)中第j列的第i個模擬數據為,i=1,2,···,N.令

為方便讀者理解,以下以兩個實際問題的采樣數據為例,生成各樣本數據的模擬數據,并對需要離散化處理的數據進行離散化處理,同時完成模擬數據與樣本數據的正態性檢驗與協方差矩陣相等性檢驗.
4.1正態分布樣本數據的模擬
1.繪制數據散點圖
現有平頂山礦區井下采煤6維瓦斯相關樣本數據,見表1.

表1 平頂山礦區井下采煤瓦斯相關樣本數據
樣本數據與模擬數據的散點圖見圖1.其中,模擬數據容量N=500(模擬數據略),已經過離散化處理.

圖1 樣本數據與模擬數據的散點圖
2.正態性檢驗
通常,多維數據的正態性檢驗采用χ2圖評估法,χ2圖的繪圖與檢驗原理可參見文獻[9].
一般情況下,如果χ2圖中數據的χ2點散布在一條直線附近,則認為多維數據呈正態分布;如果數據的χ2點有明顯的彎曲,則認為多維數據是非正態的.有時在χ2圖末端會出現個別點偏離直線的情形,但不影響多維數據正態性的判斷.
樣本數據與模擬數據的χ2圖見圖2.由圖2可知,樣本數據與模擬數據都近似為正態分布.

圖2 樣本數據與模擬數據的χ2圖
3.協方差矩陣相等性檢驗
通過比較圖1中(a)與(b)可得,樣本數據與模擬數據協方差結構相似.樣本數據與模擬數據的協方差結構是否統計相等,通常運用Box-M方法[9]進行檢驗.
檢驗的原假設H0與備擇假設H1分別為:

Box-M檢驗以似然比統計量

為基礎構造H0的檢驗統計量:

其中,


本例中,Y(0)與Y(1)的協方差矩陣分別為:

經統計計算得到,在α=0.05顯著性水平下,統計量C=0.47<(21)=32.67,故接受H0,即樣本數據與模擬數據協方差矩陣相等.
4.2 非正態分布樣本數據的模擬
1.繪制數據散點圖
現有遼東地區某河流5維水質樣本數據,見表2.

表2 遼東地區某河流水質樣本數據
樣本數據與模擬數據的散點圖見圖3.其中,模擬數據容量N=100(模擬數據略),無需離散化處理.

圖3 樣本數據與模擬數據的散點圖
2.正態性檢驗
樣本數據與模擬數據的χ2圖見圖4.由圖4可知,樣本數據為非正態分布,而模擬數據近似為正態分布.因此,模擬數據生成算法的性質(3)得到了證明,即無論樣本數據矩陣Y(0)來自怎樣的分布,Y(1)都將被賦予額外的正態性.

圖4 樣本數據與模擬數據的χ2圖
3.協方差矩陣相等性檢驗
本例中,Y(0)與Y(1)的協方差矩陣分別為:


經統計計算得到,在α=0.05顯著性水平下C=0.56<(7)=24.99,故接受H0,即樣本數據與模擬數據協方差矩陣相等.
本文根據主成分分析原理以及多維正態分布的性質,構造了如何生成同協方差結構的模擬數據的方法,通過上述實例有效地驗證了該方法的正確性及有效性.
[1]趙琪.Gibbs方法在產生多維隨機數中的應用[J].中國科技信息,2008(3):246.
[2]宋艷.多維聯合概率的隨機模擬技術及其工程應用[D].中國海洋大學:圖書館,2004.
[3]崔海蓉,胡小平.高效率多維離散分布隨機數生成算法[J].甘肅科學學報,2010,22(2):114-116.
[4]張朋,邱振國.基于單純形分布的比例數據的回歸分析[J].中國科學:數學,2014,44(1):89-104.
[5]王萍.一種修正的PS方法及其在產生相關正態隨機數中的應用[D].大連理工大學:圖書館,2005.
[6]劉軍.科學計算中的蒙特卡洛策略[M].北京:高等教育出版社,2009.
[7]張熙.含有周期性的時間序列中連續型缺失數據的填補方法[J].中國衛生統計,2012,29(3):318-321.
[8]黃潔.有限非平穩時間序列的模擬方法[D].蘇州大學:圖書館,2012.
[9]包研科.數據分析教程[M].北京:清華大學出版社,2011.
Multidimensional random number generating method based on the sample covariance matrix
Sun Mengzhe,Bao Yanke
(Collage of Science,Liaoning Technical University,Fuxin123000,China)
For multidimensional data probability model of the unknown sample capacity expansion problem, according to the principle of principal component analysis and the properties of multidimensional Gaussian distribution,we discuss and give the multidimensional samples with known data simulation data with the same covariance structure generation algorithm,and we give the discretization processing method on the basis of the variables.We realize the expansion of sample capacity without changing the covariance structure between variables basing on small sample data.Furthermore,the algorithm supports the mathematical modeling,testing and analysis under the condition of small samples.
multidimensional data,sample covariance matrix,simulation,discretization processing
O29
A
1008-5513(2014)06-0610-08
10.3969/j.issn.1008-5513.2014.06.010
2014-07-03.
國家自然科學基金(71371091).
孫夢哲(1989-),碩士生,研究方向:數據分析.
2010 MSC:03G27