莊 嚴 楊嘉偉 陳平雁
南方醫科大學生物統計學系(510515)
非正態縱向數據隨機生成的Monte Carlo模擬方法*
莊 嚴 楊嘉偉 陳平雁△
南方醫科大學生物統計學系(510515)
目的 建立非正態縱向數據的隨機序列生成方法。方法 根據任意累積分布函數均服從[0,1]的均勻分布原理,通過反函數計算即可將標準多元正態分布隨機序列轉換為任意分布下的目標隨機序列,從而隨機生成非正態縱向數據。結果 分別對指數分布和二項分布相關序列進行模擬隨機數生成,通過對樣本的統計分析,均滿足預先設定的結果。結論 本文提出的非正態縱向數據的隨機生成的Monte Carlo模擬方法可產生任意分布下的相關隨機序列,不受變量類型限制,方法簡單,且具有理論依據,為非正態縱向數據的研究提供了模擬基礎。
Monte Carlo 縱向數據 相關序列 隨機數
在醫學統計的理論方法領域中,通常需要研究者對現有若干方法做比較研究,以說明各方法在應用中的優劣勢,從而闡明其適用條件,為今后的實際應用提供理論指導。在這個過程中勢必需要產生隨機數據來模擬各種應用中的情況,并以此為背景評價各方法的應用性能。可以看出,隨機數據是整個比較研究的基礎,其生成結果的好壞直接影響著后續方法的比較研究結果,并進一步影響方法的實際應用。關于隨機數據的生成,現有很多軟件,如SAS、R軟件以及Matlab等,提供有專門的模塊或語句方便大家使用,但僅能生成單變量形式的隨機樣本,若想生成具有相關性的多元隨機數,如縱向數據,則只能生成服從多元正態分布的隨機序列,而對于偏態的具有相關性的縱向數據隨機生成尚無現成模塊支持。
Li和Hammond[1]及文德智等[2]曾提出基于線性變換-非線性變換兩步變換法產生相關變量隨機數序列,主要是產生獨立標準正態分布隨機序列,通過協方差矩陣Cholesky因子分解的方法經線性變換轉為一般正態分布隨機序列,最后經非線性變換轉換為目標隨機序列,整個過程較為繁瑣,且僅限產生連續型相關序列。本文介紹基于均勻分布產生隨機數的Monte Carlo模擬方法[3],省去了標準正態與一般正態之間的轉換過程,由標準正態分布的隨機序列通過累積分布函數連接,進而生成目標隨機序列,過程更為簡捷,且可生成離散型相關序列。
1.Monte Carlo模擬原理
定理:令θ=FX(x),其中FX(x)為任意連續型隨機變量X的累積分布函數,則0≤FX(x)≤1,那么有θ~U[0,1]。
即X~U[0,1]。
水中自救與水上救助能力是使學生安全成長并全面發展的重要培養手段,以核心素養觀之,游泳自救與水上救助能力具有三維目標的立體結構。其外在表現為十字漂、水母漂、踩水、著裝游泳、潛泳、游泳技能、人工呼吸、安全運送等游泳安全能力;其內核結構則是學生沉著冷靜處理危機情況的自主能力與生命安全意識,強調如何有效地管理情緒、保持體力、思考和應對復雜多變的環境,從而擺脫險境;其中間聯系層則是良好的溝通機制和社會參與,強調學生處理好自救和救助他人的關系,成為具有安全意識和社會擔當的人。
2.非正態分布縱向數據模擬方法
(1)
3.相關矩陣的計算
1.指數分布
2.二項分布
隨機數生成是統計學模擬研究的基礎。在方法比較以及評價中,如果隨機數生成出現問題,就可能會對最終的推斷造成偏倚。隨著縱向研究越來越受到廣大學者的關注,相關序列的隨機生成也成為一個不可避免的問題。常用軟件只能產生多元正態分布隨機數,對于非正態分布,以往提出的方法也僅能解決連續型分布,對于離散型分布并未深入研究,且方法較復雜。本文提出基于均勻分布產生隨機數的Monte Carlo模擬方法,僅通過標準正態的累積分布產生均勻分布隨機數,進一步計算反函數就可產生任意分布的相關序列,方法簡單,不受變量類型限制,既可產生連續型相關序列,也可產生離散型相關序列,且在多數計算軟件如Matlab、R軟件中可實現。
[1]Li ST,Hammond JL.Generation of pseudorandom numbers with specified univariate distributions and correlation coefficients.Systems,Man and Cybernetics,IEEE Transactions on,1975(5):557-561.
[2]文德智,卓仁鴻,丁大杰,等.蒙特卡羅模擬中相關變量隨機數序列的產生方法.物理學報,2012,61(22):220204.
[3]李賢平.概率論基礎.高等教育出版社,1997.
[4]Tanner MA.Tools for statistical inference.Springer,1991.
[5]MathWorks T.Matlab r2009b.Natick,MA,2009.
[6]陳平雁,黃浙明.IBM SPSS 19 統計軟件應用教程.第2版.人民衛生出版社,2012.
(責任編輯:鄧 妍)
Skewed Longitudinal Data Simulation Based on Monte Carlo Method
Zhuang Yan,Yang Jiawei,Chen Pingyan
(Department of Biostatistics,School of Public Health,Southern Medical University(510515),Guangzhou)
Objective Proposethe random sequence generation method of skewed longitudinal data.Methods Any cumulative distribution function obey standard uniform distribution,according to this principle,we can computethe inverse function,and convertthe random sequence from standard multivariate normal distribution to targeted random sequence from arbitrarily distribution,randomly generateskewed longitudinal data ultimately.Results Respectively,we simulate the exponential distribution and the binomial distribution,and the results have met pre-setthrough the statistical analysis to the samples.Conclusion This paper propose a method based on Monte Carlo simulation which can generatethe random sequencefrom any distributionwithout any limitation to the type of the variates.This method is simple,and it provide a theoretical basis for generating therandomsequence of skewed longitudinal data.
Monte Carlo;Longitudinal data;Related sequence;Random number
國家自然科學基金(81402758,81373098);廣東省“大學生創新創業訓練計劃”(1212113040)
△通信作者,陳平雁,E-mail:chenpy99@126.com