盧亞麗
在理論教學中,知道了隨機變量的概率密度函數就能獲知該隨機變量的全部概率分布特性和數字特征,如常見的正態分布、指數分布、均勻分布、二項分布、泊松分布等等。然而,對于在實際學習、工作、以及科學研究中所獲得的統計數據序列,我們事先并不知道它們服從什么概率分布。那么這些統計數據序列的概率分布是什么?它們有什么樣的統計規律性?如何繪制其概率密度曲線?這常常是人們對統計數據進行分析時所感興趣的問題[1-2]。由樣本數據序列估計其概率分布是統計學及其相關專業的大學生以及經常需要對統計數據進行分析的研究人員所必須掌握的知識。在計算機越來越普及的今天,借助于計算機的快速計算能力,以前估計樣本數據概率分布需要花很長時間才能做完的繁瑣的計算工作現在可以在計算機上瞬間完成。通過計算機繪圖,估計出的樣本數據的概率密度函數的圖像也可以直接在計算機上顯示出來(即計算結果的可視化),從而使我們可以以圖像的方式直觀的觀察樣本數據的概率分布規律。這為分析來自理論分布獲知困難的樣本數據序列的概率分布規律提供了簡便、快捷的近似方法。目前,樣本數據概率分布的可視化研究,重點在于理解其理論基礎、優化其算法設計、清晰化代碼編寫。本文擬通過理論基礎分析,給出樣本數據概率分布直方圖和概率密度曲線的繪制算法,并用MATLAB 7.0編寫程序代碼實施計算結果的可視化。
樣本數據概率分布的估計以大數定律為基礎,用頻率的穩定值來度量概率。由概率論中貝努力概型知識可知,將一成功(事件A發生)概率為 p的實驗獨立重復n次,其中成功μn次,則μn為服從二項分布的隨機變量,其數學期望和方差分別為:E(μn)=np,D(μn)=np(1-p)。因此,成功的頻率μnn也是隨機變量,其數學期望和方差分別為:E(μnn)=p。這表明隨機變量 μnn的期望為 p,與n無關,且其方差在n→∞時趨于0.由概率論知識知,方差為0的隨機變量恒等于它的數學期望.因此,在n→∞時頻率μnn應以概率p為極限[3]。從而,“頻率以概率為其穩定值”的嚴格數學刻畫可由下面的定理1表示。
定理1設μn為n重貝努力實驗中成功的次數,則當與f(x)?d x=1 。 記 ξ(k=1,2,…,n)落 入 區 間k[xi-1,?xi)的頻數為 μi,頻率為 μin。從而,由定理1可知,隨機點ξk落入區間[xi-1,?xi)的概率 pi(即圖1中曲邊梯形ABCE的面積)可表示為。由積
設獨立同分布隨機變量ξk(k=1,2,…,n)的概率密度函數為 f(x),其示意圖見圖1。顯然,f(x)滿足:f(x)>0分計算的微元法,也即在區間[xi-1,?xi)的寬度很小時,圖1中曲邊梯形ABCE的面積可以用矩形ABCD的面積近似表示。從而,由定積分計算的右矩形公式可知,概率密度函數 f(x)在 xi點處的函數值可近似表示為

圖1 概率密度函數 f(x)曲線
設{yk},k=1,2,…,m為來自某一實際問題或理論問題的容量為m的樣本數據序列,其概率密度的估計可按照以下步驟進行:
① 記 a=min{yk}-ε,b=max{yk}+ε,這里 ε為一很小的正數。
②記a=x0,b=xn,在 x0和 xn之間等距插入n-1個點 xi,i=1,2,…,n-1,把區間[a,b]分割為n個長度相同的小區間[xi-1,?xi),i=1,2,…,n。
③統計樣本點{yk},k=1,2,…,m落入區間[xi-1,?xi)內的個數,記為mi,i=1,2,…,n。從而,樣本點落入區間[xi-1,?xi)的概率可近似表示為Pi≈mi/m,i=1,2,…,n。
④ 計算 fi=Pi?Δxi,這里 Δxi=xi-xi-1。
⑤在平面直角坐標系中,以[xi-1,?xi)為底,以 fi為高(i=1,2,…,n),即可做出樣本數據序列{yk},k=1,2,…,m的概率分布直方圖.把坐標平面上的點(xi,?fi),i=1,2,…,n依次用光滑的曲線連接起來就得到樣本數據序列{yk},k=1,2,…,m的概率密度曲線。
樣本數據序列的概率密度曲線能夠直觀地顯示出樣本數據的概率分布特征。下文用MATLAB 7.0編寫程序計算樣本數據的概率分布并繪制出樣本數據的概率密度曲線。設y為保存樣本數據序列的一維數組,n為設定的需要分割的小區間的個數。用MATLAB 7.0編寫繪制樣本數據序列概率分布直方圖與概率密度曲線的函數文件midu.m的代碼(略)。
樣本數據序列有的來自工作與生活中的數據記錄,如學生的考試成績,也有的來自科學實驗與理論研究。下文以學生成績的概率分布和Logistic映射軌道點的概率分布為例,用2.3節的程序midu.m繪制其概率密度直方圖和概率密度曲線。
例1.某班98個學生參加期末《統計學》考試的成績見表1。把2.2節的midu.m文件拷貝到MATLAB的工作目錄下,然后,在MATLAB命令提示符后依次輸入命令:

繪制的學生成績的概率分布直方圖和概率密度曲線見圖2,計算得到的學生的平均成績為82.11,標準差為8.38.在圖2中,學生成績被分為5組進行統計。若把學生的成績分為6組進行統計,只須把上述命令中的midu(y,5)改為midu(y,6)即可,此時,繪制的學生成績的概率分布直方圖和概率密度曲線見圖3。比較圖2和圖3可以看出,對于同一組學生成績數據,當分組數n不同時,繪制的概率密度曲線的形狀也有差異。由圖2與圖3中繪制的學生成績分布的概率密度曲線可以看出,該班學生的《統計學》考試成績分布接近于正態分布。

表1 98個學生的《統計學》成績表

圖2 學生成績概率分布直方圖與概率密度曲線(n=5)

圖3 學生成績概率分布直方圖與概率密度曲線(n=6)
例2在生態學中,描述昆蟲數目演化規律的Logistic模型可標準化為[4]:

這里g(y)為區間[-1,?1]上的滿映射。為研究映射(1)軌道點的概率分布,任取初值 y1=0.1,把映射(1)迭代10000次,取 n=200,映射(1)軌道點 {yk},k=1,2,…,10000的概率分布直方圖和概率密度曲線可用附錄中的程序Logistic.m繪制,結果見圖4。由文[4]知,Logistic映射(1)的軌道點的理論分布概率密度函數為:

其圖像見圖5。比較圖5與圖4可知,圖4中由軌道點樣本數據繪制的概率密度曲線不太光滑,但圖4中由樣本數據繪制出的概率密度曲線的形狀與圖5中的理論概率密度曲線形狀基本吻合。

圖4 Logistic映射軌道點分布直方圖與概率密度曲線

圖5 Logistic映射軌道點分布的理論概率密度曲線
本文基于概率論大數定理與微積分微元法,研究了樣本數據序列概率分布直方圖和概率密度曲線的繪制方法,并給出了相應的MATLAB程序代碼。以98個學生成績的概率分布的計算與Logistic映射軌道演化點分布概率密度的計算為例,用文中給出的MATLAB程序代碼進行了仿真實驗.由Logistic映射10000個軌道演化點計算出的概率密度曲線與Logistic映射的理論概率密度曲線基本吻合.這證實了本文給出的由本數據繪制概率分布直方圖和概率密度曲線的算法和程序的正確性.不足之處是,本文由樣本數據序列數據繪制出的概率密度曲線不是很光滑,進一步解決的辦法是:一方面可以通過增大樣本數據的數量并適當增大分割小區間的個數提高繪制的概率密度曲線光滑度。另一方面,可以引入插值算法進一步提高繪制的概率密度曲線的光滑度。本文給出的由樣本數據序列繪制其概率分布直方圖和概率密度曲線的程序簡單實用,在樣本數據量較大時能逼近其真實概率分布。由于許多實際工作與研究中的問題的復雜性,樣本數據序列的理論概率分布有時很復雜,或者說根本無法獲知,或者獲知的成本太大,那么,用本文的方法與程序通過采樣數據估計出其近似的概率分布就成為一種很好的研究手段。
[1]張智廣.一種利用統計直方圖擬合密度曲線的方法[J].內蒙古師范大學學報(自然科學漢文版),2008,37(5).
[2]袁衛,龐皓,曾五一,賈俊平.統計學[M].北京:高等教育出版社,2009.
[3]楊振明.概率論[M].北京:科學出版社,1999.
[4]郝柏林.從拋物線談起:混沌動力學引論[M].上海:上海科技教育出版社,1993.