(上海市新虹橋中學,上海 200051)
概率論和數理統計是數學的一個十分重要的分支,它主要研究隨機事件的發生規律。根據概率統計理論,數學家可以更高效地收集數據、分析數據,挖掘其中的信息,更清晰直觀地呈現計算結果。
在17世紀,人們嘗試對賭博和保險中發生特定事件的可能性進行研究,這便是概率論的起源。如今,概率論與數理統計已成為生產生活、科學研究中不可或缺的工具。在進行人口普查、市場調研、銷量預測時,概率統計都發揮著重要的作用。它能夠幫助人們把握隨機事件的發生規律,預測特定事件發生的可能性。不斷完善概率統計理論,可以幫助人們更加高效地分析隨機變量的分布規律、隨機事件的發生規律,更準確地預測事物的未來發展方向。
在數學中,隨機變量被定義為可以取不同值的變量。隨機變量的取值是由隨機變量的概率分布規律決定的。一般而言,隨機變量的實際分布特征與均值和標準差有關,符合正態分布的隨機變量就屬于這類隨機變量。隨機變量的實際分布特征也與其偏態性和峰值有關。此外,當存在噪聲或偶然事件時,隨機變量的值也會受到隨機擾動的影響。
在生活中,人們可以將用隨機變量描述多種場景中不能確定的數值。例如,某地7月中旬的預期最高溫度和最低溫度、一項體育賽事的預期出勤率、體育隊的評級以及一支球隊贏得比賽或特定得分的概率,都是隨機變量。
人們也可以將隨機變量納入多種用于預測的數學模型中,從而預測體育比賽或其他隨機事件的結果。在這些情況下,分析人員需要根據隨機變量的分布規律,估算結果變量的可能取值。
隨機變量可以是離散值或連續值。離散隨機變量只能取特定的數值。例如,體育比賽中的常見離散隨機變量是球隊的得分或主隊得分與客隊得分之間的差值。連續隨機變量可以取一個區間內的幾乎任何數值。理論上,連續隨機變量的小數位數可以是任意值。但是,由于測量儀器的精度是有限的,連續隨機變量有時只保留兩位小數。例如,體育比賽中的連續隨機變量可以是球隊的實力等級或與場上表現相關的指標,如擊球平均值(可以是無限循環小數)[1]。
在收集到相關數據后,人們通常用幾個參數描述得到的數據,這些參數可以很好地展現數據的特征,幫助人們總結變量的分布規律或變化規律。在進行統計分析時,最常用的統計量是平均值、中位數、標準差、變異系數等。
平均值:也稱算術平均值、簡單平均值或等加權平均值。人們一般需要計算統計量的平均值,了解統計量大概位于哪個區間內。
中位數:中位數是比一半的統計數據的數值小、比另一半的統計數據的數值大的那個統計數據。也就是說,如果把統計數據按照數值大小排成一列,中位數是位于中間的那個數。如果人們收集到了偶數個統計數據,那么中位數是位于中間的兩個統計數據的平均值。中位數通常不是唯一的。例如,在數據系列1、2、3中,中位數是2;但是在數據系列1、2、3、4中,中位數是2和3的平均值2.5。
標準差:人們通常用標準層描述均值附近的數據的分散程度。標準差較小表示數據大都接近均值,而標準差較大表示數據大都遠離均值。標準差通常是數據的方差的平方根[2]。
變異系數:用標準差除以平均值就可以得到變異系數。人們可以用變異系數將數據歸一化,以便“公平地”比較平均值不同的幾組數據的離散度。例如,當人們評估每日或每月股票交易量的數據離散度時,他們不能直接比較標準差,因為每日和每月的基礎交易量是不一樣的,但是變異系數可以幫助人們相對準確地比較不同交易日和不同月份的交易情況。
偏度:衡量數據分布的對稱性的一種方法。正偏斜表示多數數據比平均值大,在概率分布圖像與x軸圍成的圖形中,平均值右側的面積一般大于平均值左側的面積。負偏斜表示多數數據比平均值小,在概率分布圖像上,平均值右側的面積一般小于平均值左側的面積。偏度為零表示數據是對稱的。偏度也被稱為關于均值的第三階矩。
峰度:峰度是對數據分布的峰值的度量。人們稱峰度為負的數據分布為platykurtic分布,稱峰度為正的數據分布為leptokurtic分布[3]。
正態分布是統計分析中最重要的概率分布之一。一般而言,自然界中的許多變量是服從正態分布的。在科學研究、工業領域、生態建設時,人們常常需要構建正態分布模型模型。當數據不完全服從正態分布時,人們可以借助通過正態分布進行近似,從而分析數據的分布特征。此外,在進行參數估計或建立回歸模型時,正態分布是非常有用的。
接下來,筆者以接受氣管隆突切除術的患者的年齡分布分析為例,說明正態分布模型的應用。134位被抽到的患者的平均年齡約為48歲,其年齡標準差(即σ值)約為16歲。求30歲以下的患者的百分比是多少?
30歲與年齡平均值—48歲的差值為-18歲,-18/16=-1.125。問題變成了:在標準正態分布中,變量小于μ-1.125σ的概率是多少?我們可以在標準正態分布表中查到,變量大于μ+1.125σ的概率是大概是0.13。由于分布是對稱的,變量小于μ-1.125σ的概率也是0.13,也就是說,接受氣管隆突切除術的患者中,年齡小于30歲的約占總數的13%。
在生活中,人們經常遇到只有兩種可能結果的情況:健康或患病、治療的成功或失敗、體液中存在或不存在特定微生物[4]。我們可以用π表示任何隨機試驗中,第一種結果發生的概率。如果我們有n次機會進行隨機試驗,并得到n個結果。例如,n位患者是否在治療后痊愈?則二項分布將告訴我們,第一種結果將出現多少次。
接下來,筆者以激光手術的有效率分析為例,說明正態分布在生活中的應用。挪威的一項研究評估了激光小梁成形術治療開角型青光眼療法的長期成功率。在第2年末,接受手術的患者復發的概率為1/3。假設一家醫院中,有6例患者接受了小梁成形術。在2年末,有且只有一位患者手術復發的概率約為多少?
從6位患者中隨機“選”出一位患者,有6種選法。在這一場景中p=1/3,P(1)=6*p1(1-p)5=192/729=26.34%。也就是說,在接受手術后的第二年末,有且只有一位患者復發的概率為26.34%。
1837年,Siméon Denis Poisson在研究發生概率較低的一系列事件時,提出了泊松分布模型。當時的人們用泊松分布預測1875—1894年期間被戰馬踢死的普魯士軍官人數[5]。
當隨機事件的某一結果出現的可能性很低,且隨機事件會發生多次時,該結果發生的次數服從泊松分布。此外,還可以將泊松分布定義為單位時間內某事件發生的次數。例如,在一段時間內,某常見病的新發例數服從泊松分布。
若隨機變量X取0和一切正整數值,在n次獨立試驗中出現的次數x恰為k次的概率,式中λ是單位時間內隨機事件的平均發生次數。
接下來,筆者以通過某路口的汽車是否發生交通事故為例,說明泊松分布的應用。假設在早高峰期間,通過某路口的每輛汽車發生事故的概率為p=0.0001,某日早高峰期間有10000輛車通過該路口,求此段時間內發生事故的次數超過一次的概率。
由于λ=np=10000*0.0001=1,此路段不發生交通事故的概率為,發生一次交通事故的概率為。
則此路段發生交通事故的次數超過一次的概率為P(X>1)=1-0.368-0.368=0.264。
在分析以上場景時,人們也可以應用二項分布模型計算不發生事故的概率。
P(X=0)=0.999910000=0.368,P(X=1)=10000*0.0001*0.99999999=0.368,但是計算量比泊松分布模型的計算量大。
應用概率模型或統計模型,人們可以高效地描述生活中的問題,得到較可靠的結論。但是,這種分析方法也有一定的局限性。在建立模型的過程中,人們只能將可量化的因素納入模型中,但是無法在模型中體現不可被量化的因素的影響。這可能導致所建立的模型不能貼切地描述問題,得到的結論與實際不符。此外,人們只能借助模型得到某一事件發生的可能性,而不能得到其他信息。如果決策者僅根據計算結果進行決策,那么他可能遺漏一些重要因素的影響,無法做出周到的安排。例如,在預測股票的漲跌時,人們只能得到某只股票上漲、下跌的概率,但是無法得到與上漲和下跌背后的風險相關的信息。如果僅根據與概率統計相關的計算結果進行決策,可能會造成一定的損失。因此,建立概率統計模型只是輔助決策的手段,決策者需要在決策時考慮其他因素的影響,才能得到正確的結論[6]。
概率統計知識在生活中有著廣泛的應用。預測股市走向、購買彩票、賭馬賭球時,人們都需要應用與概率統計相關的模型,如正態分布模型、泊松分布等模型等分析問題,才能得到較為可靠的結論。需要注意的是,當需要分析的事件比較復雜時,人們需要盡量將所有的主要影響因素納入模型中,并同時分析可量化的因素和不可量化的因素的影響,才能得到可靠的結論。