林益強


摘 要:在人教A版《普通高中課程標準實驗教科書·數學·選修2-3》課本中,第二章的2.1.2節末尾,教材用具體實例引出了“超幾何分布(hyper-geometric distribution)”的概念,而在2.2.3節中,教材也是在介紹“獨立重復試驗”的前提下,通過實例探究引出了“二項分布(binomial distribution)”的定義。作為離散型隨即變量的兩種重要分布,教材的設計很明顯是希望通過實例,讓學生認識模型所刻畫的隨機變量的共同特點,從而建立新的模型,并能運用兩模型解決一些實際問題。然而學生的實際學習情況是怎樣的呢?
關鍵詞:離散分布;超幾何分布;二項分布;比較學習
階段性測試題:某公司生產一種新產品,從產品中抽取100件作為樣本,測量這些產品的質量指標值,由測量結果得到如圖所示的頻率分布直方圖。從指標值落在[215,235]的產品中隨機抽取2件做進一步檢測,設抽取的產品的指標在[225,235]的件數為X,求X的分布列和數學期望;
參考答案:指標值落在[215,235]的產品有件,產品的指標落在[225,235]的件數為100×0.02=2.所以X的取值為0,1,2;,
,所以X的分布列為:
X的數學期望
X 0 1 2
P
學生的解答:指標值落在[215,235]的產品有(件),產品指標落在[225,235]的有100×0.02=2件,所以產品指標落在[225,235]的概率,∴,則
單從最后的結果來看,數學期望是一樣的,但過程顯然是完全兩回事,學生誤將超幾何分布問題當成二項分布問題來解了,而根本原因是對這兩模型的定義不能很好的理解。我們先一起來看看課本對這兩個模型的定義:
超幾何分布
一般地,在含有M件次品的N件產品中,任取n件,其中恰有X件次品,則,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*,稱分布列
X 0 1 … m
P …
為超幾何分布列。如果隨機變量X的分布列為超幾何分布列,則稱隨機變量X服從超幾何分布。
二項分布
一般地,在n次獨立重復試驗中,用X表示事件A發生的次數,設每次試驗中事件A發生的概率為p,則。此時稱隨機變量X服從二項分布,記作X~B(n,p),并稱p為成功概率。
從兩個模型的定義來看,隨機變量X都是在整數值1,2,3…中取值,所以兩者都屬于離散型隨機變量。超幾何分布模型的建立是利用抽取產品中次品數的問題,即在含有M件次品的N件產品中,無放回的抽取n件,其中恰有的次品數X服從超幾何分布。而二項分布模型是建立在拋擲圖釘的試驗上,即拋擲圖釘n次,針尖向上的次數X服從二項分布,其中1次試驗過程中,針尖向上的概率即相當于N件產品中的次品數。所以,我們也可以把這個模型敘述為:在含有M件次品的N件產品中,有放回的抽取n件,其中恰有的次品數X服從二項分布。這時候,我們發現兩種分布的區別主要是在“有放回”和“無放回”的問題上,即放不放回是區別的關鍵。文章開頭引入的測試題,學生就是將“隨機抽取2件”當成“進行2次獨立重復試驗”來考慮,導致解題的錯誤。那為什么在計算數學期望的問題上,兩種的計算結果卻是一樣的,難道只是“偶然”嗎?還是兩者之間有什么聯系呢?
課本中只對二項分布的數學期望做了推導,并沒有對超幾何分布的數學期望做介紹,這跟課程對兩種分布的要求不同有關。我們先來看看課本對于二項分布的數學期望的介紹:如果X~B(n,p),那么由,可得
于是有:若X~B(n,p)則E(x)=np.
接下來,我們試著推導下超幾何分布的數學期望:根據課本定義,若隨機變量X服從超幾何分布,則:
因此,.
(注:利用恒等式的二項展開式中的系數相等可證。)
這時候,我們會發現表示的是抽取的這N件產品中的次品率,當產品數量無限多的話,放不放回對的值幾乎沒有影響的,即=p。這也就是為什么使用不同的分布方法,數學期望的結果卻有可能是相同的。
超幾何分布和二項分布這兩種離散型隨機變量的概率分布表面上看來風馬牛不相及:
1.一種是不放回的隨機試驗,一種是有放回的隨機試驗。
2.二項分布的概率公式的等號右邊可以看成二項展開式的一般項,而超幾何分布的概率公式的等號右邊是超幾何級數一般項的系數。
然而,我們通過剛剛的推導分析也發現,當抽取的樣本容量無限大的時候,放不放回產生的區別已經不是那么明顯了,即兩者所計算出來的概率值相差無幾了,換而言之超幾何分布的極限就是二項分布!人們在實際工作中常利用這一點,把抽取對象數量較大時的無放回抽樣(例如破壞性試驗發射炮彈;產品的壽命試驗等),當作有放回來處理。
但是,作為高中教學的兩個知識點,本質上是不一樣的,如何進行區分顯得更為重要。我們是否能在題目的敘述中找到一些分辨的“蛛絲馬跡”呢?讓我們一起來分析下2020年福州市質檢中一道概率統計題。
(2020·福州質檢)某工廠對A,B兩種型號的產品進行質量檢測,從檢測的數據中隨機抽取6次,記錄數據如下:
A:8.3,8.4,8.4,8.5,8.5,8.9;
B:7.5,8.2,8.5,8.5,8.8,9.5.(注:數值越大表示產品質量越好)
(1)若要從A,B中選一種型號產品投入生產,從統計學角度考慮,你認為生產哪種型號產品合適?簡單說明理由;
(2)若將頻率視為概率,對產品A今后的4次檢測數據進行預測,記這4次數據中不低于8.5分的次數為ξ,求ξ的分布列及期望E(ξ).
試題第一問主要是考查了統計學中的均值和方差的計算,通過均值和方差計算的結果判定哪種型號產品合適。
參考答案:
(1)A產品的平均數:.
B產品的平均數:
A產品的方差:sA2=[(8.3-8.5)2+(8.4-8.5)2+(8.4-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.9-8.5)2]≈0.037.
B產品的方差:sB2=[(7.5-8.5)2+(8.2-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.8-8.5)2+(9.5-8.5)2]=0.363.
因為,sA2<sB2,所以兩種產品的質量平均水平一樣,A產品的質量更穩定,選擇A產品合適。
試題的第二問顯然是考查了隨機變量的分布問題。題目敘述中“若將頻率視為概率,對產品A今后的4次檢測數據進行預測”這些字眼很關鍵。為什么要“將頻率視為概率”?因為我們抽取的樣本只有6個,但是要預測的是整條產品線,即檢測的產品有無限多,這些不都體現著二項分布的基本前提,所以參考答案是這么給定的。
(2)由題意得ξ的所有可能取值為0,1,2,3,4,數據不低于8.5的頻率為,將頻率視為概率,則ξ~B,所以E(ξ)=.
如果我們把第二問做如下的修改:從已知的6次檢測數據中隨機抽取4次,記這4次數據中不低于8.5分的次數為η,求η的分布列及期望E(η)。這樣不就跟我們超幾何分布的模型是一樣的,都是一種不放回的抽樣問題,所以區分的關鍵還是在于能否通過字眼的區別,判斷出是否放回,有放回即體現抽取前后是獨立的,互不影響的,這是二項分布的前提,而如果是不放回,即體現前面的抽取結果對后面的抽取是有影響的,這也是超幾何分布模型的特點。
參考文獻
[1]高延軍.由兩道模擬考試題引發的思考——超幾何分布與二項分布辨析[J].中國數學教育,2013,000(009):9-10.
[2]匡婷、葛雙林.抓定義透實質——二項分布及其應用重難點解析[J].高中生學習:試題研究,2017.
[3]賀艷.《超幾何分布與二項分布》教學設計[J].科普童話,2019,000(003):P.96-96.