江蘇省天一中學 孫承輝
獨立性檢驗是統計中的一個重要知識點,主要是根據2×2 列聯表計算K2的值,從而判斷兩個事件之間是相互獨立還是存在某種關聯性??碱}的呈現形式多種多樣,一般與概率統計中的其他知識交匯,體現一定的綜合性。本文精選一些典型例題,希望對同學們的復習能有所幫助。
這類題目以頻率分布直方圖為背景,為檢驗事件的獨立性提供數據。解題的關鍵是讀懂頻率分布直方圖,明確各小長方形的面積表示相應各組的頻率,從而求出相應區間內的樣本頻數,并完善2×2 列聯表和計算K2的值。
例 1致敬百年,讀書筑夢,某學校組織全校學生參加“學黨史頌黨恩,黨史網絡知識競賽”活動,并從中抽取100 名學生的競賽成績作為樣本進行統計,得到如圖1所示的頻率分布直方圖。規定:成績在[80,100]內為優秀,成績低于60分為不及格。
(1)求a的值,并用樣本估算總體,能否認為該校參加本活動的學生成績符合“不及格的人數低于20%”的要求?
(2)根據以上數據完成表1所示的2×2列聯表,并判斷是否有99%的把握認為此次競賽成績與性別有關。

表2
解析:(1)(0.004+a+0.011+0.036+0.023+0.014+a)×10=1,解得a=0.006,成績不及格的頻率為(0.004+0.006+0.011)×10=0.21,所以“成績不及格”的概率估計值為21%。
因為21%>20%,所以不能認為該校參加本活動的學生成績符合“不及格的人數低于20%”的要求。
(2)由(1)可得,成績在[80,100]內的人數為(0.014+0.006)×10×100=20,即樣本中成績優秀的有20人,由此完成2×2 列聯表,如表3所示:

表3
假設H0:此次競賽成績與性別無關,則
所以沒有99%的把握認為此次競賽成績與性別有關。
點評:本題第(1)問先利用概率分布直方圖的性質求出a=0.006,進而求得60 分以下的概率估計值,即可判斷;第(2)問先根據第(1)問中的結論,求得優秀的人數,再填寫列聯表,進而求出K2的值,查表后可以判斷得出沒有99%的把握。
樣本相關系數r可以反映成對樣本數據的變化特征,當|r|越接近1 時,成對樣本數據的線性相關程度越強;當|r|越接近0 時,成對樣本數據的線性相關程度越弱。解決與相關系數有關的獨立性檢驗問題時,要理解r和K2的計算公式中各個數據的含義。
例2共享汽車,是指許多人合用一輛車,即開車人對車輛只有使用權,而沒有所有權,有點類似于在租車行業里的短時間的租車。它手續簡便,打個電話或通過網上就可以預約訂車。某市為了了解不同年齡的人對共享汽車的使用體驗,隨機選取了100 名使用共享汽車的體驗者,讓他們根據體驗效果進行評分。
(1)設消費者的年齡為x,對共享汽車的體驗評分為y。若根據統計數據,用最小二乘法得到y關于x的線性回歸方程為1.5x+15,且年齡x的方差為,評分y的方差為。求y與x的相關系數r,并據此判斷對共享汽車使用體驗的評分與年齡的相關性強弱(當|r|≥0.75時,認為相關性強,否則認為相關性弱)。
(2)現將100名消費者的年齡劃分為“青年”和“中老年”,評分劃分為“好評”和“差評”,整理得到表4的一些數據,請將表4 所示的2×2 列聯表補充完整,并判斷是否有99.9%的把握認為對共享汽車的評價與年齡有關。
臨界值表(表5):

表5
因為0.9>0.75,所以可判斷對共享汽車使用體驗的評分與年齡的相關性很強。
(2)根據題意可得完整的2×2 列聯表,如表6所示:

表6
點評:第(1)問根據公式求出相關系數r,計算過程中注意整體代入,再與0.75比較即可得出結論;第(2)問直接根據已有數據即可完成已知列聯表,再根據公式求出K2的值,然后對照臨界值表即可得出結論。
統計與概率的相關知識密不可分,獨立性檢驗問題經常與概率交匯在一起,重點考查古典概型、隨機變量的概率分布、數學期望等知識。
例3某種疾病可分為A,B兩種類型,為了解該疾病的類型與患者性別是否相關,在某地區隨機抽取了若干名該疾病的患者進行調查,發現女性患者人數是男性患者的2倍,男性患A型疾病的人數占男性患者的,女性患A型疾病的人數占女性患者的
(1)若本次調查得出“在犯錯誤的概率不超過0.005的前提下認為‘所患疾病的類型’與‘性別’有關”的結論,試問:被調查的男性患者至少有多少人?
(2)某團隊進行預防A型疾病的疫苗的研發試驗,試驗期間至多安排2 個周期接種疫苗,每人每個周期接種3次,每次接種費用為m(m>0)元。該團隊研發的疫苗每次接種后產生抗體的概率為p(0<p<1),如果一個周期內至少2 次出現抗體,則該周期結束后終止試驗,否則進入第二個周期。若,試驗人數為1 000 人,試估計該試驗用于接種疫苗的總費用。

表7
解析:(1)設男性患者有x人,則女性患者有2x人,整理可得完整的2×2列聯表,如表8所示:

表8
假設H0:患者所患疾病類型與性別之間無關聯,根據列聯表中的數據,經計算得到
要使在犯錯誤的概率不超過0.005的前提下認為“所患疾病類型”與“性別”有關,則,解得x>11.818 5。
(2)設該試驗每人的接種費用為ξ元,則ξ的所有可能取值為3m,6m。
點評:第(1)問根據數據設男性患者有x人,則女性患者有2x人,即可得到2×2列聯表,計算出K2的值,從而得到不等式,求出x的取值范圍是x>11.818 5,同時注意到x必須是6 的倍數,所以x的最小整數值為12。第(2)問設該試驗每人的接種費用為ξ元,則ξ的可能取值為3m,6m,求出所對應的概率,即可求出數學期望,再由和試驗人數為1 000人,求出總費用的期望值。