■西北師范大學附屬中學 盧會玉
眾所周知,獨立性檢驗是統計學的一種檢驗方式,它是根據數據判斷兩類因子彼此相關或相互獨立的假設檢驗。若要推斷的論述為H1:“X與Y有關系”,可以利用獨立性檢驗來考查兩個變量是否有關系,并且能較精確地給出這種判斷的可靠程度。具體的做法是,由表中的數據算出隨機變量K2(即K的平方)的值,K2的值越大,說明“X與Y有關系”成立的可能性越大。獨立性檢驗也是高考中的高頻考點。若兩個變量有關系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關系稱為相關關系。如果兩個變量的取值呈現正相關或負相關,而且散點落在一條直線附近,這兩個變量就具有線性相關關系。與線性相關有關的考查也是非常常見的。成對數據的統計分析,對同學們的數學建模、數學抽象、數據分析、數學運算等核心素養的提高,是非常具有意義的。
下文用幾道例題對成對數據的統計分析進行盤點與分析。
有時會借助散點圖對成對數據進行分析,散點圖中點的分布從左下角到右上角,兩個變量正相關;點的分布從左上角到右下角,兩個變量負相關。有時會借助樣本相關系數對成對數據進行分析:當r>0時,正相關;當r<0時,負相關;|r|越接近于1,相關性越強。有時借助回歸方程對成對數據進行分析:當>0時,正相關;當<0時,負相關。
例1某統計部門對四組數據進行統計分析后,獲得如圖1所示的散點圖。

圖1
下面關于相關系數的比較,說法正確的是( )。
A.r4<r2<r1<r3
B.r2<r4<r1<r3
C.r2<r4<r3<r1
D.r4<r2<r3<r1
解析:由圖可知:r3,r1所對應的圖中的散點呈現正相關,而且r1對應的相關性比r3對應的相關性要強,故0<r3<r1;r2,r4所對應的圖中的散點呈現負相關,且根據散點的分布情況可知r2<r4<0。
因此,r2<r4<r3<r1,選C。
例2對兩個變量x,y進行線性相關檢驗,得線性相關系數r1=0.899 5,對兩個變量u,v進行線性相關檢驗,得線性相關系數r2=-0.956 8,則下列判斷正確的是( )。
A.變量x與y正相關,變量u與v負相關,變量x與y的線性相關性較強
B.變量x與y負相關,變量u與v正相關,變量x與y的線性相關性較強
C.變量x與y正相關,變量u與v負相關,變量u與v的線性相關性較強
D.變量x與y負相關,變量u與v正相關,變量u與v的線性相關性較強
解析:依題意知r1=0.899 5,r2=-0.956 8,所以x,y正相關,u,v負相關。又|r1|<|r2|<1,故u,v的線性相關性較強,選C。
例3重慶市位于北半球亞熱帶內陸地區,其氣候特征恰如幾句俗諺:春早氣溫不穩定,夏長酷熱多伏旱,秋涼綿綿陰雨天,冬暖少雪云霧多。尤其是10月份,晝夜溫差很大,某數學興趣小組欲研究晝夜溫差大小與患感冒人數多少之間的關系,他們分別到氣象局與某醫院抄錄了2021年10月其中六天的晝夜溫差情況與因患感冒而就診的人數,得到資料(表1)。

表1
(2)分析數據發現:第六日就診人數y6=30,第一日就診患者中有3個小孩,其他患者全是大人?,F隨機地從第一日所有就診患者中選出2人,若2人中至少有1個小孩的概率為
①求y1的值;
②若y2<y3<y4<y5,求y2,y3,y4,y5的值(只寫結果,不寫求解過程)。
例4某地經過多年的環境治理,已將荒山改造成了綠水青山。為估計一林區某種樹木的總材積量,隨機選取了10 棵這種樹木,測量每棵樹的根部橫截面積(單位:m2)和材積量(單位:m3),得到如下數據(表2)。

表2
(1)估計該林區這種樹木平均一棵的根部橫截面積與平均一棵的材積量。
(2)求該林區這種樹木的根部橫截面積與材積量的樣本相關系數(精確到0.01)。
(3)現測量了該林區所有這種樹木的根部橫截面積,并得到所有這種樹木的根部橫截面積總和為186 m2。已知樹木的材積量與其根部橫截面積近似成正比,利用以上數據給出該林區這種樹木的總材積量的估計值。
解決非線性回歸問題的關鍵點是合理轉化為線性回歸問題,對運算能力的要求非常高。
例55G 網絡是指第五代移動網絡通信技術,它的主要特點是傳輸速度快,峰值傳輸速度可達每秒數十GB。作為新一代移動通信技術,它將要支持的設備遠不止智能手機,而是會擴展到未來的智能家居、智能穿戴等設備。某科技創新公司基于領先技術的支持,經濟收入在短期內逐月攀升,該公司1月份至6 月份的經濟收入y(單位:萬元)關于月份x的數據如表3所示,并根據數據繪制了如圖2 所示的散點圖。

圖2

表3
(1)根據散點圖,判斷y=ax+b與y=cedx(a,b,c,d均為常數)哪一個更適合作為經濟收入y關于月份x的回歸方程類型。(給出判斷即可,不必說明理由)
(2)根據(1)的結果及表中數據,求出y關于x的回歸方程。(結果保留兩位小數)
(3)根據(2)所求得的回歸方程,預測該公司7月份的經濟收入。(結果保留兩位小數)

表4
其中u=lny,ui=lnyi(i=1,2,3,4,5,6)。
解析:(1)由散點圖可知,y=cedx更適合作為經濟收入y關于月份x的回歸方程類型。
獨立性檢驗不論是理解還是運算相對都要簡單一些,正確解答的關鍵還是先理解題意后計算。
例62022 年北京冬奧組委發布的《北京2022年冬奧會和冬殘奧會經濟遺產報告(2022)》顯示,北京冬奧會已簽約45 家贊助企業,冬奧會贊助成為一項跨度時間較長的營銷方式。為了解該45 家贊助企業每天銷售額與每天線上銷售時間之間的相關關系,某平臺對45 家贊助企業進行跟蹤調查,其中每天線上銷售時間不少于8小時的企業有20家,余下的企業中,每天的銷售額不足30萬元的企業占統計后得到如下2×2列聯表(表5)。

表5
(1)請完成上面的2×2 列聯表,能否有99%的把握認為贊助企業每天的銷售額與每天線上銷售時間有關?
(2)按銷售額在上述贊助企業中采用分層抽樣方法抽取5家企業,在銷售額不足30萬元的企業中抽取時,記“抽到線上銷售時間不少于8小時的企業數”為X,求X的分布列和數學期望。
附:

表6
參考公式:
解析:(1)由題意,可得下面的2×2列聯表(表7)。

表7
根據上面的列聯表得:
故有99%的把握認為贊助企業每天的銷售額與每天的線上銷售時間有關。
所以隨機變量X的分布列如表8所示。

表8
例7共享汽車,是指許多人合用一輛車,即開車人對車輛只有使用權,而沒有所有權,有點類似于在租車行業里的短時間租車。它手續簡便,打個電話或通過網上就可以預約訂車。某市為了了解不同年齡的人對共享汽車的使用體驗,隨機選取了100名使用共享汽車的體驗者,讓他們根據體驗效果進行評分。
臨界值表(表9)。

表9
(2)現將100名消費者的年齡劃分為“青年”和“中老年”,評分劃分為“好評”和“差評”,整理得到如下數據,請將列聯表(表10)補充完整并判斷是否有99.9%的把握認為對共享汽車的評價與年齡有關。

表10
因為0.9>0.75,所以可以判斷對共享汽車使用體驗的評分與年齡的相關性很強。
(2)根據題意可得列聯表(表11)。

表11
解得:
成對數據的統計分析是高考考查的高頻考點,如果每一種考查方向的關鍵點是明晰的,運算也是精準的,那對于同學們來說就會比較順利。另一方面,成對數據的統計分析,對同學們的終身發展也是非常有意義的。