成對數據的統計分析,主要涉及成對數據的統計相關性、一元線性回歸模型和 2×2 列聯表等,這些知識與方法在解決實際問題中非常有用.可以發現,兩個隨機變量的相關性可以通過成對樣本數據進行分析;利用一元線性回歸模型可以研究變量之間的隨機關系;利用 2×2 列聯表可以檢驗兩個隨機變量的獨立性.通過對成對數據的統計分析的學習,對提高解決問題的能力,提升數據分析、數學建模等素養是非常有幫助的.
1 一元線性回歸模型及其應用
依托統計的思想與方法應用,巧妙利用數據信息建立一元線性回歸方程模型來分析,借助回歸方程思想來進行相應方案的合理預測與判斷.
例1(2024年合肥市高考數學第一次質檢試題)研究表明,溫度的突然變化會引起機體產生呼吸道上皮組織的生理不良反應,從而導致呼吸系統疾病的發生或惡化.某中學數學建模社團成員欲研究晝夜溫差大小與該校高三學生患感冒人數多少之間的關系,他們記錄了某周連續六天的溫差,并到校醫務室查閱了這六天中每天高三學生新增患感冒而就診的人數,得到資料如下:


(1)已知第一天新增患感冒而就診的學生中有7位女生,從第一天新增的患感冒而就診的學生中隨機抽取3位,若抽取的3人中至少有一位男生的概率為
求 y1 的值
(2)已知兩個變量 x 與 y 之間的樣本相關系數 r
16' 請用最小二乘法求出 y 關于 x 的經驗回歸方程
,據此估計晝夜溫差為 15°C 時,該校新增患感冒的學生人數(結果保留整數).
(204號解(1)由題知 所以=
=24,所以y1(y1-1)(y -2)=720=10×9×8 ,故 y1=10
(2)因為
,所以
6∑(x;-x)(yi-y)
=64 又因為rY /(x-x)2≥(-)2
所以
(204號
=8×15 所以 
又由于 
,解得
所以 
,所以
當 x=15
時,
,所以估計晝夜溫差為
15C 時,該校新增患感冒的學生人數為33人.
點評求解實際應用問題時,往往是通過統計知識的構建,建立一元線性回歸模型來進行合理預測與判斷.具體求解時,先通過求解一元線性回歸方程,再利用回歸方程來合理預測或判斷,這里把回歸方程看作一次函數,進而來求解對應的函數值.
2非線性回歸模型及其應用
依托統計的思想與方法,聯系函數與方程思想,巧妙利用數據信息建立非線性回歸方程模型來分析,借助回歸方程思想來進行相應方案的合理預測與判斷.
例2(2024年承德市高考數學模擬試題(4月份))某公司研制了一種對人畜無害的滅草劑,為了解其效果,通過實驗,收集到其不同濃度 x(mol/L) 與滅死率 y 的數據,得下表:

(1)以 x 為解釋變量, y 為響應變量,在
和
中選一個作為滅死率 y 關于濃度x(mol/L) 的經驗回歸方程,并說明理由.
(2) ① 根據(1)的選擇結果及表中數據,求出所選經驗回歸方程;
② 依據 ① 中所求經驗回歸方程,要使滅死率不低于0.8,估計該滅草劑的濃度至少要達到多少 mol/L.
解(1)根據表格數據可知解釋變量 x 呈現指數增長,而響應變量 y 增長幅度不大,且相應的增加量大約相等,故選 
(2) ① 令 ui=lgxi ,則
,所以可得如下數據:

則
,
(
).24+(-8)×0.46+(-6)×0.76+(-4)×0 94 =-15.6.所以c= -15.6-5×(-8) ×0.5
,所以
1.38+0.11u ,即 
② 令
,即
?-0.58 ,即1
所以
,即要使滅死率不低于0.8,則該滅草劑的濃度至少要達到 
點評解決此類實際生活中的非線性回歸模型問題,往往把它與學過的各種函數(冪函數、指數函數、對數函數等)圖象作比較,挑選一種跟對應統計數據擬合得最好的函數,然后采用適當的變量變換把問題化為線性回歸分析問題,使之得到解決.
3分類變量與列聯表模型及其應用
依托統計的思想與方法,結合獨立性檢驗的相關知識,通過其與概率、統計以及其他相關知識的交匯與融合,實現部分的綜合與應用,是高考數學試卷命題中的一個重要考點.
例3(2024年永州市高考數學三模試題)為了精準地找到目標人群,更好地銷售新能源汽車,某4S店對近期購車的男性與女性各100位進行問卷調查,并作為樣本進行統計分析,得到如下列聯表( m?40,m∈N, :

(1)當 m=0 時,將樣本中購買傳統燃油車的購車者按性別采用分層隨機抽樣的方法抽取6人,再從這6人中隨機抽取3人調查購買傳統燃油車的原因,記這3人中女性的人數為 X ,求 X 的分布列與數學期望.
(2)定義
j?3,i,j∈N; ,其中 Aij 為列聯表中第 i 行第 j 列的實際數據, Bij 為列聯表中第 i 行與第 j 列的總頻率之積再乘以列聯表的總頻數得到的理論頻數.基于小概率值 α 的檢驗規則:首先提出零假設 H0 (變量 X,Y 相互獨立),然后計算 K2 的值,當 K2?xα 時,我們推斷 H0 不成立,即認為 X 和 Y 不獨立,該推斷犯錯誤的概率不超過 α ;否則,我們沒有充分證據推斷 H0 不成立,可以認為 X 和 Y 獨立.根據 K2 的計算公式,求解下面問題:
① 當 m=0 時,依據小概率值 α=0.005 的獨立性檢驗,請分析性別與是否喜愛購買新能源汽車有關;
② 當 mlt;10 時,依據小概率值 α=0.1 的獨立性檢驗,若認為性別與是否喜愛購買新能源汽車有關,則至少有多少名男性喜愛購買新能源汽車?
附:

解 (1)當 m=0 時,用分層隨機抽樣的方法抽取購買傳統燃油車的6人中,男性有2人,女性有4人.由題意可知, X 的所有可能取值為1,2,3,則
所以 X 的分布列為

(2) ① 零假設為 H0 :性別與是否喜愛購買新能源汽車獨立,即性別與是否喜愛購買新能源汽車無關聯.
當 m=0 時 ,A22=80,B22=70,A23=20,B23= 0.5×0.3×200=30,A32=60,B32=0.5×0.7× 200= 70,A33= 40,B33= 0.5×0.3×200= 30, (2
(2
因為(204號
,所以根據小概率值 α=0 005的獨立性檢驗,我們推斷 H0 不成立,即認為性別與是否喜愛購買新能源汽車有關聯,此推斷犯錯誤的概率不超過0.005.

由題意可知2×(10-m)2
,整理得(204號 (10-m)2?28.413 ,又 m∈N,mlt;10 ,所以 m? 4,m 的最大值為4.又 80-4=76 ,所以至少有76名男性喜愛購買新能源汽車.
點評解決以實際應用問題為情境,借助獨立性檢驗的創設與應用的綜合問題,往往合理融入概率知識中的超幾何分布、獨立性重復試驗以及概率求解,隨機變量及其分布列、數學期望等,借助邏輯推理與數學運算等,綜合考查對應的概率與統計知識與應用.
綜上,成對數據的統計分析模塊知識的考查,往往依托一元線性回歸模型或非線性回歸模型,和獨立性檢驗等,以小題的形式來考查基本公式,以解答題的形式來考查綜合應用.此類問題的求解關鍵在于數據分析與數據處理,全面考查數據分析能力與數學運算能力等.