摘 要:新的高中數(shù)學課程標準的建立,把原來在高中教材沒有涉及到的問題都融入了高中的教學當中,如:算法與框圖、莖葉圖、還有回歸分析和獨立性檢驗,對于這些問題的處理上也是老師和學生關(guān)注的問題,作者就獨立性檢驗一節(jié)的處理方式作以闡述,以起到拋磚引玉的作用.
關(guān)鍵詞:獨立性檢驗;假設檢驗;臨界值
中圖分類號:G632 文獻標識碼:A 文章編號:1002-7661(2012)12-178-02
本文將就以下幾個問題展開闡述:
一、獨立性檢驗的形成
獨立性檢驗的基本過程是根據(jù)客觀實踐情況和經(jīng)驗,提出原假設,選好統(tǒng)計量,進行抽樣、試驗、計算、檢驗,進行判斷.也就是說,整個過程貫穿著通過實踐提出假設理論,再通過實踐進行檢驗.假設的過程其實就是類似與數(shù)學證明中的反證法,其基本步驟如下:
假設: :兩分類變量沒有關(guān)系,用A、B表示兩個分類變量,若 成立 事件A與事件B獨立 .這單純是從概率的角度衡量兩個分類變量的是否有關(guān).我們需要更進一步對相關(guān)程度進行檢驗,就是在假設 下,如果出現(xiàn)一個與 相矛盾的小概率事件,就可以推斷 不成立,且該推斷犯錯誤的概率不超過這個小概率.
二、獨立性檢驗的基本思想
在新課程標準數(shù)學2-3第三章第二節(jié)對獨立性檢驗進行了明確的闡述,課本首先通過對分類變量進行定義,分類變量也稱屬性變量或定性變量,它們的不同取值僅表示個體所屬的類別,其取值是離散的.如性別變量,只能取男、女兩個值,商品的等級變量只取一級、二級……,是否吸煙,宗教信仰,國籍等等都是分類變量.分類變量的均值和方差沒有實際意義,所以不做研究.接著定義列聯(lián)表:一般為兩個或兩個以上分類變量的匯總統(tǒng)計表.在我們的教材中僅限于兩個分類變量的列聯(lián)表,并且每個分類變量只取兩個值,這樣的列聯(lián)表稱為2×2列聯(lián)表,如下:
總計
c
總計
在假設 成立的條件下,A表示 ,B表示 ,可以通過求分類變量 占總數(shù)與分類變量 占的總數(shù)的概率(用頻率估計概率), 恰好為事件AB發(fā)生的頻數(shù); 和 恰好分別為事件A和B發(fā)生的頻數(shù).由于我們可以利用頻率估計概率,所以在 成立的條件下應該有:
, ,可得:
.
即: .
因此, 越小,說明常上網(wǎng)與不及格之間的關(guān)系越弱,否則,關(guān)系越強.從這個角度這能說明兩個變量間關(guān)系的強弱,而不能判斷它們具體有多大程度上有關(guān),在此基礎上為了使不同樣本的數(shù)據(jù)有一個統(tǒng)一而又合理的評判標準,統(tǒng)計學家們經(jīng)過研究后構(gòu)造了一個隨機變量(卡方) = ,并且統(tǒng)計學家們通過實踐還得到了如下的卡方臨界值表:
P(K2≥k0)0.500.400.250.150.10
k00.4550.7081.3232.0722.706
P(K2≥k0)0.050.0250.0100.0050.001
k03.8415.0246.6357.87910.828
在表格中的數(shù)字與上述式子能夠說明一個什么問題呢?上面的表格中的第一行是作為檢驗的犯錯的上界(上界也是我們要找的
那個小概率),下面的 是取值的臨界值,接下來我們就從一個具體實例中做以分析:
例 1為了考察高中生的性別與是否喜歡數(shù)學課程之間的關(guān)系,在我校學生中隨機抽取300名學生,得到如下列聯(lián)表:
喜歡數(shù)學課程不喜歡數(shù)學課程總計
男3785122
女35143178
總計72228300
由表中數(shù)據(jù)計算 的觀測值.能夠以95%的把握認為高中生的性別與是否喜歡數(shù)學課程之間有關(guān)系嗎?
解:可以有95%以上的把握認為“性別與喜歡數(shù)學課程之間有關(guān)系”.
= 4.514
因此應該斷定“性別與喜歡數(shù)學課程之間有關(guān)系”成立,并且這種判斷結(jié)果出錯的可能性約為5%,所以,約有95%的把握認為“性別與喜歡數(shù)學課程之間有關(guān)系”。
這種利用隨機變量 來確定是否能以一定的把握認為“兩個分類變量之間有關(guān)系”的方法,稱為兩個分類變量的獨立性檢驗。
在上述題目做判斷兩分類變量是否有關(guān)時出現(xiàn)了“斷定”一詞,“斷定”一詞在獨立性檢驗中的含義是指檢驗判斷,“斷定為A,B有關(guān)系”就是檢驗判斷為A,B有關(guān)系,也就是拒絕A,B無關(guān)系,即拒絕原假設 (接受假設 的對立面)。“約有95%的把握”中“把握”一詞在獨立性檢驗中的含義是指不犯錯誤的可信度,“有95%的把握”就是有95%可信度(可能性)。換而言之,應該是在原假設 成立的條件下,檢驗判斷接受原假設 犯錯誤的概率不超過5%,而不犯錯誤的概率超過95%。換句話說,就是在原假設 成立的條件下,不犯錯誤接受對立假設 錯誤的概率超過95%。對與求出的 的觀測值 越大說明可信度越高,犯錯誤的概率就越小
三、獨立性檢驗的做題步驟
通過以上的分析我們可以知道對于獨立性檢驗問題如何去分析,接下來我們就要從實際操作中研究怎么去處理這部分問題。首先我們知道從2×2列聯(lián)表的角度來說,我們對列聯(lián)表的中概率的分析可以在直觀上看出它們的概率關(guān)系,而這種直觀判斷不足之處在于不能給出推斷“兩個分類變量有關(guān)系”犯錯概率,但是獨立性檢驗就可以彌補這個不足.即首先直觀上判斷兩分類變量是否有關(guān)系,然后獨立性檢驗主要從是否有關(guān)和有多大的把握認為它們有關(guān)這兩個方面來考查,這樣以來就可以比較清晰的看出變量關(guān)系以及相關(guān)程度。那么這時候就需要借助隨機變量 來求值,進而判斷,即要推斷“X與Y有關(guān)系”,可以通過頻率估計概率進行直觀判斷,再按下面的步驟進行:
1.根據(jù)實際需要確定容許推斷“兩個分類變量有關(guān)系”犯錯概率的上界 ,然后查表確定臨界值 ;
2.根據(jù)2×2列聯(lián)表與公式計算 的觀測值K;
3.如果 ,就可以推斷“兩個分類變量有關(guān)系”,這種推斷犯錯誤的概率不超過 ;否則就犯錯誤的概率不超過 的前提下不能推斷“兩個分類變量有關(guān)系”,最后做出判斷。
例2在500人身上試驗某種血清預防感冒的作用,把他們一年中的感冒記錄與另外500名未用血清的人的感冒記錄作比較,結(jié)果如表所示。問:該種血清能否起到預防感冒的作用?
未感冒感冒總計
使用血清258242500
未使用血清216284500
總計4745261000
分析:在使用該種血清的人中,有 的人患過感冒;在沒有使用該種血清的人中,有 的人患過感冒,使用過血清的人與沒有使用過血清的人的患病率相差較大。從直觀上來看,使用過血清的人與沒有使用過血清的人的患感冒的可能性存在差異。
解:提出假設 :感冒與是否使用該種血清沒有關(guān)系。由列聯(lián)表中的數(shù)據(jù),求得:
∵當 成立時, 的概率約為0.01,
∴我們有99%的把握認為:該種血清能起到預防感冒的作用。
評注:首先提出假設檢驗的思想,根據(jù)公式計算出 的觀測值,然后對比與臨界值的大小關(guān)系,最后選擇接受假設還是拒絕假設。
利用獨立性檢驗,能夠幫助我們對日常生活中的實際問題做出合理的推斷和預測。因此,在學習中通過統(tǒng)計案例的分析,理解和掌握獨立性檢驗的方法,體會獨立性檢驗的基本思想在解決實際問題中的應用,以提高我們處理生活和工作中的某些問題的能力.另外,隨著新課程標準在全國各地全面推行,對概率與統(tǒng)計知識的考查越來越偏重于對統(tǒng)計知識的考查力度,因此在這一方面我們要更加重視.