參數估計與假設檢驗：原理、方法與誤區

2018-03-26 09:32:00李奇明徐德義

大學教育 2018年2期

李奇明徐德義

[摘要]作為統計分析的基礎，參數估計和假設檢驗的原理與方法是教學難點所在，常常引起教與學的過程中諸多誤解、誤用和誤讀。在對參數估計和假設檢驗的原理與方法加以闡釋基礎上，采用比較研究的方法，可以找出教學中可能存在的誤區。參數估計和假設檢驗具有許多共同點，二者之間存在緊密聯系。一般情況下，區間估計與假設檢驗之間具有對應性；可以利用置信區間進行假設檢驗，也可以利用假設檢驗進行區間估計；但不能把參數估計與假設檢驗等同起來。

[關鍵詞]參數估計；置信區間；假設檢驗；原理；方法；誤區

[中圖分類號] C8 [文獻標識碼] A [文章編號] 2095-3437（2018）02-0040-03

參數估計和假設檢驗是統計學專業的基礎知識，是統計學課程教學的重點內容。然而，由于對基本思想和原理的認識不到位，常常導致對一些知識點存在誤解，進而造成錯誤的應用，甚至得出錯誤的結論。本文將從參數估計與假設檢驗的原理談起，重點就這兩類方法應用中的一些誤區展開討論，為相關課程的教學提供參考。

一、參數估計與假設檢驗的內涵

參數估計與假設檢驗是推斷統計的重要內容。[1]其中參數估計是利用樣本統計量的信息推斷未知的總體參數，包括點估計和區間估計。因點估計不能提供可信程度的信息，我們更多使用的是區間估計。而假設檢驗是先對總體的參數做出某種假設，為判斷所作的假設是否正確，從總體中抽取樣本判斷假設是否成立的過程。[2]

（一）正確理解置信水平的含義

在區間估計時，我們可以根據樣本信息求出總體未知參數的置信區間，并保證總體參數的真值將有一定的機會落在所計算的區間內。比如置信水平為95%，即意味著總體參數的真值將有95%的機會落在該區間內。當然，對置信水平含義的這一解釋常常會被誤解為“有95%的把握保證”參數的真值會落在這個區間里。顯然，計算某人對某一件事的把握程度，與計算一個置信區間完全是兩回事，不應該“從一個結論的角度看待置信區間”，而應該“將其視為一個過程” 。[3]

（二）正確理解假設檢驗的目的

在很多情況下，假設檢驗的目的是用來拒絕原假設，也因此稱之為顯著性檢驗。拒絕原假設，并不意味著有充分的理由認為備擇假設就必然是正確的；不拒絕原假設，也不意味著原假設必然是正確的。不論是拒絕還是不拒絕原假設，“該顯著性檢驗永遠不能確認這些假設一定是真的”。[3]針對有的情況下我們將拒絕域以外的部分稱為“接受域”的說法，主要是為了方便，而并不是說在不能拒絕原假設時就等于“接受”原假設。但對于“接受原假設”、或“接受備擇假設”這樣的表述，由于容易讓人造成誤解，我們傾向于表述為“不拒絕”，而不是“接受”。[4]

二、參數估計與假設檢驗的共同點與聯系

參數估計與假設檢驗之間的共同點有很多。比如，二者都是根據樣本的信息，以樣本統計量的抽樣分布為依據，對總體參數進行推斷，推斷結果都有一定的風險。而且，最為重要的一點就是，對同一問題的區間估計和假設檢驗，使用的是同一樣本、同一統計量、同一分布。[1] [2]這也正是二者之間存在緊密聯系的根源所在。

以雙側檢驗為例，根據統計量的抽樣分布和給定的顯著性水平，我們可以確定左右兩側的臨界值和拒絕域。拒絕域位于兩側臨界值的外側，而位于兩側臨界值之間的區域（或稱接受域），正好與該總體參數的置信區間相對應或相等價。[1]單側檢驗與單側置信區間同樣如此。在此為了表述方便，我們將二者的這一聯系稱為區間估計與假設檢驗之間的對應性。也就是說，我們總是可以根據假設檢驗的拒絕域，得到對應的區間估計的置信區間；或反過來根據置信區間，得到對應的拒絕域。[5]

三、區間估計與假設檢驗的對應性原理

在一般情況下，區間估計與假設檢驗的對應關系，可以根據檢驗統計量的關系式推導出來。不論是雙側檢驗還是單側檢驗，都與相應的置信區間相對應。

（一）雙側檢驗

以總體均值的假設檢驗為例，在假定正態分布、已知總體方差的情況下，我們對總體均值的雙側檢驗是在假定原假設為真，即μ=μ0的情況下，通過計算樣本統計量的值，并與一定的顯著性水平下對應的臨界值比較，進而做出決策。這時的拒絕域可以表示為：

P（>zα/2）=α

于是，相應的接受域為：

P（zα/2≤≤zα/2）=1-α

這一接受域對應的正是總體均值的置信區間的范圍。我們可以從中求出總體均值μ0的置信區間為：

-zα/2≤μ0≤+zα/2。

（二）單側檢驗

當左側檢驗時，拒絕域分布在左側，其表達式應為：P（<-zα）=α。這時的接受域應為：P（≥-zα）=1-α，于是對應的左側（單側上限）置信區間應為：（-∞，+zα）。

當右側檢驗時，拒絕域分布在右側，其表達式應為：P（>zα）=α，對應的接受域應為：P（≤zα）=1-α，于是相應的右側（單側下限）置信區間應為：（-zα，+∞）。

以上均值問題所表現出的這種對應性，在比例和方差問題的區間估計和假設檢驗中同樣存在[1]，在此不再贅述。

四、利用置信區間進行假設檢驗

正是因為存在對應性，我們同樣可以利用區間估計的置信區間來進行假設檢驗。比如，在上述均值的假設檢驗問題中，我們只要根據樣本均值計算出總體均值的置信區間，再將原假設中的μ0與該置信區間進行比較，即可做出決策。如果μ0位于該置信區間內，則不能拒絕原假設；否則，就拒絕原假設。可見，參數的區間估計方法不僅可以對未知參數進行估計，而且還可以用來對參數進行假設檢驗。因此，人們通常認為置信區間比單純的顯著性檢驗能夠提供更豐富的信息。[4]

這里需要強調的是，在利用置信區間進行假設檢驗時，應利用總體參數的置信區間來與假定的總體參數值進行比較，進而做出決策。這里的“置信區間”一定是根據樣本統計量計算得到的。但在實際運用中，人們常常為了方便，將用置信區間進行假設檢驗的方法進行“變換”，即利用假定的總體均值μ0構造一個區間，并與樣本均值進行比較，進而做出決策。仍以前面的總體均值的雙側檢驗為例。這一方法是利用原假設中的μ0計算出以下區間：（μ0-zα/2，μ0+zα/2），然后將樣本均值與之比較，如果樣本均值不在該區間內就拒絕原假設。[2]

首先，這種“變換”做法與前面規范用法的檢驗結果是一致的。這是因為根據規范的置信區間表達式-zα/2≤μ0≤+zα/2，用假定的總體均值表示樣本均值就可以得到：μ0-zα/2≤≤μ0+zα/2。這一區間還可以看作是在給定的顯著性水平下、假定總體均值為真時，樣本均值可能的取值范圍。同理，我們根據規范的左側區間表達式，可以得到左側檢驗時樣本均值的取值范圍為（μ0-zα，+∞）；根據規范的右側區間表達式，可以得到右側檢驗時樣本均值的取值范圍為（-∞，μ0+zα）。其次，通過對比前后兩種方法得到的兩類區間可以發現，后者在單側檢驗情況下得到的樣本均值的取值范圍公式，在書寫形式上與雙側檢驗時的區間形式方向保持一致，比規范用法更方便記憶。

盡管如此，但后一種方法所構建的區間容易混淆人們對“置信區間”的認識。只有總體參數才有置信區間，而且只能根據樣本統計量來構建總體參數的置信區間，而不能以假定的總體參數值為依據建立所謂的“置信區間”，或者說這樣構建的區間根本就不是置信區間，因為它代表的并不是總體參數可能的區間范圍，而是樣本統計量可能的取值范圍。因此，為了避免產生誤導，造成概念混淆，在利用置信區間進行假設檢驗時，應采用規范的置信區間來進行假設檢驗。

五、利用假設檢驗進行區間估計

在有些情況下，參數的區間估計方法不一定比假設檢驗方法表現得更好。比如，在對小樣本的比例檢驗問題中，或是當樣本比例偏小或偏大的情況下，置信區間的估計往往會變得不可靠，而利用假設檢驗方法得到的估計結果卻更為合理。在統計學中，我們在用樣本比例進行區間估計時，為了簡化問題，一般都只討論大樣本情形。在np≥10和n（1-p）≥10時，樣本比例的抽樣分布可用正態分布近似。實際上，樣本比例常用來描述分類數據，其分布多為離散型分布。正因為如此，按照近似方法計算出來的總體比例的置信區間，往往覆蓋總體真實比例的概率要小于（1-α）。[6]為此，需要對檢驗統計量進行連續性修正，以提高精確程度。[7]特別是當樣本比例偏大或偏小時，得到的總體比例的置信區間會效果非常差。[8]

這里用一個例子加以說明。[8]假設進行了一個試驗來評估某個新治療手段的臨床效果，已知在最初10次試驗中成功了9次。那么，如果按照區間估計的方法（置信水平95%），總體比例的置信區間應為：

0.9±1.96=（0.714，1.086）

顯然，計算得到的置信區間上限已大于1，這樣的估計結果很難讓人信服。在這種情況下，一種簡單的處理方法是將該區間上限修改為1。[6]同時，另外一種嘗試是應用假設檢驗的思路來得到總體比例的置信區間。即根據對應性，假設檢驗的臨界值就是區間估計的上下限，于是得到下列方程：

=1.96

從中求出π0的值即得到總體比例的置信區間為：（0.596，0.982）。顯然，這一區間要比之前得到的結果要更加合理一些。同時可以看出，兩種方法的區別在于，區間估計方法是用樣本比例作為總體比例的極大似然估計來計算標準誤差，使得誤差偏大；而假設檢驗方法分母包含的總體比例是未知數，與分子保持一致，有效避免了誤差的人為擴大。

六、不能把區間估計與假設檢驗等同起來

由于存在對應性，我們可以利用置信區間進行假設檢驗，也可以利用假設檢驗進行區間估計。這也充分說明二者之間存在著緊密聯系，具有一定的統一性；但它們又相互區別，不能把二者完全等同起來。[9]這種不統一性主要表現在以下方面。

（一）假設檢驗需要比參數估計掌握更充分的信息

假設檢驗中原假設與備擇假設的設定必須從實際問題出發，在充分考慮某些非樣本信息基礎上，將沒有充足的把握不能輕易推翻的命題作為原假設，從而將原假設被拒絕的概率控制在很低的水平上。而當這樣的小概率事件發生時，我們才不得已拒絕原假設，盡量避免犯第一類錯誤。而區間估計則只需要依據樣本進行推斷，不需要考慮其他的因素。[10]

（二）假設檢驗具有比參數估計更豐富的功能

在對假定服從某種分布的參數進行估計時，并不意味著參數估計結果一定能正確地描述觀測數據，還需要通過假設檢驗來對得到的參數估計值加以驗證。同時，假設檢驗還可以對總體分布的函數形式進行非參數檢驗。不僅如此，假設檢驗中“兩類錯誤”的思想具有重要的應用價值。由于不論是拒絕還是不拒絕原假設，都存在犯錯誤的可能，通常做法是優先控制犯第一類錯誤的概率，而對犯第二類錯誤的概率采取擴大樣本容量的方式來減小，并將其控制在預先給定的限度內。[5]而對于檢驗的優劣，可以通過比較檢驗功效（1-β）的大小來加以區分，功效越大的檢驗越優。為此，可以先限定第二類錯誤的概率，再來確定達到相應的功效需要的樣本規模，進而為一些實際問題的解決提供指導。

（三）最佳區間與最佳檢驗的不統一性

在雙側區間估計和假設檢驗的情況下，即使在同一置信水平下，置信區間的選取往往也是不唯一的。此時，就會出現最佳（或最短）區間和最佳檢驗的問題，這就使區間估計和假設檢驗問題變得復雜。但在習慣上，我們常常仍取對稱的分位點來確定置信區間和拒絕域，其原因就在于我們是假定統計量的抽樣分布是單峰且對稱的，此時按照對稱分位點得到的置信區間也是最短的。而對于像樣本方差這類統計量的抽樣分布屬于偏斜分布，我們仍按照對稱分位點來確定置信區間和進行假設檢驗，則主要是為了方便，在這種情況下得到的置信區間并不是最短的或最佳的。[11]

當按照習慣上的這種對稱分位點進行區間估計和假設檢驗時，盡管可能得到的不是最佳區間和最佳檢驗，但二者之間仍保持了對應性。但是，當人們需要求取最短區間和最佳檢驗時，得到的最佳區間與最佳檢驗之間卻不再相互對應。[9]然而，上述雙側區間估計和假設檢驗所面臨的這種不統一性，并不存在于單側區間估計和假設檢驗當中。對于單側情況下，由于置信區間或拒絕域的方向確定以后單側尾部概率就已經確定，此時的置信區間與拒絕域仍是完全對應統一的。

七、結語

參數的區間估計與假設檢驗之間的關系是復雜的。它們既存在著對應性聯系，在一般情況即雙側對稱分位點和單側情況下相互對應；又存在著明顯的區別，甚至具有完全不同的用途和功能，服務于不同的統計分析需要。因此，它們是兩類不同的推斷統計方法，不能簡單地等同起來。

[ 參考文獻 ]

[1] 袁衛，龐浩，曾五一. 統計學[M]. 北京：高等教育出版社， 2004：120-121.

[2] 賈俊平，何曉群，金勇進. 統計學（第三版）[M]. 北京：中國人民大學出版社， 2007：212-242.

[3] [美]薩爾斯伯格著，邱東等譯.女士品茶[M].北京：中國統計出版社，2004：55-61.

[4]呂小康. R語言統計學基礎[M]. 北京：清華大學出版社， 2017：181-182.

[5] 盛驟，謝式千，潘承毅. 概率論與數理統計第四版[M]. 北京：高等教育出版社，2008：192-196.

[6] 賈俊平. 統計學——基于R[M]. 北京：中國人民大學出版社， 2014：105.

[7] 王靜龍，梁小筠. 定性數據統計分析[M]. 北京：中國統計出版社， 2008：41.

[8] [美]Alan Agresti著，張淑梅等譯.屬性數據分析引論（第二版）[M].北京：高等教育出版社， 2008：8.

[9] 王建華. 參數區間估計和假設檢驗的關系[J]. 山西財經大學學報（高等教育版）， 2007（4）：28-29.

[10] 賀樂平，莫宏敏. 參數的區間估計與假設檢驗的關系[J]. 數學教學與研究， 2014（85）：40-41.

[11] 劉次華，萬建平. 概率論與數理統計（第二版）[M]. 高等教育出版社， 2003：182-185.

[責任編輯：林志恒]