高 娟
(衡水學院 經濟管理學院,河北 衡水 053000)
毋庸置疑,P值讓很多研究者感到困惑。關于P值的內涵和怎樣合理運用它解決實際問題,數據科學家Admond Lee花費了比較長的時間,才對其有了真正深刻的理解,有些學者甚至提出要擯棄P值的極端觀點[1]。人們的日常生活已經受到P值潛移默化的影響。在實際生活中做決定或者研究人員做某項檢測,按照概率值P,給最終結果提供理論支持;公司管理人員做決策,依據過去相關數據的抽樣分布,估計出P值,給出決策結論。值得指出的是,由于它只是整個決策過程中的一小部分,所以研究者不應該過度依賴P值。事實上,P值是否完全可靠有必要進行深入思考。接下來就針對P值的使用誤區,談一些個人觀點。
當原假設(零假設)為真時,所得到的樣本觀察結果或更極端結果出現的概率,稱為P值(P-value),也稱為觀察到的顯著性水平(observed significance level)。如果P值很小,說明這種情況發生的概率很小,而如果出現了,根據小概率原理,就有理由拒絕原假設[2]。
以標準正態分布為例給出P值的計算方法如下:
檢驗統計量的樣本觀測值記為Z0,則總體均值假設檢驗P值可按下述方法計算[3]:
雙側檢驗:H0:μ=μ0,H1:μ≠μ0,則P值=2P(Z≥|Z0|)
右單側檢驗:H0:μ≤μ0,H1:μ>μ0,則P值=P(Z≥Z0)
左單側檢驗:H0:μ≥μ0,H1:μ<μ0,則P值=P(Z≤Z0)
P值的一個通俗理解是,在原假設為真的條件下,在具體的樣本統計量觀測值和對應的總體參數假設值之間的差異中,由抽樣隨機誤差引起的可能性大小。
P值越小,拒絕原假設的理由就越充分,然而一個十分小的P值不能推斷出原假設和備擇假設哪一個是錯誤的。這是由于P值非常小可能是因為原假設不正確導致的,也可能只是由于違背研究設計形成的,抑或是由于研究人員選取的樣本容量比較大引起的。較大的P值意味著在原假設成立前提下,樣本數據的出現并非是罕見情況,但是并不意味著原假設是對的。也許是因為出現了違背研究設計的情形,或者是由于研究人員選取的樣本容量比較小造成的。
P值是取值在(0,1]范圍的一個數值,歸根結底是一個概率。臨界值是由事先給定的顯著性水平α查相應分布表得到的數值。研究者對于P值非此即彼的觀點削弱了其意義:如果P值<α,則稱為“統計上是顯著的”,否則就被認為“統計上不顯著”。
由于臨界值是基于顯著性水平查表得到的數值,而顯著性水平α通常情況又是事先給定的(若沒有規定α數值,通常選取α=0.05),所以臨界值是不隨抽樣數據變化而變化的;P值是基于樣本數據,因而是計算之前無法獲取的分析結果,故P值被稱為實際觀測到的顯著性水平。
P值檢驗是計算機時代通行的檢驗方式,無須按照不同的顯著性水平查相關分布表來確定臨界值。目前,一般的數據分析軟件,在推斷參數的同時都會給出相對應的P值。因此,在計算機時代P值檢驗更加方便可行。
某個結論在統計上是顯著的,但是不一定有實際價值。由于P值和抽樣的樣本容量n緊密相關,檢驗統計量的值會隨著樣本容量的增大而增大,而此時P值卻越來越小,就越容易拒絕原假設。事實上,只要主觀上想拒絕原假設就一定能拒絕它,只要無限增加樣本容量,幾乎總是可以拒絕原假設,這就是“欲加之罪,何患無辭”。因此,研究者為了研究結果可以發表或者使結果具有統計顯著性可以人為選擇一些數據和方法,基于此,不應過于關注P值的統計學意義。如果研究總體規模比較小,噪聲也會把一個極其大的效應量淹沒,在這種情形下難以利用統計假設檢驗得到統計顯著性。
P值越小,意味著包括原假設在內的所有假設均為真的前提下,現有樣本數據出現的可能性是越小的;但P值較小也可能是由于抽樣不具有代表性或者統計推斷過程中違反了除原假設以外的其他假設。
也就是說,假如在原假設為真的條件下,根據樣本數據計算得到P=0.02,那么原假設為真的概率只有2%;如P=0.30,原假設為真的概率則有30%。P值是在原驗假設為真的條件下計算得到的,它只反映現有樣本數據與在包括原假設在內的所有假設成立的前提下預測情況的一致程度。所以,P=0.02意味著樣本數據和根據模型預測的情況不是很接近,P=0.30相比之下暗示樣本數據和模型分析預測情況相對來說更為相近。P值并不能體現某一理論是否存在的概率,只是表示在其不正確的前提下,現有樣本數據以及有可能獲取但是沒得到的更加極端數據出現的可能性。

例如,若在原假設成立條件下,得出P值為0.08,則說明有8%的機率是來自偶然引起的關聯。此思想的不盡合理之處在于:以為只由偶然因素造成了現有觀測結果,也就意味著在邏輯上承認包含原假設在內的所有用來計算P值的假設均是對的。
P值較大只表明,包括原假設在內的所有假設均成立時,出現現有樣本數據的可能性不是小概率。并不表示零假設是對的,零假設錯誤的可能性仍是非常大的,只能說還沒有找到充足的理由去拒絕零假設。因此,對于原假設規范的說法通常是采用“拒絕或不拒絕”,而不是“接受”。
P>α只能說明零假設是使P值大于α的諸多假設之一。切記統計推斷(包括參數估計和假設檢驗)都是在一定的概率把握程度下討論的,在假設檢驗中,不管是拒絕還是不拒絕原假設都不能保證100%正確,因此在假設檢驗中,“證明了原假設正確”或“證明了沒有差異”這一表述是錯誤的。
如零假設為真,則當拒絕零假設時,若給定α=0.01,顯然犯錯誤的概率是100%,而非1%。在零假設及所有其他假設均成立時,如果反復抽樣,則可以實施多次檢驗,1%只表示在多次檢驗結論中,錯誤否定零假設的頻率。
如果是單側檢驗時,使用單側P值更為合適。建議在使用單側檢驗P值時,可做必要解釋說明和進行特別強調。
即便在相互獨立且各自所有假設均為真這一理想狀態下進行分析,此種說法也是不正確的。有這種情形,若一項研究結果為P=0.02,則新研究只有2%的概率結果為P≤0.02。所以,已觀測到的P值即為后來研究獲得的P值結果不大于原研究P值結果的可能性。基本上,諸如研究規模,包括零假設在內的其他所有假設能否被滿足在很大程度上都會對新研究的P值產生影響。
如備擇假設和研究中其余一切假設均為真,則在各個研究中實施多次檢驗時,意味著其中出錯的頻率是1%,而不是針對單獨一次檢驗進行說明。也就是說,1%沒有辦法說明用以估算功效的效應量外的其他效應量的出錯率。
一直以來,學者們對P值的弊端進行著激烈爭論。研究者已慣于用P值衡量實驗數據的可靠性,實際上,P值不具有測量實驗結果的能力,很多論文的研究結果是不可靠的。P值大小僅表示數據差異在統計學上是否顯著,不代表實際顯著性,因此要客觀看待P值,做結論時應將統計學結果和實際問題結合起來。鑒于P值在實際運用中存在的諸多問題,要善于運用和慎用P值,要懂得接受不確定性,也可以合理選取二代P值或采取基于真實數據基礎上的其他P值統計原則[5]。◆