如何正確解讀假設檢驗結果
——兼談數學教育研究中p值誤用問題

2019-08-29 04:04:50曹一鳴

數學通報 2019年7期

宋爽曹一鳴

(首都師范大學 100048) (北京師范大學 100875)

1 前言

隨著教育研究的不斷深入和教育研究國際化交流的推進，近年來國內也掀起了實證研究的熱潮.2017年1月全國教育實證研究聯席會議召開，號召加強教育實證研究、促進研究范式轉型.實證研究越來越受到教育研究者的重視，實證研究中關于量化研究的統計方法和統計模型也備受青睞.相較于其他學科，數學教育研究者因為具備較好的數學與統計學基礎知識，所以也更擅長且更愿意使用量化研究方法，如《數學通報》刊載喻平教授多篇文章指導量化研究方法的使用[1,2]，數學教育研究領域中量化研究的發展也更為快速.但迅猛增長的數學教育量化研究和統計方法使用的過程中仍暴露了一些問題，其中以假設檢驗的誤用及p值的錯誤解讀最為常見.一方面，數學教育研究者相較于其他學科的教育研究者嘗試使用了更為復雜的統計模型和統計方法，增加了犯錯的風險；另一方面，數學教育研究者過往的數學經驗也在一定程度上影響了對統計推斷的理解，將統計推斷和演繹推理或概率推導產生了混淆.事實上，統計推斷和概率推導看似名稱接近，但實則兩者邏輯基礎差異極大[3].

近年來，不斷有國際知名期刊及學術機構發表了對學術研究中p值報告的新要求[4,5]，甚至有權威期刊申明拒絕報告p值[6].這使得部分不明真相的研究者誤以為p值甚至假設檢驗已經被廢，“p值已死”成為熱議話題，當然也不乏一些網絡媒體為博人眼球刻意進行片面宣傳.一些研究者對統計假設檢驗的基本含義、概念及科學規范的使用方法了解有限，很容易將這些期刊和機構的無奈之舉誤解為p值本身是錯誤的、無用的.因此，為了促進數學教育實證研究的規范化和科學性，對量化教育研究起到引領作用，有必要對權威學術期刊“拒絕”p值的原意進行解讀，并說明做假設檢驗時應該注意的事項.

本文將在數學教育量化研究背景下探討假設檢驗的內涵，為假設檢驗和p值的科學使用進行結合示例的講解和直觀的說明，解讀權威機構和學術期刊拒絕報告p值背后的原因，揭示原始文獻中p值提出者的本意和初衷，以及他們對后來研究者的告誡.通過有針對性的說明，本文力圖引導數學教育研究工作者科學規范地使用假設檢驗、關注研究問題本身，而不要被統計顯著性束縛住科研的腳步.

2 統計假設檢驗在數學教育量化研究中的含義

統計假設指的是對總體的某統計指標的假定性說明，通常將總體的統計指標稱為參數(parameter)，而對應于總體參數的樣本特征可以稱之為統計量(statistic).在教育研究中，研究者希望了解的當然是事物總體的特征，或者說希望得到一個普遍適用的模型，例如某種教育方法的效果、不同個體特征學生的數學學業成就差異等.然而多數情況下，獲得總體特征的愿望是個“不可能的任務”，因此用樣本特征對總體特征進行估計、推斷、猜測的“假設檢驗”方法應運而生.假設研究的問題是7年級學生在某個數學測試中的成績是否存在性別差異，理論上應當讓全世界所有7年級學生參加測試，再進行不同性別的比較，但這種操作費時費力且難以達成.多數研究者的做法是利用隨機抽樣的樣本特征來對總體進行估計，常見的方式就是對樣本數據進行t檢驗，而這種利用統計量對統計假設進行檢驗的過程，就是通常所說的假設檢驗，也可以將其稱之為統計推斷.

至此，應當進一步明確拒絕域的確定，以及拒絕域和p值的關系.拒絕域的范圍取決于用于假設檢驗的統計量的分布和研究者所定義的顯著性水平.以比較男女生數學測試成績差異為例，為了對總體均值差異進行推斷，通常對樣本數據進行t檢驗，此時用于檢驗的統計量t值服從t分布，其自由度由樣本個數決定.t分布是以0為中心左右對稱的單峰分布，是t值與概率密度相對應的圖像，其圖像下方、橫坐標上方所夾區域就是整體的累積分布頻率，其值為1.如圖1所示，在t分布概率密度函數圖像中兩條實線(同樣關于縱坐標對稱)所夾區域面積為0.95，而兩側對稱的灰色區域面積之和占總面積的5%，因此兩側的區域就是雙側檢驗中顯著性水平為0.05的拒絕域.與之類似，虛線右側斜線陰影區域面積也為總面積的5%，因此該斜線陰影區域即為單側檢驗中顯著性水平為0.05的拒絕域.對于確定的自由度和顯著性水平，拒絕域及其相應的臨界t值是完全確定的，將假設檢驗中計算所得的t值與該臨界值做比較就可以確定是否統計意義上“拒絕”或“接受”原假設.同理，研究結果中報告的p值就是根據計算所得t值和對應自由度的概率密度函數，對應出t值以外圖像下的面積，該面積(單側檢驗時)或該面積的兩倍(雙側檢驗時)即為所報告的p值.將該報告的p值與顯著性水平做比較，也同樣可以確定是否統計意義上“拒絕”或“接受”原假設.以上兩種邏輯都是常見的檢驗方式，除此之外還可以通過判斷置信區間是否包含0值的方式來進行檢驗，而置信區間的確定也同樣取決于樣本統計量(和t值能夠互相轉化)、自由度、及所定義的顯著性水平.

圖1 假設檢驗原理示意圖

3 數學教育研究中進行統計假設的過程及兩類錯誤

針對前文所列的原假設和備擇假設，假設對所有7年級學生進行了五次抽樣，為具體說明假設檢驗的過程，在此利用MATLAB的normrnd命令模擬隨機抽樣，從三個不同分布的總體中分別各“抽樣”5輪，每輪各獲得“隨機抽樣”的數值5個作為樣本數據(以下數據保留2位小數).三個總體分別為：總體男，均值為80，標準差為5的正態分布；總體女甲，均值為80，標準差為5的正態分布；總體女乙，均值為90，標準差為5的正態分布.顯然，總體中μ男-μ女甲=0，μ男-μ女乙≠0.那么，當我們利用樣本對總體進行估計時，是否一定能得到和真實情況一致的推斷呢？

接下來可以構造出另一個樣本的數據，即樣本A，該樣本中的所有數據都來源于樣本1至樣本5中的數據，但有意選擇了男生成績中較大的數據和女生(甲)成績中較小的數據.由于所有模擬數據都是隨機生成的，我們當然有可能在兩正態分布總體中通過隨機抽樣中獲得類似樣本A這樣的樣本.在該樣本中可以發現，t值為8.500，p值達到了0.000028.按照假設檢驗的邏輯和做法，此處應該“拒絕”原假設H0，因為總體原假設成立的情況下樣本數據出現該結果的概率非常小(但仍存在可能性).我們的總體中明明原假設是正確的，說明此時的推測出錯了，而統計上將這種錯誤拒絕了原假設H0的情況稱之為一類錯誤，而犯一類錯誤的概率實際上就是所設定拒絕域的對應概率，也被稱為顯著性水平.例如常見的α=0.05水平，就說明犯一類錯誤的概率為5%，所以一類錯誤又名α型錯誤.需要特別強調的是，即使將顯著性水平定義的非常小，也終究有犯錯的可能.

表1 男女生測試成績模擬數據

續表

通過這樣的示例可以直觀地感受到，無論如何總是有犯錯的可能性，要么是總體沒有差異卻推測為有差異(一類錯誤)，要么是總體有差異卻沒有檢測并推測到這種差異(二類錯誤).這兩種錯誤在統計學的相關論述中均做了認真詳細的闡明[7]，但由于部分研究者錯誤理解了假設檢驗的含義，致使在解讀統計結果時往往過度依賴假設檢驗的結果，將統計意義上的“推斷”當作真理性的“結論”.

4 關于統計假設的爭論及使用中的注意事項

p值的提出者Ronald Fisher教授在20世紀初就強調，其目的是為了有一種客觀的方式來描述數據和原假設的相符程度，而不是僅能夠粗糙地表示“數據看起來和原假設不一樣”.p值是在總體原假設成立的情況下某樣本特征出現的條件概率，并不是原假設錯誤的概率或備擇假設正確的概率，最初設定的0.05、0.01等顯著性水平也只是一種習慣性的表述.但隨著越來越多的研究者盲目追求小p值、錯誤解讀p值含義、將統計顯著性和實際效應等價，部分權威機構被迫做出反應，例如美國心理協會(APA)于1999年開始強制要求研究者報告主要結果的效應量.2016年，美國統計協會(ASA)首次以官方身份對統計顯著性和p值的爭論作出回應，在這份集合了20多個專家意見的報告，認為p值經常被錯誤地使用和理解，這才導致了一些學術期刊勸阻甚至放棄使用p值[8].Daniel J.Benjamin等人在權威期刊Nature Human Behaviour中發表聲明，為了提高研究的可重復性，主張將顯著性水平從0.05調整至0.005，他們強調，其實有很多比重新定義顯著性水平更好的方式(例如貝葉斯因子)，但調整p值閾限的方式和多數研究者受到的訓練習慣相符，是最簡單、最容易被快速廣泛接受的方式.2018年初，Political analysis的主編Jeff Gill表示，禁止使用p值的主要原因是“p值本身不足以提供支持給定模型或假設的證據”，他同時表示，從一個學術期刊的角度來說，p值常被用來當做稿件是否接受的標準，而這無疑會導致“發表偏倚(publication bias)”并無形中“鼓勵了研究者對模型無意義的挖掘”，同時也有證據證明“眾多社會科學研究者對p值存在誤解，還錯把它當成科學推理的關鍵”，在此背景下，該期刊才決定禁止報告p值.

總結各科研團體、學術期刊和專家學者的觀點可以發現，“廢除”p值其實是無法制止諸多研究者錯誤使用假設檢驗時做出的無奈之舉.那么在數學教育研究中，應當怎樣正確使用假設檢驗這一工具幫助我們進行科學的思考呢？以下將從假設檢驗的使用情境、前期說明、結果解讀三方面提出常見的注意事項.結果解讀方面，重點關注了三種常見誤用——誤解p值含義、忽略樣本量影響、將統計意義上的顯著與實際顯著性對等.

第一，需要明確何時進行假設檢驗：只有當研究者試圖做推斷時才需要做假設檢驗，如果只是了解樣本情況，例如研究兩個班級某次考試的數學成績，所使用的數據已經是總體，就不再需要做假設檢驗或統計推斷.在數學教育研究領域中，很多以描述為目的的研究，或一線教師對學生表現的分析，并不需要進行假設檢驗.此時需要注意樣本及總體都不一定指的是被試，例如當研究者試圖推斷兩個班級學生的數學能力時，某次數學考試成績成為了學生數學能力這一總體的樣本時，才需要進行假設檢驗.

第二，需要提前論述樣本的代表性：如果確定需要做假設檢驗，就是在用樣本推斷總體或模型，因此必須對樣本的代表性進行說明.樣本的代表性，或樣本屬于總體的隨機抽樣，往往是抽樣過程中的基本要求.另一方面，利用F檢驗中的F分布、t檢驗中的t分布等進行檢驗，也應當符合該檢驗對樣本隨機性的假設.

第三，需要正確理解p值的含義：p值只描述總體滿足原假設時樣本數據出現該統計量的可能性，屬于條件概率，既不是原假設正確的概率，也不是備擇假設錯誤的概率，p值的大小也不能代表效應的強弱.因此，類似“由于p值為0.001，因此我們的結論99.9%是正確的”，“A變量p值為0.06，B變量p值為0.10，A比B更顯著”這樣的表述都是不科學的.需要特別強調的是，p值未達到顯著性水平不代表總體中不存在效應，二類錯誤仍可能發生.例如在一些量化研究中經過假設檢驗后，p值未達到顯著性水平，并不代表總體的原假設一定成立，如果該研究問題有重要的理論意義，反而應當在后續的研究中進行重復性的考察，避免二類錯誤發生對有意義研究的終結.

第四，在大樣本中發現顯著結果應謹慎對待：數學教育研究領域的量化分析經常容易出現大樣本的情況，由于包括t值、F值在內的眾多用于假設檢驗的統計量的計算公式都和樣本量有關，均值標準差等保持穩定的情況下，樣本量越大統計值也會越大；而且樣本量增大會導致自由度的增加，統計值的密度函數圖像也會發生變化，例如t分布的圖像就會變窄，微弱的效應也會非常容易達到統計意義上的顯著.因此大樣本導致的統計顯著需要關注實際效應到底如何.

第五，數學教育研究者應更加關注實際顯著性：目前公開禁止報告p值的兩個期刊在其聲明或對讀者問題的回復中都強調，研究中需要的是“科學推理或創造性思維”.事實上假設檢驗只是總結數據結果的一種手段，作為教育研究工作者更應該重視實際顯著性.比如在進行兩個班級平均分差異比較的時候，如果兩個平均分差異很明顯，在解讀數據時說到“顯著”指的是實際顯著性而非統計顯著性；再比如在一些大樣本中發現男女生平均成績差異非常微弱但統計意義顯著時，這種差異通常并沒有實際意義，此時統計意義顯著的同時，實際的“不顯著”或稱之為不客觀才更應當是研究者所關注的.

5 結語

依據APA在其2010年發布的出版手冊中的表述，“假設檢驗是起點(starting point)，在這之后增加報告效應量、置信區間和全面的描述才能表達出結果的完整含義”，而“完整地報告所有檢驗的假設和合適的效應量及置信區間的估計是在APA期刊中發表的基本要求”，因此APA并未否定假設檢驗和p值的作用.同樣的，即使面對越來越多針對假設檢驗和p值的批評，ASA也從未對取消p值表示贊同.當然ASA也指出p值或假設檢驗確實不能測量或代表一個效應的大小或一個結果的重要性，這是p值的局限性，但自始至終p值就從未承擔過這一作用.效應量等在研究結果中被要求報告的量化結果是對p值局限性的彌補，但效應量反過來也不能提供p值所能提供的信息.