P值大小不等價于差異或相關性大小

2024-04-08 01:32:30鄭巧蘭林燕薇王景周

數理醫藥學雜志 2024年3期

鄭巧蘭，林燕薇，王景周

中山大學附屬第三醫院期刊中心（廣州 510630）

統計學推斷（假設檢驗）是科學研究尤其是醫學研究中的一種常用方法，用于判斷樣本與總體的一致性。統計學推斷普遍依據P值，P值是從一個假設所規定的特定總體中隨機抽樣，得到的統計量值與實際觀測數據相同或更極端（更大或者更小）的概率[1]。P值不代表處理效應的大小或結果的重要性[2]，但其被曲解和錯誤使用情況仍較普遍，已公開發表的文章、個別期刊的投稿須知等存在將P＜0.05、0.01、0.001 分別解釋為差異或相關性顯著、非常顯著、極顯著的現象[3-7]。目前關于P值的研究大多列舉P值的各類誤用情況[8-9]，或者雖然認為不能將P＜0.05 描述為差異具有顯著性，但未作詳細解釋。因此，本研究擬從樣本量對P值影響的角度，探討P值與差異或相關性大小的關系，以期幫助期刊編輯同仁和作者更準確地理解P值并解釋其意義，提升學術期刊質量。

1 資料與方法

在醫藥衛生期刊中，t檢驗、卡方檢驗、Pearson 相關分析以及Logistic 回歸分析為使用較多的統計學檢驗方法，對P值的誤解也最為常見。本研究通過固定上述4 種統計方法的主要統計量[均數和標準差、樣本率、相關系數、OR 值（95%CI）]模擬數據，觀察不同樣本量下P值差異。

本研究每種統計方法使用3 份不同樣本量的數據進行分析。根據每種統計方法適用的數據分布情況，設定統計量值和樣本量，采用隨機數函數生成研究數據。以t檢驗為例，設定兩組樣本的均數、標準差和樣本量，采用正態分布隨機數函數分別隨機生成兩組樣本的第一份數據，即模擬1；為確保統計量值完全一致，復制10 次第一份數據得到第二份數據，即模擬2；復制20 次第一份數據得到第三份數據，即模擬3。研究中，對統計量值和樣本量不斷調整，使每種統計方法3 次模擬的P值分別＞0.05、0.001～0.05、＜0.001。

采用SPSS 20.0 軟件進行模擬數據生成和統計檢驗，采用雙側檢驗結果。

2 結果

2.1 以獨立樣本t檢驗為例

設兩組樣本的體質量指數（body mass index, BMI）分別為（20.3±1.5）kg·m-2、（20.0±1.5） kg·m-2，當樣本量均為30 時，兩組均數比較差異無統計學意義（P=0.444）；當樣本量均為300 時，P=0.014；當樣本量均為600時，P＜0.001，見表1。

表1 均數和標準差相同、樣本量不同的兩組數據t檢驗統計分析結果Table 1. Statistical results of t-test for two groups with constant mean and standard deviation under different sample size

2.2 以兩組樣本率比較的卡方檢驗為例

設兩種治療方法的有效率分別為0.42、0.50，當兩組樣本量均為50 時，兩組有效率比較差異無統計學意義（P=0.422）；兩組樣本量均為500 時，P=0.011；兩組樣本量均為1 000 時，P＜0.001，見表2。

表2 有效率相同、樣本量不同的兩組數據卡方檢驗統計分析結果Table 2. Statistical results of chi-square test for two groups with constant effective rate under different sample size

2.3 以Pearson相關分析為例

兩個變量相關系數為0.238，樣本量均為10時，P=0.508；樣本量擴大至100 時，P=0.017；樣本量為1 000 時，P＜0.001，見表3。

表3 相關系數相同、樣本量不同的兩個變量Pearson相關分析結果Table 3. Results of Pearson correlation analysis for two variables with constant correlation coefficients under different sample size

2.4 以單因素Logistic回歸分析為例

單因素Logistic 回歸分析中，β=0.811，OR值為2.250，當兩組樣本量均為10 時，OR 值95%CI 為（0.376，13.465），P值為0.374；樣本量增加到每組100 時，OR 值不變，95%CI 縮窄為（1.278，3.962），P值為0.005；樣本量為每組200 時，OR 值不變，95%CI 為（1.508，3.357），P＜0.001，見表4。

表4 回歸系數相同、樣本量不同的兩組數據單因素Logistic回歸分析結果Table 4. Results of binary Logistic regression analysis for two groups with constant regression coefficient under different sample size

3 討論

了解檢驗功效（power）有助于正確理解P值。在統計學中，檢驗功效是指當兩個總體參數間存在差異時，所使用的統計檢驗能夠發現這種差異的概率。影響檢驗功效的因素通常有：總體參數間差異越大，檢驗功效越大；個體差異（標準差）越小，檢驗功效越大；樣本含量越大，檢驗功效越大；檢驗水準（α）越大，檢驗功效越大[10]。檢驗功效與P值呈負相關[11]。因此，在其他條件相同的情況下，樣本量越大，檢驗功效越大，即能夠發現這種差異的概率越大，而P值越小。

本研究驗證了P值受樣本量影響較大：將每種統計方法3 次模擬的統計量值固定，即從統計描述上看數據差異或相關性一致，但由于樣本量不同，得到的P值差異很大，甚至得到完全不同的結果。如果將更小P值的結果解釋為差異更大或者顯著，可能造成疑惑。例如，在兩組獨立樣本t檢驗中，雖然3 種樣本量得到不同的P值，但是3 種樣本下兩組的均數差值均為0.3，差異從統計描述上看一致。而且，雖然第2、3次模擬數據顯示P值小于0.05，但是在臨床上相差0.3 可能沒有專業意義，甚至兩組均在正常的BMI 范圍內。同樣地，在兩組有效率比較的卡方檢驗中，3 種不同樣本量情況下兩組的治療有效率一致，樣本量增加后P值變小，并非代表差異更加顯著。正確的理解應該是以目前的情況，出現零假設正確，即無差異的概率更低，更有理由認為兩組的有效率有差異。在Pearson 相關分析中，3 次模擬數據的相關系數均為0.238，第1次的模擬數據因為P值大于0.05，提示兩組數據無線性相關，但在第2、3 次的模擬數據中P值均小于0.05，而使不少作者認為顯著相關[5]。實際上，相關系數的假設檢驗僅能說明相關關系是否有統計學意義，不能說明相關關系是否密切[12]。有統計學家認為，r≥0.7 為強相關，在0.3 以下為弱相關甚至無相關[13]。在單因素Logistic 回歸分析中，當OR 值不變而樣本量增加時，P值變小，OR 值的95%CI 縮窄，這是由于95%CI 與標準誤相關，而標準誤受樣本量的影響，更窄的95%CI 意味著更穩固的結果、更高的可信度[10,14]。

新英格蘭醫學雜志2019年的作者指南指出，P值沒有提供效應大小或者關聯強弱的信息，其投稿指南要求P值大于0.01 時保留2 位小數；如果P值在0.001～0.01 之間，則保留3 位小數；如果P值小于0.001，用P＜0.001 表示，同時應提供效應值、關聯度或其他感興趣結果指標的置信區間[15-16]。在國內，由于學術不端事件頻發，需要進行結果核對，因此，期刊編輯應讓作者提供具體P值及其他統計量值[17-18]。中國高校醫學期刊論文統計報告規范編寫組近期推出了《中國高校醫學期刊論文統計報告推薦清單（2023 版）》，指出“大于0.001 的P值應保留3 位小數，小于0.001 的P值應報告P＜0.001”，但并未對P值做出更詳細解釋或設置更多規范[19]。本研究對P值的解釋提出以下建議：首先，統計學方法部分不應將P＜0.05、0.01、0.001 表達為差異或相關性顯著、非常顯著、極顯著，僅需表達檢驗水準為0.05（或其他）或者P＜0.05 為差異有統計學意義即可。其次，結果部分應避免出現帶有評論意義的“顯著”“明顯”等詞匯，尤其是不應根據P值大小判斷差異是否顯著、非常顯著、極顯著。英文寫作中的“statistical significance”翻譯為中文是“統計學顯著性”，其代表的是數據差異在統計學上是否顯著，不代表專業上的顯著性。但是不少論文作者混淆概念，將統計學顯著性等價于差異顯著性，文字上表述為“兩組比較具有顯著差異”或“顯著高于、明顯高于”等，降低了文章的嚴謹性，容易對讀者造成嚴重誤導。本研究建議當P值小于設定的檢驗水準時，不論其大小，僅表達差異具有統計學意義并附上對應的P值即可。另外，討論部分也應慎重表述差異顯著的結論，是否顯著應根據效應值大小及其置信區間并結合臨床專業意義進行判斷；當P值大于0.05 時，還應結合樣本量及檢驗功效討論。

值得注意的是，不能唯P值論，結果報告需要更多地結合效應量和置信區間[20]，貝葉斯等方法也越來越多地被推薦；同時，統計檢驗中注意多重比較校正，以減少錯誤發現的可能性；且統計學意義并不代表專業意義，研究者還應考慮研究結果的專業意義。

P值相關問題一方面反映出國內統計學教育的不足，是統計學教學過程中相對薄弱且需要重點關注的環節[21]；另一方面也體現了繼續教育的欠缺，以期刊編輯工作為例，編輯的統計學素養可強化作者的統計學意識，提升科研人員的統計學水平，其統計學掌握水平與論文綜合質量密切相關，國內學術期刊編輯繼續教育存在內容同質化、培訓方式單一、培訓對象寬泛等特征[22-24]。學術期刊編輯尤其是醫學期刊編輯亟須提高統計學素養，期刊編輯繼續教育相關組織機構可以安排醫藥衛生期刊專場，邀請統計學專家進行授課；對于論文作者，編輯部可以通過完善稿約細則，增強作者統計報告規范意識，引導其重視統計學規范，正確使用P值解釋相關結果[25]。

綜上，P值雖然飽受爭議，但目前仍為醫學科研論文不可忽略的關鍵詞，正確使用并解釋P值對于科學研究的可靠性、結論推斷和決策制定具有重要意義。本研究通過模擬數據分析，展示了樣本量對P值大小的影響，說明了P值大小不等同于差異或相關性大小的原因，提出正確使用和解釋P值的建議，以期幫助編輯同仁和作者準確理解P值并正確解釋統計分析結果，提高學術期刊論文質量。