科學研究中的統計危機

2015-04-12 12:04:08方陵生編譯

世界科學 2015年2期

方陵生/編譯

依賴于數據的統計分析，一個“小徑分岔花園”的問題解釋了為何許多具有統計學意義的比較并不是那么地靠譜。

現今，人們越來越多的意識到，一些科技出版物中的所謂“具有統計學意義”的宣稱，往往可能是不太靠譜的。研究人員通常對p值數據很有信心，p值（概率）是一種隨機變化的觀察結果，即對數據集提供的證據與零假設進行比較的一種統計測量方法。按照慣例，p值低于0.05被認為是對零假設的一個有意義的否定，然而，這樣的結論可能并不如表面上看起來的那么可靠。

p值概念最初是由英國統計學家羅納德·費舍爾（Ronald Fisher）于上世紀20年提出的，其本意是保護研究人員不受嘈雜數據，即無意義數據信息模式的影響。具有諷刺意味的是，p值如今常被用來作為基于小量樣本嘈雜數據信息得出某個結論的佐證。

舉例來說，假設對美國民主黨和共和黨在醫療保健和軍隊建設方面進行測試，測試題可能不涉及具體調查內容，如派系與數學解題之間的聯系。而零假設是，具體背景條件與測試任務無關或相關，即雙方測試成績差異與其在軍事或醫療領域的具體背景條件相關。

此時可進行大量符合研究人員推論的比較。例如，男性群體的零假設可以否決（指具有統計學意義的零假設），其依據是，男人比女人的意識形態更強。還有一種模式在女性群體中比男性群體更為明顯，即女性對于背景條件比男性更為敏感，或者說這種模式在男女群體中都具有統計學意義。

與軍事問題相比，我們還會看到在醫療背景條件下而非軍事背景條件下的性別差異——目前醫療保健是一個高度政治化的問題。獨立人士和無黨派人士如何處理這些問題，取決于他們在數據樣本中所占數量的比例，有可能完全被排除在外。于是，一個首要的假設就是，問題的背景條件與黨派之間的交互是否會對問題的解決產生影響，即對決策變量存在多重選擇的可能。

而多重比較問題是一個眾所周知的概念，在統計學中被稱為“p值黑客”，是由心理學家約瑟夫·西蒙斯（Joseph Simmons）等人在2011年提出的。

本文的主要觀點是，如果數據分析人員沒有有意識地對數據進行篩選排查，或明確進行多種數據比較的話，可能會存有潛在的多種比較。也就是說，數據分析的具體細節與數據高度相關，并往往有可能導致p值無效。

如何對某個假設測試

一般來說，我們對假設的測試可以分成四類：（1）基于單一統計數據T值的簡單的經典測試，產生的數據結果為T（y），y代表數據；（2）從可能的幾種測試方法中預選某個統計值的經典測試，產生的數據結果為T（y，φ），式中φ為預定值（例如，φ可能對應于一些起主要作用或相關作用的控制變量）；（3）研究人員單純對數據信息進行統計分析，對不同的數據集進行不同的測試，產生的數據結果為T（y，φ（y）），式中φ為觀察數據；（4）直接對數據進行“釣魚”，即指非法數據調查，在j=1，……J時，計算T（y；φj），在進行J測試時得出最佳結果數據T（y，φbest（y））。

考慮到以上所述的各種選擇，以及實際研究中的各種可能性，要尋找統計學上有意義的結果（幾乎可以肯定在0.05甚至0.01之間尋找），其難度是難以想象的。在這種情況下，研究人員只需進行基于這些數據的一種測試，得出結果為T（y,φ（y）），這種方法似乎是有意為之的“釣魚”，為的就是要得出這樣的結果。正如政治科學家瑪卡爾坦·漢弗萊斯（Macartan Humphreys）等人于2013年所寫的那樣，一位研究人員在面對多個合理結果時可能會想，其中較少嘈雜數據的測量結果很可能是對的，并據此得出推論，這時他很可能就是錯的。在之前提出的一些假設例子中，醫療背景條件的不同，可能會導致不同的結果，就是一個例證。

在小尺度效應背景下，這樣的錯誤有特別的風險，樣本規模越小，測量誤差越大，變量差異也越高。而樣本規模較大，測量誤差較小，變量差異也較低。用貝葉斯計算理論來解釋（即p值是指給定數據的假設合理性，而不是相反），任何基于數據的結論，如果在先驗上更有可能，那就更為可信，如果估計有更多錯誤，那就不太可信。

要想獲得具有統計學意義的結果，如果在數據收集時不抱偏見，即使從相當嘈雜的數據中，也可以通過反復比較、數據排除、分析不同相關關系和控制不同預測因子等方法，得到具有統計學意義的結果。但在現實中，研究人員會帶著很強的實質性假設進入某項研究，在某種程度上對于任何給定的數據集，合適的分析似乎是顯而易見的。即使選擇的數據是用于分析其的一個確定性函數，也無益于消除多重比較帶來的問題。

手臂力量與經濟地位

2013年，丹麥奧爾胡斯大學的邁克爾·彼得森（Michael Petersen）團隊發表了一項研究報告，聲稱發現男性上身力量與其社會經濟地位之間，以及他們對經濟再分配態度之間的聯系。文章以手臂力量為代表，認為社會經濟地位（SES）較高的男性反對財富的再分配，而社會經濟地位較低的男性則支持財富的重新分配。

值得注意的是，作者報告了有統計學意義的交互關系，但沒有統計學意義上的主效應，即他們沒有發現較大臂圍男性對經濟再分配持更保守的立場，只是發現較高社會經濟地位的男性其臂圍與反對再分配財富之間的關系。如果發現了主效應（兩個方向的效應），理論上他們可以得出一個合理的解釋。如果沒有主效應，也就沒有交互影響，他們或會去尋找其他的交互影響。例如，學生有或沒有年長兄姐進行比較的交互影響關系。

我們在2013年的一份報告中表明，“p值黑客”可能意味著對統計學意義的積極追求。當然，對于統計學家來說，在數據的基礎上完善他們的假設是合理的。當所需模式沒有作為主效應出現時，再觀察其交互關系也是有道理的。例如年長兄姐的交互關系，這種家庭關系在進化心理學上的解釋通常被認為是很關鍵的。

當然，在一些統計調查中也存有一定的自由度，例如在不同國家進行的調查問卷，研究人員會發現，丹麥的一些問卷內容如果由美國人來回答，答案會是完全不同的。之后進一步的解釋是，“當這些不可靠的問卷項目被刪除之后……交互效應就有意義了……。”

2013年，心理學家布雷恩·諾塞克（Brian Nosek）等人公布了他們復制的實驗案例——一個認知判斷和政治態度的實驗。在這項他們稱為50灰度的研究中，諾塞克等人發現了政治極端主義與黑色或白色圖像而非灰度中間色感知能力之間的一個具有統計學意義的交互關系。最初估計分析，復制實驗有99%的機會達到統計學的意義，p值＜0.05。但事實上，復制嘗試是不成功的，p值為0.59。

雖然沒有達到預期結果，但重要的是這項實驗所表明的具有統計學意義的p值不能從表面值取得，即使某種比較與現有的理論一致。

超感知覺（ESP）研究

2011年，一個可能是虛假統計學意義的案例引起了爭議。康奈爾大學社會心理學教授達里爾·貝姆（Daryl Bem）聲稱找到了超感知覺（ESP）的證據。在他的第一次實驗中，100名學生參加了可視化圖像的測試，在情色圖片測試中他發現了具有統計學意義的結果，而在非情色圖片中則沒有什么發現。隨后在一些失敗的復制實驗嘗試后，由此引起的爭議逐漸消退。但是，它作為一個案例仍然為人們感興趣，它表明在任何領域內，調查人員可以利用普遍接受的研究實踐去發現統計學上的意義。

貝姆在論文中提出了九種不同的實驗方法和許多具有統計學意義的結果，即多樣化的自由度讓他可以繼續尋找，直到他找到自己想要的東西。但考慮到與他能獲得的其他許多比較，如果受試者能夠識別的所有圖片高于統計學意義上的概率，那么肯定會被作為ESP的證據。但如果非情色圖片測試成績更高呢？人們可以很容易地辯駁，情色圖片容易分散注意力，只有非情色圖片才是ESP現象的一個好的測試對象。如果受試者在統計學意義上的表現明顯好于前半段，顯然是通過學習獲得提高的證據，但如果上半段成績更好，那顯然是因為后半段注意力疲勞的緣故。

貝姆等人在論文中反駁了這些批評意見，稱他的假設是一種試探性研究。“這個假設的特異性源于早期的幾個‘預感’實驗，如1997年或之前的研究表明，參與者顯示異常的‘預知’能力，在看到情色圖片幾秒鐘之前便產生了生理沖動，但在看到讓人心情平靜或非情色圖片之前則未出現這種情況?！彼麄円矊⑶樯珗D片與非情色圖片混雜展示，以觀察參與者是否能夠預測這些圖片出現的左右位置，結果發現他們不能。貝姆等人認為，這一發現“與預感實驗的結果一致。”

我們沒有理由懷疑上述對動機的描述，但似乎很清楚的是，每一個科學假設都對應于多個統計學上的假設。例如，關于“生理沖動的異常預知能力”的描述，假設實驗受試者對于情色圖片在統計學意義上的表現較差，這個結果同樣也符合這一理論。理由是，異常沖動可能干擾有效的預知過程。

貝姆堅稱他的假設“不是通過事后數據探查形成的”，而是以數據為依據的分析結果。例如，如果男性在情色圖片測試中或女性在浪漫圖片測試中表現更好，那么就沒有理由認為這樣的模式看起來會像是“釣魚”或“p值黑客”，相反，它將很自然地被視為與研究假設相符。因為有大量文獻表明男女對視覺性刺激反應的性別差異。

月經周期與選舉投票

2013年，心理學家克麗絲蒂娜·杜蘭特（Kristina Durante）等人在《心理科學》雜志上發現了一篇基于調查數據的論文，該論文聲稱“排卵讓單身女性產生更多自由傾向，更少宗教信仰，且更可能投票給奧巴馬。論文還稱，在已婚和排卵期的女性中，有40%的人支持羅姆尼，而非排卵期的女性中，支持者只占23%。相比之下，排卵讓已婚婦女更保守，更多宗教信仰，更可能投票支持羅姆尼?？傊?，排卵周期會影響女性的政治傾向。

對于報道中的具有統計學上的意義，是否意味著我們要義不容辭的相信，或者至少考慮數據是支持他們假設的有力證據呢？非也，理由還是那個“小徑分岔花園”的比喻，即使杜蘭特等人只對看到的某個特定的數據集進行分析，他們也可以進行其他分析，從中得到與他們理論一致的結果。

事實上，論文中關于交互作用的描述（已婚女性和單身女性的不同模式）與作者的理論視角（排卵引導婦女優先保護擁有遺傳適應性指標的基因利益)相符。正如作者所指出的那樣，他們的假設“符合這一想法，即女性應該會支持更具自由傾向的候選人?！被蛘呒僭O數據遵循相反的模式，隨著排卵期的到來，持保守或自由態度的女性的投票傾向性也隨之發生改變。其他需要考慮的自然交互影響，還包括年齡或社會經濟地位等（如前文提到的臂圍因素）。

初一看，這些描述可能顯得微不足道，或者研究人員從中發現了與他們理論相一致的大的影響因素。那么為什么我們還要如此挑剔呢？我們認為，呼吁人們關注這些缺陷是出于兩個原因。首先，聲稱月經周期導致20%的投票意向差異，實質上是難以置信的。有證據表明，很少有人會在總統大選活動期間改變他們的投票意向；其二，所發表的統計學意義的比較結果是作者論文的中心部分（如果沒有p＜0.05的結果，是不會被發表在頂級期刊上的），所有潛在相關性的高度多樣性也與此有關。

除了主要效應和交互作用的選擇之外，杜蘭特和她的合作者還有幾個政治相關問題需要處理（政治態度及投票意向)，其他人口統計學變量（年齡、種族、生育狀況）以及婚姻關系的彈性（例如，曾經的“單身”與“已婚”選擇欄，后來就變成了,“單身”與“一段戀情”選擇欄）。

數據處理與數據分析

2013年，心理學家亞歷克·比埃爾（Alec Beall）和杰西卡·特蕾西（Jessica Tracy）在《心理科學》雜志上刊文說，生育高峰期的女性在月經周期愛穿紅色或粉紅色襯衫的比例是其他女性的三倍。他們的理論認為，這可能基于這樣一種理念，紅色或粉紅色對異性更有吸引力，臉色看上去也更健康。

特蕾西和比埃爾在網站上稱，他們進行研究的“唯一目的是對一個特定的假設進行測試：懷孕風險會增加女性對紅色或粉紅色穿著的傾向性?！彼麄兪且昧舜罅垦芯砍晒贸鲞@一假設的。

似乎很明顯的是，他們的分析是依數據而定。在他們特定理論的框架內對于數據的篩選和分析可以有許多的選擇。最重要的是，他們的實驗報告和分析是沒有預定的。盡管比埃爾和特蕾西所作的分析符合他們的整體研究假設。我們也相信他們所說的，他們沒有進行“釣魚”（即指非法數據調查），他們的特定決策仍然有許多的自由度，包括如何嚴格設定被調查女性的年齡標準、色調標準，以及潛在交互作用的查驗和將不同比較結果進行綜合還是對比，等等。

在上述這個例子中，比埃爾和特蕾西是一方，杜蘭特和她的合作者是另一方，他們在類似事件的啟發下，同年在同一份雜志上發表了各自的論文。但在細節上他們則有所不同，都在自己選擇關注的比較數據分析中發現了具有統計學意義的結果。這兩項研究對女性的生育年齡進行了調查，但一項研究描述的是其主要影響，而另一項研究描述的則是單身女性和已婚女性之間的區別。但無論哪種情況，規則和數據分析選擇都不是事先預定好的。

在小徑分岔的花園里，無論你采取什么樣的路線，道路似乎都是預定好的。而在實際研究中，研究人員并不通過多個測試來確定哪個才能獲得最佳p值。相反，他們使用自己的科學常識，考慮所擁有的數據資料，以認為合理的方式來制定某個假設。但如果認為，是選定的特定路徑產生了具有統計學意義的結果，就是支持他們假設的強有力證據，這么想就錯了。

我們能夠做些什么？

任何看起來相對比較難的研究，總可能會找到缺陷的。我們有很多取決于數據的分析工作，我們一直在宣稱一些具有統計學意義的結果，而忽略了數據選擇的偏向性或多重比較引起的一些問題。所以我們也要談談積極的方面，以避免只是扮演一個被責難的統計員的角色。

根據我們的經驗，以數據為依據來完善自己的研究假設是一種良好的科學實踐，進行這類實踐的科學家也敏銳地意識到數據挖掘的風險，他們使用置信區間（置信區間在廣義上即區間估計，在各式各樣的量化研究中有廣泛的應用——譯注）和p值作為工具來避免被無用信息干擾。遺憾的是，這一切的努力還是產生了某種副產品，即當統計學上有意義的模式出現時，人們自然會感到興奮，并相信它是真的。事實上，科學家一般不會作弊，也不會通過“釣魚”去尋求具有統計學意義的結果，于是，當他們遇到某個能越過p＜0.05閾值而足夠強大的模式時，很容易會得出堅信不疑的結論。

對于使用p值來證明某個科學主張，或者指出某個多重比較令p值無效的宣稱，我們不是第一個對此表示擔憂的。我們的目的只在于提請注意，p值的有效性需要在多個數據集中得到檢驗。與此相關的考慮是，數據依賴的分析和解釋選擇，如果用了其他可能的數據庫是否就會不同？如果是這樣的話，即使對給定數據只進行一項分析，由于對變量組合、數據包含和數據排除、變量轉換等的選擇在缺少主效應情況下的交互影響的測試，多重比較的問題也會出現。

在這一點上也許人們會有異議，因為任何研究都要涉及到與數據相關的決策，從某種意義上來說，是的。但是我們已經討論了一些例子，從中發現了一種傾向，即過度依賴p值來支持某個強大的推理。例如ESP實驗，這是一個沒有真正理論基礎的現象，研究的目的只是揭示一系列小的影響而已。而對女性投票行為的研究、男性對財富分配的態度，以及女性排卵期傾向于穿紅色衣服，大致是符合進化理論的，通常會產生一些難以置信的影響。

統計學的未來之路

在政治領域內，漢弗萊斯等人建議對整個數據收集和分析報告提前定義（預定義）。然而，這對于我們自己的大多數研究項目而言，這一做法幾乎是沒有意義的。最重要的是假設不可能提前制定。例如，較為成功的蓋爾曼模式，即富裕國家和貧窮國家中窮人選民和富人選民態度比較的研究項目，只是在對數據進行多角度研究后才開始變得明顯起來（其他選舉分析也證實了這一模式）。

而在心理學等領域，要獲得更多的數據通常并沒有這么困難，預定義是有意義的。與此同時，我們不希望對統計學的“純度”成為約束科學研究的“緊身衣”，無論是在心理、營養，還是在教育領域，最有價值的統計分析通常只出現在涉及數據的迭代過程之后。預定義在某些領域可能實用，但在政治領域，想以此作為通用的解決方案是不現實的。

我們想要強調的一點是，研究人員應該對他們進行數據分析的選擇要有更清醒的認識，意識到p值公布可能會產生的問題。最終，他們可以參考已發表的開放式分析，以對自己的想法進行外部驗證，這種做法在統計科學和計算機科學領域很流行。具體可以進行兩個實驗，一是對仍然處于理論階段的想法進行探索，二是對預先的實驗目的進行確認。

在很大程度上，統計學的一些觀測領域，如政治科學、經濟學、社會學，復制實驗是困難的或不可行的。我們無法輕易通過戰爭或金融危機等來收集數據，唯一的建議就是對現有數據進行更全面的分析，起點是對所有相關比較進行分析，而不僅僅關注于具有統計學意義的東西。我們曾說過，多層次建模可以解決多重比較的問題，但這種方法的實際困難可能也不小。

我們必須意識到，沒有預先定義或沒有真實復制的機會，我們對數據分析的選擇將只能是數據依賴性的，即使研究動機是理論性的。當預定義的復制很困難或者不可能時（如社會科學和公共衛生研究領域），我們相信最好的策略是對所有數據進行的全面分析，而不只是集中于某項比較或較少的多重比較。

沒有一個統計質量控制委員會來強制進行這種更大規模的分析，而且我們也不認為這樣的強制措施是恰當的。隨著越來越多的科學家們效仿諾塞克，公開表示p值對自己研究的不良影響時，我們希望提升對全面數據分析的動機，以減少這些問題的困擾。必要時必須退后一步，到一個更能清晰區分探索性和驗證性數據分析的區間，以識別各自的優點和局限性。

在一些數據容易收集的領域，也許諾塞克兩部走的方法，即在正式公布結果之前進行一次復制實驗，可為未來的研究設置一個標準，以代替目前的通常做法，即每項研究都有自己取決于數據分析的統計學意義。科學家們必須意識到，p值不一定從表面值獲得，這并不意味著科學家們不能選擇有效的統計推斷。

我們強烈的意識到，越來越接近真相是科學家最感興趣的。用偉大的統計教育家弗雷德里克·穆斯特勒（Frederick Mosteller）的話來說，統計數據很容易讓我們受騙，但沒有統計數據我們更容易被騙。