浙云

《新英格蘭醫學期刊》刊登過一篇文章,說一國人均巧克力消費量越大,其諾貝爾獎得主占總人口的比例就越高。
按照文章作者弗朗茨·梅瑟利的觀點,巧克力消費與獲得諾獎存在因果關系,其理論機制是:巧克力的主要原料可可富含黃烷醇,而黃烷醇作為強抗氧化劑類黃酮的一個亞類,能提高記憶力和學習能力,改善推理、決策、語言能力和數學邏輯等認知功能。
然而,人均巧克力消費量越大并不代表那些諾獎得主吃的巧克力就更多,也就是說,吃巧克力的人與諾獎得主并不一定屬于同一群人。因此,該文作者僅為上述理論機制提供了很弱的統計學證據支持。對文章更嚴重的質疑來自這樣一個事實:雖然黃烷醇在天然可可中含量很高,但在巧克力中含量很低。哈佛大學醫學院研究黃烷醇的專家諾姆·霍倫伯格指出,黃烷醇會使巧克力發苦,因此,巧克力制造商會盡量降低巧克力中黃烷醇的含量。鑒于此事實,可以認定,文章的統計學證據根本沒有為上述理論機制提供任何支持。
那么,怎樣有效地解釋該文章的統計學證據呢?一種比較詼諧的解釋是,雖然從巧克力消費到獲得諾獎并不一定存在因果關系,但反向的因果關系有可能存在:那些有很多諾獎得主的國家或許喜歡用巧克力來慶祝本國學者斬獲諾獎。更嚴肅的解釋來自2001年諾貝爾物理學獎得主埃里克·康奈爾。他認為,一個國家的巧克力消耗量與該國的富裕程度相關聯,而越富裕的國家對科研投入就越多,從而越可能產生更多的諾獎得主。因此,巧克力消費量和諾獎得主數量正相關所反映的是經濟發展對二者的促進作用,而非二者的因果關系。
埃里克·康奈爾實際上是基于統計學中的“虛假關系”概念來對此進行解釋的。所謂虛假關系,是指在兩個變量之間不存在因果關系,但會因為分別與第三個變量相關而具有相關性。不幸的是,這種相關性會誤導人們認為這兩個變量存在因果關系。與本文案例類似的例子有很多,例如,手掌大小與閱讀能力沒有因果關系,但二者正相關,原因是年齡越大、手掌越大,同時閱讀能力越強。
前文的分析表明,變量A與B相關,并不一定意味著A就是B的原因。B可能是A的原因,或者二者根本不存在因果關系,僅僅因為都與第三個變量C相關而相關。還有一種可能是,這二者的相關只是一種不必過度解讀的巧合。就弗朗茨·梅瑟利所進行的研究而言,他選取了人均產生諾貝爾獎得主數量排名前23位的國家作為研究樣本,顯然樣本量很小,從而很容易出現巧合性結果。
尋求因果關系是人類的本能,然而在此過程中陷阱重重。若要避免掉入這些陷阱,我們不妨記住哲學家康德的著名論斷:“經驗的因果歸納沒有合法性。”