Fiona

2016年6月,英國就是否“脫離歐盟”舉行全民公投,“脫歐派”以52%對48%勝出。其后,英國一直在“脫歐”事務上問題不斷,盡管英國首相約翰遜表示10月31日“脫歐”的時間不會被推延。
“脫歐”公投時期,一輛紅色大巴成為當時“脫歐”運動的標志性形象,車身上刷有醒目的游說標語:“我們每周向歐盟支付3.5億英鎊,讓我們把這些錢用在國民醫療服務體系上吧!”它將抓人眼球的大額費用支出,與具有公益性的英國國民醫療服務體系(National Health Service)并置,對數字的巧妙使用,最終讓公投的天平倒向了“脫歐派”一方。
為了獲得額外的一例腸癌,這100人必須在一生中每年吃大約180份油膩的培根三明治。
那么,巴士車身上的數據可靠嗎?就像政治話語通常使用的數據一樣,3.5億英鎊不是完全捏造的,它確有依據。根據公開的財務報表,2017年歐盟商定的英國年度繳費金額為186億英鎊(即每周3.57億英鎊)。但是,扣除56億英鎊退稅之后,這個數字縮減至130億英鎊。此外,其中大約40億英鎊還將從歐盟返還,用于諸如科學、農業等公共領域,英國即便離開歐盟,也要自己支付這部分費用。
當時,有不少人批評“脫歐派”鼓吹英國每周向歐盟支付3.5億英鎊。2017年,在還是外交大臣的約翰遜提到這個數據時,英國統計局主席譴責了他,認為這是“典型的對官方統計數據的濫用”,甚至還對約翰遜提起私人刑事訴訟,罪名是“公職中的不當行為”,只是后來高等法院終止了這一起訴。
當時,紅色巴士上的標語在數百萬人心中激起了強烈的情感共鳴,但它本身是條錯誤的信息。這一事件揭示了統計數據潛藏的威力和弱點:它可以用來強化觀點,但也往往經不起檢視。在這個統計數據日益發揮重要作用的時代,統計學素養將成為一項基本的公民技能。我們需要具備能力去識破那些濫用數據的現象,并通過數據來揭穿錯誤的觀點。
統計數據并不是一成不變的事實,就像內特·西爾弗(Nate Silver)在《信號與噪音》中所表述的那樣:“數字本身無法表達觀點,是我們在為它說話,是我們在向它注入有意義的東西。”人們使用自身的判斷力來選擇問題、確定概念、分析數據,甚至選擇不同的數據表述方式,都會徹底改變數據所呈現的情感色彩。
回到英國“脫歐”運動中的那輛紅色巴士。假設英國確實每周向歐盟支付了3.5億英鎊,如果以“留歐派”的立場,我們可以在巴士上寫些什么呢?讓一個大數據顯得小些,有兩種典型方法,一種是將它換算成在一個更大數字中的比例。例如,英國目前的GDP約為2.3萬億英鎊,因此英國向歐盟繳納的費用在GDP中的占比還不到1%。
另一種方法,是將數據分解成更小、更容易被感知的單位。例如,英國有6600萬人,每周3.5億英鎊的總花費僅為每人每天75便士,還不到1美元,相當于一小包薯片的成本。如果在紅色巴士上寫“我們每人每天給歐盟送一包薯片”,“脫歐派”也許就沒那么順利了。
數據常常被用于說服,而不是提供信息。因此,人們需要提高自身的統計素養。學校雖然開設統計學課程,但是由于過分強調其中的數學基礎,往往忽略培養學生通過統計學來解決實際問題、表達觀點的能力。
新西蘭教育者就此革命性地提出了“PPDAC模式”:問題(Problem)、計劃(Plan)、數據(Data)、分析(Analysis)、結論(Conclusion),以解決問題為核心,來學習統計學原理、使用統計學工具。

車身上刷有醒目游說標語的巴士
可以通過這樣一個例子來運用“PPDAC模式”。2019年,CNN發布了一則頭條新聞:“研究表明,每天吃一片培根,就會增加患結腸癌或直腸癌風險。”隨后,英國《太陽報》夸張地表述為:“每天一片培根將會致命。”我們提出的問題是:我們應該關注這個風險嗎?需要放棄培根嗎?文章中提到的一項研究結論是:每天食用25克加工肉類(相當于隔天吃一大塊培根三明治)與增加19%的罹患腸癌風險相關。
一位受過統計學基礎訓練的人,會立即想到兩個問題。首先,這種相關性是因果關系嗎?換言之,人們如果開始吃培根,患病風險就會上升,還是兩者之間僅僅只是有關聯而已?國際癌癥研究機構,目前已經證實了食用加工肉類將增加腸癌患病風險,所以,我們可以接受這個因果關系。
第二個問題是,這個影響是否足夠顯著,以至需要引起注意。“增長19%”是一個相對風險,這種表述關聯的方式會夸大風險本身。其中的關鍵問題是:19%的基數是什么?如果不知道基數—絕對風險,就無法判斷19%的增長風險是否值得擔憂。
統計數據本身會給出一些答案,但它們通常會提出更多的問題。
因此,還需要一個數據:絕對風險。研究結果表明,大約6%的人會患上腸癌,無論他們做什么,即便不吃培根。在100個不吃培根的人中,預計其中6人在有生之年會患上腸癌。與此同時,在每天吃25克培根(比如隔天吃一大塊培根三明治)的100人中,預計會比原先6人增加19%,即約7人會患上腸癌。

連環殺手哈羅德·希普曼
因此,為了獲得額外的一例腸癌,這100人必須在一生中每年吃大約180份油膩的培根三明治,一生共消耗1萬份,100人共100萬份。所以,經過這樣的表述,這則駭人聽聞的頭條新聞就顯得無足輕重了。不幸的是,很少有媒體人具備上述的分析能力。
哈羅德·希普曼(Harold Shipman)是英國殺人最多的兇手,盡管他不符合典型的連環殺手形象。在1975年至1998年間,他作為曼徹斯特郊區的一位溫文爾雅的家庭醫生(全科醫生),向他的215位老年病人注射了過量的鎮痛劑,并直接導致他們死亡。
后來,他企圖繼承一位受害者的部分遺產而偽造了一份遺囑,受害者女兒恰好是一位律師,這引起了她的懷疑。通過調查希普曼的電腦,律師發現他不斷地修改病人病歷,使他們顯得比實際情況更加嚴重。隨后,法醫在15位未被火化的受害者體內,發現了致命劑量的二乙酰嗎啡(醫用海洛因)。
希普曼因15起謀殺案被判終身監禁。其間當局開展了公開調查,以確定除了已被判處的罪行之外,希普曼是否還有其他違法行為,以及他是否可以被提前抓獲。
統計學家也加入了這項調查。他們首先統計分析了受害者的信息與希普曼的活動情況。
希普曼的受害者以女性居多,且大多為70~90歲的老人;但隨著時間的推移,一些年輕的受害者開始出現;在1992年前后,沒有出現謀殺行為。事實也表明,希普曼原與其他醫生聯合執業,后因受到懷疑而獨自工作,此后,他的謀殺行為變得更加頻繁。
將希普曼病人的死亡時間與其他家庭醫生的病人相比較,可以發現希普曼的病人大多在下午早些時候死亡。而進一步的調查也證明,希普曼一般在午餐后進行家訪,這個時間段他通常會與老年病人單獨在一起。他給他們注射過量的嗎啡,讓老人們在他面前平靜地死去。
希普曼這樣做也需要冒一定風險,因為一次尸檢就能暴露他的罪行。但是,考慮到病人的高齡和明顯的自然死亡特征,沒有人會懷疑這位家庭醫生。因此,統計學家還需要回答一個問題:他能被提早發現嗎?
如果比較希普曼與其他全科醫生的累積病人死亡人數,希普曼的數據要明顯高于后者,兩者之差即為希普曼的累積超額死亡人數。到1998年,65歲及以上的病人中,希普曼的累積超額死亡人數為174名女性、49名男性。這幾乎就是后來調查確認的老年受害者的實際人數,可見統計分析的準確性。
如果有人每年監控希普曼的死亡病人數,能否在某個節點發出死亡人數異常警報,從而對希普曼展開調查,以挽回尚未逝去的生命呢?這個問題,其實涉及推論統計中的“統計顯著性假設”。
可以先建立“零假設”,即希普曼和他的同事擁有相同的病人死亡數,在這種情況下,希普曼是完全正常的。然后,我們計算能推翻零假設的統計值,并且算出零假設為真的情況下,該統計值隨機出現的可能性,即P值。最后將P值與預設的臨界值進行比較—臨界值一般設為0.05或0.01,P值越小,則統計顯著性水平越高,說明希普曼的病人死亡人數越是離奇。也就是說,如果數據不能被解釋為是純粹地隨機發生,那么就拒絕了零假設,證明其中有一些其他因素發揮了作用。
如果這一統計過程在實際情況中被真實地執行了,那么早在1979年,僅僅通過三年的監測,就會得出0.004的P值,遠小于一般設定的0.05或0.01的臨界值—意味著可以對希普曼展開調查。
這種“零假設檢驗”的方法,是眾多科學主張的基礎,包括希格斯玻色子這樣的重大發現。但是,為什么這樣的統計方法并不適用于監測全科醫生的病人死亡數?其中有兩個原因,首先,當時全英國全科醫生約為2.5萬人,若將臨界值設為0.05,那么每20名完全無辜的醫生中,就有1名出現較高的統計顯著性水平,全英將有1300位,而對他們展開調查顯然不合適,且希普曼很可能會被遺漏。

用“ PPDAC 模式”做一個數據偵探
第二個問題是,由于每年都會增加新的數據,因此顯著水平測試會重復進行。根據“重對數律”,如果進行這樣的重復檢驗,即使零假設是正確的,無論設置怎樣的顯著水平,結果都會拒絕零假設。這意味著,如果對一名醫生進行長時間的重復測試,最終肯定會得出病人死亡率過高的結論,即使事實并非如此。
希普曼的故事,說明了統計素養的兩個有機組成部分。一是統計調查能力,能清晰表達數據所揭示的內容;二是對由數據得出的觀點有辨析能力,同時知道如何解讀數據、可以從數據中提出怎樣的問題。
統計數據本身會給出一些答案,但它們通常會提出更多的問題。
這樣的統計素養很難教授,它不能歸納為公式和算法,必須通過實踐經驗積累與學徒式的指導。學習統計藝術需要時間與耐心。