

摘 要 本文通過基礎概率謬誤、大數印象等幾個具體事例,從作者責任和讀者責任兩方面,闡述“數字錯覺”產生的原因及其影響,并給出有效數字統一標準等提防和控制“數字錯覺”的若干意見。
關鍵詞 數字錯覺 作者責任 讀者責任
中圖分類號:B81 文獻標識碼:A
“數字錯覺”(Numerical Illusion),這個略帶些奇幻色彩的說法來自劍橋大學的統計學和風險學大師戴維·斯皮格豪特(Prof. David Spiegelhalter)。他第一次將這個藝術性的叫法賦予給一種學術文章中的普遍現象:文章中的數據通篇沒有錯誤,卻可能讓讀者得出錯誤的結論。
本文始于筆者2011年在英國倫敦大學學院(University College London)的一次演講,旨在通過對日常生活中數據的處理和理解,闡述“數字錯覺”產生的原因及其影響。例如前日“央行公布人均存款數,網友齊呼拖了祖國后腿”事件,我們在日常生活中,常常將“平均數”等同于“大多數人”(其實就是統計學中的“眾數”),這本身并沒有太大的問題,但在此次事件中,眾多網友在閱讀學術報告時依舊將這兩個概念混淆,無法意識到少數擁有巨額存款的群體對均值的“拉拽”作用。說明在理性理解學術數據的道路上,我們還有很長的路要走。
每當出現這類“數字錯覺”問題,作者往往無奈于讀者誤解文意,讀者又常常指責作者表達不清。其實,作者與讀者的責任在這其中缺一不可。本文將通過幾個具體的事例,從作者責任和讀者責任兩方面,來逐步回想我們對數據的第一印象。
1 “數字錯覺”的作者責任
所謂作者責任,是指文章作者或者數據引用人在數據的選取和表達上需要做出的種種處理。在這一部分,我們將以人們談之色變的癌癥作為例子,觀察生活中幾種常見的問題:
1.1 基礎概率謬誤(Base-rate Fallacy)
基礎概率謬誤是指在估計最終結果時,忽略了過程中某些基本概率,這是統計學中進行主觀概率判斷時最容易犯的錯誤。
比如一個人如果吸毒,則得X癌的幾率是80%,若不吸毒,則為20%;那么給定某人已經得了X癌,我們的反應往往是此人很可能吸毒,甚至有人會想當然的覺得他吸毒的概率是80%,而這常常與真實情況相去甚遠。
假設一個普通群體里100人,其中吸毒者1人,不吸毒者99人。則從純概率角度考慮(見表1):
表1
那么給定某人已經得了X癌,他吸毒的概率:
0.8€鰨?.8+19.8)€?00% = 3.88%
這與之前一些人直觀反應的80%相差了20倍之多!而這雖然說是讀者們想當然所造成的失誤,更多的時候其實是作者刻意為之,他們故意忽略掉一些基本概率,強調一些其他比例數據,希望讀者產生相應的聯想,制造一個噱頭或者輿論方向以達到自己的目的。所以,筆者也將此歸于作者責任之中。
而下面這個例子,出自于美國Cracked網站的專欄作家詹姆斯·斯佩丁(James Spedding)和納撒尼爾·科普(Nathaniel Cope):
假設你坐在醫生的辦公室中,醫生告訴你,你的胰腺癌檢測呈陽性,你頓時手足無措,聲音顫抖,“這是真的醫生嗎?會不會弄錯了?” 而醫生的回答讓你更加絕望:“非常遺憾,我們這項檢測的成功率高達99%。”
99%!你死里逃生的幾率似乎就剩1%了。假如醫生的話不會有錯,普通人甚至會放棄繼續生活的勇氣—— 但是統計學家會冷靜地提出一個問題:普通人得胰腺癌的幾率有多大?
原來,99%的檢測準確率沒有問題,但關鍵是事件的先后:檢測一個已經得了胰腺癌的患者100次,儀器有99次會顯示陽性;檢測1000次,會有990次左右顯示陽性……而準確率為99%的儀器,檢測一個普通人(無論患病與否),也大概有1%的幾率會顯示陽性。但是給定儀器顯示陽性,被檢測者得胰腺癌的幾率同樣是99%嗎?這關系到了基本概率問題。
根據資料,普通人得胰腺癌的概率為1/8000,這就是一個基本概率。有了它,我們可以來計算顯示陽性后確定患有胰腺癌的概率:
P(患有胰腺癌|陽性)= P(陽性|患有胰腺癌)€譖(患有胰腺癌)€鱌(陽性)= 99%€?/8000€?% = 1.2%
這便是統計學中赫赫有名的有條件概率貝葉斯定理的最簡單的應用。理論來講,你最好的結果是只有1.2%的幾率得了病!所以回去好吃好喝,乖乖檢查治療,千萬別被99%嚇破了膽。今后的生活中碰到“99%成功!99%準確!”這類說法,也都要長個心眼了。
1.2 大數印象(Large Number Impression)
“數字越大,風險越大”(The Larger Number,The Larger Risk)是斯皮格豪特教授提出的最典型的一類數字錯覺,它在日常生活中體現在較大的數字會給人留下更深刻的印象上。比如:
100個人中有25人死于癌癥。
10000個人中有2500人死于癌癥。
雖然表達的比例都是25%,但是后一種說法更能給人以“比例很高,情況嚴重”的感覺。
數據處理的這方面作用自然而然地引起了社會學家,尤其是心理學家的關注。韋斯利安大學(Wesleyan University)心理學教授斯科特·普勞斯(Prof. Scott Plous)在《決策心理學》(“The Psychology of Judgment and Decision Making”)一文中提出了下面的例子:
每日100人死于癌癥。
每年36500人死于癌癥。
很顯然,后一種說法給人的震撼更大。而另一組例子似乎更有說服力:
10000人中,1286人死于癌癥。
100人中,24人死于癌癥。
兩種說法中,第一種對癌癥殺傷力的描述似乎給人印象更加深刻。然而,第一種說法中的比例:1286/10000 = 13%;第二種說法中的比例:24/100 = 24%。后者竟是前者的兩倍!
當然,寫到這里,很多冷靜的讀者都會覺得不屑一顧:“我早就看出來了,我根本沒有被誤導!”但是不要忘了,在我們平時的閱讀過程中,這些數字穿插于文字之間,關于同一問題的各項比例可能相隔甚遠,基本上不可能有這樣排版成上下行的對比。再考慮到較快的閱讀速度,在描述數據時增加幾個零的作用是難以想象的!
1.3 絕對與相對(“Absolute” vs. “Relative”)
“絕對”和“相對”早已是學術界的老生常談了,相信大部分讀者也早就對它們有了足夠的敏感度,然而,數據作者在這方面的不在意還是讓讀者有種防不勝防的感覺。比如:
《中國日報》(“China Daily”)在2007年的一篇報道中提到,飲用熱茶將提高患食道癌的幾率800%;
克里斯蒂·瓊斯教授(Prof. Christie Jones)在《癌癥殺手》(“The Murderer Cancer”)一文中提到,每天食用1/4只柚子將提高患乳腺癌的幾率近30%。
如果以上兩條給你的感官刺激還不夠的話,下面這條曾在歐美國家引起了很長一段時間的恐慌:
每天早上將培根三明治作為早餐,將會提高患結腸癌的幾率20%!想到每天一個小小的三明治,將來就有近1/4的幾率得結腸癌,很多歐美國家的人民都不得不放棄了這幾百年來最熟悉的早餐食品……直到統計學家們猛烈抨擊了此條數據的原作者。前文反復提到的斯皮格豪特教授就是抨擊者中的一位,他向大眾解釋道:
“普通人患有結腸癌的幾率大概是5%,而這提高的20%其實是一個相對比例,即5%的20%。所以就算這個說法為真,在一個人堅持不懈地食用培根三明治之后,他得結腸癌的幾率也不是20%+5% = 25%,而是:5%+5%€?0% = 6%
僅僅提高了一個百分比!筆者在這里要提醒那些心滿意足回家又開始吃三明治的讀者們,以后碰到“提高了多少比例”,抑或是“進步最快的公司/團體”這類說法,心里都要好好斟酌一下了。
如果有讀者想要進一步了解關于統計數據處理和表達中的種種奇妙作用,筆者在這里推薦美國統計學家達萊爾·哈夫(Prof. Darrel Huff)的《統計陷阱》(“How to Lie With Statistics”)一書,此書堪稱各種統計迷局的經典,唯一遺憾的是它只從作者責任的角度進行了討論。下面本文將簡單地從讀者責任方面,也嘗試探討一下數字錯覺的產生。
2 “數字錯覺”的讀者責任
讀者作為數據的受眾,是數據的服務對象,本來并沒有什么責任,而數據作者應該完全根據讀者的閱讀習慣展示自己的數據。然而,就算作者已經非常準確完美地展現了自己的數據,在面對一些更深層次問題的直覺和思考上,讀者的一些習慣還是會不可避免地造成數字錯覺。我們這里探討的,就是如何控制讀者自身的這些習慣,哪怕只是能夠意識到它們,也能有助于我們更理性更準確地理解數據資料。
我們舉一個簡單的例子,即概率學中最為經典的生日悖論(Birthday Paradox):在隨機50個人中,至少有兩個人同月同日生的概率為多少?
相信曾經研究過此問題的讀者已經能會心一笑,而從未接觸過此題的讀者的第一反應會是多少呢?50個人,一年365天,同一日出生的概率:10%?20%?難道是50%?
這里筆者給出一個簡單的算法(其實只是簡單的乘法原理),以平年計算:
1365/365€?64/365€?63/365€住?€?316/365 = 97%。
97%!幾乎是必然事件!相信沒接觸過本題的讀者在第一時間都沒有想到,畢竟50人的樣本容量在365個不同事件中不過是1:7的比例。那么是什么原因造成如此的反差呢?伊利諾伊大學香檳分校(University of Illinois at Urbana-Champaign, UIUC)的克雷教授(Prof. S. Clay)在《美國數學月刊》(“American Mathematical Monthly”)對此問題做了比較深刻的討論。
首先,只考慮1個人的時候,毫無疑問概率為0;另一方面,當有366個人時(考慮平年),由抽屜原理,概率為100%。于是,人們不由自主地對這個范圍做一個線性劃分:50/366 = 13.6%。
相信這樣的結果會是很多人的直覺反應。然而,真正的情況又是如何呢?我們根據我們擁有的樣本容量(人數),設立一個關于的概率函數,表達如下:
() = 1365/365 €?364/365 €?363/365 €?… €?(365+1)/365
可以看出,這是一個上凸的曲線,在 = 0至 = 50之間急速上升,之后趨近平緩直到概率等于1。從圖中也可以看出,如果想讓相同生日存在的概率超過一半(50%),我們只需要23個人就夠了。
那為什么人們的直覺反應會認為這是一個線性關系呢?除了日常生活中線性關系比較常見,思維慣性在作祟之外,另外一個重要原因便是人們在思考問題時,常常將自己帶入問題情境。假如我們對問題稍作修改:在包括你在內的n個人中,至少有一人與你是同月同日生的概率是多少?我們有下面的函數(圖2): () = 1
將這個函數的圖像畫出之后,我們會發現它近似于一個線性圖案!這種神奇的巧合早在1966年就被美國的麥金尼教授(Prof. E. H. McKinney)提出了。而至于這和人們的潛意識反應是否有關,還有待心理學家的進一步實驗。
3 結束語
由于篇幅的限制,還有許多統計學中關于數據的趣聞沒有機會向大家展示,比如風靡一時的選擇悖論(Selection Paradox),純數字與幾何制表在比例表現上的差異等等。數字錯覺的產生不可避免,但是可以提防和控制:關于學術類文章中有效數字統一標準的出臺,為明確數據類型做出的硬性規定,當然還包括廣大讀者理性客觀理解數據能力的提高,都是科學文獻普及進程中的重要進步。
另外,筆者在這里不太贊同將所有的數字錯覺都視為陷阱,很多時候發現并理解其中的奧秘也甚為有趣。除了取用于科學,更要享受于科學。
參考文獻
[1] Cope.N.,J.Spedding.2013. 5 Ways Statistics Are Used to Lie to You Every Day. Cracked Articles. http://www.cracked.com (accessed July 15, 2013)
[2] Clay.S.2008.A Birthday Problem. American Mathematical Monthly 80(3):1141-1142.
[3] Jones.C.2007. The Murderer Cancer. American Scientist 22 (4): 78-81. Wiley Online. http://www.wileyonline.com (accessed March 14,2011).
[4] McKinney.E.H.1966. Generalized Birthday Problem. American Mathematical Monthly 7(3):385-387.Sciencedirect. http://www.sciencedirect.com (accessed March 15, 2011).
[5] Plous.S.2000.The Psychology of Judgement and Decision Making. Applied Psychology 12(6):124-128.
[6] Spiegelhalter. D. 2009. Why risk is a risky business? The New Scientist 203 (2721):20-21.