在初中數學的學習中,同學們已經掌握了不少
收集、整理、統計數據的方法,不過要當心了,千萬不
要不假思索地從統計數據中尋找結論、統計數據有
時也有說謊的時候,對此,美國著名作家馬克,吐溫
曾經做出了一個簡潔而漂亮的詮釋:“世上一共有三
種謊言:謊言,糟糕的謊言和統計數據。”
如果盲目地對統計數據進行分析,有時會得出
一些極為荒謬的結果。
統計學家曾經調查過鈾礦工人的壽命,其結果
讓人大跌眼鏡:在鈾礦工作的工人居然與其他人的
壽命相當,有的甚至更長!難道統計結果表明在鈾礦
工作對身體無害嗎?當然不是!其實,統計數據本身
確實不假,鈾礦工人的壽命真的不比普通人低,難就
難在我們如何透過數據的外表,從中挖掘出正確的
信息,事實上,只有那些身強體壯的人才會去鈾礦工
作,他們的壽命本來就長一些,正是因為去了鈾礦工
作,才把他們的壽命拉低到了平均水平,造成了數據
的“偽獨立性”,這種現象常常被稱為“健康工人效
應”。
類似地,有數據表明打太極拳的人和不打太極
拳的人的平均壽命相同,事實上呢,太極拳確實可以
強身健體、延長壽命,但打太極拳的人往往是體弱多
病的人,這一事實也給統計數據帶來了虛假的獨立
性。
表面上不相關的統計數據,其背后仍然可能存
在著很強的因果關系。
有虛假的獨立性數據,就有虛假的相關性數據,
統計數據顯示,去救火的消防隊員越多,火災損失就
越大,初次聽到這樣的結論,想必大家的反應都一
樣:這怎么可能呢?仔細想想你就明白了:正因為火
災損失大,才會有很多人去救火,這里,因果關系弄
顛倒了,數據只能顯示兩個事件有相關性,但并不能
告訴你它們內部的邏輯關系。
事實上,兩個在統計數據上呈現相關性的事件,
甚至有可能根本就沒有因果關系,統計數據表明,冰
淇淋銷量增加,鯊魚食人事件也會同時增加,但這并
不意味著,把冰淇淋銷售點全部取締了,就能減小被
鯊魚吃掉的概率,真實的情況則是,這兩個變量同時
增加只不過是因為夏天到了,統計數據顯示,足球隊
的獲勝率,竟然與隊員的球襪長度成正比,難道把隊
員的球襪都換長一些,就能增加進球數了嗎?顯然不
是,數據背后真正的因果關系是,球隊的獲勝率和隊
員的球襪長度同時受第三方因素——隊員的身
高——的影響,這導致獲勝率與球襪長度之間呈現
出虛假的相關性。
類似的例子還有很多,如果觀察大氣層中二氧
化碳含量的變化和肥胖癥人口數量的變化,你會發
現一個非常有趣的現象:在1950年左右,二者都出
現了一次非常劇烈的增長,但科學研究并沒有發現
二氧化碳含量的增加會導致人類出現過度肥胖的趨
勢,事實上,這些數據背后的真實關系則是,上世紀
50年代,汽車產業形成了一定的規模,尾氣排放導
致大氣中的二氧化碳含量陡然增加:同時,人們也更
多地用汽車代步,走路的時間越來越少,于是就越來
越胖了。
可見,要想從統計數據中挖掘出正確的結論,遠
沒有想象中那么容易。
有的同學可能會問,在科學研究當中,為了得到
事物之間正確的因果關系,應該怎么做呢?這是科學
研究中一個非常核心的問題,在生物學、醫學和心理
學當中,人們常常用對照實驗的方法來挖掘因果關
系,感興趣的同學不妨在網絡上搜一搜“實驗組”、
“對照組”、“單盲實驗”、“雙肓實驗”,領會一下實驗
設計科學的奧妙吧。