“清華大學2008屆本科生畢業半年后,平均月收入為5339元,居全國第一。”看了國內某機構推出的高校薪資排行榜,你或許會感嘆,清華學生干得真不賴啊,尤其當他們的“老對手”北大畢業生以4620元位居全國第4的時候。
但問題接踵而來。這個數字何以精確如斯?究竟有多少清華學生收到過調查問卷?問卷的回收率是多少?拒絕回答的學生是因為沒有賺到足以炫耀的薪水嗎?一年前的調查說,清華2007屆本科生月收入為5565元,為什么在“全國人民收入不斷增長”的大好形勢下,“倒霉的2008屆”會平白無故少掙226元?實際上,除了“5339元”這個數字,你得不到任何交代。
一個用事實說話的社會是讓人向往的,但有時貌似精確的統計數字卻會被利用,成為迷惑他人的工具。美國統計學家達萊爾·哈夫早就著書提醒世人:《統計數字會撒謊》。他建議,在看到統計數字后,人們首先要問自己5個問題:“誰說的”,“他是如何知道的”,“遺漏了什么”,“是否有人偷換了概念”,“這個資料有意義嗎”。
這本“數據打假手冊”有很強的現實意義。比如帶著第一個問題去追問高校薪資排行榜,你會發現,盡管該機構自稱“以推動中國教育為己任”,但事實上他們是在銷售高考志愿填報咨詢系統和大學生就業指南。
商業廣告里的數字是不太靠譜的,關于這點人們有共識。比如某牙膏“能使蛀牙減少23%”,某洗發水“能讓秀發10倍堅韌”,某香皂“含有抑菌成分,能有效去除99%與皮膚接觸的細菌”,很少有人真的相信這些數字。
問題是,權威部門公布的統計數字也并非無懈可擊。2009年7月,國家統計局發布,2009年上半年中國城鎮單位在崗職工平均工資為14638元,同比增長12.9%。其后就有眾多網民在網上曬工資,指出統計數據與自己的實際收入增長不符。
造成“工資被增長”的原因有二。一是大多數低收入者沒有被納入統計的范圍內。根據現行統計制度,城鄉職工約4.1億人,而納入上述統計范圍的職工只有1.1億人。
實際上,即使統計覆蓋了所有勞動者,如果按照現行測量標準,也很難得到反映實際情況的平均數。提到平均數,多數人會認為就是N個數字相加然后除以N。“平均數”實際上包含均值、中位數和眾數3種。中位數就是把所有數字由小到大排列取最中間的那個數,眾數就是在所有數字當中出現最頻繁的那個數。
舉個例子,10個小朋友分蘋果,分別拿到的個數是1、2、3、4、5、5、10、10、10、100,那么平均每個小朋友分到幾個?按照均值的算法是15個,那么前9個小朋友必然會哭著說自己都沒達到這個水平。如果取中位數是5個,取眾數是10個,兩者都更趨近真實的平均水平。問題是,在這三個平均數中,均值總是能夠取得最大數字的那個平均數,所以很多統計都愛用這個。只是貧富差距越大,其結果越不能代表真實的工資水平。
統計數據并非總是面目可憎,有時也讓人莞爾。比如英國勞工部對6000戶有代表性的家庭做調查后發現,5歲以上的英國男子在冬天平均每周洗澡1.7次,夏天為2.1次。而同等年齡的英國女子的相應數據為冬天1.5次,夏天2.0次。據此,勞工部得出來個這樣的結論——“英國的他比她更愛洗澡”。
還有,當美國約翰斯·霍普金斯大學開始接收女學生時,一個不贊成異性同校的學者發布了一個驚人的消息:霍普金斯大學1/3的女學生嫁給了老師。其原始數據更清楚地描繪了事實:總共只有3個女同學被錄取,其中1人嫁給了老師。
齊虹//摘自2010年1月27日中青在線/