王心儀
摘要:我們生活在信息時代,信息的主題就是統計數據,統計數據覆蓋經濟和社會的各個領域,但是并非所有的統計數據都是客觀真實的,本文通過實例來分析有偏的樣本、精選的平均數、隱藏的部分數據、誤解的相關關系、不完全匹配的資料等幾種統計數字說謊的方式及其破解的方法。
關鍵詞:統計數字;陷阱;破解方法
中圖分類號:F713.8;F712.3 文獻識別碼:A 文章編號:1001-828X(2017)001-000-02
在這個信息爆炸的時代,各種各樣的數據充斥在我們周圍,比如“廣東本科生平均月薪7000元,你拖后腿了嗎?”、“北京人初婚平均年齡為27歲,結婚越晚越穩定”……可是,數字擺在那兒,我們就能正確認識世界了嗎?我們要如何才能夠看清這些漫天飛舞、貌似客觀真實的統計數據背后的謊言?下面我們就來看看幾種統計數字說謊的例子及其破解的方法。
一、有偏的樣本
我們來看一則媒體報道:“6月15日,人工智能公司iPIN.com在北京發布了《2015年iPIN.com中國大學薪酬排行榜》,清華大學高居榜首,復旦大學和上海財經大學分列二三位。這份薪酬排行榜是根據來自招聘和獵頭公司的4000萬大學畢業生真實畢業去向數據分析所得,由各大學畢業五年薪酬指數計算所得。”
事實上,這個數據中就使用了一個有偏的樣本,從以下幾個方面,我們可以看出破綻:首先,對于一群已經離開學校的人,了解他們的平均收入,且精確到以元為單位,幾乎不太可能;其次,對于年收入10萬元以上的階層來說,投資渠道更廣,因此他們的收入不可能完全來自于薪水;再次,這些畢業生不一定堅持說真話,有些人可能出于虛榮或天生樂觀而夸大數據,還有一些人也有可能故意縮小數字;最后,沒有人能夠掌握那些不通過招聘和獵頭公司的學生就業情況,比如自我創業者。因此,得出的數據實際上是建立在這樣一個樣本之上:它代表的是畢業五年的學生中能夠聯系上的,并愿意站出來說出真實收入的一個特殊群體。所以,這個樣本的代表性并不強。
因此,為了確保結論有價值,就要抽取有代表性的樣本,一是要保證樣本足夠大,純隨機抽樣方法效果最好,但是有時純隨機抽樣樣本選取難度大,成本昂貴,可以采取分層隨機抽樣的方法。二是要看內在樣本提供的答案是否真實,有時可以通過觀察其調查的方式來判斷結果的真實程度。比如,在調查出租車司機喜歡聽哪個頻道的收音機節目時,用問卷調查法就不如用觀察法獲得的結果相對可靠。
二、精選的平均數
我們來看一下廣州南方人才市場發布的《2015-2016年廣東地區薪酬調查報告》,報告顯示:廣州地區平均月薪為6911元,深圳更是高達7631元。(來自《新快報》,2015年9月18日)。這樣的數據倒是與一線城市的形象完美契合,但讓那些拿著個稅起征點以下工資的大多數人情何以堪。那么,導致這種不滿的原因是什么呢?就是精心挑選的平均數。
事實上,平均數不僅是簡單意義上的算術平均數,還包括了中位數和眾數。算術平均數又稱均值,是將所有數據加總后除以樣本數得來的結果,也是平常意義上的平均數。中位數是將所有數值從高到低排列,最中間的數值。眾數是所有數值中出現頻率最高的數值。算術平均數并不能夠完全反映真實的薪酬狀況,從統計上說,中位數和眾數比算術平均數更有說服力。顯然,每月近7000元的收入,在廣州并不算低,但有多少人能達到這個工資水平?只公布薪酬平均數而不公布其他相關數據只會掩蓋真實問題,薪酬統計就這樣成為了少數人的狂歡,多數人的悲哀。因此,在看到平均數時,我們首先要問問是什么類型的平均,是算術平均數,中位數,還是眾數,特別是那些沒有標明類型的平均數。
三、隱藏的部分數據
下面這則牙膏廣告令人印象深刻:“經科學驗證,與高露潔普通含氟牙膏相比,高露潔360°牙膏能減少口腔細菌滋生,效果最高高出75%,有效對抗八大口腔問題。”(來自高露潔官方網站)。可是透過這則品牌牙膏的廣告宣傳,我們卻無法知道以下信息,一是樣本量,即所抽取測試對象的樣本量是多少?二是測試過程,即測試對象是哪些人?測試過程持續了多長時間?而這些信息都決定了測試結果的可靠性,商家就是利用這樣不充分的樣本數據,來達到預期的廣告效果。這些隱藏的數據的欺騙性在于人們經常忽略了它們的存在,這當然也是它們取得成功的奧秘。另一種被隱藏的數據表明事物的變動范圍(全距)和給定平均數的偏離水平(標準差)。如“昆明和北非撒哈拉沙漠地區的年平均氣溫都在15℃左右”的數據忽略了昆明的氣溫波動范圍是7~28℃,而沙漠的波動范圍是-9~40℃”。
因此,數量小的樣本存在偶然因素,必然導致偶然的、毫無意義的統計結論;要對數據進行在一定顯著性水平下(10%或5%或1%)的顯著性檢驗;要注意事物的變動范圍和給定平均數的偏離水平;要查看引起變化的原因,比如,某個報告得出“最近25年癌癥死亡人數增多”的結論,你就要反問:癌癥的死亡人數真的有增加嗎?數據中是否遺漏了“以前許多‘病因不明的案例現在已經確診為癌癥”這一引起變化的原因?
四、變身的統計圖
你也許會質疑:圖表是很直觀的統計數據,難道還能不真實嗎?下面就來看看精挑細選的統計圖是如何欺騙蒙蔽人們雙眼的。
上面這張圖(橫坐標表示的是月份,縱坐標是每月的體育消費額)是一個原始的、清晰顯示一年來體育消費變化的折線圖,并且變化是逐月反映出來的。然而畫圖者會發現,整張圖按比例繪制,雖然看上去體育消費的確上升了10%,但是卻不振奮人心。這時候,他們就會把底部的數據抹去,最后得到下面這張圖的效果:
你是否發現,縱坐標的每一個刻度都縮減為了原來的1/10,橫縱坐標的比例關系被更改了。最后出來的效果,就相當于將“體育消費支出增長了10個百分點”改寫成“體育消費支出驚人地攀升了10個百分點”。因此,在遇到統計圖時,我們要仔細觀察圖中的數據,不能把注意力集中在圖形的直觀效果上,而應深究隱含的數據,通過數據的對比得出結論,才不會被看似“驚人”的變化圖所迷惑。
五、誤解的相關關系
存在于兩個事物之間的關聯關系并不能說明其中一個事物的變化將引起另一個事物的變化,也就是說,如果A出現了,緊接著B也出現了,那么就得出A導致了B的結論,這種推論毫無根據。比如,大學中抽煙者的學習成績普遍不如不抽煙者,你就能得出“抽煙導致低分”的結論嗎?會不會是相反的作用關系呢?也許不理想的成績促使學生變得愛抽煙,以此釋放壓力呢?雖然這兩種說法都不靠譜,更大的可能性是:吸煙和學習成績這兩個因素并不互為因果,而同為性格這個第三個因素的產物,也許性格影響成績,也影響抽煙。因此,在使用相關關系時,要注意分辨這個相關是否是事件變遷的產物或時代趨勢的產物,否則就是對相關關系的誤解。
六、不完全匹配的資料
搜集這樣的資料,卻把它說成是那樣一回事,這種掛羊頭賣狗肉的行為就是統計資料的不完全匹配。我們來看這么一組政府統計數據:“2010年全國鐵路交通死亡人數1589人,航空運輸方面死亡42人。”那是否就意味著坐飛機比乘火車更安全?答案是否定的,原因有三點,一是統計基數不同,2010年全國鐵路共發送旅客16.76億人次,全國民航旅客運輸量則為2,68億人次。二是統計口徑不同,鐵路交通事故熟慮絕大多數都是路外事故和生產事故,而不是行車事故,即真正因行車事故死亡的車內乘客只占一部分,而航空運輸只統計飛行事故,不包含地面事故和生產事故。三是因為直接比較各類交通工具的意外事故數量來判斷旅途安全情況是不正確的,應該詢問每100萬乘客里程的遇難人數,并比較這些人數才能確定哪種出行方式的風險最大。因此,在分析統計資料時,應留心從搜集原始資料到形成結論的整個過程中,是否存在著概念的偷換,也就是將看上去極像、而完全不同的兩件事混淆在一起,如上例中“交通事故死亡人數”的增多不能等同于“交通事故死亡率”的提高。
七、結語
人類社會發展帶來的所有問題,一定要靠社會進一步發展來解決。就像數據這么多造假和扭曲,怎么解決?辦法就是大數據,大數據的本質不是數據多,也不是數字大,而是維度豐富。在大數據時代,我們每一個人都可以輕松地獲得各種維度的數據。比如說這個城市的發電量、用電量,居民外出度假的總數,這個城市的汽車的增長,房價的漲幅,這個城市的社會商品的零售總額,這個城市的網購的數量等。當這么多數據匯集在一起的時候,真相將會越來越纖毫畢現。
參考文獻:
[1](美)達萊爾·哈夫.統計數字會撒謊[M].中國城市出版社,2009,3.
[2]小島寬之.你一定愛讀的極簡統計學[M].臺海出版社,2015,1.
[3]朱連慶.數據會說謊[J],現代家電,2016(16).
[4]吳磊,等.融合過抽樣和欠抽樣的不平衡數據重抽樣方法[J].計算機工程與應用,2013(21).
[5]不靠譜的統計數字如何欺騙了你?http://mt.sohu.com/20160912/n468228624.shtml.