由真實數據制造的假象

2009-01-01 00:00:00

財經文摘 2009年6期

生活的經歷告訴我們做事情一定要“心中有數”，但心中有數首先要眼里有數，所以我們習慣于“實證方法”，通過調查得出統計數據，再做成表格、數字，生產車間里有箭頭圖，研究報告里有餅圖、柱狀圖、折線圖、曲線圖、模擬曲線、回歸曲線，好了，這下，我們踏實了。

可是，由于商業利益的存在，統計數據也會表現出傾向性，或者預先設定了傾向性。所以，讓我們感到踏實的數字未必反映真實狀況，我們依賴的“實證方法”未必就“實”，其過程可能是把一種傾向研究成“事實”或證明成“事實”，與其說是“實證”，還不如說是“證實”。

美國著名統計學家達萊爾#8226;哈夫的名著《統計數字會撒謊》或許能讓我們對于統計中的陷阱有入木三分的認識。自1954年出版至今，這本書多次重印，歷久彌新。達萊爾舉出許多活生生的案例，向我們一一解讀了統計中的陷阱，讀起來很有味道。

達萊爾提出，當你面對統計數據時，先要問自己5個問題：誰說的？他是如何知道的？遺漏了什么？是否有人偷換了概念？這個資料有意義嗎？

筆者很注意電視、報紙上賣藥的廣告，“中國有百分之××”的人“缺鈣”、“前列腺”、“性機能”這個“百分之××”是多少呢？一般是70%、80%、90%。很奇怪，過去憑票過日子的時候，中國人啥成分不缺，現在怎么什么都缺？如果把廣告所警告的疾病、營養不良的百分比都攏一下，這個結果夠嚇人的。問題的根本在于，這個危言聳聽的統計是誰做的？當然是廠商做的，那么出現如此荒誕不經的統計也就不足為怪了。

統計的陷阱在哪里呢？首先是統計本身的不真實性，比如統計樣本的選擇偏差，或是樣本空間過小，導致代表性差。統計樣本的選擇偏差是比較常見的，由于受調查者的主觀意向或者客觀失誤的影響，統計樣本的選擇偏差直接影響到統計的結果。

如果抽取開發商作為樣本調查房價是不是高？抽取醫藥人員作為樣本調研醫療費高不高？說得再搞笑一些，抽取交通違章者作為樣本去調查交通警察的形象。那么，看似科學的統計會得出相當滑稽的結果。

統計的另一個陷阱在于統計之后的分析過程，在分析中，統計者是否遺漏了什么？或者忽視了統計所依賴的條件？哈夫在書中舉了個例子：“某年公布的數據顯示，該年4月的零售額高于去年同期，于是證明經濟開始進入復蘇階段，但遺漏的內容是前一年的復活節在3月，而該年的復活節在4月，所以復活節帶來的消費高峰在4月。”暫時的消費高峰顯然不能代表經濟的轉向。

我們經?？吹竭@樣的分析報告，某產品價格為1000元，目前消費群體是10萬，年收入1億元，如果全國有百分之一的人消費該產品，就會有1300萬消費群體，年收入將高達130億元，帶來××億元的稅后利潤。

類似的分析過程我們并不陌生，但統計者忽略了一個事實，那就是從10萬消費群體增加到1300萬的前提是價格的大幅降低，而價格大幅降低之后，收入就不會那么多了，利潤更會有很大的變化。試想，如果現在的手機還是當年大哥大的價格，能做到如此普及嗎？

以突發事件代替常態，以小樣本推廣到大樣本，如果忽視了一些重要的因素，分析過程就會產生缺陷。即使是正確的統計數字也未必能得到正確的結論。

桑普拉斯說，統計分析讓一切假象原形畢露。但遺憾的是，統計未必能夠揭示真實，有時候還可能制造假象。當我們面對生活中形形色色的統計數據的時候，千萬要多保持一些理智和清醒。

中銀國際證券金融分析師張曉輝

財經文摘2009年6期

財經文摘的其它文章: 《逃莊》等; 人民幣：勇敢地走出去; 中國在潔凈煤技術上超過了美國; 碳排放帝國; 綠色癔癥阻礙經濟增長; 反煤之戰