董曉靜
核心提示:不要將相關性當作因果關系去指導決策,這一區別的重要性在大數據時代顯得更為突出。
大數據時代,很多商學院都會講到這個經典案例:沃爾瑪發現啤酒和尿布的銷售量是相關的,但究竟是因為啤酒銷量增高導致尿布銷量增高,還是反過來?沃爾瑪不需要做太深入的研究,有了相關性的分析結果,就足以把啤酒和尿布放在一起賣,從而提高銷量。
這個成果非常有意思,但沒有理論根據。換句話講,相關性可以不需要理論支持,只需要用統計學的方法描述數據。這樣的結果,在很多時候非常有用,但如果把相關性當成因果關系來指導決策,可能就會有害。
不妨再看看下面幾個例子。
在日常生活中,我們經常聽到有的媽媽說,“我一定要把孩子送到那個補習班,那個補習班的孩子很多都考上好大學了。”這句話背后隱含著一個觀察分析結果:去這個補習班的孩子,比不去的考上好大學的多得多。
這個結論就源自簡單的相關性分析,但這位家長可能犯下一個錯誤:把相關性分析當作因果關系,進而據此決策。其實,上這個補習班只是那些孩子考上好大學的其中一個原因(相關數據),兩者之間是否構成因果關系,需要更復雜的分析,僅一個相關系數遠遠不夠。
再舉一個例子。去年在美國的很多新聞媒體報道過一篇論文,論文作者分析了14萬篇學術論文后,通過相關性分析發現題目比較短的論文更容易被引用。作者認為他們用了大數據,對此,我提出兩點。
第一,大數據在這里是幫助他們找出結論,還是“害”了他們呢?在統計學中,衡量統計結果是不是比較確定,需要計算這個統計結果的方差。方差的大小跟數據量大小有關,當所有其他條件一樣時,數據量越大,方差值越小,統計結果的確定性越大,包括錯誤的結果。也就是說,作者利用大數據得到了比較確定的相關系數的結果,但可能還有很多變量之間的相關系數比較高。除了標題長短,是不是文章長短、圖表應用等因素都相關呢?
第二,這個結果完全靠相關系數得到,同前面補習班的例子一樣,不能當作因果關系來指導決策。如果一篇文章的標題短被引用得多,另一篇文章標題長被引用得少,沒有任何意義,兩篇文章本就不同。
大數據時代,數據之間的相關性分析,有時就足以給人帶來驚喜的結果,但決策者一定要既知其一又知其二。相關性不等于因果關系,因果關系需要嚴格的分析和推理。
統計學的方法,是用來幫助指導商業決策的一個非常有用的工具,如何正確地使用這個工具,還需要具有對商業行為和決策的深入理解。
很多商家經常用優惠券來吸引客戶,但不是隨便發給每個人。如果大量的優惠券給到的就是常去店里買東西的客戶,沒有優惠券,他們依然常來,因為優惠券,反而可能使商家的盈利降低了。這就是將相關性當成因果關系,進而做出錯誤決策的常見案例。
所以,企業家切記:不要將相關性當作因果關系去指導決策,這一區別的重要性在大數據時代顯得更為突出。(支點雜志2016年4月刊)