張文譯
說起統計學,沒接觸過統計學的人總會覺得“高大上”,認為那是和他們沒有關系的一個科目。實際上,統計學與每一個人,與我們的日常生活息息相關。我們關心的日常生活,其中很多就包含了統計知識。例如,在投資股票時,需要了解股票市場價格的信息;在外出旅游時,需要關心一段時間內的詳細天氣預報;在觀察NBA籃球賽時,了解各支隊伍的技術統計;甚至,打麻將如何能取勝,其中都蘊含了統計學的知識。因此,理解并掌握一些統計學的知識對普通大眾是很有必要的。
在日常生活中,我們會聽到許多的數據以及與之對應的結論。例如,吸煙是有害健康的;身材高的父親,他的子女身材也會較高;人每天至少要喝六杯水等等。這些結論是正確的嗎?我們可以相信這些結論嗎?這些結論是如何從數據中提煉歸納而來的?想要正確理解這些數據,這就需要我們具備一些統計學的知識。
要了解統計學,首先要知道什么是統計學。綜合的說,統計學是收集、處理、分析、解釋數據并從數據中得出結論的科學。統計學是關于數據的一套科學方法,研究的是來自各領域的數據。因此,統計學的應用領域很廣,只要有數據處理的地方,就有統計學。例如,市場研究、財務分析、人力資源管理、氣象學、軍事科學等等,都與統計學息息相關。
統計學提供的是研究數據的方法,而作為統計學研究的根本——數據,一定要真實、準確且具有代表性,不然后果不堪設想。舉一個著名的事例,《文學文摘》預測羅斯福競選失敗。在美國1936年的總統選舉中,有兩位競爭者,他們分別是來自民主黨的羅斯福和來自共和黨的蘭登。一般民意測驗認為羅斯福將獲勝,但是美國著名雜志《文學文摘》(Literary Digest)宣布,根據他們對240萬人的調查,蘭登將獲得57%的選票。但最后的投票結果卻讓這本著名的雜志“啪啪打臉”,羅斯福贏得2770萬張選票,以絕對的優勢勝出。讓人陷入深思的是,為什么《文學文摘》的樣本量如此之大,結果卻是錯誤的。
他們預測失敗的根本原因在于調查方案存在嚴重失誤,違背了統計學規律。他們使用電話訪談式調查,但當時能擁有電話的基本都是富人,而富人圈基本都是支持蘭登。這說明,當我們數據出現差錯時,通過統計學的分析結果也會和事實大相徑庭。因此,我們在收集數據的時候,要保證數據的來源準確,數據真實可靠,那么之后所做的分析工作才是有意義的。
現在進入了大數據時代,似乎一切都可以轉化為數據,而圍繞在我們身邊的也是無數“隱形”的數據。數據量足夠大了之后,我們會發現所有的社會現象到最后都有統計規律,它并不像物理學那樣可以準確的說出因果關系,但它從本質上來說就是一個統計的規律。因此,大數據時代給統計學帶來新的生命力,也給統計學者帶來了更多學習和挑戰的空間,同時也讓民眾更多的關注到統計學這個新興學科。