馬靜汝 年勇
摘 要:2010年,全球數據跨入了ZB時代,全球的數據量也越來越多,海量的數據對我們的生活、工作,甚至社會發展、國家經濟都產生了實時的影響,大數據時代已然悄悄來臨.因為數據關系的內在的本質,它決定了統計學和大數據之間有著密不可分的關系,大數據對統計學產生了挑戰又提供了機遇.本論文范文過介紹現代統計學體系,根據統計方法將統計學分為推斷統計學和描述統計學,本文首先分析了大數據對描述統計學帶來的挑戰,體現在:給搜集數據方法帶來的挑戰、給數據存儲方法帶來的挑戰.再者總結了給推斷統計學帶來的挑戰.大數據給統計學帶來機遇表現在:統計學作用范圍的擴大和統計學家地位的提升.
關鍵詞:大數據給統計學帶來的挑戰;大數據給統計學帶來的機遇;大數據時代
當我們對“物聯網”、“云計算”等概念的感覺還依然不知所云的時候,“大數據”的發展就已經一發不可收拾了.大數據這個概念的提出可以追溯到上個世紀80年代.我們被包裹在數據的海洋里,生活中幾乎任何事物都與數據有關,醫療、金融、體育,我們每一日都在與數據打交道,發微信、到超市購物、打電話、發微博、上班刷卡、買車票、在論文范文上聊天等等大量的數據無時無刻不在對我們的工作、生活乃至社會發展產生重要的影響.
當數據變成和人力資源、自然資源同樣重要的戰略資源的時候,便引起了企業界與科技界的廣泛的關注.全球數據總量在以每兩年翻一番的速度增長.在移動互聯網、社交網絡、寬帶化、云計算、物聯網的催生下,大數據時代已然來到。
一、統計學的分科
社會科學和自然科學的眾多領域都會應用到統計方法,統計學也逐漸發展成為有了各項分支的統計學體系.構成統計方法的兩個分支,主要可以分為推斷統計學和描述統計學.
描述統計學(DescriptiveStatistics)指的是研究怎樣獲取那些反映客觀現象的數據,并且用圖表的形式進行處理加工和展示所收集的數據,最后通過分析和綜合概括得出顯示客觀現象的規律性數量特征.它的內容包括統計數據的收集方法、加工處理方法、顯示方法、分布特征的分析和概括方法等.
推斷統計學(InferentialStatistics)指的是研究怎樣依據樣本數據對總體數量特征進行推斷的方法,它是在描述樣本數據的前提下,以概率形式表述統計對總體的未知數量特征進行的推斷.
推斷統計學和描述統計學二者相輔相成,密不可分,描述統計學是推斷統計學的前提和基礎,推斷統計學也是描述統計的進步和升華.下文將從描述統計學和推斷統計學這兩個分支出發,討論大數據對統計方法帶來的挑戰和機遇.
二、大數據對描述統計學帶來的挑戰
1..對數據搜集方法的挑戰
搜集數據可通過統計報表、普查、抽樣調查、重點調查、典型調查等眾多途徑來獲得資料.搜集數據時要著重注意已獲得資料的可靠性和真實性.在完善數據的各個階段都會有誤差存在,統計數據的誤差主要分為代表性誤差和登記性誤差.
登記性誤差指的是調查過程中因為調查或被調查者的各種人為因素所導致的誤差.而在大數據時代下,數據的存儲就跟擺在貨架上的貨物相似,人們能夠直接篩選出自己所需的數據,搜集這些數據單單靠測量方法就能完成,并不需要調查對象的配合.當技術完善,在海量的數據傳輸中,人為想要篡改數據是非常困難的,所以登記性誤差會大大降低.
代表性誤差主要是指用樣本數據進行統計推斷的過程中出現的隨機誤差.這類誤差在傳統的搜集方法中一般是不能消除的.但在大數據背景下,一方面,數據搜集下的統計調查通??梢哉J定為普查,而普查的情況下,代表性誤差是可以消除的.另一方面,統計數據反映的是大方向的情況,無法細致到每個個體的情況,很難取得更有用的信息.但因為數據時代的發展和進步,統計數據不光可以反映總體方向的情況,更能細致到每個個體的情況.是技術進步所帶來數據價值的變化.
2..對數據存儲方法的沖擊
從以前的數據存儲方法來看,數據庫是對高度結構化數據來進行存儲的,一般使用電子表格的形式,這樣方便對相對簡單的問題進行處理和分析,比較適用于數據處理量小的用戶.但是在這個數據飛速增長的時代,數據量的大量增加,從機器處理生成的數據到電子表格,涉及網頁博客,PDF,視頻,圖片等等.這些所有的數據都是特定領域的數據類型,結構相對比較復雜.
三、大數據對推斷統計學帶來的挑戰
統計學的依據是樣本統計(普查除外),樣本從總體中抽取一定的數量作為總體代表的集合.在一定規模的樣本數量下,越小的樣本數量,其估計的誤差就會越大,這是樣本統計無法避免的弊端.如果要解決這個弊端就得把樣本量擴大,但擴大樣本量的話,時間、資金等成本就會增加,所以單純擴大樣本量在現實中是行不通的.
大數據時代產生了海量的即時的電子化數據,數據呈現“總體即樣本”的特點,這一特點剛好能夠解決上面由于樣本數量小誤差大的弊端.大數據的全樣本統計雖然能夠包含全部的總體,但必須對數據的可靠性、真實性有所保證.
四、大數據給統計學帶來的機遇
1..擴大了統計應用范圍
隨著處理數據軟件和網絡的飛速發展,很多以前無法量化的現象和事物在如今這個時代可以轉化成能夠讓人分析的數據了,這種現象意味著這些以前不能用統計學來處理的事情現在可以運用統計學的方法來分析了.在大數據時代,大量數據從一些特殊的領域提取出來,例如可以從企業經理的說說心情看出企業運營狀況的信息,可以從百度搜索排行榜推測出最近熱搜的商品和時事等.只要能夠獲取數據,就可以運用統計學方法來進行研究和分析,所以隨著大數據的發展,統計學在各個領域的作用越來越強。例如近幾年來我國各個地區頻發霧霾天氣,掀起了社會波瀾和造成了巨大的經濟損失.但是如果能制作開發出一個比較準確的空氣預測系統,在霧霾天氣發生時候能及時對此發生原因進行解釋并做好預防措施,避免民眾恐慌.雖然目前這只是一個想法,但或許在不遠的將來我們就實現這種方法.
2..增加了統計學畢業生的就業機會
據一家國際咨詢公司,蓋特納咨詢公司預測大數據將為全球帶來440萬個IT新崗位和上千萬個非IT崗位.麥肯錫公司預測美國到2018年需要深度數據分析人才44萬—49萬,缺口14萬—19萬人;需要既熟悉本單位需求又了解大數據技術與應用的管理者150萬,這方面的人才缺口更大.這些數據足以說明,大數據時代下,對統計學的人才供不應求,隨著大數據的發展,各行各業各個領域對統計學畢業生的人才需求將會不斷增加,更多的增加了統計學畢業生的就業機會.
3..可以提升統計學家地位
在大數據時代,數據分析家和統計學家通過合理利用數據可以在一定程度上起到行業專家的作用,他們在各個領域都會起到至關重要的作用,為各個領域提供有利的信息和建議.因為數據分析家和統計學家們能夠從大數據中提取大量的信息并將其轉化為實際價值,所以數據分析師和統計學家的作用將會逐漸受到社會廣泛的重視,他們的地位自然也會得到大幅提升.
五、結束語
綜上所述,大數據時代已然悄悄來臨.因為數據關系的內在的本質,它決定了統計學和大數據之間有著密不可分的關系,大數據對統計學產生了挑戰又提供了機遇.以上,就是本文對大數據對統計學的挑戰和機遇進行的研究和分析,希望能夠對統計學的發展起到積極的作用。