摘 要:在大數據的發展背景下,統計學的發展面臨著巨大的挑戰,但同時大數據的發展也為統計學發展帶來了很大的機遇,因此在統計學發展過程中,應當及時改變傳統的統計學的統計方式,結合現如今的大數據進行適當的改革,確保統計學工作能夠與時俱進,使統計學在最大程度上實現自身的價值。本文就針對大數據背景下統計學發展過程中存在的問題和解決措施進行簡要的分析探討。
關鍵詞:大數據 統計學 發展 問題 解決對策
在現如今這個信息高速發展的時代中,大數據互聯網以及云計算都已經成為了社會發展的基本特點。也正是由于計算機和互聯網的不斷發展,使得人們獲得的信息量達到了前所未有的程度,各種各樣的信息被保存下來并廣泛傳播,這也就迎來了現如今的大數據時代。由于大數據具有規模性、多樣性以及高速性的特點,這也就使得統計學的發展出現了一定的問題。筆者根據統計學而的特點總結出了統計學的發展在大數據環境中存在的幾點問題。
一、大數據時代下統計學發展存在的若干問題
大數據時代下,為統計學的發展帶來了新的機遇,但同時也有一定的挑戰,而最直接的挑戰就是有部分的傳統的統計學方法在大數據的環境下失效了。因此,統計學的發展也成為了統計學的學者最關心的問題。但是由于這個問題較為廣泛,因此很難得出準確的答案,但根據統計學與大數據時代的特點,總結出了以下幾點在大數據背景下統計學發展過程中存在的問題。
(一)在大數據背景下如何發展經典統計方法
統計在發展過程中,經過長時間的應用與探討,有許多經典的傳統統計方法,不論是理論還是實踐,都有良好的反應,然而在大數據背景下,如果直接使用傳統統計方法進行工作,可能會產生一些問題。但是如果直接拋棄傳統的統計學方法,更是不可取的,傳統的統計方法是經過統計學者長時間的時間推理最終得到的結果,如果直接拋棄,這將是統計學發展過程中的一種損失。因此,對于如何將傳統統計方式與高速運算方法以及相應的軟硬件進行創新改進,并將統計學合理的運用在大數據當中,這就成為了一個值得深思的問題[1]。
(二)對多種來源的大數據信息進行整合分析
在大數據時代,獲取信息的渠道多種多樣。通常情況下,同一對象或者同一問題經常會有多種不同來源的數據存在,比如說,分析城市居民的出行模式,就針對這一現象,系那個管人員就可以通過GPS定位、社交網絡、公交刷卡等多種不同來源的數據,獲得居民的位置信息,從而對居民的出行模式進行準確的分析。由于大數據所具有的特性,使得搜集數據更為便利,并且通過對獲得的信息進行有效的整合能夠獲得更豐富的信息,同時不同來源的數據信息之間也可以相互進行印證,在一定程度上保證了信息的真實性以及準確性。但是由于不同來源的信息數據通常也都具有不同的數據特征和結構,而在統計學的發展過程中,對于這種多種來源且結構不同的數據進行整合分析以及建模也是一個重要的發展方向。
(三)從統計學的角度分析大數據的邊際效應
在大數據時代背景下,由于信息系統的開放,人們可以隨時隨地的利用信息系統搜集各種需要的信息數據,再是在實際的搜集數據過程中,并不是數據的數量越多就越好。并且大數據的信息價值存在著邊際遞減效應,簡單來說,就是當數據量增加到一定程度,信息系統提供的信息幾乎不再增加,但是處理信息以及收集信息的成本依然在不斷增加,并且搜集過程中含有的數據噪音也會對信息的提取產生一定的影響。因此,在大數據時代背景下,不能僅僅考慮數據量的增多,同時也應該考慮到信息數據的手機成本以及信息數據的效用之間相互平衡,選擇最合適的數據信息數量,因此,對于大數據在建模過程中的邊際效應,也應當從統計學的角度進行考慮。
二、大數據時代下統計學發展下存在問題的解決對策
在大數據的時代背景下,各類信息技術不斷發展,使得以往很難手機的數據信息能夠進行大規模的收集,而云計算則能夠使大規模數據處理的目標得以實現。由于傳統的統計方式已經無法適應當下的時代背景,因此,就需要結合大數據的特征對統計學進行創新改進,從而更好的促進統計學發展。
(一)對總體、個體以及樣本制定明確的定義
在傳統的統計分析中,通常情況下,想要完成統計工作,首先就需要從統計對象的整體中進行抽樣,在對抽樣的樣本性質進行分析,從而確定總體的特點,由于需要從總體中抽取樣本獲得數據,就需要對整體的范圍進行明確,然后再利用樣本分析進行整體的分析。然而在大數據的環境下,則是恰恰相反的,首先需要有數據,然后再有總體,在這其中,并不需要有定義目標,只需要某一個時間點中的所有數據的對應概念,也正是由于個體數據具有不確定性,而數據本身又是一個動態的進程,當前時間段一下一個時間段的數據之間存在一定的差異性,因而也無法對數據在事后進行個體識別。在互聯網中,相同的個體可以有很多歌稱謂以及符號,而且相同的符號和稱謂又能夠代表多個不同的個體,所以在大數據中,通常情況下,對整體數據進行研究很容易,但對于數據的個體進行研究相對來說比較有難度。但是對于大數據分析來說,針對個體進行研究依然是重要的分析環節,在傳統的統計學中,樣本定義的方式無法在大數據中提取樣本的數據,而這就需要我們針對傳統意義上的總體以及個體的定義進行改變[2]。
(二)積極構建基于大數據框架的統計學體系
在大數據的時代背景下,我們要正確看待統計學的發展,統計學想要在大數據背景下取得有效的發展,就需要積極構建起基于大數據框架上的統計學體系,而統計學也必須將大數據的整體統計方法以及思想引進到統計學體系當中,與統計學相關的內容也應當從傳統的樣本統計過渡到樣本統計與總體統計相結合的模式中。傳統的統計模式中的樣本統計法主要是利用樣本的數據來對整體進行推斷,然而由于樣本的生成具有隨機性,因此利用樣本的數據對整體進行推斷容易產生較大的誤差;而基于大數據下的整體統計方法就能夠很好地避免這種問題,通過不斷的引入大數據,統計學大致能夠劃分為總體統計與樣本統計,將樣本統計與總體統計有效的進行結合,能夠使統計學的發展更好的適應大數據的時代需求[3]。
(三)研究新的分類與梳理方法
在傳統的統計學中,主要是依靠預先設計好的方案對數據進行分類與梳理工作,并且通常情況下,參考的相關指標以及最終獲得的分類都屬于結構化的,由于在數據預處理的過程中,對數據進行分類和梳理是必不可少的工作環節,是統計分析過程中的重要部分。然而在大數據中,由于數據的來源以及數據的表現方式都是多種多樣的,因此,如果依然采用傳統的統計學的方式進行研究,針對信息的類型以及分類依據標識和標識之間的關系以及類與類之間的區別度等進行分析研究,這顯然會為統計工作增添更多的麻煩,針對大數據進行數據分析時只能在對數據進行預處理之后,依照數據的特征進行補充完善。總的來說,傳統的數據分類和梳理已經不能適應大數據的要求,因此,應當積極研發新型的數據分類和梳理方法,并基于此方法,研究新的數據分析方法。
(四)將多種統計學方法進行合理的整合
在傳統的統計分析過程中,最主要的分析研究方法就是歸納推斷法,主要是通過對樣本數據的主要特征進行分析,然后依據樣本數據的分析對整體進行分析推斷。然而由于歸納推斷法依然需要利用樣本的特征對整體的特征進行分析推斷,依然需要從個體信息中發現新的信息,然而針對大數據信息,如果僅僅是注重對個體的分析歸納,對于大數據信息而言,是一種嚴重的浪費。數據信息中的部分類別甚至是個體,又或者是部分異常值,都能夠由此推斷出一些全新的結論。因此,還要對個體的信息實施進行更深入的探討研究,并且要分局現有的經驗以及相關的知識對其他更為具體的規律進行推理分析,也就是演繹推理法。在數據分析推理過程中,采用演繹推理法能夠更好的幫助我們基于現有的知識以及姜堰對數據進行更為深入的挖掘,避免對一些細小但是卻又很關鍵的點的忽略現象的發生。將演繹推理法與歸納推斷法進行有效結合,能夠在大數據中獲得更多的數據信息[4]。
因此,在大數據時代背景下,統計學想要進行良好的發展,就需要不斷地改進自身現存的問題,從大數據中吸取更多的對自身發展有益的方面,將自身的統計方式加以合理的改進,創新傳統的統計方式,適應大數據背景下的時代發展需求,從而促進自身更好的在大數據背景下獲得更好的發展。
三、結語
總的來說,在大數據的時代背景下,統計學的發展面臨著嚴峻的挑戰,同時大數據也為統計學的發展提供了良好的機遇,并且,要正確的認識大數據對統計學的意義,大數據的出現對統計學是一種補充而并非是替代,并且傳統的統計學雖然在現代社會發展過程中存在著一些不足,但在經濟分析以及社會統計方面依然有著至關重要的作用。因此,要正確認識到在大數據發展背景下,統計學發展過程中存在的問題,并且要及時的制定出相對應的措施加以改進,去報統計學能夠獲得良好的發展。
參考文獻
[1] 大數據中的統計方法"課題組, 馬雙鴿. 大數據時代統計學發展的若干問題[J]. 統計研究, 2017, 34(1):5-11.
[2] 陳建寶, 鞠芳煜, 禚鑄瑤. 大數據時代下的統計學——第五屆中國統計學年會綜述[J]. 統計研究, 2015, 32(5):106-112.
[3] 吳愛峰. 大數據時代統計學面臨的機遇與挑戰[J]. 農村經濟與科技, 2016, 27(22):223-223.
[4] 符一平. 淺談統計學在大數據時代面臨的機遇、挑戰及其發展趨勢[J]. 中國管理信息化, 2016, 19(14):245-246.
作者簡介:尹春月(1993.05--),女 , ?漢族,山東省沂水縣人,本科,研究方向: 風險管理與精算。