劉靜
摘要:由于互聯網和信息技術的快速發展,數據已然成為新世紀的巨大經濟資產和礦產資源。為各個領域帶來了新的方向與變革,當今最受關注的學科不是經濟學,也不是醫學,而是能夠運用大數據進行相關分析的統計學。企業帶來統計學與大數據分析迎合了時代的發展,定將展現出光明的前景。
關鍵詞:統計學;大數據;利用;發展
中圖分類號:C829.2 文獻識別碼:A 文章編號:1001-828X(2018)025-0058-02
信息時代的來臨使得大數據技術在全球范圍內獲得了很大的發展,對于政府統計機關來說大數據使用了多種數據收集模式,對各種數據進行整合而且通過現代信息技術以及高速處理的挖掘數據,發揮了自己的應用價值與決策支持功能,一方面,統計調查主體的多元化發展和電子商務的發展給統計數據的發展帶來了很大的難題。會對政府統計管理體制以及統計理念產生影響,另一方面,因為計算機技術以及網絡信息技術的飛速發展,它在提高統計生產力方面發揮著重要作用。大數據是官方統計部門要研究的方向,在這種情況下,分析大數據在政府統計中的效果,了解政府統計改革和發展的機會對政府統計具有重要意義。雖然近代統計學獲得了很大的發展,但是大數據時期的來臨暴露了統計學方面的問題,在抽樣調查設計,數據管理以及統計分析等方面,數據分析都顛覆了傳統的統計方式。
一、古代統計學時代
眾所周知,關于統計學的分類有很多,但是最主要的包括三種類型的統計學方法。第一,可以處理不定期事件的統計方法,例如概率統計法;第二,可以處理定期事件的統計方法,例如比值編制、調查研究等方法;第三,能夠處理跨學科領域的相關聯的統計方法,例如應用技術統計方法等。
由于數據收集以及數據處理受到一定的約束,所以人們很難獲取較為全面的數據信息,這就使得古代的統計學方法基礎幾乎都是從一些可取的樣本上獲得的。
或者可以通過其他的一些途徑得到數據信息,但是如果從客觀條件考慮,可能需要付出很大的成本,所以人們會放棄獲取全部的具體數據。面對這種情形,人們常常會去經過長時間的篩選,選擇一個相對而言較好的統計方法,但這也僅僅是反映了總體當中的某一個小的方面的具體特點。然而,我們所觀察到的這些數據特征占總體大量數據特征的比例甚小,很多的其他數據特點有待發現。
總而言之,統計學是在抽樣理論的基礎上發展而來的,統計學分析方法較為強調具有因果關系的統計分析結果,能夠根據部分數據去推測整體。統計學是通過搜集數據、整理、分析數據等過程進而得出數據內在規律的一門學科。統計學最常用的方法就是樣本抽取方法,根據抽取的局部數據去推測整體,進而得出事物的總體發展走勢的綜合性學科。
二、現代統計學時代
喬治華盛頓大學的Jeremy S.Wu教授以其豐富的實踐經驗提到了現代治理統計2.0的概念。與統計2.0相比,胡善清教授說,現代統計是1.0時代。并且非隨機數據是沒有研究價值的。
1.利用所有的數據
在原始統計中,由于沒有很多用于記錄,存儲和分析的工具,因此僅對整體進行樣本分析。由于統計學的目標是通過最少數據證明發現,統計學家認為,采樣分析的準確性因為隨機性的增加而增加,但是,它與樣品數量的增加幾乎沒有關系。就像經濟學中邊際遞減效應一樣。
在大數據時代,沒有使用隨機分析的原理,并且使用了所有大數據。即“樣本=總體”。統計抽樣的目標主要是為了技術受限的過程中,可以更好的解決相關的問題而出現的,慢慢的又會將樣本分析拋棄。
2.接受不精確
對于小數據,統計數據可以更好地處理數據,但在大數據時代,大量數據使統計方法成為問題。隨著數據量的增加導致結果出現問題,對準確性的強調是信息時代和模擬時代的產物,但是接受不涉及的區域的不準確性,接受不準確是從“小數據”到“大數據”的重要轉變之一。由于數據量相對較大所帶來的準確性,可以接受不準確的問題,以獲得大規模數據的好處,混亂就是一種新的方法,所以不能夠避免。
3.追求相關關系而不是確定因果
在小數據期間,也存在相關性。在其中找到具體的定量規律,人們在實踐中學到變量之間存在兩種關系:函數關系和相關關系。相關以及回歸就是處理變量的方法。變量之間出現的不確定量之間的關系也稱為相關性。通常,可以通過散點圖和相關系數來分析相關性。
相關性的目標是量化數據之間的邏輯關系。知道是什么就行了。通過探索“什么”而不是“為什么”,這種關系可以讓我們更好地了解世界,如果凡事有因果,那么就沒有決定任何事情的自由。
4.數據的來源并非那么簡單
一般來說,為了獲得需要的數據就要通過不同的方式測量,才能獲得記錄。但是數據會在意想不到的地方獲得,雖然精心的對實驗以及研究進行的設計,但是真正操作的過程中不如想象的簡單。
因為在大數據時期數據沒有規律性,所以要分析數據的其他問題,這些數據以及資料是否要自己去獲得?或者參考其他人的結果,這將節省能源和時間,如果您只是參考您需要的數據來了解及時性和使用范圍,它可能不是為了想象而準備的。大數據的目標就是為了獲得擁有的獨特價值。
三、大數據分析
1.大數據的概念
大數據的概念較為抽象,單從表面的意思來看,大數據的大指的是數據所占的空間較大或者數據量的規模較為龐大,如,單從百度搜索引擎來看,每日產生的數據有幾十PB,但事實上這是個誤區,大數據并不單單是指數據所占的存儲空間大。一般意義上認為大數據是指那些需要經過處理才能發現其內在聯系性或規律性、能夠為決策提供依據的海量信息數據。權威雜志《Science》將大數據定義為那些無法在有限時間內用當前的技術去獲取的數據。此外,大多數人認為大數據的“大”包含了其數據規模的“大”,同時也包含了數據在采集、存儲、挖掘、傳遞等方面的“大”,更包括應用方面、用途方面“大”。
大數據的大是數據本身、數據技術及數據應用三者的有機統一。大數據的發展是各方面共同作用的結果。
2.大數據的對象
目前來看,大數據是一個較為寬泛的概念,它主要包羅了各種各樣的數據類型,包括文件、數據庫等等,這種數據基本上來源于計算機系統所產生的數據;其次是人們在使用互聯網進行交流及溝通時所產生的大量數據,這些內容包含了文本、圖片、音頻、視頻等等。此外,還有一些大數據來自于一些技術設備,如衛星所采集的一些數據等。
3.大數據應用
大數據應用方面主要是指對獲取的數據進行分析,從而尋找數據中的聯系或規律,運用這些結果來對未來的一些趨勢進行合理預測及分析,這樣能夠增強行業或領域競爭力。此外,通過對大數據進行詳細分析能夠實現透過現象看本質的目的,以為決策提供依據。
四、大數據的利用方式
在統計學中,大數據的使用不僅僅是使用平均值,方差和分位數。如果可以,您需要了解數據的關系或聯系方式。不僅要對父母的身高進行分析,還要對孩子的身高進行分析,通過其中的關系得到結論。
有些數據可能不容易使用,因此數據利用的方法因情況而異。使用已經從基本使用緩慢轉變為二次使用,因為時間的變化使數據變得有價值。了解冰山下面的數據價值企業就能獲得潛在價值并且獲得很大的利益。即便如此,數據的重要性仍遠不止這些。
由于生成大數據,總和比部分更有價值。如果要使用有價值的數據,就要更新數據庫并且對無用的數據進行淘汰,雖然數據用途的價值會降低,但是潛在的價值也會上升。潛在的數據價值要通過創新來獲得,而且為價值貼上標簽就能帶來很多的機會。
五、結語
統計是以數據為基礎的。傳統的數據采集方法主要包括實驗數據、調查數據和各種方法收集的二手數據。在長期實踐中,傳統采集方法獲取的數據大多是錯誤的,樣本的客觀性難以保證,樣本選擇也會影響結果。因此,傳統的數據采集方法已不能適應統計發展的需要。從這個意義上說,大數據的出現可以說是科學發展的必然。大數據的出現使得統計數據收集最關鍵的環節跨越了統計:大數據意味著所有的統計數據都可以應用到統計過程中,統計數據不再受到限制,結合適當的統計方法和數據處理方法,結果將更具代表性和說服力。個人提到統計學與數據挖掘可以更好的對數據進行利用,一個人能夠對數據進行有效的利用,也通過各種各樣的算法對數據進行處理,大數據時期主要是數據本身以及數據的思維觀念,如果能夠做到數據,技能以及思維的結合,那么就能夠對大數據時代產生作用,它也可以在大數據時代發揮很大的優勢。