摘要:大數據給互聯網帶來的是前所未有的信息大爆炸,不僅改變了從前互聯網的數據應用模式,還影響了人們的生活方式。處于大數據時代的人們認識到了大數據已經將數據分析從向后分析轉變成向前分析,從而改變了人們的思維方式,但同時也提出了一些挑戰,在解決問題的同時也意味著大數據開始向縱深方向發展。
關鍵詞:大數據;統計學;統計思維;數據應用模式;數據分析 文獻標識碼:A
中圖分類號:C829 文章編號:1009-2374(2015)09-0048-02 DOI:10.13535/j.cnki.11-4406/n.2015.0779
1 對大數據的初步認識
首先我們需要知道什么是大數據,它在不同的科學領域、不同的行業都有不同的解釋。相對于傳統意義上的數據,大數據這里的含義有新的解釋,不只是字面本身的意思,更為重要的是數據的內涵,可能“大”與“數據”的含義本就不能分開理解,只有把“大數據”這三個字放在一起才能更有意義。從統計學的角度出發我們應該怎樣來理解大數據呢?它是在現代信息技術、工具的基礎上運用可自動記錄、儲存能力的所有類型的數據。簡單地說,大數據就是所有的可記錄信息的集合。可以這樣來理解,把以前的統計研究數據比做是根據一定條件收集在一起的結構化的樣本,那大數據就是所有可以記錄、存儲、超大容量的各種各樣類型的數據總集合。從統計學的角度出發,傳統的樣本數據與現今的大數據的區別在哪呢?區別就在于傳統的樣本數據是按特定的條件所產生的格式化數據,樣本的數量是有限的,而且如果說統計設計過程偏離了方案,數據就失去意義。一般都不可能同時滿足各方面統計需求,如果出現了其事先未考慮到的情況,數據的不能擴展性就會導致數據的失效,那統計方案也就失效了。而大數據是所有可能通過現代信息科技手段可獲得的數據,其數據量巨大,并且不會受到一些條件的限制。因此,大數據最大的優勢就是非常寬的數據選擇性,可進行多維度、多角度的數據分析方案。更為重要的是因為大數據的樣本選擇面寬,樣本如果不夠說明情況還可以從大數據中選擇擴大;樣本中不能夠發現的某些細小信息,在大數據也可以獲得。
2 統計思維的新變化
在大數據時代要想做好統計工作,需要改變統計思維,否則,統計工作很難發展,至少會被邊緣化。統計思維的變化應該從對數據的掌握與分析開始,下一步是揭示事物的本質與相互聯系,直至揭示事物的發展規律。也可以說統計工作的目的就是要還原事物的本來面目,從而達到還原真相的效果。
2.1 認識數據的思維要變化
與傳統樣本數據相比,大數據不僅數量多和選擇多,而且其來源和數據類型都發生了根本性的變化,數據既雜亂又多樣。首先,從根源來講,傳統的樣本數據的收集對象較特定,所以數據的特征都非常明顯并可以識別,還可以進行事后的核對檢驗。但大數據則不同,它們來源于網絡,其數據并不是為了特定事物收集而產生的,而是一切可記錄的數據,所以說大數據的來源是沒有針對性的。其次,從類型來看,傳統樣本數據一般都是結構型數據,有一定格式標準,可以運用常規統計指標或者統計圖表來表示。而大數據大多是非結構型且無任何針對性的數據,既包括可記錄的和可存儲的信號,又沒有標準、多樣化,過去的統計指標或圖表來表現比較困難。最后,從運用方式上看,傳統樣本數據的處理有一整套方法可行,其結果可以直接使用。但是大數據中的數據怎樣與結構化數據對接則是一個嶄新的問題。
2.2 收集數據的思維要變化
以往收集統計數據的方法是先確定統計研究目的,再根據統計目的收集數據,因此設計調查方案及設計統計流程就顯得十分必要,有時投入的人力物力較大而產出數據十分有限。現在則不同了,在大數據時代,有大量的可選擇數據,需要做的環節就是加以比較與篩選,我們需要考慮的應該是怎樣利用大數據的優勢,在大數據源中找到我們需要東西。當然,也不是所有數據都可以從互聯網中找到,中間存在一個再加工或成本比較的問題。所以,有時運用大數據的同時也需要采用一些傳統的統計方法來收集特殊的數據,再利用互聯網信息技術的強大功能去收集一些相關的數據進行過濾、選擇。
2.3 對數據的分析思維要有新變化
針對上述兩方面內容發生的變化,對統計數據分析的思維必然要做出調整,這就需要我們盡可能地利用信息技術或先進的技術方法從大數據中找出對我們有價值的信息,并在這個過程中豐富統計科學的方法。主要體現在以下三點:
首先,過去的統計分析方法是先定性,再定量,最后定性。它的意義是為了找準統計方向和目標,運用的是以往經驗的判斷,這些在以前統計數據分析手段方法較落后的情況下是很重要的。而在信息時代,我們只需要在大數據中找出相應的資料,直接依靠數據分析方法做出統計判斷,這種方法在存儲能力無限增大、統計分析方法和實現速度大大改善的現在,已經變得可以實現了,因此我們更需要做的就是直接從中找出真正需要的數據,就可得出我們所需要的內容,因此統計分析的整個流程可直接簡化為先定量、后定性。
其次,過去的統計樣本實證分析,都需要先依據統計目的提出設定,再通過數據收集與分析來證明是否成立,但是這種驗證過程往往受到局限,特別是一旦假設不科學、不符合實際情況,那么分析的結論就沒有意義甚至歪曲事實。許多例子分析目的就是為了湊合假設。反之,在大數據時代,可以先不考慮任何條件和限制去尋找關系和發現規律之后再加以總結并做出結論。統計分析的思路則是發現、總結。這樣一來,就豐富了統計分析的資源和空間,有利于發現其他更有益的數據。
最后,統計推斷分析理論,是基于分布理論原理,以數學中的概率做基礎,再根據樣本的特征推斷出總體特征。其邏輯關系為先分布理論,然后是概率考證。標準雖然與樣本無關,但是推斷的是否正確卻是決定于樣本的質量。在大數據條件下,總體特征就不再需要根據分布理論來進行推斷了,如果需要的話進行計數即可根據所有數據以及實際分布的情況來推斷其中某些可能,那么其邏輯就變成了實際分布情況、總體特征和概率推斷。
3 結語
大數據時代對人類社會政治、經濟、文化產生著深遠的影響,特別是對國民經濟統計科學的變革產生著直接的影響。我國統計機構和統計人員如果忽視或者回避這種影響,就很難適應時代的發展,也就不能良好地完成統計工作。大數據時代已經到來,我國統計機構要端正態度、放眼未來,率先在統計制度和方法上做出改變,才能使統計科學的意義得到保證。
參考文獻
[1] 涂子沛.大數據[M].桂林:廣西師范大學出版社,2013.
[2] 郭曉科.大數據[M].北京:清華大學出版社,2013.
[3] 李金昌.統計思想研究[M].北京:中國統計出版社,2009.
作者簡介:柴世琿(1980-),男,甘肅蘭州人,供職于甘肅省郵政公司。
(責任編輯:秦遜玉)