大數據時代的統計分析

2018-05-07 06:52:04褚慧敏

科技創新導報 2018年1期

褚慧敏

摘要：大數據對社會經濟的各個方面產生的巨大影響，本文討論了大數據下的統計思維原理：總體代替抽樣可以改善取樣分析的準確性；用相關代替因果，在一定程度上對研究有量變引起質變的作用；接受數據不準確和不完美，可以更好地模擬和了解世界。基于這一原理，討論統計業務，如數據搜集、數據處理和數據應用所面臨的挑戰。

關鍵詞：大數據統計分析總體相關近似

中圖分類號：G64 文獻標識碼：A 文章編號：1674-098X（2018）01（a）-0166-03

隨著物聯網、云計算、傳感器的快速發展，大數據已經引起全球廣泛的關注[1]。企業的IT高管們已然開始意識到，如果沒有強大的分析系統，大數據幾乎沒什么價值。所以，最關鍵的并非大數據本身，而是數據價值的獲取。如果企業管理者能夠從他們收集的數據中得到真實的信息，他們可以做出更好的決策，并提升企業乃至整個行業中的地位。

小數據統計的最基本的思想就是抽樣方法，利用樣本的信息去估計總體信息以減少不必要的損失。其中最常見的應用就是，在測量某家廠商生產電視的壽命時，不必每一臺都去測量，而是從中取出樣本測量，再利用樣本和總體的關系，得到總體的電視壽命的大概分布，再利用抽樣檢測，驗證其分布是否合理[2]。

與小數據統計不同，大數據統計不用隨機抽樣調查，而采用全員數據參與的方法。當數據積累到一定程度之后，數據就會引發質變。也就是說，樣本容量越大，收集的信息就越多，

從而估計的精度就越高，但進行觀察所投入的費用、人力和處理時間就越長。抽樣方法，雖然節省了進行觀察所投入的費用、人力和處理時間，但由于收集的信息有限，影響了估計的準確性，在小數據時代，這是個統計兩難問題。而今天，在計算機處理能力日益增長，特別是互聯網（包括移動互聯網）的發展、傳感技術的廣泛應用，使得統計所需要的樣本的獲取變得輕而易舉，或者說大數據時代給統計科學帶來了新的生機。大數據價值獲取主要體現在以下幾個方面[2]。

（1）可視化分析。

數據可視化分析能夠客觀地、直觀地認知數據，其基本原理是借助于圖形化技術，直觀地傳達數據潛在的特征，從而實現對于相當稀疏而又復雜的數據集的深入洞察。讓數據分析人員更深入地觀察和分析，實現更好的用戶體驗。

（2）數據價值挖掘。

數據價值挖掘指從大量有噪聲的、不完全的、隨機的、模糊的數據中，提取隱藏在數據中的、有用的信息和知識的過程。挖掘的結果是數據分析報告的素材，挖掘的越深，數據故事講得就越精彩。數據價值挖掘是數據分析的基本任務。

（3）預測。

大數據分析最要的目標之一就是預測分析，其基本思想是根據客觀事物的已知信息，推測和評估估計事物在將來的某些特征和發展狀態，從而減少對事物認知的不確定性，減少決策的盲目性。

要實現大數據分析這些技術，必須要樹立大數據時代的數據統計理念。

1 大數據時代的數據統計理念

1.1 總體取代抽樣

在小數據時代，統計分析往往用盡可能少的樣本來證實總體的假設，所以，一般采用隨機抽樣，隨機抽樣方法存在以下缺陷。

（1）隨機性不容易保證；

（2）泛化能力差；

（3）忽略了細節；

（4）對奇異值敏感。

隨著計算機技術、網絡技術、通信技術的發展，能很容易獲取來自傳感器、網站、視頻等數據，計算機的處理能力越來越大。所以，在大數據時代，統計分析不是依靠少量的樣本抽樣數據，而是依靠總體數據。如Google的流感趨勢預測是在分析了幾十億條互聯網社交數據而得出的結論。總體取代抽樣能夠提高微觀層面分析的準確性。

“樣本=總體”是大數據時代數據統計的準則，這種巨大的調整，意味著統計重心需要轉移。

如果說小數據時代的統計分析的重心在于如何獲取數據，那么在大數據時代，則重心在于如何選擇有用數據[4]。

數據多比數據少要好，更多數據比算法系統更優化還要重要。

1.2 相關關系取代因果關系

相關關系應該說是統計科學發展的基礎，雖然有大量的理論是以邏輯推導得來的，但還是有相當一部分是先發現相關關系，再研究因果關系。

針對傳統統計分析中的因果關系難以確定的缺陷，在大數據時代，更注重相關關系的發現。相關關系指我們在觀察研究對象X，Y時，如果發現，X的變化總是與Y的變化同步，那我們就說X和Y是相關的。事實上，我們可以確定的所有關系都是相關關系，但我們無法得出因果性結論，相關關系應該只與變量之間連動性的緊密程度有關，而不應受變量間形式的影響。相關關系具有“普遍性”，運用范圍之廣、重要性之大是我們不能忽略的。傳統的統計方法已經無法滿足發現相關關系的業務需求，面臨巨大挑戰和機遇。

從理論上講，相關關系是發現因果關系的基礎，快速排除不必要的行為。特別在研究復雜系統時，采用相關關系分數線因果關系具有更高的效率。相關關系的研究是一種提高研究效率的方法，在一定程度上對研究有量變引起質變的又積極作用。

文獻[5]指出：“我們沒有必要非得知道現象背后的原因，而是要讓數據自己發聲，相關關系能夠幫助我們更好地了解這個世界。”建立在相關關系分析法上面的預測是大數據的核心。通過找到“關聯物”并監控它，我們就能夠預測未來。

1.3 近似取代精確

精確的、規范化的、可以被傳統數據庫處理的數據只占全部數據的5%，必須接受不精確性才能處理另外的95%[6]。

在大數據時代，近似性不是竭力避免，而是一種標準途徑[7]。在小數據時代，數據分析的目的就是防止發生錯誤，所以，在收集樣本時，數據分析師會用明智的策略來減少錯誤數據，但實施規避錯誤發生的策略非常耗費。尤其是當我們收集的數據大到一定規模時，規避錯誤發生的策略就行不通了，不僅是因為處理成本加大，還因為在海量數據上保持數據的一致性不太現實。

大數據時代要求我們重新看待數據精確性的內涵。如果將小數據時代的思維模式運用于大數據上，就會錯過許多挖掘有價值數據的機會。

執迷于數據精確性是“小數據時代”的產物，因為在“小數據時代”，任何一個數據都對結果有影響，所以，只有保證數據的精確性，才不會導致分析結果出偏差。

如今，我們掌握的數據庫越來越全面，不需要再擔心某個數據對總體分析的產生的不利影響。我們要做的就是要接受這些不精確的數據，并從中受益，而不是以高昂的代價消除數據的不精確性。

大數據讓我們接受數據的不精確和不完美，除了一開始會與我們的直覺相矛盾之外，隨著數據的增多，“近似”反而能夠更好地地理解世界。

2 統計業務的變革

一個新生事物的出現將必定導致傳統觀念和技術的革命。小數據時代統計學最得意的回歸預測方法面臨考驗[8]。

大數據時代的數據統計的“總體、相關關系、近似”特征，增強了統計學的生命力，意味著統計業務將發生如下變革。

2.1 數據搜集

數據的搜集和存儲是大數據分析和數據利用的前提。如果沒有大量的數據，再強大的分析能力也是“巧婦難為無米之炊”。在搜集和存儲數據方面，要有長遠的眼光，會分析的數據要搜集，不會分析的數據也要搜集。等到新的數據分析方式出來之后再開始搜集數據就已悔之晚矣。

隨著傳感技術的發展，收集數據變得十分簡單而且成本超便宜。即使你僅僅在討論區留言、Twitter 或 FB 發表一段文字，它都會變成新的信息，成為大數據的一部份。可以說你的生活離不開這片無限巨網，即使你不上網，手上的付款裝置同樣有機會出賣你，讓你成為大數據提供者之一，所以，傳統的統計抽樣調查不再適用。

2.2 數據處理

提高對數據的分析能力是大數據價值體現的核心。再利用傳統的統計方法無法得到我們期望的結果，這就需要我們對統計方法進行創新與發展。大數據統計分析是以相關關系為基礎展開的，它不同于傳統的因果關系分析，因果關系分析基本是線性相關分析，而相關關系分析的不僅是線性相關，更多的是非線性相關以及不明確函數形式的線性關系。

2.3 數據使用

讓數據說話，用數據提高數據的決策效率和決策質量是大數據分析的最終目標。用戶一般情況下是不知道自己需要什么，但大數據知道。通過價值挖掘，數據會告訴管理者，用戶需要解決的問題是什么。讓數據說話就是寫出有分量、有價值、能輔助決策的數據分析報告，這樣的報告不是用數據證明你的結論，而是如何講清楚數據的故事。一般需要特別關注：（1）業務的改變，（2）異常數據。

3 結語

大數據不是基于人工設計的數據，也不是借助傳統方法獲得的數據，而是基于現代信息技術自動記錄、儲存和擴充的數據。通過對大數據特性分析找出大數據與統計學的聯系，進一步了解在大數據時代下，統計學所處的地位以及大數據時代下統計學的變化和發展。

參考文獻

[1] 大數據時代到來百度大規模機器學習算法受追捧.2014-03-21第48期百度技術沙龍，http：//tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.

[2] 呂浩.數據統計與分析 http：//wenku.baidu.com/link？url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNk64XvgevIf1uLzUcz-FCK7LYATn_m

[3] 李國杰.大數據研究：未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊，2013（6）.

[4] 邱東.大數據時代對統計學的挑戰[J]。統計研究，2014，31（1）：16-24.

[5] 維克托·邁爾·舍恩伯格，肯尼思·庫克耶.大數據時代——生活、工作與思維的大變革[M].杭州：浙江人民出版社，2013（中文版）.

[6] B. Zhu， L. Xu， D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal， Observational Study in the Presence of Missing Data[J]. Value in Health， 2012， 15（4）：408-413.

[7] 朱建平.大數據時代下數據分析理念的辨析[J].統計研究，2014，31（2）：10-19.

[8] Hang Yang， Simon Fong， Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks，2012，24（2）：125-131.