褚慧敏
摘 要:大數據對社會經濟的各個方面產生的巨大影響,本文討論了大數據下的統計思維原理:總體代替抽樣可以改善取樣分析的準確性;用相關代替因果,在一定程度上對研究有量變引起質變的作用;接受數據不準確和不完美,可以更好地模擬和了解世界。基于這一原理,討論統計業務,如數據搜集、數據處理和數據應用所面臨的挑戰。
關鍵詞:大數據 統計分析 總體 相關 近似
中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2018)01(a)-0166-03
隨著物聯網、云計算、傳感器的快速發展,大數據已經引起全球廣泛的關注[1]。企業的IT高管們已然開始意識到,如果沒有強大的分析系統,大數據幾乎沒什么價值。所以,最關鍵的并非大數據本身,而是數據價值的獲取。如果企業管理者能夠從他們收集的數據中得到真實的信息,他們可以做出更好的決策,并提升企業乃至整個行業中的地位。
小數據統計的最基本的思想就是抽樣方法,利用樣本的信息去估計總體信息以減少不必要的損失。其中最常見的應用就是,在測量某家廠商生產電視的壽命時,不必每一臺都去測量,而是從中取出樣本測量,再利用樣本和總體的關系,得到總體的電視壽命的大概分布,再利用抽樣檢測,驗證其分布是否合理[2]。
與小數據統計不同,大數據統計不用隨機抽樣調查,而采用全員數據參與的方法。當數據積累到一定程度之后,數據就會引發質變。也就是說,樣本容量越大,收集的信息就越多,
從而估計的精度就越高,但進行觀察所投入的費用、人力和處理時間就越長。抽樣方法,雖然節省了進行觀察所投入的費用、人力和處理時間,但由于收集的信息有限,影響了估計的準確性,在小數據時代,這是個統計兩難問題。而今天,在計算機處理能力日益增長,特別是互聯網(包括移動互聯網)的發展、傳感技術的廣泛應用,使得統計所需要的樣本的獲取變得輕而易舉,或者說大數據時代給統計科學帶來了新的生機。大數據價值獲取主要體現在以下幾個方面[2]。
(1)可視化分析。
數據可視化分析能夠客觀地、直觀地認知數據,其基本原理是借助于圖形化技術,直觀地傳達數據潛在的特征,從而實現對于相當稀疏而又復雜的數據集的深入洞察。讓數據分析人員更深入地觀察和分析,實現更好的用戶體驗。
(2)數據價值挖掘。
數據價值挖掘指從大量有噪聲的、不完全的、隨機的、模糊的數據中,提取隱藏在數據中的、有用的信息和知識的過程。挖掘的結果是數據分析報告的素材,挖掘的越深,數據故事講得就越精彩。數據價值挖掘是數據分析的基本任務。
(3)預測。
大數據分析最要的目標之一就是預測分析,其基本思想是根據客觀事物的已知信息,推測和評估估計事物在將來的某些特征和發展狀態,從而減少對事物認知的不確定性,減少決策的盲目性。
要實現大數據分析這些技術,必須要樹立大數據時代的數據統計理念。
1 大數據時代的數據統計理念
1.1 總體取代抽樣
在小數據時代,統計分析往往用盡可能少的樣本來證實總體的假設,所以,一般采用隨機抽樣,隨機抽樣方法存在以下缺陷。
(1)隨機性不容易保證;
(2)泛化能力差;
(3)忽略了細節;
(4)對奇異值敏感。
隨著計算機技術、網絡技術、通信技術的發展,能很容易獲取來自傳感器、網站、視頻等數據,計算機的處理能力越來越大。所以,在大數據時代,統計分析不是依靠少量的樣本抽樣數據,而是依靠總體數據。如Google的流感趨勢預測是在分析了幾十億條互聯網社交數據而得出的結論。總體取代抽樣能夠提高微觀層面分析的準確性。
“樣本=總體”是大數據時代數據統計的準則,這種巨大的調整,意味著統計重心需要轉移。
如果說小數據時代的統計分析的重心在于如何獲取數據,那么在大數據時代,則重心在于如何選擇有用數據[4]。
數據多比數據少要好,更多數據比算法系統更優化還要重要。
1.2 相關關系取代因果關系
相關關系應該說是統計科學發展的基礎,雖然有大量的理論是以邏輯推導得來的,但還是有相當一部分是先發現相關關系,再研究因果關系。
針對傳統統計分析中的因果關系難以確定的缺陷,在大數據時代,更注重相關關系的發現。相關關系指我們在觀察研究對象X,Y時,如果發現,X的變化總是與Y的變化同步,那我們就說X和Y是相關的。事實上,我們可以確定的所有關系都是相關關系,但我們無法得出因果性結論,相關關系應該只與變量之間連動性的緊密程度有關,而不應受變量間形式的影響。相關關系具有“普遍性”,運用范圍之廣、重要性之大是我們不能忽略的。傳統的統計方法已經無法滿足發現相關關系的業務需求,面臨巨大挑戰和機遇。
從理論上講,相關關系是發現因果關系的基礎,快速排除不必要的行為。特別在研究復雜系統時,采用相關關系分數線因果關系具有更高的效率。相關關系的研究是一種提高研究效率的方法,在一定程度上對研究有量變引起質變的又積極作用。
文獻[5]指出:“我們沒有必要非得知道現象背后的原因,而是要讓數據自己發聲,相關關系能夠幫助我們更好地了解這個世界。”建立在相關關系分析法上面的預測是大數據的核心。通過找到“關聯物”并監控它,我們就能夠預測未來。
1.3 近似取代精確
精確的、規范化的、可以被傳統數據庫處理的數據只占全部數據的5%,必須接受不精確性才能處理另外的95%[6]。
在大數據時代,近似性不是竭力避免,而是一種標準途徑[7]。在小數據時代,數據分析的目的就是防止發生錯誤,所以,在收集樣本時,數據分析師會用明智的策略來減少錯誤數據,但實施規避錯誤發生的策略非常耗費。尤其是當我們收集的數據大到一定規模時,規避錯誤發生的策略就行不通了,不僅是因為處理成本加大,還因為在海量數據上保持數據的一致性不太現實。
大數據時代要求我們重新看待數據精確性的內涵。如果將小數據時代的思維模式運用于大數據上,就會錯過許多挖掘有價值數據的機會。
執迷于數據精確性是“小數據時代”的產物,因為在“小數據時代”,任何一個數據都對結果有影響,所以,只有保證數據的精確性,才不會導致分析結果出偏差。
如今,我們掌握的數據庫越來越全面,不需要再擔心某個數據對總體分析的產生的不利影響。我們要做的就是要接受這些不精確的數據,并從中受益,而不是以高昂的代價消除數據的不精確性。
大數據讓我們接受數據的不精確和不完美,除了一開始會與我們的直覺相矛盾之外,隨著數據的增多,“近似”反而能夠更好地地理解世界。
2 統計業務的變革
一個新生事物的出現將必定導致傳統觀念和技術的革命。小數據時代統計學最得意的回歸預測方法面臨考驗[8]。
大數據時代的數據統計的“總體、相關關系、近似”特征,增強了統計學的生命力,意味著統計業務將發生如下變革。
2.1 數據搜集
數據的搜集和存儲是大數據分析和數據利用的前提。如果沒有大量的數據,再強大的分析能力也是“巧婦難為無米之炊”。在搜集和存儲數據方面,要有長遠的眼光,會分析的數據要搜集,不會分析的數據也要搜集。等到新的數據分析方式出來之后再開始搜集數據就已悔之晚矣。
隨著傳感技術的發展,收集數據變得十分簡單而且成本超便宜。即使你僅僅在討論區留言、Twitter 或 FB 發表一段文字,它都會變成新的信息,成為大數據的一部份。可以說你的生活離不開這片無限巨網,即使你不上網,手上的付款裝置同樣有機會出賣你,讓你成為大數據提供者之一,所以,傳統的統計抽樣調查不再適用。
2.2 數據處理
提高對數據的分析能力是大數據價值體現的核心。再利用傳統的統計方法無法得到我們期望的結果,這就需要我們對統計方法進行創新與發展。大數據統計分析是以相關關系為基礎展開的,它不同于傳統的因果關系分析,因果關系分析基本是線性相關分析,而相關關系分析的不僅是線性相關,更多的是非線性相關以及不明確函數形式的線性關系。
2.3 數據使用
讓數據說話,用數據提高數據的決策效率和決策質量是大數據分析的最終目標。用戶一般情況下是不知道自己需要什么,但大數據知道。通過價值挖掘,數據會告訴管理者,用戶需要解決的問題是什么。讓數據說話就是寫出有分量、有價值、能輔助決策的數據分析報告,這樣的報告不是用數據證明你的結論,而是如何講清楚數據的故事。一般需要特別關注:(1)業務的改變,(2)異常數據。
3 結語
大數據不是基于人工設計的數據,也不是借助傳統方法獲得的數據,而是基于現代信息技術自動記錄、儲存和擴充的數據。通過對大數據特性分析找出大數據與統計學的聯系,進一步了解在大數據時代下,統計學所處的地位以及大數據時代下統計學的變化和發展。
參考文獻
[1] 大數據時代到來百度大規模機器學習算法受追捧.2014-03-21第48期百度技術沙龍,http://tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.
[2] 呂浩.數據統計與分析 http://wenku.baidu.com/link?url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNk64XvgevIf1uLzUcz-FCK7LYATn_m
[3] 李國杰.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2013(6).
[4] 邱東.大數據時代對統計學的挑戰[J]。統計研究,2014,31(1):16-24.
[5] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013(中文版).
[6] B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4):408-413.
[7] 朱建平.大數據時代下數據分析理念的辨析[J].統計研究,2014,31(2):10-19.
[8] Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks,2012,24(2):125-131.