999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代的統計分析

2018-05-07 06:52:04褚慧敏
科技創新導報 2018年1期
關鍵詞:大數據

褚慧敏

摘 要:大數據對社會經濟的各個方面產生的巨大影響,本文討論了大數據下的統計思維原理:總體代替抽樣可以改善取樣分析的準確性;用相關代替因果,在一定程度上對研究有量變引起質變的作用;接受數據不準確和不完美,可以更好地模擬和了解世界。基于這一原理,討論統計業務,如數據搜集、數據處理和數據應用所面臨的挑戰。

關鍵詞:大數據 統計分析 總體 相關 近似

中圖分類號:G64 文獻標識碼:A 文章編號:1674-098X(2018)01(a)-0166-03

隨著物聯網、云計算、傳感器的快速發展,大數據已經引起全球廣泛的關注[1]。企業的IT高管們已然開始意識到,如果沒有強大的分析系統,大數據幾乎沒什么價值。所以,最關鍵的并非大數據本身,而是數據價值的獲取。如果企業管理者能夠從他們收集的數據中得到真實的信息,他們可以做出更好的決策,并提升企業乃至整個行業中的地位。

小數據統計的最基本的思想就是抽樣方法,利用樣本的信息去估計總體信息以減少不必要的損失。其中最常見的應用就是,在測量某家廠商生產電視的壽命時,不必每一臺都去測量,而是從中取出樣本測量,再利用樣本和總體的關系,得到總體的電視壽命的大概分布,再利用抽樣檢測,驗證其分布是否合理[2]。

與小數據統計不同,大數據統計不用隨機抽樣調查,而采用全員數據參與的方法。當數據積累到一定程度之后,數據就會引發質變。也就是說,樣本容量越大,收集的信息就越多,

從而估計的精度就越高,但進行觀察所投入的費用、人力和處理時間就越長。抽樣方法,雖然節省了進行觀察所投入的費用、人力和處理時間,但由于收集的信息有限,影響了估計的準確性,在小數據時代,這是個統計兩難問題。而今天,在計算機處理能力日益增長,特別是互聯網(包括移動互聯網)的發展、傳感技術的廣泛應用,使得統計所需要的樣本的獲取變得輕而易舉,或者說大數據時代給統計科學帶來了新的生機。大數據價值獲取主要體現在以下幾個方面[2]。

(1)可視化分析。

數據可視化分析能夠客觀地、直觀地認知數據,其基本原理是借助于圖形化技術,直觀地傳達數據潛在的特征,從而實現對于相當稀疏而又復雜的數據集的深入洞察。讓數據分析人員更深入地觀察和分析,實現更好的用戶體驗。

(2)數據價值挖掘。

數據價值挖掘指從大量有噪聲的、不完全的、隨機的、模糊的數據中,提取隱藏在數據中的、有用的信息和知識的過程。挖掘的結果是數據分析報告的素材,挖掘的越深,數據故事講得就越精彩。數據價值挖掘是數據分析的基本任務。

(3)預測。

大數據分析最要的目標之一就是預測分析,其基本思想是根據客觀事物的已知信息,推測和評估估計事物在將來的某些特征和發展狀態,從而減少對事物認知的不確定性,減少決策的盲目性。

要實現大數據分析這些技術,必須要樹立大數據時代的數據統計理念。

1 大數據時代的數據統計理念

1.1 總體取代抽樣

在小數據時代,統計分析往往用盡可能少的樣本來證實總體的假設,所以,一般采用隨機抽樣,隨機抽樣方法存在以下缺陷。

(1)隨機性不容易保證;

(2)泛化能力差;

(3)忽略了細節;

(4)對奇異值敏感。

隨著計算機技術、網絡技術、通信技術的發展,能很容易獲取來自傳感器、網站、視頻等數據,計算機的處理能力越來越大。所以,在大數據時代,統計分析不是依靠少量的樣本抽樣數據,而是依靠總體數據。如Google的流感趨勢預測是在分析了幾十億條互聯網社交數據而得出的結論。總體取代抽樣能夠提高微觀層面分析的準確性。

“樣本=總體”是大數據時代數據統計的準則,這種巨大的調整,意味著統計重心需要轉移。

如果說小數據時代的統計分析的重心在于如何獲取數據,那么在大數據時代,則重心在于如何選擇有用數據[4]。

數據多比數據少要好,更多數據比算法系統更優化還要重要。

1.2 相關關系取代因果關系

相關關系應該說是統計科學發展的基礎,雖然有大量的理論是以邏輯推導得來的,但還是有相當一部分是先發現相關關系,再研究因果關系。

針對傳統統計分析中的因果關系難以確定的缺陷,在大數據時代,更注重相關關系的發現。相關關系指我們在觀察研究對象X,Y時,如果發現,X的變化總是與Y的變化同步,那我們就說X和Y是相關的。事實上,我們可以確定的所有關系都是相關關系,但我們無法得出因果性結論,相關關系應該只與變量之間連動性的緊密程度有關,而不應受變量間形式的影響。相關關系具有“普遍性”,運用范圍之廣、重要性之大是我們不能忽略的。傳統的統計方法已經無法滿足發現相關關系的業務需求,面臨巨大挑戰和機遇。

從理論上講,相關關系是發現因果關系的基礎,快速排除不必要的行為。特別在研究復雜系統時,采用相關關系分數線因果關系具有更高的效率。相關關系的研究是一種提高研究效率的方法,在一定程度上對研究有量變引起質變的又積極作用。

文獻[5]指出:“我們沒有必要非得知道現象背后的原因,而是要讓數據自己發聲,相關關系能夠幫助我們更好地了解這個世界。”建立在相關關系分析法上面的預測是大數據的核心。通過找到“關聯物”并監控它,我們就能夠預測未來。

1.3 近似取代精確

精確的、規范化的、可以被傳統數據庫處理的數據只占全部數據的5%,必須接受不精確性才能處理另外的95%[6]。

在大數據時代,近似性不是竭力避免,而是一種標準途徑[7]。在小數據時代,數據分析的目的就是防止發生錯誤,所以,在收集樣本時,數據分析師會用明智的策略來減少錯誤數據,但實施規避錯誤發生的策略非常耗費。尤其是當我們收集的數據大到一定規模時,規避錯誤發生的策略就行不通了,不僅是因為處理成本加大,還因為在海量數據上保持數據的一致性不太現實。

大數據時代要求我們重新看待數據精確性的內涵。如果將小數據時代的思維模式運用于大數據上,就會錯過許多挖掘有價值數據的機會。

執迷于數據精確性是“小數據時代”的產物,因為在“小數據時代”,任何一個數據都對結果有影響,所以,只有保證數據的精確性,才不會導致分析結果出偏差。

如今,我們掌握的數據庫越來越全面,不需要再擔心某個數據對總體分析的產生的不利影響。我們要做的就是要接受這些不精確的數據,并從中受益,而不是以高昂的代價消除數據的不精確性。

大數據讓我們接受數據的不精確和不完美,除了一開始會與我們的直覺相矛盾之外,隨著數據的增多,“近似”反而能夠更好地地理解世界。

2 統計業務的變革

一個新生事物的出現將必定導致傳統觀念和技術的革命。小數據時代統計學最得意的回歸預測方法面臨考驗[8]。

大數據時代的數據統計的“總體、相關關系、近似”特征,增強了統計學的生命力,意味著統計業務將發生如下變革。

2.1 數據搜集

數據的搜集和存儲是大數據分析和數據利用的前提。如果沒有大量的數據,再強大的分析能力也是“巧婦難為無米之炊”。在搜集和存儲數據方面,要有長遠的眼光,會分析的數據要搜集,不會分析的數據也要搜集。等到新的數據分析方式出來之后再開始搜集數據就已悔之晚矣。

隨著傳感技術的發展,收集數據變得十分簡單而且成本超便宜。即使你僅僅在討論區留言、Twitter 或 FB 發表一段文字,它都會變成新的信息,成為大數據的一部份。可以說你的生活離不開這片無限巨網,即使你不上網,手上的付款裝置同樣有機會出賣你,讓你成為大數據提供者之一,所以,傳統的統計抽樣調查不再適用。

2.2 數據處理

提高對數據的分析能力是大數據價值體現的核心。再利用傳統的統計方法無法得到我們期望的結果,這就需要我們對統計方法進行創新與發展。大數據統計分析是以相關關系為基礎展開的,它不同于傳統的因果關系分析,因果關系分析基本是線性相關分析,而相關關系分析的不僅是線性相關,更多的是非線性相關以及不明確函數形式的線性關系。

2.3 數據使用

讓數據說話,用數據提高數據的決策效率和決策質量是大數據分析的最終目標。用戶一般情況下是不知道自己需要什么,但大數據知道。通過價值挖掘,數據會告訴管理者,用戶需要解決的問題是什么。讓數據說話就是寫出有分量、有價值、能輔助決策的數據分析報告,這樣的報告不是用數據證明你的結論,而是如何講清楚數據的故事。一般需要特別關注:(1)業務的改變,(2)異常數據。

3 結語

大數據不是基于人工設計的數據,也不是借助傳統方法獲得的數據,而是基于現代信息技術自動記錄、儲存和擴充的數據。通過對大數據特性分析找出大數據與統計學的聯系,進一步了解在大數據時代下,統計學所處的地位以及大數據時代下統計學的變化和發展。

參考文獻

[1] 大數據時代到來百度大規模機器學習算法受追捧.2014-03-21第48期百度技術沙龍,http://tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.

[2] 呂浩.數據統計與分析 http://wenku.baidu.com/link?url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNk64XvgevIf1uLzUcz-FCK7LYATn_m

[3] 李國杰.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2013(6).

[4] 邱東.大數據時代對統計學的挑戰[J]。統計研究,2014,31(1):16-24.

[5] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013(中文版).

[6] B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4):408-413.

[7] 朱建平.大數據時代下數據分析理念的辨析[J].統計研究,2014,31(2):10-19.

[8] Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks,2012,24(2):125-131.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产97视频在线观看| 中文字幕天无码久久精品视频免费 | 成人永久免费A∨一级在线播放| 国产精品美女自慰喷水| 日韩欧美国产中文| 激情网址在线观看| 亚洲天堂网在线视频| 一级毛片高清| 国产美女无遮挡免费视频| 91精品小视频| 亚洲成人精品| 国产打屁股免费区网站| 永久免费av网站可以直接看的| 成人免费午夜视频| 国产高清无码麻豆精品| 日本不卡在线视频| 国产手机在线小视频免费观看| 免费人欧美成又黄又爽的视频| 亚洲三级视频在线观看| 日韩午夜伦| 亚洲黄色成人| 日韩欧美一区在线观看| 国产乱人激情H在线观看| 日日拍夜夜嗷嗷叫国产| 国产激情国语对白普通话| 在线免费看黄的网站| 鲁鲁鲁爽爽爽在线视频观看| 久久国产乱子伦视频无卡顿| 成人毛片在线播放| 色婷婷电影网| 婷五月综合| 国产成人精品亚洲日本对白优播| 亚洲综合18p| 亚洲欧美日韩久久精品| 91偷拍一区| 欧美在线天堂| 这里只有精品免费视频| 在线va视频| 丁香五月婷婷激情基地| 亚洲人免费视频| 欧美午夜网| 国产真实乱子伦视频播放| 亚洲侵犯无码网址在线观看| 亚洲国产成人久久77| 日韩欧美在线观看| 日韩福利在线视频| 国产成人一二三| 一本一本大道香蕉久在线播放| 丁香婷婷久久| 成人一区在线| 东京热av无码电影一区二区| 免费a在线观看播放| 97青草最新免费精品视频| 91福利免费视频| 色九九视频| 重口调教一区二区视频| 五月天综合网亚洲综合天堂网| 亚洲a级毛片| 欧洲av毛片| 91麻豆精品国产高清在线| 久久精品无码国产一区二区三区 | 日韩AV无码一区| 欧美一级一级做性视频| 色综合久久无码网| 欧美性猛交一区二区三区| 国产精品不卡片视频免费观看| 一本一道波多野结衣av黑人在线| 国产爽妇精品| 狠狠操夜夜爽| 丁香婷婷综合激情| 内射人妻无码色AV天堂| 伊人成人在线视频| 国产成人综合久久精品尤物| 日韩精品专区免费无码aⅴ| 中文字幕 欧美日韩| 中文字幕亚洲专区第19页| 国产亚卅精品无码| 色婷婷在线影院| 日韩欧美成人高清在线观看| 老司机午夜精品网站在线观看| 精品久久久久无码| 亚洲欧美在线综合图区|