999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據對統計學的挑戰和機遇

2015-05-29 09:52:20張昕鑫
企業導報 2015年8期
關鍵詞:大數據

張昕鑫

摘 要:大數據給統計學提供了機遇、挑戰和緊迫感。本文闡述著大數據的環境利用大數據的目的和大數據帶來的整個變革;介紹著有關大數據的研究動向;探討著大數據包含的信息,大數據的準備處理、抽樣和分析方法。

關鍵詞:大數據;抽樣;數據分析方法論

前言:當今社會,一方面人們在每個的獲取數據。各個科學領域都在大量的獲取數據。自然科學領域收集著從宏觀的天文數據到微觀的基因數據。從經濟、金融和人文社會科學收集著大量的數據。一些人們在不斷地制造和收集著數據,相信著這些數據也許會對人有用。當然,也有人們不再繼續呆在實驗室里考核著研究,僅僅依靠著強大的網絡數據來進行研究。而人們也在很被動著積累著數據。隨著互聯網這樣的大時代到來,各種方法也涌現出來。各式各樣的數據如滔滔江水連綿不絕的涌現出來。現如今數據這樣的大體系也在悄悄進行著變化。統計學又面臨著新的機遇和挑戰,這當然需要在方法論上有所突破和改變。

一、大數據及其目的

大數據是一個大樣本和高維變量的數據集合。針對這樣的問題,用于統計學上來說就是采用抽樣減少樣本量,最后達到需要的精度。關于這樣的問題,急需要變量選擇、降維、壓縮、分解。廣義的說,大數據涵蓋了許多種領域,像多源、混合的數據,自然科學、人文社會、經濟學、網絡、通訊、商業和娛樂各樣的領域。這其中大數據涉及了各種數據類型,包括文本和語言、錄像和圖像、時空網絡與圖形。大數據的目的就是將數據轉化為知識,探索著數據將會產生的機制。并且大數據有著記錄保存自然和社會現狀的作用。現在的人收集著許多大量的數據。雖然還不是那樣的了解。但是依然相信需要保存現在這個社會經濟發展的整個過程,滿心期待在今后的歲月長河中不斷地分析和解釋著。大數據將形成自然和人文社會的歷史長河,不僅用于當今時代的研究。甚至對于轉基因食品對子孫后代的影響來繼續深究問題,為未來的人留下先今的歷史材料。

二、大數據的處理、抽樣與分析

(一)數據的預處理。大數據的預處理包含數據清洗、不完全數據填補、數據糾偏和矯正。統計機構的數據是經過嚴格的抽樣設計所得到的[1]。有著代表性和系統誤差小的優勢。互聯網的數據速度更快、量大、項目繁瑣,但是難以避免一些這樣的問題。將統計機構的數據作為標準來對互聯網進行校正。從而將互聯網數據作為補充資源對統計機構的數據進行隨時隨地的更新。這或許是解決問題的一個思路。

(二)大數據環境的抽樣。大數據的抽樣方法有待研究。不管鍋有多大。只要可以充分的均勻攪拌。知道其中的滋味就可以了。針對大數據流環境,需要探索從源源不斷的數據流中抽取可以滿足統計目的和精度的樣本[2]。需要研究新的抽樣方法。可以有適應性、序貫性以及動態的抽樣方法。盡力數據流的緩沖區,記錄著數據所發生的一切變化。利用其他各種抽樣技術。比如滾雪球這樣的方法,從種子開始逐步擴大著樣本。從各種隨機種子出發。不斷加入新鮮的種子,了解當代網絡性質和結構。

(三)大數據的分析和整合。針對大數據的高維問題,需要研究降維和分解的方法。探討壓縮大數據的方法,直接對壓縮的數據進行傳輸、運算和操作。除了常規的統計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數據的實時分析、數據流算法。數據不需要保存,只是需要掃描一遍數據的數據流算法。只是考慮計算機內存和外存的數據傳送問題。分布數據和并行計算的方法。針對多種不同數據庫的環境,利用關系數據庫技術,根據關鍵字將很多小數據庫連接成一個大數據。并且,在這些大的數據庫中還可以分解出許多的小數據庫。組合出不同的東西,更可以做出許多有創意的東西。在大數據環境,很多的數據集不再有標識個體的關鍵字,傳統的關鍵數據庫連接方法不再適用。探索不必經過整合多數據庫,直接利用局部數據進行推斷結果傳播的方法。利用統計性質信息損失地分解和壓縮大數據。

(四)網絡圖模型。網絡圖模型用圖的結構描述高維變量之間的相互關系,包括貝葉斯網絡、無向圖概率模型、因果網絡等。網絡模型是處理和分析高維大數據和多源數據庫的有效工具。目前已經有豐富的圖模型的軟件系統。網絡圖模型可以用于分解大數據集合,處理多源數據庫,來進行計算。它還可以引入隱變量簡化復雜的關聯聯系。最終確定并能區分該目標節點的原因與結果。

結論:一個新生事物的出現會導致傳統觀念和技術的革命。數碼照相機的出現導致傳統相片膠卷和影像業的己近消亡。模型不再重要,當年統計學最得意的回歸預測方法將被淘汰。大數據的到來將對傳統的統計方法進行考驗。統計學會不會像科學哲學那樣,只佩戴著歷史的光環,而不再主導和引領人們分析和利用大數據資源。大數據充滿了許多的隨機性。現在看到的大數據也給統計學帶來了機遇。現在其他學科和行業的涌入大數據的熱潮,如果統計學不抓緊參與的話,將面臨著被邊緣化的危險。分布式的大數據和數據流的環境給統計學帶來了挑戰。統計學家不應該固守傳統數據的環境,必須積極學習新生事物,適應新的大數據環境,擴展統計學的應用領域,創造出應和大數據的新的統計方法。機遇和挑戰并存。

參考文獻:

[1] 張蘭廷.大數據的社會價值與戰略選擇[D];中共中央黨校.2014年.

[2] 統計分類方法研究[D];廈門大學.2014年

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 538国产视频| 中文字幕伦视频| 欧美日本激情| 久久久久亚洲AV成人人电影软件 | 国产黑人在线| 国内精自视频品线一二区| 欧美视频在线播放观看免费福利资源| 四虎影视8848永久精品| 无码av免费不卡在线观看| 亚洲福利网址| 精品超清无码视频在线观看| 四虎AV麻豆| 动漫精品啪啪一区二区三区| 波多野吉衣一区二区三区av| 亚洲人妖在线| 91精品伊人久久大香线蕉| 国产h视频在线观看视频| 女人18毛片一级毛片在线 | 国产资源免费观看| 波多野结衣一区二区三区AV| 亚洲无码日韩一区| 亚洲人成网站观看在线观看| 日本成人不卡视频| 影音先锋亚洲无码| 亚洲综合第一页| 久久9966精品国产免费| 国产91丝袜| 婷婷丁香色| 99在线观看国产| 国产一级毛片网站| 亚洲无码熟妇人妻AV在线| 91九色国产porny| 亚洲三级视频在线观看| 国产经典免费播放视频| 久久国产精品国产自线拍| 国产一级毛片在线| 亚洲天堂网在线播放| 久久99国产乱子伦精品免| 日韩一区精品视频一区二区| 久久视精品| 97成人在线视频| 91视频青青草| 久久五月视频| 国产黄色爱视频| 人妻一区二区三区无码精品一区| 欧美爱爱网| 亚洲欧美成人网| 乱人伦视频中文字幕在线| 亚洲免费毛片| 国产中文一区二区苍井空| 亚洲欧美综合精品久久成人网| 欧美第九页| 日韩欧美视频第一区在线观看 | 成人日韩精品| 国产亚洲精品无码专| 九九热视频在线免费观看| 91原创视频在线| 亚洲人成网址| 国产色伊人| 91亚洲视频下载| 日本欧美一二三区色视频| 国产欧美日韩精品综合在线| 中文字幕亚洲第一| 欧美中文字幕在线播放| 欧美第一页在线| 中文字幕 日韩 欧美| 一本大道无码日韩精品影视| 欧美区一区二区三| 夜夜操国产| 免费中文字幕一级毛片| 99热国产在线精品99| 五月婷婷中文字幕| 国产一级裸网站| 欧美激情综合一区二区| 国产91在线|日本| 毛片免费网址| 亚洲一区二区日韩欧美gif| 亚洲第一区精品日韩在线播放| 国产精品女在线观看| 天天色综网| 免费a级毛片18以上观看精品| 丰满人妻中出白浆|