999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代統計學面臨的機遇與挑戰

2016-10-20 07:40:30趙如煜
商情 2016年6期
關鍵詞:大數據

趙如煜

【摘要】大數據給統計學帶來了機遇、挑戰和緊迫感。本文描述大數據的環境,利用大數據的目的和大數據帶來的變革;介紹國內外有關大數據的研究動向;探討大數據包含的信息,大數據的預處理、抽樣和分析方法。

【關鍵詞】大數據 抽樣 數據分析方法論

當今時代,一方面人們在主動地獲取數據。各個科學領域都在大量地獲取數據,自然科學領域收集著從宏觀的天文數據到微觀的基因數據,經濟、金融和人文社會科學收集著大量的觀察和調查數據。另一方面人們在被動地囤積數據。隨著計算機互聯網、搜索引擎、電子商務、多種傳感器和多媒體技術的發展和廣泛使用,各種形式的數據如江河流水般地涌來。當今數據的獲取和規模發生了根本的變化,統計學面臨著新的機遇和挑戰,需要在方法論上有所突破。

一、大數據及其目的

狹義地講,大數據是一個大樣本和高維變量的數據集合。針對樣本大的問題,統計學可以采用抽樣減少樣本量,達到需要的精度。目前大數據的環境包括了:數據流環境:數據快速不斷涌來,現有存儲設備和計算能力難以應付這種洪水般的數據流;磁盤存儲環境:數據已不能完全存儲在內存中,需要硬盤存儲;分布存儲環境:數據分布存儲在多個計算機中;多線條環境:數據存儲在一個計算機中,多個處理器共享內存。

大數據的目的是將數據轉化為知識,探索數據的產生機制,進行預測和制定政策。把信息轉變為有用的知識還需漫長的時間。“預測”不同于“制定政策”。一個兒童的鞋子越大,可以預測他掌握的詞匯量越多;但是,制定政策強制他穿大鞋子并不能提高他的詞匯量。

二、大數據帶來的變革

大數據給我們的時代帶來了變革。目前,人們習慣于根據“研究問題”來驅動“收集數據”。今后,大數據到處可得,人們將會用“數據”驅動“研究問題”。就像我們出遠門前常常查詢目的地的天氣、交通和賓館那樣,未來人們在研究和決策前將會通過查詢數據做決定。目前已經有科學家開始使用軟件搜索和匯總已發表論文中的成果。大數據中包含有各種不同目的的數據集,綜合利用它們可以做出原來目的之外的意外成果。例如,將醫院病歷數據與信用卡消費數據結合,我們能發現食品與健康的相關關系,指導人們進行健康飲食。假若再加上手機和GPS等數據,還能隨時對人們進行體檢,指導健身,減少猝死,幫助醫生診斷疾病等,應用大數據可以設想的用途不計其數。

三、大數據的處理、抽樣與分析

(一)數據的預處理

大數據的預處理包括數據清洗、不完全數據填補、數據糾偏與矯正。利用隨機抽樣數據矯正雜亂的、非標準的數據源。統計機構的數據是經過嚴格抽樣設計獲取的,具有總體的代表性和系統誤差小的優勢,但是數據獲取和更新的周期長,盡管調查項目有代表性,但難以無所不包。而互聯網數據的獲取速度快、量大、項目繁細,但是難以避免數據獲取的偏倚性。將統計機構的數據作為金標準和框架對互聯網數據進行矯正,將互聯網數據作為補充資源對統計機構的數據進行實時更新,也許是解決問題的一個思路。

(二)大數據環境的抽樣

大數據的抽樣方法有待研究。“樣本”不必使用所有“數據”,不管鍋有多大,只要充分攪勻,品嘗一小勺就知道其滋味。針對大數據流環境,需要探索從源源不斷的數據流中抽取足以滿足統計目的和精度的樣本。需要研究新的適應性、序貫性和動態的抽樣方法。根據已獲得的樣本逐步調整感興趣的調查項目和抽樣對象,使得最近頻繁出現的熱門數據,也是感興趣的數據進入樣本。建立數據流的緩沖區,記錄新發生數據的頻數,動態調整不在樣本中的數據進入樣本的概率。

(三)大數據的分析與整合

針對大數據的高維問題,需要研究降維和分解的方法。探討壓縮大數據的方法,直接對壓縮的數據核進行傳輸、運算和操作。除了常規的統計分析方法,包括高維矩陣、降維方法、變量選擇之外,需要研究大數據的實時分析、數據流算法。不用保存數據,僅掃描一遍數據的數據流算法,考慮計算機內存和外存的數據傳送問題、分布數據和并行計算的方法。如何無信息損失或無統計信息損失地分解大數據集,獨立并行地在分布計算機環境進行推斷,各個計算機的中間計算結果能相互聯系溝通,構造全局統計結果。研究多個數據資源的融合算法。研究利用數據流尋找模型變化時間點的動態變化模型。

在大數據環境,很多數據集不再有標識個體的關鍵字,傳統的關系數據庫連接方法不再適用,需要探討利用數據庫之間的重疊項目來結合不同的數據庫,利用變量間的條件獨立性整合多個不同變量集的數據為一個完整變量集的大數據庫的方法。探索不必經過整合多數據庫,直接利用局部數據進行推斷和各推斷結果傳播的方法。另一方面,利用統計性質無信息損失地分解和壓縮大數據。

四、結束語

一個新生事物的出現將必定導致傳統觀念和技術的革命。數碼照相機的出現導致傳統相片膠卷和影像業的已近消亡。如果大數據包含了所有父親和兒子的身高數據,只要計算給定的父親身高下所有兒子的平均身高就可以預測其兒子身高了。模型不再重要,當年統計學最得意的回歸預測方法將被淘汰。大數據的到來將對傳統的統計方法進行考驗。統計學會不會象科學哲學那樣,只佩戴著歷史的光環,而不再主導和引領人們分析和利用大數據資源。現在其他學科和行業涌入大數據的熱潮,如果統計學不抓緊參與的話,將面臨著被邊緣化的危險。現今統計學的目標是通過獲取數據和分析數據發現真理(總體的參數和性質),統計方法和理論對數據有過高的要求。而大數據充滿了各種隨機的、非隨機的誤差和偏倚,不能滿足這些苛刻的要求。按照波普的科學劃界準則,只要我們能從大數據中提煉出具有可證偽的結論,那么這個結論還是科學的,可以用于知識積累。這些可證偽的大數據結論可作為進一步科學研究的假說,以數據驅動研究。我們在看到大數據給統計學帶來了機遇的同時,也應該看到現在的統計方法普遍只適用于全部數據放在單個計算機內存的環境,分布式大數據和數據流的環境給統計學帶來了挑戰。統計學家不應該固守傳統數據的環境,必須積極學習新生事物,適應新的大數據環境,擴展統計學的應用領域,創造出迎合大數據的新統計方法,“機遇”與“挑戰”并存。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 97人人模人人爽人人喊小说| 亚洲国产天堂在线观看| 亚洲欧美日韩综合二区三区| 久久国产成人精品国产成人亚洲| 成人福利免费在线观看| 国产18页| 在线人成精品免费视频| 国产激情无码一区二区APP| 青草视频网站在线观看| 性做久久久久久久免费看| 性网站在线观看| 毛片国产精品完整版| 毛片网站免费在线观看| 亚洲欧州色色免费AV| 国产 在线视频无码| 日韩A∨精品日韩精品无码| 99人体免费视频| 日本人妻一区二区三区不卡影院 | 欧美性久久久久| 国产欧美成人不卡视频| 久久九九热视频| 67194在线午夜亚洲 | 亚洲日本中文字幕乱码中文 | 亚洲国产精品日韩欧美一区| 国模私拍一区二区| 久久国产精品麻豆系列| 蜜芽国产尤物av尤物在线看| 九色在线视频导航91| 久久久久中文字幕精品视频| 国产靠逼视频| 久久香蕉欧美精品| 狠狠干欧美| 伊人网址在线| 国产精品福利导航| 九九九国产| 精品视频在线观看你懂的一区| 99国产精品免费观看视频| 青青国产在线| 欧美日韩高清| 一区二区三区毛片无码| 亚洲人成网站18禁动漫无码| 2019国产在线| 亚洲丝袜中文字幕| 天堂成人在线视频| 99这里只有精品6| 国产拍在线| 欧美色图第一页| 黄片在线永久| 高清无码不卡视频| 精品人妻一区二区三区蜜桃AⅤ| 欧美a网站| 久久鸭综合久久国产| 亚洲成a人片77777在线播放| 亚洲欧美在线看片AI| 国产精品黄色片| 国产福利不卡视频| 伊人中文网| 91在线一9|永久视频在线| 国产h视频免费观看| 欧美不卡在线视频| 亚洲中文精品久久久久久不卡| 免费A级毛片无码免费视频| 老司机久久99久久精品播放| 国产精品福利尤物youwu| 91在线播放免费不卡无毒| 亚洲欧洲日产无码AV| 国产一二三区在线| 久久成人18免费| 国产丝袜一区二区三区视频免下载| 在线观看国产一区二区三区99| 久久久久久尹人网香蕉| 中国成人在线视频| 奇米精品一区二区三区在线观看| 欧美劲爆第一页| 国产网站一区二区三区| 亚洲精品无码久久久久苍井空| 国产欧美在线观看精品一区污| 一级一毛片a级毛片| 亚洲无码高清一区二区| 国产精品19p| 91小视频在线| 亚洲二区视频|