999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據研究綜述

2018-01-31 08:31:34鄭強高群
科技視界 2018年30期
關鍵詞:數據處理數據挖掘大數據

鄭強 高群

【摘 要】隨著移動互聯網、無線傳感網等技術的的發展,新興應用不斷涌現,數據成爆炸式增長。大數據成為重要的生產要素,蘊含著巨大的知識價值。本文介紹了了大數據的定義和面臨的技術挑戰,歸納了大數據集成與預處理技術、數據分析與挖掘技術、數據展現技術,最后總結了大數據的發展趨勢,為大數據的研究提供有益參考。

【關鍵詞】大數據;數據處理;數據挖掘

中圖分類號: TP311.13 文獻標識碼: A 文章編號: 2095-2457(2018)30-0179-002

DOI:10.19694/j.cnki.issn2095-2457.2018.30.078

0 引言

隨著無線傳感網、移動互聯網的普及,21世紀以來數據量呈現出指數級增長,社會已經步入大數據時代。《大數據時代》一書的作者英國牛津大學教授維克托指出,大數據正在改變人們的工作和生活方式,并且更多的改變正在悄然發生。大數據已在網絡通信、金融市場、氣象預報等諸多領域得到廣泛應用[1]。大數據背后蘊含著巨大的價值,尤其是通過數據集成、分析與挖掘之后,其所表現出價值已經遠遠超過傳統的數據。大數據研究成為經濟和社會發展以及科技進步的重要推動力量。

本文歸納和總結了大數據的定義、發展現狀和面臨的挑戰及其關鍵技術。首先闡述了大數據概念及其發展現狀、數據處理面臨的問題及挑戰,然后分析了大數據技術,最后是全文總結并對大數據研究進行展望。

1 大數據的概念

著名咨詢公司麥肯錫給出的大數據定義:大數據指的是體量超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。并強調,并非一定要超過TB級的數據才可以稱作大數據[2]。《Science》雜志在2008年出版的專刊中定義大數據為“代表著人類認知過程的進步,數據集的規模是無法在可容忍的時間內用目前的技術、方法和理論去獲取、管理、處理的數據”。Gartner公司也給出了大數據的定義:大數據是高容量、高生成速率、種類繁多的信息價值,同時需要新的處理形式去確保判斷的作出、洞察力的發現和處理的優化[3]。維基百科對大數據的定義則簡單明了:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。

一般而言,大家比較認可關于大數據從早期的3V,4V說法到現在的5V。大數據的5V是指Volume,Velocity,Variety,Varacity,Value[4]。Volume:數據體量巨大;Velocity:數據生成速率高,時效要求高;Variety:數據類型繁多,既包括結構化數據,也包括半結構化和非結構化數據;Veracity:數據真實且準確;Value:數據潛在價值密度低,但價值高。

2 大數據的現狀

隨著數據科學的深入發展,歐美等眾多發達國家都意識到作為國家戰略資產的數據的重要性,分別發布了大數據發展戰略。美國于2012年頒布了《大數據研究和發展計劃》,包括約150余個項目類別,計劃項目涵蓋國防、衛生、能源等諸多領域。我國也把大數據技術也提到了國家的戰略發展日程。2013年,國內多位院士聯合建議設立國家專項,開展大數據技術研究。事實上,大數據技術已經應用在互聯網、商業智能、金融業以及醫療、零售等行業,并對社會、經濟產生了巨大的影響[5]。

3 大數據面臨的挑戰

不同于與傳統數據,大數據來源廣泛、種類繁多、動態增長,以上特點使得大數據技術面臨新的挑戰,以下幾個方面尤其值得關注:

3.1 數據異構性和不完整性

據統計,目前半結構化和非結構化數據占當前社會數據總量的80%以上,已有的傳統的數據結構已經無法準確的描述它們。因此,將數據組織成易于處理的結構,進行數據集成是大數據處理面臨的一個重要難題。不完整性是指在大數據常常包含一些屬性值缺失的和錯誤的數據。在進行大數據分析處理之前,必須對數據的不完整性進行有效處理才能分析出有價值的信息。

3.2 數據處理的實時性

大數據有著很強的時效性,隨著時間的推移,數據背后所隱藏的的知識價值也會很快地降低。因此,大數據需要以較高的速率進行分析處理。

3.3 數據安全與隱私保護

大數據的隱私保護不僅僅涉及技術層面的問題同時也涉及到社會學倫理問題。相比于傳統的數據安全,大數據時代的數據安全變得尤為復雜,面臨著來自各方面的挑戰。因此在大數據環境下,如何保證數據共享的安全性以及怎樣為用戶提供精細可靠地的數據共享控制策略等問題的研究顯得越發重要。

3.4 高能耗問題

隨著大數據體量的爆炸式增長,數據中心規模的日漸擴大,高能耗制約大數據發展的問題已日益加重。針對降低能耗、提高數據中心可靠性問題,常見措施包括:冗余配置、云計算技術和分布式計算技術。在存儲時,首先要對數據進行分類,然后進行數據過濾和去重操作,來減少數據體量,同時建立多級索引以方便日后的查詢操作。

3.5 大數據易用性問題

易用性的挑戰突出體現在兩個方面:首先大數據的體量巨大,價值密度低,這使得分析過程更加復雜,而且輸出結果形式更加多樣化;其次,大數據展現技術也是易用性的一個重要方面。

4 大數據技術

大數據技術包含數據預處理、大數據存儲、大數據分析與挖掘、大數據展示技術及大數據安全等幾個方面。

4.1 大數據預處理

大數據最典型的特征是多源異構。原始數據中會包含一些“臟數據”,比如離群點,值缺失等狀況。因此首先需要進行數據的預處理和集成,為將來的數據分析和挖掘提供方便處理的數據集。目前市面上常見的方法大體可分為4類:基于物化或ETL引擎方法、基于聯邦數據庫或中間件方法、基于數據流引擎方法以及基于搜索引擎方法。

4.2 大數據存儲與管理

數據壓縮技術雖然能減少數據量和提高存儲效率,但同時也加重了計算結點的數據處理負擔。考慮到存儲空間和數據的性質,針對不同的數據采取不同的存儲方式。核心業務數據依舊采用傳統的并行數據倉庫進行存儲;時效性要求高的數據則采用實時數據庫或內存數據庫;對大量的累積數據和無結構數據則采用分布式文件系統。

4.3 大數據分析與挖掘

人們希望如何從海量的數據中迅速的提煉出關鍵信息,為社會和企業帶來價值。大數據分析的主要方法分為:統計數據分析方法、基于機器學習的分析方法、基于圖的分析方法和自然語言中的分析方法。大數據的挖掘包括關聯規則、分類分析、聚類分析等。常用的數據挖掘工具有:R語言、RapidMiner、免費的Weka、KNIME以及Prange等。最典型的挖掘平臺包括基于Hadoop的平臺和基于Spark的平臺。

4.4 大數據展示技術

作為最重要的展示技術,可視化技術可迅速有效地提煉數據流,幫助用戶迅速的從大量的數據中篩選出新的發現。大數據可視化技術包括:高維數據可視化、文本數據可視化、網絡數據可視化、時空數據可視化等。在大數據可視化分析領先的公司是Tableau Software公司,該公司致力于讓不懂可視化技術的特定行業領域知識專家也能方便地進行實時數據分析展示。其他可視化工具包括:文本可視化工具Wordle、網絡可視化工具Gephi以及Data-Dirven Documents。

4.5 大數據隱私與安全

面對日益嚴峻的大數據安全形勢,目前主流的安全解決方法包括:經典的文件訪問控制技術、設備加密技術、匿名保護技術、加密保護技術、數據水印技術等。同時提出利用大數據技術本身用作大數據安全防護的實現方法,增強大數據時代的信息安全防護性能。

5 大數據發展趨勢

隨著大數據應用的日益廣泛,新的問題也不斷涌現。大數據研究的方向大體如下[6]:

(1)傳統的關系型數據庫與日益壯大的非關系數據庫的集成

(2)采集的數據的不確定性與數據質量

(3)跨領域數據集成方法的可移植性

(4)利用大數據進行預測

6 結束語

大數據關系到到國防軍事、社會生活、經濟金融和科學技術等多方面的問題,大數據已經成為推動社會經濟發展的強進動力。本文首先闡述了大數據的概念和大數據技術面臨的挑戰,然后介紹了大數據集成技術、數據分析與挖掘技術、數據展現技術,最后總結了大數據研究的重點方向。如何高效、合理地利用大數據為社會服務,還需要進一步地探索發現新技術。

【參考文獻】

[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶,ViktorMayer-Schonberger,等.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社,2013.

[2]孫勤紅,沈鳳仙.大數據時代的數據挖掘及應用[J].電子技術與軟件工程,2016(6):204-204.

[3]Ji C,Li Y,Qiu W,et al.Big Data Processing in Cloud Computing Environments[C].International Symposium on Pervasive Systems,Algorithms and Networks.IEEE,2013:17-23.

[4]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J]. 南京信息工程大學學報,2014(5):405-419.

[5]涂新莉,劉波,林偉偉.大數據研究綜述[J].計算機應用研究,2014,31(6):1612-1616.

[6]中國計算機學會大數據專家委員會.中國大數據技術與產業發展白皮書[R].2013.

猜你喜歡
數據處理數據挖掘大數據
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數據挖掘云服務及應用
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
基于GPGPU的離散數據挖掘研究
基于POS AV610與PPP的車輛導航數據處理
主站蜘蛛池模板: 久久综合色视频| 欧美成a人片在线观看| a毛片免费看| 97精品国产高清久久久久蜜芽| 青草视频在线观看国产| 欧美成人免费| 国产人人乐人人爱| 精品欧美一区二区三区在线| 国产亚洲精品在天天在线麻豆| 国产尤物在线播放| 欧美啪啪精品| 激情六月丁香婷婷四房播| 欧美人与牲动交a欧美精品| 高清视频一区| 免费在线a视频| 国产一区在线视频观看| 国产精品白浆在线播放| 国产亚洲男人的天堂在线观看| 久草视频中文| 香蕉国产精品视频| 人妻丰满熟妇av五码区| 亚洲综合网在线观看| 日本成人在线不卡视频| 无码福利视频| 精品夜恋影院亚洲欧洲| 激情午夜婷婷| 中文成人在线视频| 色综合天天视频在线观看| 日本爱爱精品一区二区| 日韩人妻精品一区| 在线欧美一区| 一区二区三区毛片无码| 九色国产在线| 欧美日韩在线国产| 亚洲二区视频| 99er这里只有精品| 久久国产热| 久久精品中文无码资源站| 欧洲熟妇精品视频| 91日本在线观看亚洲精品| 波多野结衣在线se| 国产另类视频| 日韩美毛片| 天堂中文在线资源| 2018日日摸夜夜添狠狠躁| 美女被躁出白浆视频播放| 波多野结衣一区二区三区88| 国产永久在线视频| 亚洲免费黄色网| 国产网站免费| 国产乱人免费视频| 一本视频精品中文字幕| 一区二区在线视频免费观看| 91精品久久久久久无码人妻| 五月婷婷亚洲综合| 久久综合丝袜长腿丝袜| 亚洲天堂久久久| 国产女人在线观看| 欧洲高清无码在线| 19国产精品麻豆免费观看| 乱人伦视频中文字幕在线| 在线观看欧美国产| 久久精品亚洲中文字幕乱码| 亚洲资源站av无码网址| 美女国内精品自产拍在线播放| 国产精品欧美日本韩免费一区二区三区不卡 | 在线亚洲小视频| 国产一级在线观看www色| 天堂网亚洲综合在线| 久久久久亚洲av成人网人人软件 | 伊人久久大线影院首页| 91亚洲免费| 国产麻豆福利av在线播放| 午夜不卡视频| 免费毛片全部不收费的| 婷婷亚洲最大| 黄色一及毛片| 色婷婷在线播放| 玖玖精品在线| 久久这里只有精品23| 国产拍揄自揄精品视频网站| 国产精品99在线观看|