999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據收集與存儲的數據挖掘分析及研究

2017-11-02 18:23:22楊靜許峰
軟件導刊 2017年10期
關鍵詞:云計算數據挖掘大數據

楊靜++許峰

摘要: 大數據應用研究已成為學術界熱點。為更好地收集與存儲大數據,變革對數據的管理以使其在大數據時代更好地服務于企業、社會與科學研究,探討了目前大數據收集與存儲方式的優缺點,提出了大數據挖掘與分析面臨的問題,為下一步研究大數據生物存儲方法奠定基礎。

關鍵詞:大數據;數據收集;數據存儲;數據挖掘;云計算

DOIDOI:10.11907/rjdk.171755

中圖分類號:TP301文獻標識碼:A文章編號:16727800(2017)010000103

英文標題The Analysis and Research of Data Mining Based on the Big Data Collection and the Storage

——副標題

0引言

隨著互聯網、物聯網、云計算、三網融合等IT與通信技術迅猛發展,數據的快速增長給許多行業帶來了嚴峻挑戰與寶貴機遇,信息社會進入了大數據時代[1]。2011年5月,在“云計算相遇大數據”為主題的“EMC World 2011”會議中,EMC拋出了Big Data概念。《紐約時報》2012年2月一篇專欄稱“大數據”時代已經降臨許多現實世界的領域。哈佛大學社會學教授加里·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”大數據的涌現不僅改變著人們的生活、工作方式與企業運作模式,甚至還會引起科學研究模式的根本性改變。

大數據是指無法在一定時間內用常規機器與軟硬件工具對其進行感知、獲取、管理、處理、服務的數據集合[2]。IBM將大數據的特點總結為4個V,即大量化(Volume)、多樣化(Variety)、快速化(Velo- city)與價值密度低(Value)。首先,網絡空間中數據的規模不斷擴大,已經從GB、TB到PB,有的甚至以EB或ZB等單位來計數,IDC研究報告稱,未來10年全球大數據將增加50倍,管理數據倉庫的服務器數量將增加l0倍以迎合50倍的大數據增長。有專家研究認為,從人類文明誕生到2003年所產生的數據大約為5EB,而2003-2012年產生的數據是2003年以前的500倍之多,達到2.7ZB,2012-2015年所產生的數據又翻了3倍。大數據數據集在以難以想象的速度增長,大數據收集、存儲及挖掘給數據的處理帶來了極大挑戰。

1數據收集

大數據的特點除了數量多以外,還有種類雜、來源廣等,這導致處理數據前的存儲問題變得比以往更為復雜[38]。存儲數據本身不是一項新技術,但舊時存儲技術已無法完全勝任大數據下的要求,因為在海量數據面前,存儲數據已不再是單純的存儲行為,在存儲這些數據前,首先要面對如何提取或收集有用數據。

隨著手機、平板電腦、智能家電、VR等硬件與搭載其上的社交軟件、數據處理工具、編輯器等軟件普及,每天或者說每秒都會產生難以估量的數據。這些數據必須收集起來加以分析,才能使其價值體現出來,而數據收集難點主要有以下幾個方面:

(1) 求真。信息增多,同時也意味著錯誤或虛假情報增多,錯誤的信息不僅增加了工作量,還影響了數據分析的價值。因此,在獲取信息時對信息可信度進行評估是非常重要且必要的。

(2) 及時。大數據下并不一定總需要保障數據的及時性,但也有相當多情況需要保障及時性,如交通出行數據或突發事件處理等,因此需要兼顧及時性問題。

收集數據在大數據時代下已不再是被動與單一地收集特定數據,而是主動收集需要的數據,隨時隨地進行收集。作為實現數據有效價值的第一步,還有很長一段路要走,這是有意義的一條道路,將會對大數據發展起到非常重要的作用。

2數據存儲

提取出有用數據后,就應該選擇合適數據庫或其它方式進行存儲,以方便以后的數據分析。基于傳統關系型數據庫的存儲特點,由于大數據結構復雜,且無法在獲取數據前很好地預測大數據結構,目前數據庫還未能滿足大數據時代的數據存儲需求。

大數據中有大量冗余,消除冗余是降低開銷的重要途徑。大數據當前的存儲方式不僅影響效率也影響成本,需要研究高效率低成本數據存儲方式、多源多模態數據高質量獲取與整合理論技術、錯誤自動檢測與修復理論技術以及低質量數據上的近似計算理論與算法。這些問題對當今數據處理技術提出了巨大挑戰。

目前一些大公司(如Google、Facebook、Microsoft、IBM與Oracle等)都設計了許多專門應對大數據時代的存儲技術,尤其是Google在這一方面取得了非常大的成就。

2013年,Goldman 與Ewan Birney[9]在實驗室實現了DNA存儲技術,成功使用DNA編碼存儲了5個文件。在此之前,哈佛大學生物學家George Church等[10]將一本約有5.34萬個單詞的書籍進行DNA編碼存儲,用了不到1g的DNA微芯片,并實現了利用DNA測序來閱讀。如果信息存儲密度可以像大腸桿菌的基因一樣密集,那么全世界數據只需要1kg的DNA。瑞士Robert Grass等[11]將DNA保存在二氧化硅球體里,模擬在10℃下保存2 000年,數據依然完好無損,這預示著利用DNA存儲數據可以更長久保存數據的完整性。DNA計算機具有4個方面突出優點:①高度并行性,整體運算速度快;②海量存儲能力;③能耗低;④資源豐富。其計算原理是利用DNA分子具有的海量存儲能力及生化反應的巨大并行性等特點進行計算,這也正是電子計算機所不具備的。

3數據挖掘與分析

大數據的價值是毫無疑問的,然而與普通數據不同,普通數據的價值在大多數情況下直接體現在數據上,數據價值與數據量基本上成正比,但大數據卻不一定,數據越多并不一定代表價值越大,相反,在有些時候,數據越多對于存儲與分析數據的能力要求會越高,且無法提前確定數據價值。正因為這樣,大數據下分析與挖掘數據價值是一件非常有挑戰性的工作,主要會遇到以下問題[12]:endprint

(1)分析目標對分析方法的影響。大數據下,因為從不同側面分析同一份數據會得到不同的結果,因此需要在確定目標的前提下去分析數據。某些情況下會存在對同一個問題多次分析,因為在分析一些大問題時可能已經分析過其中的小問題,或者說對被分析問題的徹底理解需要借助更多關系,這勢必提高問題難度,因為無法預料到各方面的權重是否合理。

(2)數據量對分析速度的影響。數據量對分析速度的影響除了表現在運算上,還有一個分析系統可承載數據量的問題。因為任何一個系統可以同時運算的數據量都不會無限大,系統存在一個負載問題,大數據下數據量的急劇增加導致了許多問題,很多運算系統必須改進。另一個問題是數據太多,運算時數據傳輸會影響數據運算速度,也許可以考慮改變運算方式,不是把數據輸入到CPU去分析,而是讓CPU去分析數據,但又會出現一些新的問題,需要研究一些新的技術與算法。

(3)隱私權是數據分析必須思考的問題。大數據隱藏著許多信息,簡單幾個數據不會輕易體現一個人的行蹤,但當許多數據集中在一起時,結果可能就不一樣了。因此還必須考慮隱私問題,這同樣提高了數據分析的難度。

Google等一些科技公司為了應對大數據時代的機遇與挑戰,研發了專門的數據庫軟件與新技術,比如Google在2004年提出了Map Reduce,完整流程如圖1所示。

這是一個具有代表意義的批處理模式,從圖1可見,將問題分而治之的思路,好處是顯而易見的,復雜問題變得不那么復雜,且改變了數據與計算的關系。回想計算機發展史,從最初以運算器為中心的馮·洛依曼機到現在以存儲器為中心的計算機結構,Map Reduce改變了數據必須送到計算中處理的方式,讓計算“跑”到數據中處理數據。關系型數據庫在很長一段時間內都是處理數據的最佳選擇,然而隨著大數據時代對數據處理需求的改變,出現了許多特別應對大數據分析的工具,Hadoop是目前比較流行的平臺,當然也有在Hadoop基礎上改進或完全獨立開發的工具。

4數據分析結果顯示

為什么數據分析結果不可以使用傳統的方式展示,而要特地設計?先來看一組數據,如圖2所示。

從圖2可以看出原始數據的復雜性,分析結果也是多維度的,無法也不需要列出全部分析結果,這就需要尋求新的方式去展示數據分析結果。分析結果可能牽扯到個人隱私,這也是需要面對的問題。比如在Google里搜索關鍵字,會在無意識情況下將一個人的私人偏好或目前面臨的問題暴露出來(比如Google后臺被入侵或Google出售自己的數據,雖然這二者可能性都很低)。數據分析結果并不簡單,需要兼顧非常多的技術問題與非技術問題。

5結語

如今,數據越來越多,但它本身只是璞玉,需經過精雕細琢才能實現真正的價值。總的來說,大數據研究才剛剛起步,還有許多基礎問題需要解決;大數據與其它計算機技術有什么不同、是否會在根本上導致新的計算機革命,還需要較長時間來驗證。不過,在某種意義上,大數據的魅力正是其未來的無限可能,因為未來無法預測,才令人充滿好奇,停不下探索的腳步。

參考文獻參考文獻:

[1]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J].南京信息工程大學學報:自然科學版,2014(5):405419.

[2]馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013,34(2):1017.

[3]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015,45(1):144.

[4]嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013(4):168172.

[5]WU X,ZHU X,WU G Q, et al. Data mining with big data[J]. IEEE Transactions on Knowledge & Data Engineering,2014,26(1):97107.

[6]BENSRHIR A. Big data for geopolitical analysis: application on barack obama's remarks and speeches[C]. ACS International Conference on Computer Systems and Applications IEEE Computer Society,2013:14.

[7]ZHENG Z, ZHU J, LYU M R. Servicegenerated big data and big dataasaservice: an overview[C]. IEEE International Congress on Big Data,2013:403410.

[8]ZIN T T, TIN P, TORIU T,et al. A big data application framework for consumer behavior analysis[C]. Consumer Electronics IEEE,2013:245246.

[9]GOLDMAN N, BERTONE P, CHEN S,et al. Toward practical highcapacity lowmaintenance storage of digital information in synthesised DNA[J]. Nature,2013:494.

[10]CHURCH G M,GAO Y,KOSURI S. Supplementary materials for nextgeneration nextgeneration digital information storage in DNA[J]. Science, 2012,337:16281643.

[11]GRASS R N, HECKEL R, PUDDU M,et al. Robust chemical preservation of digital information on DNA in silica with errorcorrecting codes[J]. Angewandte Chemie International Edition,2015,54(8):25522555.

[12]陳鵬.面向大數據應用的異構可重構平臺關鍵技術研究[D].合肥:中國科學技術大學,2015.

責任編輯(責任編輯:何麗)endprint

猜你喜歡
云計算數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于云計算的移動學習平臺的設計
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
云計算中的存儲虛擬化技術應用
科技視界(2016年20期)2016-09-29 13:34:06
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 欧洲一区二区三区无码| 欧美乱妇高清无乱码免费| 国产丝袜91| 老司机精品99在线播放| 青草精品视频| 91国语视频| 在线欧美a| 丁香亚洲综合五月天婷婷| 欧美福利在线观看| 欧美中文一区| 亚洲系列中文字幕一区二区| 国产亚洲男人的天堂在线观看| 欧美日韩第二页| av大片在线无码免费| 91免费国产高清观看| 日韩精品一区二区三区swag| 国内毛片视频| 久久伊人操| 亚洲第一区欧美国产综合| 国产欧美日韩一区二区视频在线| 99久久精品免费观看国产| 青青国产视频| 精品国产aⅴ一区二区三区| 欧美性精品| 一级毛片在线播放| 久久中文字幕2021精品| 久久久黄色片| 欧美成人a∨视频免费观看| 天天色天天综合网| 亚洲日韩Av中文字幕无码 | 国产黄在线免费观看| 亚洲第一中文字幕| 99ri精品视频在线观看播放| 国产成人精品2021欧美日韩| 国产美女91视频| 国产成人精品无码一区二| 欧美成人手机在线观看网址| 精品福利网| 日韩在线播放欧美字幕| 亚洲精品自拍区在线观看| 日韩天堂在线观看| 日本在线免费网站| 国产一区二区影院| h视频在线播放| 欧美五月婷婷| 高清不卡毛片| 青青草国产精品久久久久| 国产黄色免费看| 男人天堂亚洲天堂| 亚洲欧美综合在线观看| 国产一区二区在线视频观看| 欧美视频免费一区二区三区| 午夜在线不卡| 精品午夜国产福利观看| 97视频在线观看免费视频| 凹凸精品免费精品视频| 国产无码精品在线播放| 激情六月丁香婷婷四房播| 日韩精品亚洲精品第一页| 国产欧美日韩综合在线第一| 99视频在线免费| 亚洲第一天堂无码专区| 19国产精品麻豆免费观看| 亚洲高清免费在线观看| 亚洲视频二| 精品人妻一区无码视频| 青青青视频免费一区二区| 成人国产精品2021| 精品免费在线视频| 国产欧美日韩免费| 中日韩欧亚无码视频| 丝袜国产一区| 高清不卡毛片| 天堂成人在线视频| 日韩成人午夜| 久久国产免费观看| 国产精品久久久久无码网站| 欲色天天综合网| 内射人妻无码色AV天堂| 国产爽妇精品| 97在线碰| 婷婷综合缴情亚洲五月伊|