999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談大數據平臺技術

2019-10-21 04:26:05耿曉斐
科學導報·學術 2019年40期
關鍵詞:數據挖掘數據庫體系

耿曉斐

摘要:隨著以AI、大數據、云計算技術的深度融合,以深度學習為代表的研究為數據更好的利用提供技術支持。為深入理解大數據技術的內涵,從大數據的定義、4V特征、體系架構等方面進行闡述。介紹了大數據的基本概念、特征,總結了云計算、系統層、算法層、應用層的核心技術及關鍵策略。

關鍵詞:大數據;4V定義;體系結構;

一、大數據定義

大數據這一概念目前沒有統一的定義?,F在業界一般認可國際數據公司(IDC)用四個維度的特征來定義大數據,即數據集的規模(Volume)、數據流動的速度(Velocity)、數據類型的多少(Variety)和數據價值的大?。╒alue)。具體來說,大數據具有以下4個基本特征:

一是數據體量巨大,從 TB 級別,躍升到 PB 級別。

二是數據類型多樣?,F在的數據類型不僅是結構化數據,還有以半結構化、非結構化數據為主體的,如是圖片、視頻、音頻等多類型的數據,個性化數據占絕對多數。據統計,2012 年互聯網中非結構化數據量已達到75%以上。

三是價值密度低。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。

四是處理速度快。數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息。這一點也是和傳統的數據挖掘技術有著本質的不同。業界將這其歸納為 “4V”——Volume,Variety,Value,Velocity。

二、大數據平臺體系結構

從信息化角度來看,大數據系統一般由構架層、系統層、算法層、應用層四塊組成。

1.構架層

大數據與云計算融合是技術發展的趨勢,云計算解決大型數據中心的資源利用率提升和自動化運維管理,它管理的對象中顯然包括需要使用大量計算資源的“大數據”系統。因此從層次上講,云計算技術為大數據技術提供基礎資源,云計算是基礎設施能力(IaaS),大數據是云計算的一種服務能力(PaaS)。大數據集群是由多種角色組成的龐大的應用部署群,一般會分為部署節點、管理節點、計算節點、流計算節點、數據復制節點等,這些節點中只有計算節點因為承載了HDFS的海量數據持久化建議物理機部署外,其它節點都可以進行虛擬化部署,從而使大數據集群可以部署在云數據中心中統一管理,最終實現大數據服務的資源共享、統一管理、按需分配、動態調度。因此實際部署時,針對節點規模大的集群,可采用半虛半實的方式部署。大數據集群節點中的管理節點、流計算節點對IO的需求量不大,可以使用虛擬機方式進行部署,而計算節點對IO需求大,保留物理部署模式。同時在虛擬機中部署臨時的大數據集群,在大數據業務波峰時,通過臨時集群來彈性增加處理能力,分擔共享大數據集群的數據處理壓力。

2.系統層

Alluxio一個開源的基于內存的分布式存儲系統,現在成為開源社區中成長最快的大數據開源項目之一,已成為一個大數據存儲和共享平臺工業標準,并成為全球發展最快的大數據開源軟件系統。Alluxio的目的就是想要讓計算層和存儲層可以再次輕裝上陣,讓它們獨立的優化和發展自己,而不用擔心破壞兩者之間的依賴。具體說來,Alluxio提供一層文件系統的抽象給計算層。這層抽象之上的計算只需要和Alluxio交互來訪問數據;而這層抽象之下可以同時對接多個不同的持久化存儲(比如一個S3加上一個HDFS部署),而這層抽象本身又是由部署在靠近計算的內存級Alluxio存儲系統來實現。

它適用以下場景:

1.計算層需要反復訪問遠程(比如在云端,或跨機房)的數據;

2.計算層需要同時訪問多個獨立的持久化數據源(比如同時訪問S3和HDFS中的數據);

3.多個獨立的大數據應用(比如不同的Spark Job)需要高速有效的共享數據;

4.當計算層有著較為嚴重的內存資源、以及JVM GC壓力,或者較高的任務失敗率時,Alluxio作為輸入輸出數據的Off heap存儲可以極大緩解這一壓力,并使計算消耗的時間和資源更可控可預測。

3.算法層

數據挖掘是從海量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的計算過程。數據挖掘中用到了大量的機器學習界提供的數據分析技術和數據庫界提供的數據管理技術。機器學習是數據挖掘中的一種重要工具,然而機器學習的門檻較高,數據分析人員不僅需要了解各個算法的優缺點,而且需要了解每個算法的超參數調優技巧,一個數據分析流程一般包括數據清洗、特征提取、算法選擇以及模型評估等,所以被戲稱機器學習為“煉丹術”。使用某種學習機制,通過AI的方式自己來調整超參數,找出最優解的思想自然產生,AutoML、AutoKeras都是此類方法的代表,使用此類方法能讓用戶輕松地訓練高性能的深度網絡,而用戶無需具備任何機器學習或AI的知識就可以得到想要的數據。這種方式是今后的發展的方向,值的去進一步研究。

4.應用層

企業大數據應用體系其實就是在生產業務系統之外構建統一的企業級數據庫。企業級數據庫的建設,從技術架構上經歷了從數據倉儲體系到MPP數據庫體系,再到現在應用較廣的Hadoop架構體系。除了技術體系架構外,企業級數據庫的建設還包含數據模型的建立、數據管理體系建設、數據應用體系建設,而企業級數據庫的實際應用效果更多的則是依賴于企業自身數據專家庫的建立以及專業機構的推動。

三、小結

本文結合大數據的產生背景、需求和系統結構,梳理了大數據的基本概念及4V特征,總結歸納了大數據技術的架構體系,分析了每層的核心技術。目前大數據技術的研究還有許多深層次的問題亟待解決,如大數據4V特征中起關鍵作用的是什么,如何對網絡數據進行實時同步,如何對數據進行結構化處理等等,需要我們用更加敏銳的洞察力來分析和研究。

參考文獻:

[1]中國信息通信研究院 大數據白皮書 2018.4

[2]《深入理解大數據》 黃宜華、苗凱翔 機械工業出版社

[3]The Google File System Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung

[4]BARWICK H.The "four Vs" of big data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].

[5]Hadoop [EB/OL].[2012-10-02].

(作者單位:河南省開封市煙草公司信息中心)

猜你喜歡
數據挖掘數據庫體系
探討人工智能與數據挖掘發展趨勢
構建體系,舉一反三
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
“曲線運動”知識體系和方法指導
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产精品欧美日本韩免费一区二区三区不卡 | 国产极品粉嫩小泬免费看| 欧美日韩在线成人| 久久99精品久久久久久不卡| 久久99精品久久久大学生| 一区二区三区四区精品视频| aaa国产一级毛片| 国产成人综合久久精品尤物| 伊人成人在线视频| …亚洲 欧洲 另类 春色| 亚洲中文字幕久久无码精品A| 亚洲精品不卡午夜精品| 久草青青在线视频| 日韩免费成人| 亚洲开心婷婷中文字幕| 午夜福利无码一区二区| 日日碰狠狠添天天爽| 国产精品密蕾丝视频| 蜜芽一区二区国产精品| 欧美中文字幕无线码视频| 亚洲中文精品久久久久久不卡| 99久久99这里只有免费的精品| 亚洲国产精品久久久久秋霞影院| 中文字幕资源站| 最新国语自产精品视频在| 国产免费精彩视频| 精品国产乱码久久久久久一区二区| 99re在线观看视频| 婷五月综合| 99热国产这里只有精品无卡顿" | 伊人久久精品无码麻豆精品| 五月婷婷综合网| 久热中文字幕在线| 日韩在线视频网| 国产永久在线观看| 乱人伦99久久| 天天做天天爱天天爽综合区| 黄色a一级视频| 欧美成人综合视频| 亚洲天堂久久新| 一级毛片免费观看久| 成人欧美日韩| AV老司机AV天堂| 免费看av在线网站网址| 国产在线无码一区二区三区| 亚洲一区网站| 日本午夜视频在线观看| 手机在线看片不卡中文字幕| 狼友视频一区二区三区| 国产96在线 | 88av在线播放| 大学生久久香蕉国产线观看| 人妻无码中文字幕一区二区三区| 999精品视频在线| 无码有码中文字幕| 国产成人1024精品下载| YW尤物AV无码国产在线观看| 91在线精品免费免费播放| 美女免费精品高清毛片在线视| 中国毛片网| 欧美午夜在线视频| 欧洲av毛片| 亚洲永久精品ww47国产| 全裸无码专区| 国内精品久久久久鸭| 全部免费毛片免费播放| 国产午夜看片| 伊人久久大香线蕉aⅴ色| 亚洲无码日韩一区| 亚洲天堂网2014| 国产精品第| 三级毛片在线播放| 久久综合色天堂av| 国产视频欧美| 亚洲色中色| 日韩成人在线一区二区| 热久久综合这里只有精品电影| 亚洲av无码久久无遮挡| 亚洲国产91人成在线| lhav亚洲精品| 亚洲av片在线免费观看| 麻豆精品在线|