999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據技術體系及發展趨勢探析

2021-08-27 08:54:10黃小華
商業文化 2021年20期
關鍵詞:數據挖掘數據庫

黃小華

進入二十一世紀以來,以計算機技術、網絡技術等為代表的新技術應用,深刻的改變了人類社會的方方面面,尤其是近年來,伴隨著5G技術的應用、物聯網技術的突飛猛進,萬物互聯、一切皆可數據化似乎正從夢想走向現實。目前,數據已經滲透到了每一個行業領域并成為重要的生產因素,數據規模也正以驚人的速度呈膨脹式的增長,大數據正成為這個時代最為顯著的標簽。大數據概念的提出,顛覆了我們對傳統數據的認識,同時也引起了數據獲取、存儲、分析、挖掘以及可視化等技術的變革,大數據以及其相關技術的發展正在成為改變人類生產以及生活方式的重要基礎。本文基于對大數據內涵的認識,就其技術體系進行一些探討并分析其未來發展趨勢,以期能夠對相關研究提供一些參考與借鑒。

大數據內涵分析

大數據的概念一經提出便受到了學界的廣泛關注,但到目前為止,對于大數據還沒有形成一個統一的定義。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。維基百科則將大數據定義為:利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間限制的數據集。中國科學院院士徐宗本則將大數據定義為:不能夠集中存儲、并且難以在可接受時間內分析處理,其中個體或部分數據呈現低價值性而數據整體呈現高價值的海量復雜數據集。從上述定義不難看出,大數據從不同角度、側重點可以有不同的理解,但其本質核心是一種數據集,是相較于傳統數據在獲取、存儲、分析處理等方面具有較大差異,需要特殊技術支撐的復雜數據集合。

大數據具有數據規模大、流動速度快、類型多樣、低價值密度以及真實性等特征,這使得其與傳統數據相較具有較大差異。計算機技術、數字化技術以及網絡技術等的飛速發展以及大范圍普及是大數據產生的基礎條件,使得數據的產生脫離了對活動的依賴,從被動產生到主動產生再到自發性產生,數據的規模在此情況下得到了爆發性的增長。但大數據的戰略意義或者說是價值體現并不在于對海量數據的掌握,而在于對這些數據的分析加工、處理能力,也就是說,大數據技術才是大數據從“死數據”變成“活資產”的關鍵。大數據的數據類型主要分為結構化數據、非結構化數據的半結構化數據,其中非結構化數據和半結構化數據是大數據的主要類型,也被稱為異構數據。由于半結構化數據和非結構化數據無規則性結構、模式多樣化,且在大數據海量數據規模中占比較大,為大數據的存儲、分析、呈現帶來巨大挑戰。

大數據技術體系

大數據采集技術

大數據采集是指從終端設備、社交網絡、企業管理系統以及其它互聯網平臺、系統等獲取數據的過程。大數據采集的數據包括了從各種數據源如RFID、傳感器、社交網絡及移動互聯網等采集的各種類型的結構化、半結構化及非結構化的海量數據。這些數據不但來源廣泛,且數據類型多樣、規模龐大、產生速度快,傳統的數據采集方法基本無法勝任。大數據采集過程中主要挑戰是并發數高,成千上萬的用戶在同一時間對系統進行訪問和操作,無疑對其技術支撐提出了挑戰。大數據采集的數據源不同,數據采集方法也有所不同。就目前來說,針對不同的數據源,采集方法大致有如下幾種:一是數據庫采集。傳統的關系型數據庫如MySQL和Oracle等可用大數據的采集,但其在處理超大規模和高并發的數據采集中顯得有些力不從心。近年來,非關系型數據庫如Redis、MongoDB和HBase等在大數據采集中的應用日益增多;二是系統日志采集。很多企業管理系統、商務平臺每天都會產生大量的日志,這些日志是大數據中的一種重要數據類型。對于系統日志采集,目前使用最廣泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求;三是網絡數據采集。網絡數據采集是指通過網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。網絡爬蟲會從一個或若干初始網頁的URL開始,獲得各個網頁上的內容,并且在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足設置的停止條件為止。這樣可將非結構化數據、半結構化數據從網頁中提取出來,存儲在本地的存儲系統中。四是感知設備數據采集感知設備數據采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。其關鍵技術包括針對大數據源的智能識別、感知、適配、傳輸、接入等。

大數據存儲技術

大數據的存儲與數據采集環節密切相關。一般情況下,當數據采集量在一定的量級范圍內且僅需要響應簡單的處理請求時,可將數據存儲在輕型數據庫內。大數據存儲的輕型數據庫包括了關系型數據庫、非關系型數據庫和一些新型數據庫。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大數據存儲的關系型數據庫;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大數據存儲的非關系型數據庫;此外,Google的Spanner、Megastore、F1是具有代表性的大數據NewSQL數據庫。

當輕型數據庫難以滿足大數據存儲需要時,便需要采取大型分布式存儲數據庫或者分布式存儲集群的方式,這類大數據存儲技術也被稱為大數據存儲平臺。目前典型的大數據存儲平臺包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。

猜你喜歡
數據挖掘數據庫
探討人工智能與數據挖掘發展趨勢
數據庫
財經(2017年15期)2017-07-03 22:40:49
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據挖掘技術在中醫診療數據分析中的應用
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 黄色在线不卡| 日韩欧美国产精品| 久热这里只有精品6| 国产熟睡乱子伦视频网站| 免费无码AV片在线观看国产| 国产乱人伦偷精品视频AAA| 尤物国产在线| 色综合综合网| 日本免费福利视频| 国产精品久久久精品三级| 国产在线观看一区精品| 日韩第九页| 国产成+人+综合+亚洲欧美| 免费99精品国产自在现线| 女高中生自慰污污网站| 亚洲三级影院| 狠狠色噜噜狠狠狠狠色综合久 | 亚洲无码日韩一区| 久久久久免费精品国产| 精品国产成人国产在线| 久久特级毛片| 国产综合色在线视频播放线视| 亚洲欧洲日韩久久狠狠爱| 91人妻日韩人妻无码专区精品| 热久久综合这里只有精品电影| 综合色在线| 2021天堂在线亚洲精品专区| 丁香婷婷久久| 国产v欧美v日韩v综合精品| 亚洲欧美日韩精品专区| 日本三级欧美三级| 亚洲精品视频免费观看| 久久精品日日躁夜夜躁欧美| 国产无码网站在线观看| 成人噜噜噜视频在线观看| 国产99视频在线| 五月天综合网亚洲综合天堂网| 国产视频 第一页| 亚洲一道AV无码午夜福利| 一级毛片免费高清视频| 免费国产高清精品一区在线| 麻豆AV网站免费进入| 人妻丰满熟妇AV无码区| 2020国产精品视频| 成人91在线| 国产打屁股免费区网站| www.99在线观看| 欧美色伊人| 亚洲精品第一在线观看视频| 伊人丁香五月天久久综合 | 久久99国产综合精品1| 国产精品美女免费视频大全| 91精品国产91久无码网站| 男女猛烈无遮挡午夜视频| 国产在线啪| 亚洲精品在线观看91| 91久久国产综合精品女同我| 久久精品只有这里有| 国产精品午夜福利麻豆| 久久性视频| 特级欧美视频aaaaaa| 欧洲亚洲欧美国产日本高清| 欧美日韩午夜| 宅男噜噜噜66国产在线观看| 91精品伊人久久大香线蕉| 欧美一级专区免费大片| 欧美一区精品| 国产91视频免费观看| 亚洲国产系列| 亚洲Av综合日韩精品久久久| 国产毛片不卡| 国产女人爽到高潮的免费视频| 久久永久视频| 欧美亚洲第一页| 国产自产视频一区二区三区| 成人一级免费视频| 一级毛片免费不卡在线| 中文成人在线| 久久综合婷婷| 亚洲欧美日韩动漫| 欧美一级99在线观看国产| 午夜精品一区二区蜜桃|