999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據技術體系及發展趨勢探析

2021-08-27 08:54:10黃小華
商業文化 2021年20期
關鍵詞:數據挖掘數據庫

黃小華

進入二十一世紀以來,以計算機技術、網絡技術等為代表的新技術應用,深刻的改變了人類社會的方方面面,尤其是近年來,伴隨著5G技術的應用、物聯網技術的突飛猛進,萬物互聯、一切皆可數據化似乎正從夢想走向現實。目前,數據已經滲透到了每一個行業領域并成為重要的生產因素,數據規模也正以驚人的速度呈膨脹式的增長,大數據正成為這個時代最為顯著的標簽。大數據概念的提出,顛覆了我們對傳統數據的認識,同時也引起了數據獲取、存儲、分析、挖掘以及可視化等技術的變革,大數據以及其相關技術的發展正在成為改變人類生產以及生活方式的重要基礎。本文基于對大數據內涵的認識,就其技術體系進行一些探討并分析其未來發展趨勢,以期能夠對相關研究提供一些參考與借鑒。

大數據內涵分析

大數據的概念一經提出便受到了學界的廣泛關注,但到目前為止,對于大數據還沒有形成一個統一的定義。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。維基百科則將大數據定義為:利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間限制的數據集。中國科學院院士徐宗本則將大數據定義為:不能夠集中存儲、并且難以在可接受時間內分析處理,其中個體或部分數據呈現低價值性而數據整體呈現高價值的海量復雜數據集。從上述定義不難看出,大數據從不同角度、側重點可以有不同的理解,但其本質核心是一種數據集,是相較于傳統數據在獲取、存儲、分析處理等方面具有較大差異,需要特殊技術支撐的復雜數據集合。

大數據具有數據規模大、流動速度快、類型多樣、低價值密度以及真實性等特征,這使得其與傳統數據相較具有較大差異。計算機技術、數字化技術以及網絡技術等的飛速發展以及大范圍普及是大數據產生的基礎條件,使得數據的產生脫離了對活動的依賴,從被動產生到主動產生再到自發性產生,數據的規模在此情況下得到了爆發性的增長。但大數據的戰略意義或者說是價值體現并不在于對海量數據的掌握,而在于對這些數據的分析加工、處理能力,也就是說,大數據技術才是大數據從“死數據”變成“活資產”的關鍵。大數據的數據類型主要分為結構化數據、非結構化數據的半結構化數據,其中非結構化數據和半結構化數據是大數據的主要類型,也被稱為異構數據。由于半結構化數據和非結構化數據無規則性結構、模式多樣化,且在大數據海量數據規模中占比較大,為大數據的存儲、分析、呈現帶來巨大挑戰。

大數據技術體系

大數據采集技術

大數據采集是指從終端設備、社交網絡、企業管理系統以及其它互聯網平臺、系統等獲取數據的過程。大數據采集的數據包括了從各種數據源如RFID、傳感器、社交網絡及移動互聯網等采集的各種類型的結構化、半結構化及非結構化的海量數據。這些數據不但來源廣泛,且數據類型多樣、規模龐大、產生速度快,傳統的數據采集方法基本無法勝任。大數據采集過程中主要挑戰是并發數高,成千上萬的用戶在同一時間對系統進行訪問和操作,無疑對其技術支撐提出了挑戰。大數據采集的數據源不同,數據采集方法也有所不同。就目前來說,針對不同的數據源,采集方法大致有如下幾種:一是數據庫采集。傳統的關系型數據庫如MySQL和Oracle等可用大數據的采集,但其在處理超大規模和高并發的數據采集中顯得有些力不從心。近年來,非關系型數據庫如Redis、MongoDB和HBase等在大數據采集中的應用日益增多;二是系統日志采集。很多企業管理系統、商務平臺每天都會產生大量的日志,這些日志是大數據中的一種重要數據類型。對于系統日志采集,目前使用最廣泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求;三是網絡數據采集。網絡數據采集是指通過網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。網絡爬蟲會從一個或若干初始網頁的URL開始,獲得各個網頁上的內容,并且在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足設置的停止條件為止。這樣可將非結構化數據、半結構化數據從網頁中提取出來,存儲在本地的存儲系統中。四是感知設備數據采集感知設備數據采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。其關鍵技術包括針對大數據源的智能識別、感知、適配、傳輸、接入等。

大數據存儲技術

大數據的存儲與數據采集環節密切相關。一般情況下,當數據采集量在一定的量級范圍內且僅需要響應簡單的處理請求時,可將數據存儲在輕型數據庫內。大數據存儲的輕型數據庫包括了關系型數據庫、非關系型數據庫和一些新型數據庫。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大數據存儲的關系型數據庫;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大數據存儲的非關系型數據庫;此外,Google的Spanner、Megastore、F1是具有代表性的大數據NewSQL數據庫。

當輕型數據庫難以滿足大數據存儲需要時,便需要采取大型分布式存儲數據庫或者分布式存儲集群的方式,這類大數據存儲技術也被稱為大數據存儲平臺。目前典型的大數據存儲平臺包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。

猜你喜歡
數據挖掘數據庫
探討人工智能與數據挖掘發展趨勢
數據庫
財經(2017年15期)2017-07-03 22:40:49
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據挖掘技術在中醫診療數據分析中的應用
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 亚洲精品制服丝袜二区| 国产亚洲高清视频| 欧美激情第一欧美在线| 免费观看无遮挡www的小视频| av一区二区人妻无码| 狠狠干欧美| 国产最新无码专区在线| 一区二区三区国产精品视频| 波多野结衣二区| 国产精品一区二区不卡的视频| 五月综合色婷婷| 999国内精品久久免费视频| 久青草免费在线视频| 国产精品亚欧美一区二区| 69综合网| 国产激爽大片在线播放| 亚洲精品视频在线观看视频| 在线观看免费AV网| 亚洲嫩模喷白浆| 最新国产在线| av尤物免费在线观看| 亚洲人成网站在线观看播放不卡| 18禁不卡免费网站| a在线亚洲男人的天堂试看| 国产成人亚洲综合a∨婷婷| 综合色在线| 九一九色国产| 国产精品美乳| 国产成人亚洲毛片| 青草国产在线视频| 国产一级在线播放| 午夜无码一区二区三区| 欧洲亚洲一区| 国产人人乐人人爱| 自偷自拍三级全三级视频| 亚洲精品麻豆| 91精品久久久无码中文字幕vr| 国产乱子伦无码精品小说| 国产杨幂丝袜av在线播放| 国内丰满少妇猛烈精品播| 91视频首页| 日韩av在线直播| 98精品全国免费观看视频| 日本免费福利视频| 奇米影视狠狠精品7777| 免费观看欧美性一级| 91麻豆精品国产高清在线| 伊人久久久大香线蕉综合直播| 日韩大片免费观看视频播放| 人妻丰满熟妇AV无码区| 新SSS无码手机在线观看| www.91在线播放| 国产日韩欧美精品区性色| 亚洲成a∧人片在线观看无码| 欧美怡红院视频一区二区三区| 在线免费a视频| 亚洲嫩模喷白浆| 毛片a级毛片免费观看免下载| 久久青草视频| 婷婷丁香在线观看| 久久精品91麻豆| 精品国产香蕉在线播出| 国产色网站| 国产亚洲欧美在线视频| 久久精品视频亚洲| 97视频在线观看免费视频| 国产精品毛片一区| 在线免费看片a| 成年看免费观看视频拍拍| 中文字幕亚洲精品2页| 97se亚洲综合在线韩国专区福利| 九色综合伊人久久富二代| 91外围女在线观看| 2021国产精品自拍| 亚洲国产精品VA在线看黑人| 国产精品白浆在线播放| 91无码视频在线观看| 99热这里只有免费国产精品| 无码高潮喷水在线观看| 久久亚洲美女精品国产精品| 欧美黄网在线| 尤物国产在线|