999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分布式系統數據倉庫工具Hive 的工作原理及應用

2022-01-18 02:33:54陳新房劉義卿
科學技術創新 2021年36期
關鍵詞:數據庫分析

陳新房 劉義卿

(防災科技學院信息工程學院,河北 廊坊 065201)

1990 年,比爾·恩門(Bill Inmon)第一次提出了數據倉庫概念,與結構化數據庫不同的是,數據倉庫研究和解決如何從數據庫中獲取信息的問題,數據倉庫的基本特征表現為是一個用戶主題域的、集成統一的、穩定性較強的、反映歷史變化的數據的集合,為管理層進行分析決策(Decision Making Support)提供強有力的支撐。就重要功能而言,數據倉庫仍然是對聯機事務處理(OLTP)長時間以來產生的海量大數據,通過數據倉庫組件特有的數據儲存結構,進行系統的、全面的分析與整理,以便通過不同的方法如聯機分析處理(OLAP)等進行分析處理。同時,隨著數據挖掘(Data Mining) 技術、決策支持系統(Decision-making Support System, DSS)、主管資訊系統 (Excutive Information System)的創建,通過數據倉庫操作能夠幫助決策者從大量數據中,快速高效的分析提取出有價值的信息,以利與決策制定以及對外部環境的變化租出響應。數據倉庫體系結構如圖1 所示。

圖1 數據倉庫體系結構

1 數據倉庫工具Hive 概述

Hive 的實現是基于Hadoop 生態系統的,通過Hive 工具,可以對數據進行提取、轉化、加載等操作,能夠對存儲在Hadoop 集群中的海量數據進行存儲、查詢和分析的操作機制。設計Hive工具的主要目的是使得對Java 編程技能掌握相對較弱但是對SQL 技能比較精通的數據分析師對存儲在HDFS 中的海量數據進行查詢功能操作。

Hive 工具將數據文件映射成一張數據庫表,通過類SQL 語言即HiveQL 語言的查詢功能,數據分析師通過編寫相對精通的HiveQL 語句,即可實現MapReduce 任務的功能。這一特性使得Hive 十分適合對大規模數據存儲、統計、分析、查詢操作,由于是部署在Hadoop 平臺之上,因而具有良好的擴展性。Hive 的優點是相對簡單易學,可以快速通過類似SQL 語句實現MapReduce 統計功能,可以大幅提高開發效率。

HiveQL 的設計只是降低了學習成本,其實質仍然是MapReduce 任務的實現。在此,再次強調,Hive 工具本身是數據倉庫,而不是結構化的數據庫系統,二者的主要區別如表1 所示。

表1 Hive 與數據庫的區別

2 Hive 系統架構

Hive 的體系結構可以分為以下幾部分:

2.1 用戶可以通過三種接口實現Hive 的操作,分別是CLI、Client 以及WUI(Web User Interface)等接口。最常用的實現方式是CLI,這種借口形式啟動CLI 接口同時會啟動一個Hive 副本。利用Client 模式可以實現用戶連接至Hive Server,這種形式需要指出Hive Server 所安裝的節點,在該節點上將啟動Hive Server 起來。顧名思義,WUI 接口形式是用戶通過瀏覽器實現Hive 的操作。

2.2 處于Hive 核心位置是驅動程序,由解釋器、編譯器、優化器三部分組成,通過驅動程序將HiveQL 語句進行詞法分析、語法分析、編譯、優化以及生產查詢計劃,進一步將生成的查詢計劃存儲在集群中,隨后轉換為MapReduce 任務執行完成。

2.3 與此同時,Hive 也有結構化數據庫,如MySQL、derBy 數據庫,這種結構化數據表存儲的是數據表的元數據,包括數據表名稱、列(字段)、分區以及是否為外部表、數據所在目錄等信息。如圖2 所示。

圖2 Hive 系統架構

3 Hive 的數據類型

雖然Hive 與結構化數據庫有很大區別,但是在數據類型方面,Hive 有著與結構化數據庫相同的基本數據類型,同時具有結構化數據庫不具有集合數據類型。

選擇數據類型時,需要考慮的因素主要有兩個方面:一是文本文件中數據類型如何表示的,二是需要考慮數據存儲過程中為了提高存儲、計算性能問題以及其他問題是否具備可以替代的方案。

相比與結構化數據庫,Hive 具有一個獨特的功能就是文件中數據的編碼方式具有非常大的靈活性。如表2、3 所示。

表2 Hive 的基本數據類型

表3 Hive 的集合數據類型

4 Hive 工作原理

簡單來說,Hive 就是基于Hadoop 平臺上的數據倉庫。在Hadoop 平臺上層設計了一個類SQL 接口(即HiveQL)作為查詢接口,可以將HiveQL 裝換為MapReduce 任務在Hadoop 平臺上運行實現。數據分析人員可以通過HiveQL 語言實現對海量數據的統計、分析、查詢操作,而不需要使用編程語言(例如Java)編寫MapReduce 程序進行實現。下面以常見的Group By 操作為例介紹實現過程。

現有一個數據分組Group By 操作,要求是將Score 表中的數據信息進行合并,合并的過程按照rank 與level 構成的組合鍵進行操作,計算出在每一個rank 和level 的組合鍵值下數據記錄的條數,不難寫出其sql 語句為:

select rank, level ,count (*) as value from score group by rank, level

對于group by 操作轉換為MapReduce 的過程如圖3 所示。

圖3 HSQL 語句轉換成MapReduce 的基本原理

5 Hive 數據分析

在此舉一個實例實踐操作Hive 數據分析過程。現有一個300000 行用戶信息的數據信息,將其上傳到分布式系統中,并利用數據倉庫Hive 工具進行數據分析。

5.1 數據準備

在HDFS 上創建數據存儲目錄,將數據上傳到HDFS 分布式文件系統中,并顯示其前10 行內容。

這是存儲在HDFS 文件系統中的數據,不能進行數據分析、清晰以及提取等操作,需要通過MapReduce 編程或Hive 實現對數據分析。但是MapReduce 要求數據分析人員對編程實現要求較高,實現較復雜,Hive 工具解決了這一難題,為精通SQL 語言而編程能力較弱的數據分析師對存儲在集群中的大規模數據進行查詢操作提供了便利。

5.2 啟動MySQL 服務,創建外部表

在Hive 數據倉庫中創建了外表并且加載數據后,就可以通過HSQL 語言進行數據分析操作了。

5.3 數據分析

①利用Hive 語句,查詢前20 位用戶購買商品時的時間和購買的商品種類。

2014-12-12 5232

②查詢出uid 不重復的數據有多少條。

hive>select count(distinct uid) from bigdata_user;

OK

270

此查詢編寫Mapreduce 實現過程至少70 行代碼,在此不在贅述。

5.4 數據導出

對數據分析完后,可以通過Sqoop 工具將其由Hive 導出到MySQL 結構化數據庫中,已方便使用者進行分析、存儲以及可視化等操作,各省消費用戶數如圖4 所示。

圖4 各省消費用戶數

總結,本文首先介紹了數據倉庫的概念,進而引入Hive 數據倉庫工具,設計Hive 工具的主要目的是使得對Java 編程技能掌握相對較弱但是對SQL 技能比較精通的數據分析師對存儲在HDFS 中的海量數據進行查詢功能操作進行論述,并介紹了Hive 的數據類型以及HiveQL轉換為MapReduce 任務的過程。最后利用HiveSQL 對300000行用戶信息進行數據分析操作,充分表明Hive 在數據分析上的特點,并將數據結果導出進行可視化。

猜你喜歡
數據庫分析
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
電力系統及其自動化發展趨勢分析
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 亚洲中文字幕在线精品一区| 欧美黄色a| 国产永久在线视频| 久久无码av三级| 国产精品亚洲欧美日韩久久| 久久免费成人| 亚洲无码91视频| 日韩a级毛片| 91最新精品视频发布页| 欧美三级日韩三级| 久久人妻xunleige无码| 国产v精品成人免费视频71pao | 亚洲国产欧美目韩成人综合| 日韩欧美中文在线| 亚洲中文久久精品无玛| 一级成人a毛片免费播放| 亚洲视频免| 亚洲精品第一在线观看视频| 久久夜夜视频| 国产成人久久综合一区| 热这里只有精品国产热门精品| 男人天堂亚洲天堂| 一本一道波多野结衣一区二区 | 国模沟沟一区二区三区| 国产色婷婷视频在线观看| a级毛片在线免费| 57pao国产成视频免费播放| 美女被操黄色视频网站| 亚洲一区二区约美女探花| 色婷婷综合在线| 无码区日韩专区免费系列| 久久免费观看视频| 亚洲欧美一级一级a| 欧美日韩中文国产va另类| 免费a在线观看播放| 国产又爽又黄无遮挡免费观看| 99热这里只有免费国产精品 | 日韩欧美高清视频| 五月天久久婷婷| 久久99国产综合精品女同| 天天躁夜夜躁狠狠躁躁88| 女人18毛片久久| 麻豆精品在线播放| 精品久久香蕉国产线看观看gif| 婷婷午夜影院| 国产一区二区影院| 九九久久精品免费观看| 色偷偷男人的天堂亚洲av| 91精品国产综合久久不国产大片| 国产亚洲欧美在线中文bt天堂| 黄色三级网站免费| 99热这里都是国产精品| 亚洲精品日产AⅤ| 欧美另类精品一区二区三区| 亚洲免费黄色网| 国产精品视频免费网站| 天天躁夜夜躁狠狠躁图片| 美女免费黄网站| 国产成人在线小视频| 亚洲日韩高清无码| 国产精品页| 中文字幕无码制服中字| 国产超碰一区二区三区| 亚洲自拍另类| 国产麻豆va精品视频| 日韩欧美国产精品| 永久免费无码日韩视频| 国产幂在线无码精品| 免费无遮挡AV| 欧美a级完整在线观看| 国产色婷婷| 国产网站免费观看| 亚洲视频在线观看免费视频| 亚洲天堂网在线观看视频| 国产在线观看人成激情视频| 国产精欧美一区二区三区| 91成人在线免费视频| 精品国产成人高清在线| 久久国产精品夜色| yjizz国产在线视频网| 无码一区二区三区视频在线播放| 国产91久久久久久|