999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

某廣電單位大數據平臺架構設計

2016-05-14 11:20:05孟蓮蓉
科技資訊 2016年7期

孟蓮蓉

摘 要:某局的大數據平臺架構設計中,共有12個組件。計算框架采用Lambda架構,同時管理實時計算框架和離線計算框架,數據經過數據采集服務初步驗證過濾,記錄到消息隊列Kafka中,之后,同時進入到Hadoop和storm中分別用于離線和實時計算。

關鍵詞:大數據平臺 離線計算 Hadoop 實時計算 Storm Kafka Mongodb

中圖分類號:TP27 文獻標識碼:A 文章編號:1672-3791(2016)03(a)-0006-03

某局期望實現設備運行數據、業務管理數據和各業務系統數據的規范傳送、標準化整理和存儲,建立全局統一的數據關系明確的主題數據庫或數據倉庫,為全局各應用系統提供規范的數據交換服務以及對基礎數據的管理。主要任務是:建立全局數據中心,基于大數據云平臺和兩級數據交換中心,實現各級業務系統基礎數據的統一規范化管理;初步實現全局設備及其狀態以及運行質量、趨勢、故障等的可視化分析建模及展示。該文主要闡述平臺的架構設計。

1 大數據平臺架構

BDM(Big Data Management,大數據管理平臺)整體架構由下向上,從底層硬件逐步構建。

(1)硬件設施層:提供最基礎的硬件系統。

(2)虛擬化層:在硬件設施層之上,將硬件資源虛擬化,將服務器集群資源統籌管理。

(3)數據存儲層:完成海量數據的分布式存儲。提供數據備份和容災,采用Hadoop框架的HDFS分布式存儲引擎、分布式消息隊列Kafka、分布式文檔型內存數據庫和關系型數據庫。

(4)數據服務層:包括,數據裝載讀寫、數據分析處理編程框架和數據查詢等。數據處理工具完成服務層與數據存儲層間的數據交互,提供友好的數據操作界面。

(5)數據接口層:對外提供操作的相關接口。

2 BDM組件關系

圖1為該局BDM的整體架構,采用SOA(Service-Oriented Architecture)架構,其將具體功能以服務的形式部署在服務器集群上,每個服務以分布式方式部署,提供單獨的高可用的服務,平臺中的各系統都可以任意訪問服務。BDM平臺支持結構化數據(數據庫表、結構化文本)、半結構化數據和非結構化數據。

數據經由Kafka寫入到Hadoop HDFS,永久存儲,進行離線計算;經由Kafka到達Storm流計算平臺,進行實時計算和處理。

2.1 Nginx

Nginx是一個高性能的HTTP和反向代理服務器,是BDM中統一的HTTP請求的轉發入口,需兩臺服務器集群互為備份和負載均衡。它接收用戶的HTTP接口調用瀏覽器訪問,將請求轉發到OMCenter網頁、BDMS網頁、數據查詢、REST接口和數據探頭等。

2.2 分布式集群協作管理Zookeeper

Zookeeper是集群協作管理中心,提供集群協調功能,保存集群運行狀態和配置信息并同步到集群各個系統,組件包括:數據采集服務、Storm、 Hadoop和Kafka等。Zookeeper作為集群的配置中心,在多臺zookeeper服務器之間,保證數據強一致性,實現了Paxos算法,完成數據在節點之間存儲一致的狀態,在部署zookeeper集群的時候,一般使用3臺集群或5臺集群。 Zookeeper在部署完成后即擁有高容錯功能,一個zookeeper節點故障,并不影響整體集群的服務功能,這個節點重啟就可以恢復數據,并恢復正常狀態。集群協作管理的方式有如下幾種。

(1)在zookeeper中保存集群中每個服務器地址及其提供的對應服務。

(2)客戶端從zookeeper中獲取集群中提供服務的具體實例地址和具體服務通信。

(3)集群狀態發生變化時,更新zookeeper內容,即時通知客戶端。

(4) zookeeper保存并分析服務的運行狀態,發送監控信息和報警信息。

2.3 Kafka

Kafka集群有三種角色(如圖2):Producer是數據的發布者,向消息隊列推送數據;Consumer是數據的訂閱者,從消息隊列訂閱數據并消費;Broker是消息隊列實體和集群中的Server。Kafka指定各個分區到對應的讀取進程,因此保證每個進程讀取數據的順序性和負載均衡。

Kafka消息讀取的方式如圖2。它可以同時處理多個邏輯隊列,每個隊列用一個Topic名稱進行唯一標識,即一個Topic確定一個邏輯隊列。每個邏輯隊列分成多個分區(Partition),圖中為Kafka Cluster的P0~P2,每個分區分散存儲于服務器上,數據寫入kafka時,輪詢寫入每個分區。數據的消費者,分多組(Consumer Group)同時讀取數據,每組都可讀取到隊列中完整的數據,兩組之間不會相互影響。

2.4 Kafka ICE服務

ICE(Internet Communications Engine),是一個分布式計算框架和RPC框架,方便各服務讀寫kafka數據。ICE Grid服務端包含Registry,Registry Replica,Node和服務:

(1)Registry:ICE Grid的服務注冊中心、配置中心,其中保存了所有節點狀態、服務狀態、服務地址和端口及服務RPC API的元數據等。

(2)Registry Replica是Registry的熱備服務。

(3)Node:ICE Grid通過Node服務管理節點上運行的服務的啟停,一個服務可注冊在一個或多個節點運行,服務進程通過Node進程創建。

(4)服務:通過ICE Grid框架定義。在BDM中,數據探頭和Kafka ICE都是通過ICE實現的。一個節點可啟動多個服務進程,每個服務進程可以配置成多線程方式。

(5)客戶端:客戶端通過服務定義的slice文件,通過RPC的方式和服務端通信,完成API調用。Registry根據一定的規則,將服務地址分配給客戶端,分配策略有輪詢、隨機和根據負載分配的方式。

2.5 數據探頭

數據探頭服務采集和接收推送數據,并發送到Kafka,數據經過Nginx,uwsgi,Input ICE,Kafka ICE到達Kafka。Input ICE服務提供了動態API配置的功能。

2.6 Mysql

Mysql作為BDMS的后臺數據庫,也作為基礎數據管理和關系型數據庫部分數據的存儲。 BDM中Mysql集群,使用主備方式部署(Master-Slave),備機提供數據的只讀服務,主機提供數據的讀寫服務。

2.7 Storm

Storm是BDM中的實時處理平臺,完成實時統計、計算和數據處理等。Storm集群分為主控節點Nimbus和工作節點Supervisor,Nimbus負責任務的總控,管理所有工作節點的狀態;Supervisor負責接受并執行任務。

Storm會保證數據在計算任務中都被處理過一次(至少一次),如果處理發生異常,這條數據會被重新發送,保證每條數據都會被正確處理。Storm在記錄消息處理情況的時候,只有數據完全經過所有節點的時候,數據才會被認為正常處理完成。該項目中,可使用Storm完成實時指標計算,如,全局設備實時運行時長統計、設備實時狀態分析等。

2.8 分布式文檔型數據庫Mongodb

Mongodb是文檔對象數據庫,是一種NoSQL數據庫,每一條數據是一個“文檔”,一個文檔是一個json格式的數據,由于json格式數據的特點,Mongodb沒有關系型數據庫的外鍵和關聯等概念,對于有嵌套關系的數據,可以直接存儲到一條記錄中。Mongodb支持集群部署方式和自動故障恢復。Mongodb高可用部署方式為Replica Set(副本集),其中Primary為主節點,數據的讀寫操作都在Primary上執行,兩個Secondary服務器從Primary同步數據并作為熱備,這3個節點之間通過心跳信號通信,確認彼此服務處于存活狀態。

當Primary出現故障時,主的心跳信號丟失,此時,兩個Secondary節點中的一個節點作為Primary,客戶端和新的Primary節點進行操作。故障節點恢復后,重新加入集群,并作為新的備節點,開始數據同步。

在BDM中,Storm從Kafka讀取實時采集的數據,完成計算后,將計算結果輸出到Mongodb存儲,使用方讀取Mongodb結果獲取實時計算報表。

2.9 BDMS大數據建模平臺

BDMS大數據建模平臺是基于Hadoop、Hive、sqoop等hadoop生態系統中的工具整合開發的可視化大數據離線計算、數據分析和建模平臺?;A的Hadoop平臺提供HDFS分布式數據存儲和MapReduce計算框架,使得大量數據的分布式計算成為可能。存儲文件分成多個Block(塊),默認大小是64M。通過塊的Replica的方式,保證數據可靠性,讀取速度和吞吐量。一般每個塊至少分布到3個DataNode節點上。如圖3,NameNode負責維護集群的元數據,DataNode用來存放數據塊,每個數據塊都有3個備份,分散存儲于各個DataNode上,任意一個DataNode故障,數據塊的副本不會丟失;同時,為防止NameNode單點故障,引入了Secondary NameNode的備份節點。Hadoop HDFS上的數據讀寫,始終都采用就近原則,優先使用本地的數據塊,以提升數據讀取的速度。

Hadoop平臺為BDMS提供基礎的數據存儲和計算框架,單純MapReduce框架應用復雜,因此Hive平臺提供了結構化數據的管理和查詢功能。Hive使用類SQL語言,完成對Hadoop上存儲的數據進行查詢。Hive將SQL語言解析成為MapReduce任務在Hadoop平臺上執行,更適合于海量數據的SQL查詢。BDMS還提供了Hadoop平臺上的其它功能,如,SparkMLL機器學習庫,sqoop數據裝載工具等,為數據的采集、清洗、格式化、查詢、建模、計算、分析、報表產出等一系列流程提供可視化工作界面。

2.10 集群監控中心ganglia

Ganglia是BDM的服務器集群監控中心,它收集每個節點的服務器運行狀態和服務運行狀態,完成運行狀態的實時監控圖標繪制,圖標的數據保存為rrd格式,可在使用較小磁盤容量的情況下,記錄多年的歷史數據。

3 結語

除了上述的各個組件,大數據平臺還配備報警中心和運維管理中心,報警中心完成對BDM中關鍵服務組件運行狀態的監控報警和對數據處理任務的監控報警;運維中心OMCenter為BDM提供一站式私有云管理軟件、集成設備管理、服務管理、監控、實時報表和配置中心等。目前,BDM已經運行了一年左右,體現了其應有的作用。

參考文獻

[1] 張戈.淺談廣電網絡的信息化建設[J].科技致富向導,2014(26):80,172.

[2] 任磊,杜一,馬帥,等.大數據可視分析綜述[J].軟件學報,2014(9):1909-1936.

主站蜘蛛池模板: 国产日韩欧美中文| 91美女在线| 亚洲精品成人7777在线观看| 亚洲中文久久精品无玛| 少妇极品熟妇人妻专区视频| 欧美成人日韩| 狠狠色丁香婷婷| 亚洲中文字幕在线观看| 成人国内精品久久久久影院| 婷婷亚洲视频| 丰满人妻久久中文字幕| 青青青草国产| 亚洲aⅴ天堂| 第一区免费在线观看| 青青草国产精品久久久久| 污视频日本| 青青草国产精品久久久久| 91网在线| 国产精品夜夜嗨视频免费视频| 国产麻豆91网在线看| 无码免费的亚洲视频| 特级做a爰片毛片免费69| 999精品视频在线| 一级看片免费视频| 国产大片喷水在线在线视频| 久久精品国产亚洲麻豆| 亚洲免费播放| 亚洲欧美日韩中文字幕一区二区三区| 99爱在线| 91免费国产在线观看尤物| 国产精品永久久久久| 国产免费福利网站| 久久频这里精品99香蕉久网址| yy6080理论大片一级久久| 欧美亚洲一二三区| 国产精品开放后亚洲| 亚洲精品少妇熟女| 亚洲中文制服丝袜欧美精品| 国产成人综合欧美精品久久| 国禁国产you女视频网站| 亚洲激情区| 精品国产成人三级在线观看| 成人年鲁鲁在线观看视频| 亚洲第一av网站| 亚洲aaa视频| 99在线国产| 欧美乱妇高清无乱码免费| 欧美三级视频网站| 国产色婷婷视频在线观看| 在线观看视频99| 美女被操91视频| 国产午夜人做人免费视频中文| 人与鲁专区| 亚洲日本一本dvd高清| 97成人在线视频| 日韩a级毛片| 国产香蕉在线视频| 国产亚洲高清视频| 伊人大杳蕉中文无码| 国产99精品视频| 免费无码AV片在线观看国产| 国产在线观看高清不卡| 亚洲中文无码h在线观看 | 日韩国产亚洲一区二区在线观看| 成人免费午间影院在线观看| 国产精品漂亮美女在线观看| 亚洲国产中文精品va在线播放| 日韩成人高清无码| 九月婷婷亚洲综合在线| 亚洲最新在线| 精品国产网| 91伊人国产| 91在线国内在线播放老师| 欧美区日韩区| 中文字幕第4页| 亚洲国产91人成在线| 免费人成又黄又爽的视频网站| 国产免费久久精品99re不卡| 久久国产精品波多野结衣| 在线中文字幕日韩| 国产一级毛片在线| 国产h视频免费观看|