999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分布式并行計算的大數據自助分析系統的研究與應用

2019-01-23 03:27:48翁業林蔣道霞俞新華
軟件 2018年12期
關鍵詞:用戶分析系統

翁業林,蔣道霞,俞新華

?

基于分布式并行計算的大數據自助分析系統的研究與應用

翁業林1,蔣道霞1,俞新華2

(1. 江蘇財經職業技術學院,江蘇 淮安 223001;2. 江蘇省移動公司,江蘇 南京 210001)

大數據一旦進入更多的企業,我們就會對大數據提出更多期望,除了數據統計,大數據時代還需要智能化分析,打破IT的約束,需要探索最高效的方式,快速搶占數據制高點。本文通過對某公司的分布式并行計算下數據自助分析平臺中的應用方案進行研究與應用,提出在自助分析系統中對海量數據處理的思路,對分布式并行計算和分布式通信進行了重點分析,同時結合自助分析系統的功能特點,給出系統部署的應用建議。研究內容對于分布式計算在大數據決策分析系統的落地具有一定的實用價值。

分布式并行計算;大數據;自助分析

0 引言

進入4G時代以來,用戶信息從基本的語音、話費、基礎行擴展到偏好、消費預測等信息[1]。隨著新的數據的接入和整合,數據規模不斷擴大,分析維度從10、50,漲到百,甚至千;數據廣度也在不斷增加[2]。所以需要搭建全新的數據處理平臺及自助分析系統幫助企業處理海量的數據、進行復雜的數據結構分析、實現精細化業務需求以及平臺能力開放、共享等,提高數據挖掘的價值,為企業經營提供決策、營銷、服務建議的支撐工作[3]。

1 大數據和分布式并行計算

1.1 大數據

引用IDC基于信息基礎設備推進研究會中對大數據的描述,就是具備大量數據體、數據類型繁多、數據處理快以及數據的價值密度偏低等四方面特征的數據集合。大數據技術是以數據為本質的新一代革命性的信息技術,在數據挖潛過程中,能夠帶動理念、模式、技術及應用實踐的創新。大數據優勢:存取能力,具備強大的分布式存取能力;降低成本,利用科學的算法,深入挖掘數據價值可提升營銷的精準度,增加業務收入和降低運營、運維成本。運算性能,具備海量的數據處理能力,具有流式計算、準實時分析計算、離線分析計算三種強大的計算能力。擴展能力,具備集群易擴展性、易維護的能力,并提供可視化的操作界面。指導運營,優化流程提高經營效率的同時,量化企業運營的指標,用更科學的方法指導企業的經營。降低成本,利用科學的算法,深入挖掘數據價值可提升營銷的精準度,增加業務收入和降低運營、運維成本。通過大數據實時分析,可獲取營銷商機,觸發營銷;通過大數據分析識別信用指數,避免金融欺詐。

1.2 分布式并行計算

并行計算(Parallel Computing,也稱平行計算,)是指讓多條指令同時進行一種計算模式,分為時間并行和空間并行兩種。時間并行主要是利用多條流水線同時作業;空間并行則是指使用多個處理器執行并發計算,以降低解決復雜問題所需要的時間。并行計算一般在解決計算問題的過程中同時使用多種計算資源執行并行計算,計算資源可能包括一臺配有多處理機(并行處理)的計算機或一個與網絡相連的計算機集群,或者兩者結合使用。

分布式計算是與集中式計算相對應的概念。分布式計算是將一個需要巨大的計算能力才能解決的問題分成許多小的部分,然后把這些分成的小部分計算分配給許多計算節點進行處理,最后把這些計算結果綜合起來得到最終的結果。分布式計算是在兩個或多個軟件互相共享信息,這些軟件既可以在同一臺計算機上運行,也可以在通過網絡連接起來的多臺計算機上運行。

本文的分布式并行計算基于MPP架構的智能化平臺,如圖1所示。該平臺能夠把計算分布到多個計算節點,再在指定節點將計算結果匯總輸出。機器角色主要有Naming Node、 Client Node、Map Node、Reduce Node。Naming Node:負責命名工作。它知道當前有多少臺Map Node和Reduce Node,及這些Server的配置狀況。Map Node和Reduce Node會定期發送各自配置情況,workload(工作量),CPU,內存等信息。Naming Node通常是一臺機器,但可以做冷備份。Map Node:負責處理Map Task。原始數據和Map Task的代碼文件集被預先部署到MapNode上。當它接收到Client Node發送的Map Task,可以直接執行該任務。Map Node可以有多臺機器。Reduce Node:負責處理Reduce Task。它被預先部署了Reduce Task的代碼文件集,可以直接執行該任務。Reduce Node可以有多臺機器,而且可以指定某臺干固定的任務。大量的細節數據在壓縮后,以文件的形式被分布式存儲在集群的硬盤中。當計算時,會把被打中的數據拉入到內存中,也就是熱點數據會常駐內存。當發生數據失效時,會將新數據交換到內存中參與計算。內存計算是對傳統數據處理方式的一種加速,是實現大數據分析的關鍵應用技術。

圖1 MPP架構的智能化平臺

2 分布式自助分析系統的規劃與設計

企業的數據復雜性越來越復雜。需要整合各種數據;企業對數據分析的方法要求越來越高。需要進行數據二次關聯加工,提升可視化效果;企業對數據分析實效性的要求越來越高,用于決策的時間越來越短。需要提高分析效率,把握營銷時機;企業數據分析的人力成本越來越高。需要降低人力成本,實現業務人員自助分析;硬件的成本越來越低。需要基于廉價的X86服務器,構建分布式自助分析系統。因此,大數據時代也需要智能化分析,打破IT的約束,需要探索最高效的方式對數據二次分析、挖掘,快速搶占數據制高點。基于分布式并行計算的大數據自助分析系統架構如圖2所示。

2.1 數據抽取

自助分析支持從多種類型的數據庫中抽取數據,將數據按照主題建立成多個集市導入到MPP集群中。如果采用Hive方式訪問數據,可以采取ODBC/JDBC的方式直接建立連接讀取數據。如果采用HBase方式訪問數據,可以定制一個Customized Query來讀取數據。如果是直接訪問HDFS文件來導出數據,可以定制一個Customized Query來讀取數據。ETL過程中可以做數據清洗,格式轉換,還可以跟其他庫的維度表進行關聯,形成寬表入庫。入庫時還能根據時間或者區域來給數據打上粗粒度標簽,便于以后做數據優化調整使用。歷史數據集中導入,增量數據自動導入,增量更新的時間粒度根據系統對實效性的要求,可以是每分鐘,每小時,每天。ETL的客戶端可以是多節點同時導入集市,以此來提高導入效率。

圖2 基于分布式并行計算的大數據自助分析系統架構

2.2 數據存儲

為方便整個架構的橫向擴展,以線性地橫向擴展而沒有性能影響,保證性能和容量的靈活伸縮,解決大數據量的存儲問題。硬件高可用,通過軟件設計、硬件故障作為一個常態而非特例來解決。“不共享”架構,分布式機器節點之間相互獨立,分布式數據中心與分布式數據集市之間相互獨立,避免資源爭用。保證架構在應對實時計算、離線計算和流式計算等不同的計算需求時,高效穩定的運行。探索式自服務分析,針對未知和靈活多變的業務需求,可以實現自主數據服務和分析服務。

2.3 數據功能

傻瓜式取數配置:簡單的取數操作界面,為業務人員提供傻瓜式的自助取數能力。提供關聯篩選,上傳文件條件篩選,數據集交差并、左關聯、全關聯處理,幫助用戶快速整合數據。靈活的數據計算:取數過程中支持多種指標計算功能,幫助用戶靈活獲取數據;通過自助分析平臺,可在自助提取數據后,進行數據的分析及匯總分析。

2.4 數據應用

應用層的客戶端可以是多臺機器,也就是說一套數據集市可以支撐多個應用系統,每個應用系統用不同的客戶端來做數據展現。例如一個系統是專門來做固定報表定時推送的,另外一個系統是專門來做BI展現前端,用戶通過賬號登陸進去,訪問可視化的界面,并做實時的數據分析和交互。

2.5 分布式通訊

基于分布式并行計算的大數據自助分析系統中各層之間的通訊采用分布式,如圖3所示。系統中的中間計算結果能否在集群中穩定且高效地傳輸,是整個集群能否達到實時計算的關鍵。系統采用可復用的TCP/IP 連接,系統的TCP/IP連接是可復用的,不像傳統方式一樣,一個信息傳遞需要建立一個連接,而信息交換的接收與發出邏輯對應的軟件進程/線程是可復用的。這一方法降低了整個系統的TCP/IP負載,以及線程/進程開銷。

圖3 分布式通訊

系統的信息傳輸是多路的。這類似于高速公路的多車道。如果一個TCP/IP 連接不夠,可以增加TCP/IP 連接。而如果閑置,可以收回多余的連接以釋放網絡、CPU、內存資源。

系統的信息傳輸是異步的。發出信息的請求方不會占據著TCP/IP 連接,而是在發出信息之后立即釋放資源。以異步的消息通知機制等待返回處理結果,這一異步機制讓系統在等待返回處理結果時不會白白耗費資源,在接收方處理信息時也不會占據TCP/IP連接和相應的線程/進程資源。系統以異步信息交換的方式,成功地消除了信息處理與信息傳輸之間的耦合。提升了信息交換能力,但有效地降低了信息交換所需要的網絡資源、CPU、或者內存資源。穩定的內存使用:由于整個通訊過程中Socket通道是復用的,而Socket通道對應的讀內存塊和寫存塊也是復用的,很少有內存的申請和釋放操作。這提升了整個系統的性能和穩定性。

健壯的信息傳輸:系統的TCP/IP連接是可自修復的。網絡可能會有各種問題導致連接出錯,為了避免數據流里可能丟失了數據,給每個數據流的頭部加了標識位,在任何找不到標識位的情況下,連接都會自動關閉。系統會自動重新建立連接。

2.6 系統前端設計

作為商業智能平臺的前端,為用戶操作提供方便,提供了多樣的數據展現形式,豐富的圖表展示形式,人性化的人機交互方式,支持各種商業邏輯的動態腳本引擎等。客戶可以進一步與數據互動(Interactive),過濾(Filter)、鉆取(Drill)、刷取(Brush)、關聯(Associate)、變換(Transform)等等技術,深入分析互聯網用戶的行為,準確了解用戶的行為習慣。主要功能設計如下:

(1)數據下載,提供取數結果下載功能,支持TXT/CSV/PDF格式,PDF文件支持數字水印保護。支持批量下載和離線下載。外部文件上傳及關聯,導入外部文件,在取數時進行關聯。

(2)數據集二次處理,對于系統中的即時/定時任務、外部導入、已二次處理等數據集,可以進行兩個數據集的交、差、并、左關聯等運算以獲取新的數據集。多維分析,分析表格支持多維分析,維度單元格自動合并。

(3)表格功能。報表單元格鉆取下載清單,自助分析提供分析報表單元格下載清單數據,方便業務分析人員針對分析結果查看對應的分析數據源清單;報表單元格鉆取關聯分析,自助分析提供分析報表單元格鉆取關聯其他分析,方便業務分析人員快速進行關聯分析;報表發布及審批,制作好的分析報表可以保存及發布,能夠靈活發布到自助分析模塊或者經分系統中。發布時可指定審批人,審批完成后即可進行查看;報表下載,對于制作完成的報表,用戶可以下載。下載的格式為Excel文檔,支持手機驗證碼驗證。

(4)數據透視分析。提供用戶自行設計數據透視表界面及展示內容的能力,用戶可以動態地改變數據透視表的版面布置,以便按照不同方式分析數據,也可以重新安排行標簽、列標簽和指標函數,同一數據集的不同分析方式,實現透視分析。

(5)數據生命周期。系統記錄所有任務的數據集操作歷程,方便查詢所有對數據集的操作內容。展現所有當前和歷史的任務數據情況,包含“數據已刪除”和“任務已刪除”的任務。

2.7 數據安全保障

由于涉及查詢用戶的清單明細信息,所以自助分析提供了多種數據安全保障措施,能夠有效防止敏感數據的越權查詢和泄露。用戶預覽、查看數據時,按其歸屬地域做權限管控;用戶下載重要數據時,需要做金庫認證;屏蔽了所有頁面的右鍵,并防止拷貝敏感數據:對于敏感數據,瀏覽時可以做模糊化處理;支持將用戶下載的數據推送至虛擬桌面進行瀏覽;預覽、瀏覽數據時,對數據背景做了水印處理:用戶瀏覽、下載數據的日志可追溯。

3 結論

自助分析系統的架構在用戶訪問、數據處理、數據存儲等層次都支持分布式部署,因此可通過對服務器集群線行擴展來提高數據處理能力。分布式架構的核心問題是系統運行過程中的高并發和高1/0。通過數據中心上層部署分布式數據集市的方式,分擔分布式數據中心的壓力。分布式數據中心作為數據倉庫,需要承擔數據的存儲,計算和其他數據請求,需要在數據的增、刪、改、查和運算等各個功能做好資源的均衡。可視化的業務操作頁面,通過簡單的拖拽點選即可快速完成業務分析模型。生成的可視化報告,可以實現數據聯動,數據篩選,使得數據展現成為數據分析開始的第一步,使可視化之后的進一步深入的探索式分析得以繼續,充分釋放數據的價值。

[1] Yao D, Yu C, Dey A K, et al. Energy efficient indoor tracking on smartphones[J]. Future Generation Computer Systems, 2014, 39(39): 44-54.

[2] Sun Q, Deng B, Fu L, et al. Non-redundant Distributed Database Allocation Technology Research[C]//International Conference on Computing Intelligence and Information System. IEEE Computer Society, 2017: 155-159.

[3] M. D. Samrajesh, Gopalan N P. Towards Multivariable Architecture for SaaS Multi-tenant Applications[J]. International Journal of Software Engineering & Its Applications, 2016, 10(4): 13-26.

[4] 孟維一. 基于數據倉庫的保險商業智能系統設計與實現[D]. 北京交通大學, 2016.

[5] 鄭嘯, 李景超, 王翔, 等. 大數據背景下的國家地質信息服務系統建設[J]. 地質通報, 2015, 34(7): 1316-1322.

[6] 羅鵬, 龔勛. HDFS 數據存放策略的研究與進步[J]. 計算機工程與設計, 2014, 35(24): 1127-1131.

[7] 顧濤. 集群Map Reduce 環境中任務和作業調度若干關鍵問題的研究[D]. 天津: 南開大學, 2015.

[8] 楊杉, 蘇飛, 程新洲, 袁明強, 董潤莎. 面向運營商大數據的分布式ETL研究與設計[J]. 郵電設計技術, 2016, 8(1): 50-52.

[9] 侯雪燕, 洪陽, 張建民, 等. 海洋大數據: 內涵、應用及平臺建設[J]. 海洋通報, 2017, 36(04): 361-369.

[10] 孫大為, 張廣艷, 鄭緯民. 大數據流式計算關鍵技術及系統實例[J]. 軟件學報, 2014, 25(4): 839-862.

Research and Application of Big Data Self-help Analysis System Based on Distributed Parallel Computing

WENG Ye-lin1, JIANG Dao-xia1, YU Xin-hua2

(1. Jiangsu Vocational and Technical College of Finance and Economics, Huai'an 223001, China; 2. Jiangsu Mobile Corporation, Nanjing 210001, China)

Once big data enters more enterprises, we will put forward more expectations for big data. In addition to data statistics, the era of big data requires intelligent analysis, breaking the constraints of IT, and exploring the most efficient way to quickly seize the commanding heights of data. Based on the research and application of the application scheme of the data self-help analysis platform under the distributed parallel computing of a company, this paper puts forward the idea of massive data processing in the self-help analysis system, and focuses on the analysis of distributed parallel computing and distributed communication. At the same time, combining with the functional characteristics of the self-help analysis system, the paper gives the following suggestions: Put forward the application suggestion of system deployment. The research content has certain practical value for the landing of distributed computing in large data decision analysis system.

Distributed parallel computing; Big data; Self help analysis

TP311.1

A

10.3969/j.issn.1003-6970.2018.12.019

翁業林(1981-),男,碩士,講師,研究領域:計算機網絡技術;蔣道霞(1965-),女,博士,教授,研究領域:計算機軟件;俞新華(1981-),男,碩士,高級工程師,研究領域:移動通信。

翁業林,蔣道霞,俞新華. 基于分布式并行計算的大數據自助分析系統的研究與應用[J]. 軟件,2018,39(12):83-86

猜你喜歡
用戶分析系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統及其自動化發展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 67194在线午夜亚洲| 九九热精品在线视频| 日本不卡在线播放| 在线免费观看a视频| 99re在线视频观看| 九色在线视频导航91| 国产高清在线观看| 久久香蕉国产线看观看亚洲片| 色噜噜狠狠狠综合曰曰曰| 女同久久精品国产99国| 国产女人综合久久精品视| 日本精品视频一区二区| 免费高清自慰一区二区三区| 国产成人综合亚洲欧美在| 国产美女叼嘿视频免费看| 久久国产香蕉| 亚洲欧洲日韩久久狠狠爱| 国产成人亚洲精品蜜芽影院| 自拍中文字幕| 黄色网在线| 国产第一页免费浮力影院| 亚洲无线一二三四区男男| 国产人人乐人人爱| 国产美女精品一区二区| 97青草最新免费精品视频| 91精品情国产情侣高潮对白蜜| 亚洲免费播放| 99精品免费在线| 免费人成在线观看成人片| 中文字幕在线观看日本| 国产精品亚洲精品爽爽| 成人毛片免费在线观看| 四虎永久免费地址| 欧美日韩中文国产| 色窝窝免费一区二区三区 | 天天躁日日躁狠狠躁中文字幕| 国产91麻豆免费观看| 亚洲欧美精品一中文字幕| 久久精品视频一| 国产人人射| 丁香六月综合网| 亚洲成人精品久久| 毛片大全免费观看| 青青操视频在线| 国产精品浪潮Av| 欧美国产日产一区二区| 玖玖精品在线| 国产精品无码一区二区桃花视频| h网址在线观看| 国产在线自乱拍播放| 国产成人在线无码免费视频| 手机看片1024久久精品你懂的| 中文字幕在线永久在线视频2020| 国模私拍一区二区| 热热久久狠狠偷偷色男同| 不卡视频国产| 日韩在线播放欧美字幕| 国产h视频在线观看视频| 久操线在视频在线观看| 青青草国产在线视频| 亚洲成aⅴ人在线观看| 精品亚洲麻豆1区2区3区| 婷婷六月综合网| 国产在线观看99| 中文字幕在线观| 免费一级成人毛片| 色综合网址| 中文字幕免费在线视频| 欧美激情综合| av手机版在线播放| 特级精品毛片免费观看| 热久久这里是精品6免费观看| 亚洲Aⅴ无码专区在线观看q| 激情六月丁香婷婷四房播| 亚洲欧美成人影院| 国产免费久久精品44| 亚洲青涩在线| 亚洲人妖在线| 国产乱人激情H在线观看| 人妻中文久热无码丝袜| 精品欧美日韩国产日漫一区不卡| 亚洲色欲色欲www网|