999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可視化元數(shù)據(jù)配置的大數(shù)據(jù)治理方案

2023-02-12 11:56:26鄭響萍
軟件工程 2023年2期
關(guān)鍵詞:數(shù)據(jù)處理可視化定義

鄭響萍

(浙江理工大學(xué)科技與藝術(shù)學(xué)院,浙江 紹興 312369)

1 引言(Introduction)

全球數(shù)據(jù)量正飛速增長(zhǎng),據(jù)數(shù)據(jù)統(tǒng)計(jì)互聯(lián)網(wǎng)公司Statistat統(tǒng)計(jì)預(yù)測(cè),2020 年全球數(shù)據(jù)存儲(chǔ)量已達(dá)到47 ZB,2035 年將達(dá)到2,142 ZB,目前企業(yè)運(yùn)營(yíng)中產(chǎn)生的數(shù)據(jù)以每年42.2%的速度快速增長(zhǎng),但是只有56%數(shù)據(jù)能被企業(yè)獲取,而在獲取的數(shù)據(jù)中也僅有57%的數(shù)據(jù)會(huì)被有效利用。2016 年《國(guó)家“十三五”時(shí)期文化發(fā)展改革規(guī)劃綱要》正式提出,大數(shù)據(jù)發(fā)展進(jìn)入深化階段,2021 年國(guó)家把大數(shù)據(jù)列入《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要》中的重要一環(huán),足見國(guó)家對(duì)大數(shù)據(jù)的重視[1]。近年來,大數(shù)據(jù)技術(shù)的發(fā)展日新月異,但是針對(duì)中小企業(yè)業(yè)務(wù)場(chǎng)景的大數(shù)據(jù)解決方案較少,并且實(shí)施成本高。

本文提出一種可視化配置的大數(shù)據(jù)治理方案,主要能解決中小企業(yè)使用大數(shù)據(jù)平臺(tái)成本高的問題。企業(yè)大數(shù)據(jù)通常有“3V”屬性,即高速度(Velocity)、多樣性(Variety)和大體量(Volume)[2],目前使用較多是Hadoop體系架構(gòu),Hadoop可以較好地解決“3V”屬性帶來的存儲(chǔ)和計(jì)算難題,但Hadoop體系架構(gòu)維護(hù)成本較高,并且日常云運(yùn)營(yíng)對(duì)專業(yè)大數(shù)據(jù)技術(shù)人員的依賴程度高。本文的研究重點(diǎn)是通過可視化配置的方式,使得非大數(shù)據(jù)技術(shù)人員也可以方便地進(jìn)行大數(shù)據(jù)分析。

2 方案簡(jiǎn)介(Solution introduction)

本文設(shè)計(jì)的大數(shù)據(jù)平臺(tái)包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)和應(yīng)用服務(wù)四大模塊。參考通用大數(shù)據(jù)架構(gòu)設(shè)計(jì)和MPP架構(gòu)[3],將數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用服務(wù)分開,實(shí)現(xiàn)元數(shù)據(jù)配置、數(shù)據(jù)模型可視化及數(shù)據(jù)處理流程自動(dòng)化[4]。

數(shù)據(jù)處理流程包括數(shù)據(jù)的定義和采集、數(shù)據(jù)清洗和模型存儲(chǔ)、數(shù)據(jù)分析和打標(biāo),以及標(biāo)簽與業(yè)務(wù)系統(tǒng)結(jié)合等操作步驟,通過流程、模型定義等的配置,滿足企業(yè)的個(gè)性化業(yè)務(wù)場(chǎng)景需求,系統(tǒng)概覽如圖1所示。

圖1 系統(tǒng)概覽Fig.1 System overview

業(yè)界已有不少大數(shù)據(jù)平臺(tái)解決方案,例如國(guó)內(nèi)各大云服務(wù)商的數(shù)據(jù)治理平臺(tái)、開源平臺(tái)Hadoop體系。這些平臺(tái)解決方案相較于本方案,云服務(wù)使用價(jià)格高,開源平臺(tái)Hadoop體系的運(yùn)行對(duì)專業(yè)技術(shù)人才的依賴程度更高,并且使用成本、維護(hù)成本也比較高,很難在中小企業(yè)中得到快速普及使用。本方案通過可視化配置組合開源工具,對(duì)可視化大數(shù)據(jù)架構(gòu)和容器化進(jìn)行了深入研究,彌補(bǔ)了大數(shù)據(jù)過于依賴專業(yè)技術(shù)人才和使用成本高等問題。各大數(shù)據(jù)平臺(tái)解決方案比較如表1所示。

表1 大數(shù)據(jù)方案比較Tab.1 Comparison of big data solutions

從表1可以看出,中小企業(yè)最關(guān)心的幾個(gè)指標(biāo)為使用成本、維護(hù)成本、服務(wù)能力等,本文提出的方案都能較好地滿足。

3 系統(tǒng)架構(gòu)(System architecture)

系統(tǒng)采用開源方案,不額外增加企業(yè)成本,以自動(dòng)化和可視化為前提,盡量降低企業(yè)對(duì)大數(shù)據(jù)專業(yè)技術(shù)人才的依賴程度。系統(tǒng)使用的開源工具包括Spark、Hive、MySQL、Snowplow等實(shí)現(xiàn),系統(tǒng)架構(gòu)圖如圖2所示。

圖2 系統(tǒng)架構(gòu)圖Fig.2 System architecture diagram

數(shù)據(jù)采集層Snowplow作為業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集工具,其為自動(dòng)化數(shù)據(jù)流而設(shè)計(jì),通過API管理數(shù)據(jù)結(jié)構(gòu)定義,可提升采集數(shù)據(jù)的質(zhì)量,減少無效數(shù)據(jù)帶來的成本。Snowplow通過Kafka將數(shù)據(jù)傳輸?shù)胶蠖舜鎯?chǔ)。后端存儲(chǔ)選型為Hive,考慮到采集數(shù)據(jù)的多樣性,KV存儲(chǔ)特性能有效支持Snowplow自動(dòng)采集的數(shù)據(jù)。

需采集的原始數(shù)據(jù)模型通過元數(shù)據(jù)定義描述,元數(shù)據(jù)被存儲(chǔ)到關(guān)系型數(shù)據(jù)庫MySQL中,通過Echarts和Vue等前端技術(shù)實(shí)現(xiàn)元數(shù)據(jù)的可視化配置。業(yè)務(wù)系統(tǒng)通過API獲取事件的元數(shù)據(jù)定義,構(gòu)建采集的數(shù)據(jù)結(jié)構(gòu),將事件數(shù)據(jù)填充好并通過采集器傳入Snowplow采集器中。采集到的數(shù)據(jù)將被Snowplow采集器傳入Kafka中,通過消息清洗平臺(tái)ETL調(diào)度中心,將Kafka中數(shù)據(jù)消費(fèi)并進(jìn)行結(jié)構(gòu)化處理后再次保存到Hive中,即可完成原始數(shù)據(jù)的存儲(chǔ)。

ETL任務(wù)流交由調(diào)度中心配置,數(shù)據(jù)模型由元數(shù)據(jù)定義描述,ETL任務(wù)將原始數(shù)據(jù)作為輸入源,與元數(shù)據(jù)定義的輸出數(shù)據(jù)進(jìn)行映射,實(shí)現(xiàn)數(shù)據(jù)清洗的自動(dòng)化,ETL清洗處理完的數(shù)據(jù)將被保存到Hive中。工作人員可通過可視化報(bào)表系統(tǒng)快速獲得模型數(shù)據(jù),實(shí)現(xiàn)用戶畫像、業(yè)務(wù)模型與報(bào)表的快速實(shí)時(shí)獲取。

系統(tǒng)按數(shù)據(jù)處理流程共分為基礎(chǔ)服務(wù)、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)四大子系統(tǒng)。

3.1 基礎(chǔ)服務(wù)

基礎(chǔ)服務(wù)包括元數(shù)據(jù)管理和任務(wù)調(diào)度兩大系統(tǒng)。

元數(shù)據(jù)管理系統(tǒng)貫穿整個(gè)流程,包括數(shù)據(jù)采集時(shí)元數(shù)據(jù)配置、業(yè)務(wù)模型元數(shù)據(jù)定義等,在數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)建模期間都需定義數(shù)據(jù)模型綁定關(guān)系。

元數(shù)據(jù)管理系統(tǒng)采用微服務(wù)架構(gòu),通過Vue前端技術(shù)和SpringBoot后端技術(shù)實(shí)現(xiàn)元數(shù)據(jù)的配置功能,進(jìn)行可視化的元數(shù)據(jù)定義管理[4-6]。元數(shù)據(jù)定義存儲(chǔ)在MySQL中,并在Redis中緩存?zhèn)浞荩蕴嵘憫?yīng)速度。元數(shù)據(jù)定義根據(jù)場(chǎng)景分為數(shù)據(jù)采集元數(shù)據(jù)定義、數(shù)據(jù)清洗元數(shù)據(jù)定義和業(yè)務(wù)模型元數(shù)據(jù)定義三大模塊。

以業(yè)務(wù)模型元數(shù)據(jù)定義為例(表2),定義了元數(shù)據(jù)字段Order.Price,該字段含義為訂單金額,數(shù)據(jù)來源是trade表的price字段。

表2 業(yè)務(wù)模型元數(shù)據(jù)定義表Tab.2 Business model metadata definition table

元數(shù)據(jù)定義完成后,通過調(diào)度任務(wù)完成數(shù)據(jù)清洗和構(gòu)建數(shù)據(jù)模型工作。將元數(shù)據(jù)定義與ETL任務(wù)進(jìn)行綁定,綁定信息包括任務(wù)輸入、輸出及流程規(guī)則(表3、表4),定義了訂單交易數(shù)據(jù)任務(wù)清單。

表3 元數(shù)據(jù)任務(wù)綁定表Tab.3 Metadata task binding table

表4 TradeTask任務(wù)定義表Tab.4 TradeTask definition table

調(diào)度系統(tǒng)通過定義表的映射關(guān)系創(chuàng)建ETL任務(wù)隊(duì)列,任務(wù)自動(dòng)獲取數(shù)據(jù),按流程處理數(shù)據(jù)。ETL任務(wù)調(diào)度系統(tǒng)參考業(yè)界流式數(shù)據(jù)清洗架構(gòu),并在此基礎(chǔ)上進(jìn)行優(yōu)化,將元數(shù)據(jù)管理和調(diào)度系統(tǒng)結(jié)合,整合Spark、ClickHouse及MQ等技術(shù)[7]。規(guī)則字段定義的mouth_of等模塊,由Clickhouse、Hive平臺(tái)的能力支持,包裝成ETL任務(wù)通用計(jì)算模塊。

任務(wù)系統(tǒng)是一個(gè)集群,由Zookeeper選舉獲取Master節(jié)點(diǎn),其余為Worker節(jié)點(diǎn)。Master節(jié)點(diǎn)負(fù)責(zé)編排、調(diào)度和分發(fā),確保任務(wù)的執(zhí)行均衡,Worker節(jié)點(diǎn)負(fù)責(zé)執(zhí)行任務(wù)。Master的任務(wù)編排模塊會(huì)梳理任務(wù)執(zhí)行鏈路、任務(wù)類型等,整理出任務(wù)流程,分發(fā)到任務(wù)執(zhí)行平臺(tái)執(zhí)行任務(wù)。Worker節(jié)點(diǎn)獲取原始數(shù)據(jù)定義,并自動(dòng)從MySQL、Hive等平臺(tái)中獲取原始數(shù)據(jù),依次在Master節(jié)點(diǎn)的指揮下并行或串行完成任務(wù)鏈[8]。任務(wù)系統(tǒng)架構(gòu)圖如圖3所示。

圖3 任務(wù)系統(tǒng)架構(gòu)圖Fig.3 Task system architecture diagram

將調(diào)度系統(tǒng)與大數(shù)據(jù)存儲(chǔ)、計(jì)算平臺(tái)結(jié)合,構(gòu)建可視化的配置系統(tǒng)和數(shù)據(jù)報(bào)表系統(tǒng),完成從原始數(shù)據(jù)、數(shù)據(jù)清洗到大數(shù)據(jù)運(yùn)算結(jié)果的流程自動(dòng)化。考慮到系統(tǒng)運(yùn)維服務(wù)搭建的復(fù)雜度,對(duì)系統(tǒng)創(chuàng)建docker鏡像,通過docker容器化管理工具快速完成部署[9-10]。

3.2 數(shù)據(jù)采集系統(tǒng)

數(shù)據(jù)采集包括采集工具和管理系統(tǒng)兩個(gè)部分組成。

采集工具選型Snowplow數(shù)據(jù)采集器,在元數(shù)據(jù)管理中配置好數(shù)據(jù)采集定義后,Snowplow可以通過API獲取最新定義的采集元數(shù)據(jù)定義,控制客戶端采集數(shù)據(jù)模型,采集的數(shù)據(jù)暫存到Kafka緩沖區(qū)中,等待數(shù)據(jù)處理層處理,采集過程如圖4所示。

圖4 數(shù)據(jù)采集流程Fig.4 Data collection process

采集管理系統(tǒng)提供管理界面,系統(tǒng)通過SpringBoot微服務(wù)和Vue實(shí)現(xiàn)模塊管理,實(shí)現(xiàn)上傳Excel、導(dǎo)入數(shù)據(jù)及管理采集元數(shù)據(jù)定義等功能,采集數(shù)據(jù)綁定如圖5所示。

圖5 采集數(shù)據(jù)綁定Fig.5 Binding of collected data

3.3 數(shù)據(jù)處理系統(tǒng)

采集數(shù)據(jù)暫存在Kafka中,由數(shù)據(jù)處理系統(tǒng)接收并處理后,輸出模型數(shù)據(jù)并持久化存儲(chǔ)。

數(shù)據(jù)處理系統(tǒng)依賴基礎(chǔ)服務(wù)的任務(wù)調(diào)度系統(tǒng),通過運(yùn)算模塊完成數(shù)據(jù)處理。任務(wù)模塊主要包括二元和多元運(yùn)算、算法平臺(tái)實(shí)現(xiàn)等,任務(wù)配置通過SpringBoot微服務(wù)實(shí)現(xiàn),Vue實(shí)現(xiàn)前端可視化的綁定配置,例如訂單交易額為原始數(shù)據(jù),而用戶的歷史累計(jì)交易、單月交易額等需要多元運(yùn)算,例如表4中規(guī)則字段定義的mouth_of等方法,包裝Clickhouse、Hive平臺(tái)查詢語法,沉淀為通用運(yùn)算。元數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,最終經(jīng)過數(shù)據(jù)處理系統(tǒng)實(shí)現(xiàn)原始數(shù)據(jù)模型及二次數(shù)據(jù)模型的運(yùn)算和存儲(chǔ)。數(shù)據(jù)存儲(chǔ)在Hive和Clickhouse等持久化平臺(tái)中,以便數(shù)據(jù)服務(wù)系統(tǒng)進(jìn)一步實(shí)現(xiàn)用戶畫像、標(biāo)簽化等[11-12]。數(shù)據(jù)處理鏈路圖如圖6所示。

圖6 數(shù)據(jù)處理鏈路圖Fig.6 Data processing link diagram

3.4 數(shù)據(jù)服務(wù)系統(tǒng)

數(shù)據(jù)服務(wù)系統(tǒng)為面向業(yè)務(wù)人員使用的系統(tǒng),將數(shù)據(jù)處理系統(tǒng)完成的模型通過數(shù)據(jù)可視化報(bào)表和表格等形式展示給業(yè)務(wù)人員。

常用的可視化工具為Highcharts、Echarts、D3等,本文數(shù)據(jù)服務(wù)系統(tǒng)選擇Echarts數(shù)據(jù)可視化圖表庫,原因是從兼容性角度考慮,Echarts兼容IE9及所有主流瀏覽器且開源免費(fèi),支持較多圖表類型,可封裝成通用組件,并且Apache官網(wǎng)自帶有編輯工具,可快速完成編程。Highcharts的使用是需要收費(fèi)的,D3雖然編程靈活,但是操作復(fù)雜。

數(shù)據(jù)服務(wù)系統(tǒng)構(gòu)建可視化的數(shù)據(jù)報(bào)表供業(yè)務(wù)人員選擇,組件包括數(shù)據(jù)表格、折線圖、柱狀圖等,將數(shù)據(jù)處理系統(tǒng)完成的模型數(shù)據(jù)定義綁定到以上可供選擇的組件中,數(shù)據(jù)可視化組件封裝了從Hive、Clickhouse等平臺(tái)自動(dòng)獲取模型數(shù)據(jù)的功能,通過簡(jiǎn)單配置就可完成數(shù)據(jù)可視化。

數(shù)據(jù)服務(wù)系統(tǒng)整合了數(shù)據(jù)處理系統(tǒng)和基礎(chǔ)服務(wù)平臺(tái)能力,可以配置數(shù)據(jù)采集、數(shù)據(jù)處理的元數(shù)據(jù)定義和任務(wù)定義鏈,完成數(shù)據(jù)清洗到模型的配置過程。

業(yè)務(wù)人員可以利用數(shù)據(jù)處理系統(tǒng)可視化配置模型的能力,構(gòu)建一套數(shù)據(jù)指標(biāo)體系及創(chuàng)建用戶畫像、交易模型等業(yè)務(wù)模型。業(yè)務(wù)人員可利用數(shù)據(jù)標(biāo)簽指導(dǎo)商業(yè)活動(dòng),例如構(gòu)建用戶畫像標(biāo)簽后,根據(jù)場(chǎng)景圈定不同的標(biāo)簽人群做具體業(yè)務(wù)場(chǎng)景的商業(yè)化服務(wù),可圈定標(biāo)簽為某地域組合、某時(shí)間段、交易額在一定范圍的多個(gè)人群組進(jìn)行下一階段的精準(zhǔn)營(yíng)銷,可以創(chuàng)建多組分組測(cè)試數(shù)據(jù),用于判斷哪個(gè)商業(yè)化行為更有優(yōu)勢(shì)。

3.5 測(cè)試結(jié)果

系統(tǒng)模擬電商平臺(tái)中的1萬用戶和100萬單訂單數(shù)據(jù),在4 臺(tái)4 核8 G服務(wù)器上部署完成整套系統(tǒng),通過可視化任務(wù)平臺(tái)建立用戶畫像標(biāo)簽50 項(xiàng),包括商品類目喜好、大促敏感、交易能力等,分鐘級(jí)別地完成標(biāo)簽的輸出和更新,并通過可視化表格的方式呈現(xiàn)給業(yè)務(wù)人員。

4 結(jié)論(Conclusion)

本文提出的基于可視化配置的中小企業(yè)大數(shù)據(jù)解決方案,利用開源工具,結(jié)合容器化技術(shù),能快速完成系統(tǒng)搭建,并且成本低。企業(yè)非專業(yè)技術(shù)人員通過可視化平臺(tái)進(jìn)行數(shù)據(jù)收集和數(shù)據(jù)定義,即可完成模型和標(biāo)簽的大數(shù)據(jù)計(jì)算和存儲(chǔ);工作人員通過系統(tǒng)輸出的模型數(shù)據(jù)報(bào)表指導(dǎo)業(yè)務(wù)運(yùn)營(yíng),整個(gè)操作簡(jiǎn)單直觀且不需要專業(yè)技術(shù)人員介入,能有效降低中小企業(yè)大數(shù)據(jù)運(yùn)營(yíng)成本。

猜你喜歡
數(shù)據(jù)處理可視化定義
基于CiteSpace的足三里穴研究可視化分析
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
基于CGAL和OpenGL的海底地形三維可視化
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
修辭學(xué)的重大定義
山的定義
主站蜘蛛池模板: 97国内精品久久久久不卡| 国产成人超碰无码| 9丨情侣偷在线精品国产| 丁香婷婷综合激情| …亚洲 欧洲 另类 春色| 国产自在线拍| 亚洲娇小与黑人巨大交| 久久精品视频亚洲| 91蝌蚪视频在线观看| 最新亚洲av女人的天堂| 国产精品 欧美激情 在线播放| 午夜性刺激在线观看免费| 五月激激激综合网色播免费| www中文字幕在线观看| 狠狠色综合久久狠狠色综合| 中文字幕中文字字幕码一二区| 特级aaaaaaaaa毛片免费视频| 国产一区二区三区视频| 午夜日本永久乱码免费播放片| 色妺妺在线视频喷水| 国产9191精品免费观看| 麻豆精品久久久久久久99蜜桃| 成人毛片免费在线观看| 国产哺乳奶水91在线播放| 2024av在线无码中文最新| 一级不卡毛片| 伊人久久精品无码麻豆精品| 日本在线免费网站| 亚洲第一区欧美国产综合| 国产麻豆aⅴ精品无码| 98超碰在线观看| 啪啪啪亚洲无码| 国产理论最新国产精品视频| 91久久大香线蕉| 国产美女免费| 天天色综合4| 亚洲三级电影在线播放| 国产午夜一级毛片| 国产精品浪潮Av| 无码日韩人妻精品久久蜜桃| 亚洲一级毛片| 国产精品欧美亚洲韩国日本不卡| 激情亚洲天堂| 欧美成人a∨视频免费观看| 亚洲一级色| 国产精品专区第一页在线观看| 日韩精品一区二区三区中文无码 | 亚洲另类国产欧美一区二区| 国产va在线观看免费| 91无码视频在线观看| 久久久精品国产亚洲AV日韩| 中文字幕亚洲综久久2021| 亚洲一区二区三区国产精品| 国产99精品视频| 香蕉国产精品视频| 欧美日本视频在线观看| 国产日韩精品一区在线不卡| 国产精品99r8在线观看| 午夜老司机永久免费看片| 欧美综合区自拍亚洲综合天堂| 五月婷婷精品| 国产精品一区在线观看你懂的| 一级做a爰片久久毛片毛片| 亚洲无码高清视频在线观看| 熟妇丰满人妻| 91精品视频网站| 国产SUV精品一区二区| 综合久久五月天| 超碰色了色| 婷婷六月综合网| 欧美怡红院视频一区二区三区| 色婷婷亚洲十月十月色天| 成人在线不卡视频| 日韩国产另类| 成人免费网站在线观看| 中国丰满人妻无码束缚啪啪| 国产精品免费露脸视频| 欧美日韩理论| 日韩精品免费一线在线观看| 网久久综合| 狼友av永久网站免费观看| 国产亚洲欧美日韩在线一区|