999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于大數據的可視化數據治理平臺的研究

2022-04-21 04:45:32黃凱章鋮
電子制作 2022年6期
關鍵詞:數據處理可視化用戶

黃凱,章鋮

(上海科技館,上海,200127)

1 研究背景和目的

隨著博物館和科技館等場館的信息化建設的不斷發展,場館運行、管理、服務等產生的數據也不斷在增加,現有的數據處理方式很難滿足業務的新要求。為了后期的數據的高質量和靈活性,系統的數據治理工作顯得尤為重要。本文針對上述場景,研究一種基于大數據的可視化數據治理平臺,通過運用大數據技術,向用戶提供可視化操作組件,從數據采集、數據處理到最后的數據輸出都是用戶進行按需操作。為了滿足用戶自定義處理的需求,平臺也提供給用戶自定義的操作能力,用戶通過自行編輯腳本實現想要進行的數據工作。另外為了保障后期系統數據處理的質量,系統需要具備整合多系統之間數據源的處理能力,并且把數據處理為統一的數據格式,供用戶進行便捷使用。系統通過基本的大數據處理算法提供給用戶進行使用,即使用戶對大數據處理算法不是很了解也可以輸出用戶想要的數據內容,可以解決用戶使用的瓶頸,平臺通過建立分布式架構,對數據處理能力進行智能化封裝和輸出,將數據處理能力統一對外進行模塊輸出,數據處理流程進行抽象、模型化,使平臺真正變成一個通用的對象,進而可以方便用戶自由的去設計業務邏輯與功能。

2 數據治理平臺總體架構

本文中所研究的大數據的可視化數據治理平臺是基于博物館或科技館等相關系統場景進行搭建的,這些場景的相關系統一直是從傳統系統慢慢進行演變,現階段就存在系統數據來源廣,數據之間數據不兼容等問題。所以系統建設需要充分考慮目前系統的兼容性后未來系統升級的可拓展性,系統的構建使用平臺化和模塊化的設計思路進行構建,充分滿足目前當前系統的數據業務需求。可視化數據治理平臺的總體架構主要有四層進行組成,分別是用戶展示層、應用層、支撐層和數據層。用戶展示層主要是系統使用用戶和使用人進行開放,本文中主要是系統管理人員和業務使用人員,通過大屏終端、PC電腦和移動終端提供系統展示能力。應用層主要是負責提供應用能力給上層進行使用,例如數據資產全景視圖、運營管理數據分析和安全態勢監測等能力。支撐層主要是提供數據采集能力、數據治理平臺能力和數據可視化平臺能力。數據采集主要是對底層提供的原始數據進行整合處理,將原始數據進行處理后,進行數據能力統一封裝,處理好的數據統一提供接口對外進行提供輸出數據能力。數據治理平臺能力是對采集到的融合數據進行統一數據處理,包括基本的數據預處理,數據異常補全等數據處理能力。數據可視化平臺是將數據治理平臺的數據進行可視化的展示,數據可視化顯示,數據處理可視化建模和數據可視化管理能力。數據層就是最基本的各系統之間的原始數據庫的原始數據,包括各種配置文件數據和數據庫數據,例如檔案數據、票務數據和客流數據等等,這些數據都是各自子系統分別進行提供的,數據存儲的格式和方式都可能不盡相同,所以需要為數據進行統一元數據處理。具體系統總體架構圖,如圖1所示。

圖1 系統總體架構圖

3 數據治理平臺核心流程

本文研究的一種基于大數據的可視化數據治理平臺主要是研究通過提供可視化的界面提供給用戶進行組合數據處理,數據處理模塊都通過模塊化的封裝提供給用戶,主要涉及數據采集處理和數據算法處理等模塊內容,便于用戶自行進行數據數據操作。

3.1 數據處理分析流程

本文中搭建的數據治理平臺的數據處理需求不僅需要數據的采集功能,而且還需要數據的融合處理能力,同時為了滿足后期系統的可視化可擴展性,系統還需要滿足數據融合處理具有一定的自定義處理能力。系統進行數據處理的主要流程分為3步,即數據采集、數據清洗和數據發布。數據采集,就是從系統中抽取元數據信息。現有的博物館系統數據系統來源廣泛,包括票務系統、員工內部系統、場館實時監控系統和內部物資管理系統等等,不同系統之間使用的數據庫也都不完全相同,包括SQL Server、Oracle、DB2和Mango DB等主流數據庫,還有一些系統使用的是國產的數據庫,數據讀取都是基于標準的JDBC、ODBC接口進行數據讀取。另外數據采集還包括一些文件數據的讀取工作,包括文本或者XML配置文件等。系統為了支持數據采集具有擴展性,通過建立具有調度能力的控制數據通道,用戶設置之后,系統自動進行數據采集。數據清洗主要是系統負責對一些異常數據、數據不一致或者空白數據等情況進行處理,最后形成一套完整的數據內容,系統數據處理也是需要兼容后期的可擴展性。數據清理也支持用戶手動進行處理和數據運算處理程序。數據發布就是數據經過清洗后,生產的數據發布到對外數據處理結構中,這里的數據結構也支持自定義進行編輯,用戶可以進行按需選擇使用,便于后期數據進行統一處理和應用。數據治理平臺的數據處理分析流程圖,如圖2所示。

圖2 數據處理流程圖

3.2 數據血緣分析

數據治理平臺需要處理的數據量很大,為了保證后期數據結果的高質量和高價值,就需要保證數據處理的源頭進行處理的元數據處理過程質量高。系統平臺采用血緣分析發幫助進行數據治理工作,一方面當發現數據有異常狀況時,可以幫助進行數據追蹤,找到有問題的數據源,另一方面可以根據血緣關系清洗數據清單可以直觀的保證數據的質量。系統采用血緣分析將分析元數據的產生、加工處理及流轉流通鏈路,得出血緣關系與影響關系,輔助用戶定位數據倉庫建設過程中的問題及判斷數據變動的影響范圍,輔助用戶開展數據關聯分析。血緣分析主要分為三部分。第一部分主要為編寫依賴于sql語法規則的sql語句解析、詞法解析及語法解析等規則問題。第二部分信息傳播。第三部分編寫血緣計算計算模型。在分析過程中會生成血緣關系圖和影響關系圖,供用戶進行參考。血緣關系圖:解析數據加工處理過程,追溯對該對象有影響的所有表的范圍,支持表級及字段級關系展現,并可查看其操作步驟。影響關系圖:解析數據加工處理過程,分析該對象發生變化后會影響或牽連到的表范圍,支持表級及字段級關系展現,并可查看其操作步驟。具體的數據血緣分析示意圖,如圖3所示。

圖3 數據血緣分析示意圖

3.3 可視化數據治理流程

平臺通過提供可拖曳的完善的圖形組件給用戶,讓用戶自行進行選擇建模使用,完成數據處理和計算分析的目的。用戶不需要具備專業的數據分析編碼的能力,只需要根據自身的需求進行選擇模塊進行建模,配置好相關的數據處理參數即可。用戶進行可視化數據治理流程,首先需要平臺通過內置的自助數據導入功能對元數據進行準備操作,這樣可以保障數據處理操作不影響源數據,不對原始系統數據產生干擾。待系統數據準備好后,用戶需要快速的瀏覽數據確保數據源正確,而且可以了解數據的基本分布情況。然后可以使用數據處理功能,對數據進行關聯、追加和合并等操作。同時平臺內置了多種度量指標計算模塊和多種計算模式,通過這些模塊的嵌入集成,讓業務人員即使在不理解算法原理的情況下,也可快速完成數據處理的應用,進行相應的深度數據分析工作。具體的可視化數據治理流程圖如圖4所示。

圖4 可視化數據治理流程圖

4 數據治理平臺實踐成果

基于大數據的可視化數據治理平臺的數據采集方式支持用戶進行可視化的拖拽選擇,可以讓用戶靈活實現數據采集的功能,而且還提供用戶自定義采集的能力,便于用戶自行拓展數據采集能力。目前平臺對主流的數據采集模塊進行了組件封裝,具體包括如下組件庫,主流數據庫、主流文件、配置文本文件和接口方式接入。系統提供的輸入組件能實現基本的數據輸入和更新操作,另外針對輸入的數據系統還提供基本的數據處理能力,包括基本的字符串處理功能。這些組件都是以圖形化的能力向用戶提供,方便用戶進行編排和使用,另外,平臺還提供圖形化的集成開發環境,提供多種數據處理組件,方便編排復雜數據處理流程以及管控多種模式的數據處理任務。系統為了滿足數據處理的效率,支持數據進行批處理操作,用戶選擇圖形化的數據處理組件后,組件之間數據處理操作按照處理順序進行運行計算。數據采集實際運行效果圖,如圖5所示。

圖5 數據采集實際運行效果圖

大數據的可視化數據治理平臺提供數據預處理能力,同樣也是可以通過拖拽式界面操作,用戶通過組件式選擇相關的數據預處理能力組件進行處理能力組合。平臺數據處理模塊支持數據提前預處理的功能,用戶選擇的數據處理組件之間都是模塊化的橋接,為了保證數據處理的效率,數據模塊之間如果提前進行預處理,可以節約時間。目前系統支持數據清理、數據變換等數據預處理能力。數據模塊之間進行數據融合處理,不僅僅支持數據快速構建通用的處理模型進行數據處理,數據表之間為了便于用戶快速的進行數據處理,提供快速分解、融合和分析等功能。另外,平臺還提供了專業的數據處理計算能力,具備目前主流的數據處理算法,方便用戶直接進行使用,無需進行開發和便捷。用戶可以根據自己數據建模的需求進行選擇相關的算法進行構建數據處理模塊,系統會對基本的算法建模進行推薦和指導建議,方便輸出最優的數據內容,滿足用戶的數據預處理需求。另外,本文中的系統平臺提供的算法主要基于業界主流的Spark分布式內存計算框架開發,能夠滿足用戶針對高數據量處理的使用場景,用戶還可以自行采用Scala語言編寫相關腳本來實現個性化的數據處理算法,來滿足用戶的特殊需求。數據預處理示意圖,如圖6所示。

圖6 數據預處理示意圖

可視化數據治理平臺支持選擇相關機器學習算法進行數據處理,系統中集成了基本的分類算法、回歸算法和聚集算法等功能,另外還提供了一些高效的自定義優化算法,包括視覺聚類算法、稀疏時間序列算法和稀疏迭代回歸等算法,大大的提升了數據處理的性能。用戶通過選擇相關的算法進行數據計算分析建模,根據數據處理的目的進行算法選擇,平臺在數據運行中產生的數據都是進行文件化和可視化圖標形式進行數據,用戶通過查閱相關數據數據,進行數據分析。如果數據未達到預期或者錯誤,用戶還可以選擇迭代計算和模型調優,保證最終產生的數據具有正確性和高實用性。針對具有大數據知識的專業人士,系統提供支持深度學習框架TensorFlow,提供用戶編碼式構建深度學習網絡,這樣就可以滿足用戶自定義調優和自主化數據處理。機器學習能力示意圖,如圖7所示。

圖7 機器學習能力示意圖

5 小結

通過對大數據的可視化數據治理平臺的調查和相關專業文獻的研究,本文介紹了大數據的可視化數據治理平臺的關鍵核心處理技術、總體設計架構和工作原理,完成了相關大數據的可視化數據治理平臺的實現。大數據的可視化數據治理平臺通過提供靈活的可視化拖拽組件提供給用戶進行使用,用戶不需要對大數據處理專業算法進行非常的了解,就可以使用組合組件來滿足數據處理的要求。同時平臺支持自定義編寫腳本來實現使用用戶的算法進行數據治理。最終數據可以通過圖形化或者文件化的形式為用戶提供服務,滿足用戶靈活性和高質量的數據使用需求。

猜你喜歡
數據處理可視化用戶
基于CiteSpace的足三里穴研究可視化分析
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
主站蜘蛛池模板: 国产精品无码制服丝袜| 国产精品午夜电影| 午夜天堂视频| 国产69精品久久久久孕妇大杂乱| 色综合久久88| 国产女人18水真多毛片18精品| 中文字幕在线一区二区在线| 国产黄网永久免费| 在线观看av永久| 国产日韩AV高潮在线| 久久综合亚洲鲁鲁九月天| 丰满人妻久久中文字幕| 欧美午夜视频| 青青青国产精品国产精品美女| 69视频国产| 韩国自拍偷自拍亚洲精品| 国产亚洲现在一区二区中文| 国内精品久久人妻无码大片高| 成人免费黄色小视频| 亚洲综合久久成人AV| 久久无码av一区二区三区| 久久久久久久久18禁秘 | 亚洲精品天堂自在久久77| 精品1区2区3区| 一级福利视频| 色欲色欲久久综合网| 97亚洲色综久久精品| 国产91小视频| 国产99欧美精品久久精品久久| 欧美精品成人| 噜噜噜久久| 亚洲男人的天堂久久香蕉网| 亚洲91精品视频| 国产成人精品一区二区免费看京| 久久影院一区二区h| 亚洲视频免| 91国内外精品自在线播放| 亚洲成人动漫在线| 国产理论精品| 成人午夜视频网站| 99视频在线看| 欧美日韩在线国产| 亚洲人成网18禁| 国产精品无码在线看| 国产青榴视频| 亚洲日韩精品欧美中文字幕| 欧美亚洲国产视频| 色偷偷综合网| 国产凹凸一区在线观看视频| 一本大道在线一本久道| 97精品伊人久久大香线蕉| 午夜欧美在线| 狠狠色噜噜狠狠狠狠奇米777| 全色黄大色大片免费久久老太| 午夜激情福利视频| 小说 亚洲 无码 精品| 欧美成人a∨视频免费观看| 欧美日韩午夜视频在线观看| 国产丝袜啪啪| 美女毛片在线| 99久久无色码中文字幕| 国产亚洲精品97AA片在线播放| 五月六月伊人狠狠丁香网| 欧美不卡在线视频| 久久精品aⅴ无码中文字幕| 一级做a爰片久久免费| 曰韩人妻一区二区三区| 毛片视频网址| 欧美无遮挡国产欧美另类| 又猛又黄又爽无遮挡的视频网站| 99久久99视频| 免费无遮挡AV| 亚洲色图综合在线| 国产精品亚洲专区一区| 91色在线观看| 人妻精品久久久无码区色视| 国产最新无码专区在线| 国产精品久久久精品三级| 麻豆AV网站免费进入| 91av国产在线| 国产黄在线观看| 国产办公室秘书无码精品|