基于Hadoop與Spark的大數據處理平臺的構建研究

2023-04-11 12:12:10朱毓

互聯網周刊 2023年7期

摘要：鑒于當前的數據治理管控方法缺乏統一標準約束，治理管控效果比較差，故此設計一種基于Hadoop與Spark大數據平臺的數據治理管控方法。使用Apache Atlas元數據管理工具，配合Hadoop與Spark平臺完成管理工具的伸縮和擴展，實現元數據管理，利用Hadoop與Spark大數據平臺中自帶的分布式文件系統GFS的結構，內置的大量塊服務器與客戶端功能使用的過程中進行交互，搭建并行計算框架，數據治理過程主要針對數據的一致性、完整性和實時性三個方面進行治理過程設計。方法性能測試結果表明：使用設計的數據治理管控方法，企業的運營數據一致性、完整性、實時性分別為97.5%、97.7%、95.4%，由此可以看出數據質量存在提升。

關鍵詞：Hadoop；Spark；大數據處理；平臺構建

引言

當前社會正處在大數據時代，各行各業在開發新的應用程序過程中，都是以大量的行業數據為研發基石的，而行業大數據分析也已變成了公司在企業信息化構建過程中的關鍵數據源泉[1]。大數據分析在提供給人們海量資訊的同時，也會隨之而來產生一系列數據問題，使得應用程序無法有效而精準地解決現實行業需求，嚴重時甚至會影響整個企業數據管理平臺的構建[2]。基于這種情況，對大數據進行治理以提升數據質量，是當前企業在數據時代的必行之策。為解決因缺乏統一的標準約束，在數據治理過程中難以展示數據的不同維度，導致治理管控效果有限的不足，本文設計一種基于Hadoop與Spark大數據平臺的數據治理管控方法。該方法以Hadoop與Spark大數據平臺為基礎，對數據進行多方面的梳理與展示，為數據治理管控提供一定的便利條件。

1. 數據治理管控方法設計

1.1 設計元數據管理方案

大數據的背景下，元數據能夠對數據的種類進行格式化的區分和描述，將非線性的大數據之間關系變得清晰，在實際應用中能夠實現精準的數據生命周期管理[3]。元數據存在的意義是描述數據，對其進行管理能夠將元數據的功能提供給所有的業務人員，促使業務人員能夠快速理解數據，保證數據的利用率提升。在元數據管理方案中，一般使用管理工具來實現對元數據的管理。目前市面上對于元數據管理的重視程度較低，因此針對開源元數據的管理工具較少。

本文主要使用的是Apache Atlas元數據管理工具，該管理工具是元數據廠商出品的商業智能套件之一，在客戶端所提供的版本是C/S版本。在實際的平臺應用中，支持Hadoop與Spark大數據平臺數據庫的數據源，在數據通用標準模型中也能發揮自身的功能。該工具對于元數據模型具有良好的描述效果，對于數據的屬性也在可編輯范圍內[4]。在實際的使用過程中，可以結合工具的其他功能完成報表的設計以及OLAP分析。與此同時，在附件導入、Web界面訪問等功能上都有良好的表現。與其他工具相比，功能更加豐富強大。除此之外，Atlas元數據管理工具在大數據處理體系中，能夠配合Hadoop與Spark平臺完成管理工具的伸縮和擴展，實現大數據的治理。在這樣的組件使用方式下，能夠形成大數據與工具組件信息之間的統一管理。

1.2 建立基于Hadoop與Spark大數據平臺的并行計算框架

在Hadoop與Spark大數據平臺中，所包含的HDFS分布式文件與大數據平臺并行計算框架之間高度相關。作為大數據平臺中的文件系統，其中的主要功能就是并行計算與存儲組織計算機數據。Hadoop與Spark大數據平臺上，在利用自帶分布式文件系統GFS的結構中，存儲的文件規模大，但是數量較少，與傳統的大量文件之間是存在一定區別的。該文件系統在存儲和讀寫數據的過程中，一般是直接在存儲文件的代碼末尾附加一個縮略數據，以達到減少開銷的目的。與此同時，該縮略數據能區分數據流與控制流。GFS系統在運行過程中，內置的大量塊服務器與客戶端功能在使用的過程中進行交互，這樣的直接交互方式能夠提升計算過程繁忙時段的效率。Hadoop與Spark大數據平臺中的HDFS分布式結構非常適合并行計算，在進行數據治理管控的過程中，能夠提供良好的存儲環境。數據在訪問和存儲過程中，這種分布式的集群環境都能夠提升數據治理管控過程中平臺的吞吐量。在不同功能節點劃分的狀態下，可以實現一對多。

本文所設計的數據治理管控方法就是在這樣的環境下搭建MapReduce并行計算框架。通過合并之后轉到下一個reduce過程進行處理。在搭建的并行計算框架中，根據框架中原有的編寫作業，運行進程會生成一個對應的唯一作業，每次在執行程序的過程中，會生成一個對應的工作ID。每次只能實現一個作業的單一執行，這樣會提升并行計算的效率，且請求的資源能夠完全提交到HDFS上，能夠避免因為運行期間等待提交超時而被誤認為異常的情況發生。

1.3 數據多維度治理

數據治理主要是從數據的一致性、完整性和實時性三個方面進行治理。數據的一致性主要是指數據在采集到表達的一整套過程的各個階段中，數據屬性字段的命令一致。相同數據在一些屬性的數據類型和精度方面是負荷實際需要的，在使用的過程中遵循數據的約束條件和實際的數據管理業務邏輯規則，才能夠避免不一致的數據出現，從源頭杜絕數據冗余。在一致性治理過程中，首先要對不規范數據進行統計，將數據進行分類，按照類別對不規范數據進行查詢，利用SQL語句進行編程，查找不一致數據。在得到統計的數據之后，將不符合規定的數據導出[5]，對不一致的數據字段利用不同的顏色進行標注，并按照不同的數據源進行采集之后，按照單位屬性的不同進行分組，下發到數據收集的各個部門中。負責數據采集的部門將自身部門數據按照一致性的字段進行填寫之后，匯總到數據項目組中，進行大數據平臺的統一更新。將收集到的模板數據導入后臺準備的臨時數據表中，需要補充或修改的字段形式為代碼形式，那么先將其存儲之后，再導入平臺的臨時數據表中，利用字段進行代碼翻譯。在完成以上工作之后，進行數據更新，利用臨時數據表中的對應字段與平臺設備數據進行更新。數據的完整性和實時性治理過程與數據一致性的治理過程相似。在完成這三個方面的數據治理之后，數據質量會有一定程度的提升。至此完成基于Hadoop與Spark大數據平臺的數據治理管控方法的設計。

1.4 大數據可視化技術分析

Hive是用于Hadoop平臺的一種分布式數據分析框架，不僅能夠實現Hadoop平臺的數據存取和轉換，還提供了豐富的SQL查詢處理手段。為了銜接底層并行處理結構，Hive的查詢語句被系統轉換為Map和Reduce函數．利用這兩個函數實現并行處理，可以極大地降低查詢成本。同時，與HDFS類似，它也采用流模式進行數據輸入和輸出，不支持數據的隨機存取。但是Map和Reduce函數的轉換需要消耗一定的資源，因此對大規模查詢，效率將會下降，其實時查詢的效果也不佳。HBase是一種基于HDFS的數據庫，且它是開源和基于列的，通常傳統數據庫均是基于行進行數據存取和查詢的，而HBase則基于列進行相關操作，它的另外一個重要特征是可以用于存儲非結構化數據（這正是大數據環境下亟待解決的問題）。傳統數據庫一般用于存儲符合某一范式的結構化數據，但是大數據時代，非結構化數據將成為主流（如網絡平臺上發布的照片，其分辨率、格式、顏色模式等不可能完全統一）。

2.方法性能測試

大數據的可視化呈現是基于平臺中所有相關企業的業務數據構建的。由于原始數據采用的是多類型數據庫系統，且業務數據一般分散存儲在不同的服務器上，因此首先需要將數據集成，把分散的企業數據從分布式數據庫集成到Hadoop集群中，從而完成初始數據收集。基于初始提供數據的結構以關系型數據庫為主，需利用遷移工具Sqoop將數據從關系型數據庫遷移至Hadoop的HDFS存儲器上，進而再將其加載到便于檢索、查詢的Hive數據庫。然后利用HQL語句對數據進行查詢分析，并將查詢結果存入HBase數據庫。接下來將相應的查詢結果與可視化的設計主題相結合，構造對應的可視化模型，并將模型以固定形式存入HBase，最后使用Echarts可視化插件對分析模型進行圖形可視化呈現。為了驗證本文所設計的基于Hadoop與Spark大數據平臺的數據治理管控方法在實際應用中的性能，選擇某公司的運營數據作為測試案例，將本文數據治理管控方法應用在該案例上，對該測試案例的數據質量管理能力情況如圖1所示。

從圖1可以看出，該公司對于運營數據的治理管控存在一定的問題，管理級別方面的評分較低，需要進一步在數據標準與數據質量方面進行優化、治理與管控。通過加強對公司主營范圍內的業務數據以及指標數據的完善，在此基礎上，使用本文設計的基于Hadoop與Spark大數據平臺的數據治理管控方法和該公司原有的數據治理管控方式對數據進行治理。實驗時間為12個月，對比在不同數據治理管控方法下，該公司的數據一致性、完整性和實時性。該公司原有的數據治理管控結果如表1所示。

在使用本文設計的基于Hadoop與Spark大數據平臺的數據治理管控方法下，該公司的數據治理管控結果如表2所示。

分析表1和表2中的數據，可以看出，與該公司采用原有的數據治理管控方法的結果相比，在使用本文所設計的數據治理管控方法下，一年之內的數據質量均有不同程度的上升。在數據一致性中，本文方法比原有的方法提升了5.5%，數據完整性提升了3.6%，數據實時性提升了7%。由此可以看出，在使用本文設計的基于Hadoop與Spark大數據平臺的數據治理管控方法下，該公司的運營數據質量有一定程度的提升。

結語

綜上所述，本文針對目前數據治理管控方法存在的缺點，從實際的應用過程出發，考慮Hadoop與Spark大數據平臺為數據治理能夠提供的便利條件，來應對數據治理在當下的困難局面。本文從元數據管理、并行計算框架的設計以及數據多維度治理方面，對數據治理管控方法進行了設計和優化，并通過性能測試驗證了本文方法的有效性。

參考文獻：

[1]張黎平，段淑萍，俞占倉.基于Hadoop的大數據處理平臺設計與實現[J].電子測試，2022，36（20）：74-75，83.

[2]郭海波，宋達，高翔宇，等.基于EdgeX的艦艇大數據處理平臺架構[J].艦船科學技術，2021，43（17）：170-173.

[3]張海峰，魏可欣.一種基于Spark大數據處理平臺的查詢方法[J].南京郵電大學學報（自然科學版），2021，41（4）：82-90.

[4]李濤.Spark平臺下電力監測大數據并行處理與模型的跨平臺遷移[D].華北電力大學，2021.

[5]李寧偉.大數據處理平臺Hadoop攻擊和檢測技術研究[D].南京航空航天大學，2021.

作者簡介：朱毓，在職碩士研究生，講師，研究方向：計算機應用。

基金項目：安徽省高校自然科學研究重點項目——基于BPF面向容器網絡模型研究與優化（編號：KJ2021A1467）。

互聯網周刊2023年7期

互聯網周刊的其它文章: 科研項目管理系統的設計與實現研究; 數字化校園建設背景下智慧校園規劃與建設再思考; “互聯網+教學”背景下的互動教學模式探討; “互聯網+”視閾下大學生自主學習能力培養研究; 線上直播模式下“項目教學法”在高職國際漢語教學中的應用初探; 新時代背景下網絡安全人才培養機制探究