999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

鐵路數據分布式湖倉一體架構分析與設計

2024-04-14 14:11:04李國華鄒丹李海軍孫思齊王建強
現代信息科技 2024年1期

李國華 鄒丹 李海軍 孫思齊 王建強

DOI:10.19850/j.cnki.2096-4706.2024.01.011

收稿日期:2023-03-27

基金項目:中國國家鐵路集團有限公司科技研究開發計劃課題(P2021S012)

摘? 要:科學合理的數據資源分類方法和行之有效的數據湖架構體系,可以支撐起鐵路全業務數據的高效存儲、組織和利用,并進一步支持并優化各項運營業務。文章首先對現有數據湖架構進行簡要分析,確定選用湖倉一體的概念,將鐵路數據以主題進行分類以適應業務處理需求;其次設計了鐵路數據分布式湖倉一體架構,闡述了路局級子湖倉一體與國鐵集團總湖倉一體的架構與功能,以及兩者之間的數據流轉過程;最后分析了所設計架構的特性與存在的問題,為進一步構建有效的鐵路運營數據湖提供了參考。

關鍵詞:鐵路大數據;數據治理;數據湖;湖倉一體;分布式架構

中圖分類號:TP302.1? 文獻標識碼:A? 文章編號:2096-4706(2024)01-0054-05

Analysis and Design of Railway Data Distributed Lake Warehouse Integrated Architecture

LI Guohua1, ZOU Dan1, LI Haijun2, SUN Siqi1, WANG Jianqiang2

(1.Institute of Computing Technologies, China Academy of Railway Sciences, Beijing? 100081, China;

2.School of Traffic and Transportation, Lanzhou Jiaotong University, Lanzhou? 730070, China)

Abstract: A scientific and reasonable data resource classification method and an effective data lake architecture system can support the efficient storage, organization, and utilization of railway full business data, and further support and optimize various operational businesses. This paper first provides a brief analysis of the existing data lake architecture, determining the concept of integrated lake and warehouse, and categorizing railway data by theme to meet business processing needs; secondly, a railway data distributed lake warehouse integrated architecture is designed, elaborating on the architecture and functions of the sub lake warehouses at the railway bureau level and the overall lake warehouses of China Railway Group, as well as the data flow process between the two; finally, the characteristics and existing problems of the designed architecture are analyzed, providing a reference for further constructing an effective railway operation data lake.

Keywords: railway big data; data governance; data lake; integrated lake and warehouse; distributed architecture

0? 引 言

鐵路數據服務平臺是鐵路大數據應用的基礎支撐,是鐵路行業的基礎性數據平臺,用于整合全路的數據資源,實現數據的規范存儲、管理和高效應用。數據湖的概念誕生于2010年,是由James Dixon提出的一種大數據基礎設施架構,通過引入自然生態中湖的概念來描述一種數據從源頭流入,用戶或程序可以從中查詢和抽取所需數據的“數據湖”[1]。然而數據湖這一概念自誕生之初時至今日仍未在業界形成嚴格界定標準,Gartner[2]認為數據湖是一種以低成本進行數據存儲的方法。

許多學者在特定領域的數據管理中都引入了數據湖概念。梁懌[3]等對于西氣東輸領域多源數據匯總過程中的安全性問題設計了基于絕對單向技術的數據湖架構并實現了安全性與功能性之間的平衡;譚景信[4]等針對工商聯業務的特性構建了虛擬化模型驅動的分布式數據湖架構,并通過測算驗證了模型在滿足業務需求的同時有效降低了數據傳輸的成本;對于電網業務數據的管理,曾飛[5]等針對數據存儲與共享設計了基于數據湖的邊緣層分布式電力數據存儲架構并通過實驗表明了其具有應用的潛力,謝裕清[6]等將原始數據加密存儲在數據湖中并以提出的數據訪問與共享優化模型來實現數據的跨業務連通,兼顧數據流轉的安全性與高效性。我國鐵路實行模塊化管理,主要包括機務、車務、工務、電務和車輛等模塊,具有跨區域網絡、技術構成復雜、部門繁多、業務應用廣泛等特點[7],因此,構建鐵路數據湖必須要考慮鐵路數據的特點與鐵路系統的結構。

中國國家鐵路集團有限公司自2019年成立后積累了體量接近10 PB規模的各個生產運營領域的海量數據,其中蘊含著巨大的分析和應用價值,對于如何有效地管理這些數據許多學者開展了各自的研究。王喆[8]等在鐵路數據服務平臺的存儲架構設計中引入了數據湖的概念;劉彥軍[9]等以整合成熟的開源技術與產品為主設計了鐵路大數據資產管理平臺;海洋[10]等所設計的鐵路大數據存儲管理系統可實現數據來源管理,存儲系統資源可視化管理,數據預測和存儲規劃以及數據的統一管理;王沛然[11]等針對“數據沼澤”現象從鐵路數據服務平臺存儲架構層面提出了一種新的頂層設計,通過豐富的存儲組件滿足各種存儲需求并劃分數據存儲的冷熱分區。

想要將數據湖概念合理地融入鐵路數據的治理中就需要構建適合鐵路領域的數據湖架構。目前數據湖架構主要以下幾種。最初的數據湖架構由兩層組成:臨時數據的著陸區層級和永久存儲原始數據的層級。盡管各個學者與廠商在后來的發展中構建了更為復雜的數據湖架構,但大多架構都遵從了最初架構的定義:數據在數據湖中的存儲形式應是其原始的,不變的形式[12]。最初的兩層架構經過一些調整演變成了Lambda架構,Lambda架構更多地關注數據處理和消費而非存儲,適用于主要通過特別查詢訪問的大量數據[13]。數據池架構由五個在邏輯上相互分離的組件組成,最大缺點是缺乏原始形式的持久數據存儲,這可能最終導致分析數據時缺乏信息并失去數據再處理的可能性[14]。多層架構中每一層都與相鄰的層通信,數據必須在所有四層上進行管道傳輸[15]。Zaloni分區架構包括四個常規區域和一個沙箱區域,沙箱不受訪問限制,提供對全體數據的分析和探索[16]。另一種部分基于Zaloni分區架構的方法包含更多分區,每個分區都以特定用途建模的形式保存數據。該架構中提出的所有區域都在存儲的數據上創建了組織層,并向數據湖范圍之外的用戶和系統提供數據湖接口[17]。

從數據倉庫到數據湖,數據治理的要求標準日漸完善,在順應實際需求的趨勢下,湖倉一體概念誕生于2020年,實現了數據倉庫與數據湖的有機融合。湖倉一體融合了兩層架構和區域架構,通過虛擬化層提供了對數據倉庫和數據湖的數據訪問[18,19]。

本文通過對湖倉一體概念的理解與對鐵路大數據特點的把握,構建了鐵路數據分布式湖倉一體架構,詳細闡述了路局級子湖倉一體與國鐵集團總湖倉一體的架構與功能以及兩者之間的數據流轉過程,分析此架構理論上可支持海量多源異構數據的處理,保證數據的原始格式儲存,具有一套完善健全的數據流轉過程,實現數據的冷熱分離與存算分離。

1? 鐵路數據分類

鐵路數據按照主題域分為16類,按照數據性質劃分為主數據、事務數據和基礎數據[20]。按照數據生產過程和加工深度,鐵路數據可分為一、二、三次數據;按照效用范圍可分為共享數據和專有數據;按照穩定性及時效性可分為靜態數據和動態數據[21]。鐵路主數據作為鐵路系統最基本的數據支撐有必要依據主題進一步往下細分到具體條目[22,23]。

考慮到數據湖與數據倉庫之間的數據流轉效率與面向業務分析的數據主題域劃分原則,數據湖中的數據應按照主題分區存儲。本文將鐵路數據主要分為運輸對象、運輸產品、市場營銷、調度指揮、運輸生產、設備設施、物資管理、人員及機構、建設管理、綜合協同規劃、財務管理11大類,如圖1所示。

具體介紹如下:

1)運輸對象分為客運部分與貨運部分。客運數據包含鐵路客運相關的旅客信息及其服務記錄等數據;貨運數據包含鐵路貨運相關的托運人信息及其服務記錄等數據。

2)運輸產品分為客運部分和貨運部分,分別都包含其產品信息與相關服務。

3)市場營銷分為客運部分和貨運部分,分別都包含其營銷計劃與市場調研。

4)調度指揮包含運輸調度中的各項計劃和實績信息,如輪廓計劃、日(班)計劃、車站作業計劃、調度命令信息等。

5)運輸生產包含了運輸生產作業過程中列車、車輛、機車、集裝箱及客貨運輸中的事件、狀態信息,列車編組信息等。

6)設備設施分為固定設施數據和移動設備數據,分別包含各自設施設備的基本信息與作業記錄,作業記錄包含使用、維修及保養記錄。

7)物資管理分為物料清單數據與管理記錄數據,管理記錄包含物資的供應、使用以及庫存記錄。

8)人員及機構分為組織機構數據與人員信息數據。所涉及的人員與組織不僅限于鐵路系統內部而是所有與鐵路有關的人員與組織。

9)建設管理分為設計管理數據、建設管理數據、項目管理數據、工程監督數據等。

10)綜合協同規劃分為綜合管理數據與戰略決策數據。綜合管理包含規章政策與組織協同信息等;戰略決策包含關鍵績效指標和戰略管理信息等。

11)財務管理包含財務科目、資產信息、會計核算、清算信息等。

2? 分布式湖倉一體架構

2.1? 分布式架構

與日俱增的鐵路數據龐大的體量會使傳統集中式架構會產生以下問題:

1)數據量的持續增長會使數據管理難度增加,而管理不善的數據湖有變為“數據沼澤”的風險。

2)全量的原始數據搬運至數據湖中會占用大量帶寬資源且無法保證時效性。

3)集中式數據湖只管存儲日益增長的原始數據而忽略了數據的使用價值大小,存儲成本和管理成本會不斷攀升直至難以承受。

本文針對鐵路大數據系統需求的特點構建了以國鐵集團的總湖倉一體為原點向外輻射型地連接18個路局的子湖倉一體的分布式架構。

2.2? 子湖倉一體架構

路局的子湖倉一體架構分為4層:采集攝取層、湖倉存儲層、處理轉換層及應用消費層,如圖2所示。

1)采集攝取層,其任務是通過數據傳輸、數據遷移、文件同步以及實時采集等途徑采集攝取來自不同數據源節點即路局管轄內各個站段和系統的海量異構數據,包括結構化數據、半結構化數據以及非結構化數據等。

2)湖倉存儲層包含數據湖與數據倉庫,數據湖包含臨時著陸層與原始存儲層。數據最初到達的區域是臨時著陸層。臨時著陸層中的數據包含原始格式的臨時存儲數據。該區域會進行初步數據分析以及潛在的業務和技術合規性缺失。原始存儲層包含從臨時著陸區獲得的原始數據。在原始存儲層中,原始數據以其原始形式永久存儲,而一旦數據在原始存儲層中被確認存儲就會從臨時著陸區刪除,如此原始存儲層成為分析和進一步處理的唯一可信數據源。此外,初始數據處理是在原始區域中完成的,從而使用適當的元數據建立數據索引和完善記錄。

采集攝取層收集的數據先到達數據湖進行初步分析與驗證后再依據熱數據的定義標準流轉到數據倉庫里,熱數據的定義標準由數據實時性,數據價值以及數據使用頻率等因素決定。而當數據倉庫內的熱數據不再滿足熱數據的定義標準后就會變成冷數據流轉回到數據湖內,出于技術合規性考慮冷數據同樣要先到達臨時著陸區再前往原始存儲區。考慮到數據流轉效率與數據存儲成本,將熱數據存儲到數據倉庫里方便提取,而冷數據存儲到數據湖中可以有效降低存儲成本,同時這些移到湖里的數據,仍然可以被數據倉庫查詢使用。湖倉存儲層有機融合了數據倉庫與數據湖的優點,實現了數據的冷熱分離。為了使數據湖與數據倉庫之間的數據流轉更加順暢,數據湖的原始存儲層按照數據主題分為11個區域,數據倉庫也按照同樣的原則進行主題劃分。

3)處理轉換層提供了一個可挖掘鐵路海量數據價值的潛力,通過數據科學、大數據分析、機器學習以及實時計算等功能對鐵路大數據進行分析和處理,分析結果可為鐵路系統高層決策提供參考。

4)應用消費層為最終用戶或應用程序提供了所需數據的訪問入口。用戶或應用程序可以訪問這些數據,以便執行數據探索、創建和應用分析查詢,并使用各種可視化工具可視化存儲的數據。

2.3 總湖倉一體架構

國鐵集團的總湖倉一體架構分為三層,與路局的子湖倉一體相比沒有采集攝取層,這是因為國鐵集團總湖倉一體的數據來源就是下屬的18個路局子湖倉一體的湖倉存儲層級,數據來源安全且穩定,因此無須設置采集存儲層。總湖倉一體的數據湖可分別與子湖倉一體的數據湖和數據倉庫之間進行數據傳輸。總湖倉一體與子湖倉一體組成的分布式架構如圖3所示。

國鐵集團的總湖倉一體架構的三層在功能屬性方面與路局的子湖倉一體一致,而在能力強弱方面前者強于后者,除了在硬件設施方面國鐵集團所部署的設備能力強于路局所部署的設備能力外,總湖倉一體還有進行數據邏輯入湖和云計算的特權。

在路局級子湖倉一體中,此路局所管轄的所有數據都需要在物理層面上進行存儲以確保成為大數據分析應用的可靠數據源,而在國鐵集團總湖倉一體中只需物理存儲少量所需數據,再邏輯存儲所有子湖倉一體的所有數據即可,這樣可以有效降低數據存儲與傳輸成本,如果總湖倉一體需要未在本地物理存儲的數據只需按照邏輯地址到物理存儲了該數據的子湖倉一體中提取即可。

如果某一子湖倉一體需要其他子湖倉一體的數據則需要向總湖倉一體申請,由總湖倉一體作為中轉實現子湖倉一體之間的數據流轉,如此就不必在18個子湖倉一體之間兩兩建立數據傳輸通道。云計算同理,總湖倉一體可以調動子湖倉一體閑置的算力完成數據處理的任務,子湖倉一體也可向總湖倉一體申請使用云計算來處理超過自身硬件能力的計算需求。

3? 架構分析

3.1? 湖倉一體的特性

經綜合分析,本文所提出的湖倉一體架構在鐵路全業務數據治理上具備以下特點:

1)支持海量多源異構數據的處理,包括結構化與非結構化類型,如文本、圖像、視頻、音頻,以及半結構化數據,如JSON等。

2)保證數據“原汁原味”的原始性與完整性,兼容各類數據模型的建立,具有一套完善健全的數據流轉過程。

3)實現數據的冷熱分離,使得數據的流動效率更高,存儲成本更低。

4)實現存算分離,給予了整個系統擴展能力與容量的潛力,符合未來對于分布式數據架構的發展要求。

湖倉一體仍處于發展探索階段,業界尚未就定義標準與技術路線達成共識,仍需一定時間的完善才能成為成熟的大數據處理方案,但完善時間的不確定使得湖倉一體可能會被其他新誕生的大數據處理方案所替代。其次湖倉一體實際應用案例較少,缺乏可靠的參考對照,具體工具產品的使用與實施部署的方案仍有待考慮,因此無法確定湖倉一體能否會實現預期的效果。

3.2? 未來展望

鐵路數據在湖倉一體的架構中的流動有以下情況:從各類數據源頭流入架構,從架構流出到用戶或應用程序以及在整體架構中層級與區域之間的流動。數據的數量與質量關系著管理數據的難度,從而產生“數據重力”現象,處理不善可能導致“數據沼澤”現象的產生,因此湖倉一體架構要有機結合數據湖與數據倉庫,克服“數據重力”現象,使數據在各個層級與區域之間的流動更有效率。

湖倉一體的實現需要多個產品與工具的配合與部屬,此架構以結構簡單的數據湖為核心,建立一套完整的數據處理系統,鐵路全業務數據湖需要具備的功能是,從鐵路數據的采集與攝取到數據的入湖入倉,到湖倉之間冷熱數據的流轉與存儲,再到數據出湖從而進行轉換處理以供消費與應用,多個層級與區域的相輔相成與緊密縫合使得鐵路數據有一個完整的流入—存儲—流出—處理—消費過程。

4? 結? 論

從數據倉庫的成熟應用到數據湖的初步探索再到湖倉一體概念的誕生,說明現代社會對于日益增長的海量數據的存儲與處理的要求也隨之上升。鐵路行業作為國家基礎設施的支柱性行業必須迎合數據信息時代的發展趨勢,建立能夠涵蓋海量多源異構數據全生命周期的大數據處理系統符合鐵路行業對于未來的期望。本文所構建的鐵路數據分布式湖倉一體架構分為國鐵集團總湖倉一體和路局級子湖倉一體上下兩級,理論上可支持海量多源異構數據的處理、保證數據的原始格式儲存、具有一套完善健全的數據流轉過程,實現數據的冷熱分離與存算分離、可通過物理入湖與虛擬入湖進行數據分布式存儲、可通過分散的算力設備進行云計算。未來計劃研究該架構的具體部署方案以及軟件硬件選取,以供相關研究與實踐參考。

參考文獻:

[1] DIXON J. Pentaho, Hadoop, and Data Lakes [EB/OL].[2023-05-06].https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/.

[2] GARTNER. Gartner says beware of the data lake fallacy [EB/OL].[2023-05-06].http://www.gartner.com/newsroom/id/2809117.

[3] 梁懌,李佳鵬,王洪鈞,等.一種基于絕對單向技術的數據湖設計方法 [J].西安石油大學學報:自然科學版,2022,37(2):138-142.

[4] 譚景信,劉玉龍,李慧娟.虛擬化模型驅動的分布式數據湖構建方法研究 [J].計算機科學與探索,2019,13(9):1493-1503.

[5] 曾飛,楊雄,蘇偉,等.基于區塊鏈與數據湖的電力數據存儲與共享方法 [J].電力工程技術,2022,41(3):48-54.

[6] 謝裕清,王淵,江櫻,等.便于數據共享的電網數據湖隱私保護方法 [J].計算機工程與應用,2021,57(2):113-118.

[7] 馬麗梅,史丹,高志遠,等.大數據技術及其行業應用:基于鐵路領域的概念框架研究 [J].北京交通大學學報:社會科學版,2019,18(3):58-67.

[8] 王喆,馬小寧,鄒丹,等.基于鐵路數據服務平臺的鐵路數據資產管理研究 [J].鐵路計算機應用,2021,30(3):23-26.

[9] 劉彥軍,李平,馬小寧,等.鐵路大數據資產管理平臺的研究與設計 [C]//第十二屆中國智能交通年會大會論文集.常熟:電子工業出版社,2017:351-356.

[10] 海洋,李浩鵬,劉懺,等.鐵路大數據存儲管理系統設計方案 [J].鐵路計算機應用,2021,30(8):34-37.

[11] 王沛然,馬小寧,王喆,等.鐵路數據服務平臺存儲架構設計與應用 [J].鐵路計算機應用,2021,30(5):48-52.

[12] FANG H. Managing data lakes in big data era: What's a data lake and why has it became popular in data management ecosystem [C]//2015 IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent Systems (CYBER). Shenyang:IEEE,2015:820-824.

[13] MUNSHI A A, Mohamed Y A R I. Data Lake Lambda Architecture for Smart Grids Big Data Analytics [J].IEEE Access,2018,6:40463-40471.

[14] INMON W H. Data Lake Architecture:Designing the Data Lake and Avoiding the Garbage Dump [J].Technics Publications.2016

[15] SAKR S,ZOMAYA A Y. Encyclopedia of Big Data Technologies [M].Springer International Publishing,2019:552-559.

[16] LAPLANTE A,SHARMA B. Architecting Data Lakes:2nd Edition [M].[S.I.]:O'Reilly Media,2018.

[17] GIEBLER C,GR?GER C,HOOS E. The Data Lake Architecture Framework: A Foundation for Building a Comprehensive Data Lake Architecture [EB/OL].[2023-04-20].https://www.researchgate.net/publication/354661265_The_Data_Lake_Architecture_Framework.

[18] ARMBRUST M,GHODSI A,XIN R. Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics [EB/OL].[2023-04-20].https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf.

[19] ORESCANIN D,HLUPIC T. Data Lakehouse - a Novel Step in Analytics Architecture. 2021 44th International Convention on Information, Communication and Electronic Technology (MIPRO).Opatija:IEEE,2021:1242–1246.

[20] 馬小寧,李平,楊連報,等.鐵路信息化數據架構研究與設計 [C]//2014第九屆中國智能交通年會大會論文集.廣州:電子工業出版社,2014:25-32.

[21] 馬小寧,史天運,鄒丹.鐵路公用基礎信息的特征、范疇及概念分析 [J].中國鐵路,2012(11):44-47.

[22] 楊連報,李平,馬小寧,等.鐵路主數據全生命周期管理研究 [C]//第十二屆中國智能交通年會大會論文集.常熟:電子工業出版社,2017:365-369.

[23] 馬小寧,鄒丹,吳艷華.鐵路主數據管理平臺解決方案及應用實踐 [J].中國鐵路,2017(1):17-23.

作者簡介:李國華(1978—),男,漢族,內蒙古突泉人,正高級工程師,碩士,研究方向:鐵路運輸、計算機軟件及計算機應用、電信技術。

主站蜘蛛池模板: 91伊人国产| 国产啪在线| 亚洲天堂首页| 亚洲婷婷六月| 美女内射视频WWW网站午夜| 无码啪啪精品天堂浪潮av| 国产91色在线| 91探花国产综合在线精品| 成人午夜久久| 亚洲色图狠狠干| 亚洲中文精品久久久久久不卡| 国产免费网址| 日韩中文无码av超清| 午夜限制老子影院888| 日韩精品成人在线| 国产精品va免费视频| 欧美成人一级| 亚洲91精品视频| 国模私拍一区二区三区| 女人天堂av免费| 无码'专区第一页| 成人免费午间影院在线观看| 精品成人免费自拍视频| 亚洲综合狠狠| 2021国产精品自产拍在线| 国产福利在线免费| 欧美国产日本高清不卡| 久久精品中文无码资源站| 91久久偷偷做嫩草影院电| 九九九九热精品视频| 色综合手机在线| 亚洲Aⅴ无码专区在线观看q| 色亚洲成人| 中文字幕在线视频免费| 国内精品91| 国产一级毛片在线| 国产网站免费| 无码人妻热线精品视频| 国产成人啪视频一区二区三区| 欧美爱爱网| 永久毛片在线播| 激情无码字幕综合| 欧美一区二区三区香蕉视| 国产成人1024精品| 久久精品丝袜高跟鞋| 欧洲高清无码在线| 91小视频在线观看免费版高清| 91精选国产大片| 国产鲁鲁视频在线观看| 中文成人在线| 国产精品永久免费嫩草研究院| 亚洲天堂啪啪| 国产视频自拍一区| 91麻豆精品国产高清在线| 日韩精品成人网页视频在线| 午夜高清国产拍精品| 精品自窥自偷在线看| 成人福利在线视频免费观看| 色哟哟国产成人精品| 天堂网亚洲综合在线| 久久久久亚洲av成人网人人软件 | 亚洲精品动漫| 亚洲高清日韩heyzo| 色婷婷成人| 免费av一区二区三区在线| 日韩精品专区免费无码aⅴ| 日韩在线观看网站| 国产一级毛片在线| 综合天天色| 国产SUV精品一区二区6| 亚洲欧美成人网| 精品国产一区二区三区在线观看 | 大陆精大陆国产国语精品1024| 98精品全国免费观看视频| 巨熟乳波霸若妻中文观看免费 | 欧美一级高清片欧美国产欧美| 91精品国产自产在线老师啪l| 久久综合伊人77777| 国产成人艳妇AA视频在线| 波多野结衣二区| 欧美天堂在线| 国产网站一区二区三区|