喻冰春
(中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
大數據是新資源、新技術、新理念的混合體[1]。從資源角度,大數據已經成為了一種基礎性戰略資源;從技術角度,大數據代表了新一代數據管理與分析技術;從理念角度,大數據采用數據驅動和數據閉環的理念,利用數據進行決策、實現自我升級[2-3]。
大數據技術在鐵路的應用,有利于促進數據資源共享,以數據驅動業務創新,更有助于保障鐵路行車安全,增加鐵路企業的經濟效益。近年來的相關鐵路大數據研究已經提出了鐵路大數據應用頂層設計[4]、鐵路大數據平臺總體方案及關鍵技術[5]和鐵路大數據應用體系架構[6]。本文旨在結合鐵路貨車數據資源情況,開展鐵路貨車大數據平臺總體設計,為鐵路貨車大數據平臺的搭建提供設計依據,推進大數據技術在鐵路貨車領域的應用。
鐵路貨車大數據包括了貨車及關鍵零部件從設計、制造、運用、檢修到報廢的全生命周期各個環節所產生的各類數據。鐵路貨車大數據的數據來源主要有3類。
(1)鐵路貨車運用維修數據
運用維修數據主要來源于鐵路貨車技術管理信息系統,數據資源分別存放在中國國家鐵路集團有限公司(簡稱:國鐵集團)、鐵路局集團公司(簡稱:鐵路局)、車輛段、作業場以及貨車造修工廠中,各級系統存儲了系統應用至今的全部數據,每日新增數據量約2 G。
(2)鐵路貨車運行安全監控數據
安全監控數據主要來源于鐵路車輛運行安全監控系統[7],數據資源存放在國鐵集團、鐵路局、車輛段中,系統利用紅外軸溫探測、力學檢測、高速攝像、聲學診斷等軌邊安全監測設備對運行中的貨車車輛進行動態監測與管理,每日監控車輛約1 000余萬輛次,每日新增數據量約120 G,目前系統存儲了近3個月的圖像、實時車載數據和近2年的非圖像數據。
(3)相關外部數據
相關外部數據主要來源于與鐵路貨車運用維修管理相關的外專業信息系統,包括鐵路貨物列車編組、裝載及運輸調度信息等,數據資源主要存放在國鐵集團和鐵路局。
鐵路貨車大數據具有5大特征:
(1)數據體量巨大,隨著物聯網在車輛制造維修各領域的廣泛應用,接入的信息量持續增大;
(2)數據分布廣泛,分布于全路范圍內的眾多機器設備、各級信息系統等各個環節;
(3)結構復雜,既有結構化、半結構化的傳感數據,也有圖片、音頻、視頻、日志等非結構化數據;
(4)數據處理速度需求多樣化,生產現場要求實時數據分析,管理與決策應用需要交互式或批量數據分析;
(5)對數據分析的置信度要求較高,相關關系分析不足以支撐故障診斷、預測預警等應用,需要將物理模型與數據模型結合,追蹤挖掘因果關系。
結合鐵路貨車大數據資源現狀及業務應用需要,鐵路貨車大數據平臺的總體架構由現場數據采集傳輸層、平臺及設施層和應用層3部分構成,如圖1所示。
現場數據采集傳輸層以實現鐵路貨車及關鍵零部件全壽命周期數據資源采集和傳輸為核心,在車輛段、貨車造修工廠、軌旁監測設備等基層數據采集地點進一步完善數據采集內容、強化數據采集質量,實現數據匯集及本地應用,并且通過貨車技術管理信息系統、車輛運行安全監控系統等將全過程數據上傳至國鐵集團。

圖1 鐵路貨車大數據平臺總體架構圖
平臺及設施層在國鐵集團構建基礎設施虛擬運行環境,對數據資源進行采集與集成、數據存儲與管理、數據計算與分析和數據可視化展示,通過數據統一規劃、數據集成與綜合治理等大數據技術,提高貨車數據資產價值。
應用層實現現有軟件的優化和應用服務創新。利用大數據計算分析結果支持貨車技術管理信息系統、車輛運行安全監控系統等現有系統的功能優化,同時,為實現貨車故障預測與健康管理(PHM,Prognostic and Health Management)[8]、大數據質量評價及管理決策等應用創新提供支撐。
鐵路貨車大數據平臺技術架構以整合、集成成熟的Hadoop生態圈開源技術為主,主要由數據源、數據采集、數據存儲、數據計算分析、數據應用5部分組成,如圖2所示。
(1) 數據源:包括與鐵路貨車大數據分析有關的數據,主要來源于貨車技術管理信息系統、車輛運行安全監控系統等相關信息系統,數據類型可分為結構化數據和非結構化數據。
(2) 數據采集:通過數據抽取轉換加載(ETL,Extract Transform Load)工具將原始采集數據進行抽取、清洗、轉換、加載,將各關系數據庫利用Sqoop進行關系數據抽取和轉換,對于系統日志、操作日志等非結構化數據利用Flume進行文件轉換存儲,對于圖片、視頻等以數據流的方式通過Kafka進行采集。
(3) 數據存儲:利用HDFS、HBase、Hive進行數據存儲,實現貨車數據資源的統一規劃和分布式存儲與管理。

圖2 鐵路貨車大數據平臺技術架構
(4) 數據計算分析:利用MapReduce進行批量數據并行計算,利用Hive進行數據查詢計算,利用Spark進行內存化實時分析,利用Storm進行數據流實時分析。
(5) 數據應用:根據業務需求和數據分析結果,提供數據目錄服務、數據共享服務、數據可視化等多種數據應用。
(6) 元數據管理、主數據管理、配置管理、安全管理:提供各類基礎數據管理及服務。
3.1.1 大數據采集與存儲技術
鐵路貨車大數據平臺主要利用數據ETL、分布式存儲等技術,進行關系數據庫數據抽取、文件數據采集、實時流數據采集等多個功能的封裝,實現鐵路貨車海量、多樣化的數據采集與轉換。結合不同的數據處理需求,采用數據倉庫和分布式文件系統、分布式數據庫等技術,實現對鐵路貨車大數據資源的統一規劃和存儲管理。
3.1.2 大數據治理技術
為確保鐵路貨車大數據完整、準確、唯一,鐵路貨車大數據平臺采用以下數據治理技術:
(1)對鐵路貨車基礎數據進行統一管理、及時更新、動態發布、全路共享;
(2)建立貨車基礎技術、新造、運用、檢修等關鍵數據的數據標準,明確各級采集、維護、管理對象及機制,實現統一來源、統一使用;
(3)對歷史數據進行重新審查和校驗,剔除無效、不符合規范的數據;
(4)加強系統間數據共享和校驗,對關鍵數據的質量問題進行分析、識別、監控、預警等,提升數據質量。
3.1.3 算法和模型
鐵路貨車大數據分析算法包括分類、回歸、聚類、決策樹、貝葉斯、支持向量機、深度學習等核心機器學習算法。鐵路貨車大數據專業模型主要用于評價分析和狀態預測,針對具體的業務應用場景建立貨車及零部件實時技術狀態評價及故障預測、貨車運用質量評價、貨車檢修質量評價、貨車源頭質量評價等專業模型。
3.1.4 大數據計算分析
(1)對于鐵路貨車運行安全監控產生的順序、快速、連續、大量的數據,采用流計算分析方法,實現實時在線統計和預警;
(2)對于貨車運用維修生產支持,采用內存計算分析方法,提供在線數據查詢和分析;
(3)對于貨車經營及管理決策支持,采用批量計算分析方法,滿足大批量、綜合數據的離線分析。
在數據計算分析的基礎上結合專業模型,滿足實時、離線的大數據分析應用需求。
鐵路貨車大數據應用主要包括貨車全壽命周期管理、貨車PHM、貨車產品質量反饋、維修生產過程優化、生產質量管控、設備預測性維修、供應鏈管理優化、智能決策管理等8大應用場景。
(1)貨車全壽命周期管理
對鐵路貨車及關鍵零部件的設計、制造、運用、維修、報廢數據進行全面集成,形成完整準確的電子履歷檔案,實現全壽命周期的可追溯管理。
(2)貨車PHM
將鐵路貨車及關鍵零部件的實時運行數據與其設計、制造和歷史維修數據進行融合,提供技術狀態評價、壽命預測和運行維護建議,實現維修管理決策等健康管理應用。
(3)貨車產品質量反饋
將鐵路貨車及關鍵零部件運行情況和運用維修數據反饋到設計和制造階段,從而促進貨車造修工廠改進設計和制造方案,加速創新迭代。
(4)維修生產過程優化
通過鐵路貨車大數據平臺對生產進度、物料管理、經營管理等數據進行分析,提升貨車制造、維修、排產、進度、物料、人員等方面管理的準確性。
(5)生產質量管控
基于鐵路貨車及關鍵零部件生產和維修的檢查檢驗數據和“人機料法環”等過程數據進行關聯性分析,實現在線質量監測和異常分析,強化生產及維修質量管控。
(6)設備預測性維護
針對貨車大型在線檢修、監測設備,平臺結合設備歷史數據與實時運行數據,監控設備運行狀態,實現設備預測性維護,保障設備穩定運用。
(7)供應鏈管理優化
鐵路貨車大數據平臺可實時跟蹤現場物料消耗,結合庫存情況安排相關供應商進行精準配貨,推進零庫存管理,有效降低庫存成本。
(8)智能決策管理
借助鐵路貨車大數據平臺整合生產現場數據、技術管理數據和供應鏈數據,提升經營管理及維修管理決策效率,實現更加精準與透明的分析評價與決策管理。
應用大數據技術進行數據采集、存儲、分析并挖掘出有價值的信息,是將數據轉化為生產力的必然選擇[9-10]。本文結合鐵路貨車數據資源情況,基于大數據采集與存儲技術、大數據治理技術、大數據算法和模型、大數據計算分析技術,提出了鐵路貨車大數據平臺的總體設計及應用場景,為鐵路貨車大數據平臺的搭建提供設計依據。
基于本文提出的鐵路貨車大數據平臺總體設計方案,已經在國鐵集團開展了鐵路貨車大數據平臺搭建,后續需進一步針對貨車大數據應用場景,建立貨車及零部件實時技術狀態評價及故障預測、貨車質量評價及風險預警等專業模型,推進大數據技術在鐵路貨車領域深入應用。