陶凱,郭奇園,代春平
(1.中國鐵道科學研究院集團有限公司 基礎設施檢測研究所,北京 100081;2.北京鐵科英邁技術有限公司,北京 100081)
隨著我國數字經濟的發展和企業數字化轉型工作的推進,數據資產作為企業資產的重要組成部分,逐漸得到廣泛認可,同時,數據資產管理也逐漸從理論邁向實踐[1]。針對“智能鐵路”關于基礎設施檢測數據管理專業化、處理自動化和分析智能化的具體要求,既有的采用關系型數據庫和FTP 文件存儲的數據管理模式已不能適應檢測數據管理要求。因此,有必要從檢測數據“采集—傳輸—存儲—治理—共享”的全生命周期考慮,構建和應用適用于我國鐵路基礎設施運營維護(簡稱:運維)管理現狀的檢測數據資產管理體系,分階段、有序歸集全國鐵路(簡稱:全路)檢測數據,并形成數據資產全景目錄,同時,構建數據質量和安全管理體系[2],全面提升檢測數據質量,推動檢測數據跨專業、跨機構開放共享,最終實現全路基礎設施檢測數據的資產化管理。
本文綜合考慮我國基礎設施檢測數據存儲管理和分析應用現狀,明確鐵路基礎設施檢測數據資產管理體系建設目標及其架構,闡述檢測數據歸集管理、質量管理[3]及運營管理的內涵,構建鐵路基礎設施檢測數據資產管理體系[4]。
針對基礎設施智能運維對檢測數據挖掘分析業務自動化和精細化的需求,提出鐵路基礎設施檢測數據資產管理體系建設目標:實現數據資源可見、數據質量可信和數據服務可用。
基于檢測數據管理服務平臺,實現分類、分級歸集鐵路基礎設施臺賬、檢測維修和氣象環境等數據,形成全路基礎設施檢測數據資源目錄。
確保檢測數據滿足完整性、規范性和準確性等數據質量要求,為檢測數據分析提供質量可靠的服務。
面向各類用戶提供全鏈路、一站式檢測數據資產化管理服務,提供多維度數據分析和共享服務,支持第三方系統通過接口調用數據。
國際數據管理協會(DAMA)于2006 年發布了數據管理框架[5]。中國國家標準化委員會于2018 年發布了數據管理領域國家標準《GB∕T 36073-2018 數據管理能力成熟度評估模型》[6],該模型包含數據戰略、數據標準、數據質量、數據架構、數據治理、數據應用、數據安全、數據生命周期8 個關鍵過程域和29 個功能項。
綜合研究上述數據管理框架和數據管理能力成熟度評估模型,結合我國鐵路基礎設施檢測分析業務鏈及特點,本文設計的鐵路基礎設施檢測數據資產管理體系共包括4 個管理過程域,其架構如圖1所示。

圖1 鐵路基礎設施檢測數據資產管理體系架構
基于檢測數據管理服務平臺,連接體系和檢測業務數據;通過平臺的各類應用,形成支撐基礎設施檢測數據采集、傳輸、存儲、治理、共享和應用等全鏈路業務的數據資產化管理能力。
該管理過程提出檢測數據資產管理的管理架構和管理策略。采用“中國國家鐵路集團有限公司(簡稱:國鐵集團)—鐵路局集團公司”兩級基礎設施檢測數據管理架構進行平臺搭建和數據存儲,在鐵路主數據中心搭建國鐵集團級檢測數據管理服務平臺,在鐵路局集團公司數據中心搭建鐵路局集團公司級檢測數據管理服務平臺,兩級檢測數據管理平臺通過鐵路內部服務網進行數據交互。
國鐵集團級和鐵路局集團公司級的檢測數據管理服務平臺間通過授權管理數據分發流向,同時支持跨系統的數據和服務調用及云端計算,對數據進行分別治理、靈活同步和共享應用。
依靠檢測數據管理服務平臺資源,實現檢測數據智能化歸集和管理2 項能力。檢測數據范圍包括主數據和基礎設施檢測數據。主數據主要包括基礎設施、檢測裝備、監測裝置臺賬和檢修組織機構等內容,主要為結構化數據;基礎設施檢測數據主要來源于基礎設施移動檢測、固定監測、現場檢查及人工觀測等作業。數據中,移動檢測報表、固定監測報警、現場檢查及人工觀測數據為結構化數據;原始檢測數據多為非結構化數據,例如綜合巡檢車采集的設備外觀圖像與視頻。
2.2.1 數據歸集
檢測數據主要通過3 類方式進行歸集。
(1)移動通信網絡+安全傳輸平臺。移動檢測裝備獲取的檢測數據主要采用“移動通信網絡+安全傳輸平臺”歸集方式,即通過5G 等移動通信網絡,及時接入各級地面數據中心;互聯網與鐵路內部服網間通過安全傳輸平臺進行內外網穿透,保障數據安全[7]。固定在線監測設備數據和部分現場人工觀測數據也采用該方式歸集。
(2)獨立文件管理。當移動通信網絡信道能力不足時,可采用移動存儲介質轉存,利用客戶端文件上傳的方式歸集數據。
(3)跨系統數據同步。現場小型儀器檢查數據和人工觀測電子記錄一般先接入檢修作業管理信息系統,再通過數據接口同步接入鐵路局集團公司級檢測數據管理服務平臺。
2.2.2 數據管理
(1)支持多源異構檢測數據的存儲,針對不同的數據結構類型,分別選取適用的存儲技術,包括分布式存儲和對象存儲等技術;
(2)支持TB 級數據規模的高可用安全存儲;
(3)基于檢測數據管理服務平臺構建數據倉庫,滿足多層次業務需求[8]。
數據質量管理是指面向數據管理全生命周期的每個階段,針對可能出現的各種質量缺陷,持續開展判別、評估、監控、預警和改進等全流程的管理行為,同時對檢測數據管理組織的數據管理能力進行審核和改進,以持續迭代改進檢測數據質量。檢測數據質量管理包含數據模型管理、元數據管理、數據標準管理、數據治理,可實現對鐵路基礎設施檢測數據質量的高效管控。
2.3.1 數據模型管理
鐵路基礎設施檢測數據模型包括數據存儲模型和數據服務模型。數據存儲模型主要面向物理數據的規范化存儲,以數據庫表的結構形式體現。數據服務模型是由數據資源中的多源數據組合構建而成,以滿足用戶應用需求,以數據共享接口形式在平臺進行統一管理[9]。
2.3.2 元數據管理
元數據管理是包括元數據的建立、修改、存儲、組織與控制等一系列管理操作的合集[10]。元數據管理通過元數據內容和標準的制定、發布、補錄、查看等功能,對元數據進行全方位描述及管控,實現元數據的清晰表達和標準化應用,確保檢測數據入庫后滿足檢測業務應用需求,推動檢測數據的高效治理及資產化管理。
2.3.3 數據標準管理
為實現多專業的檢測數據規范存儲、共享交互和深度挖掘,需要統一數據標準,解決數據的標識(文件名稱、格式等)、描述和關聯機制等問題,以支持檢測數據管理服務平臺的建設和檢測數據的挖掘分析。
2.3.4 數據治理
(1)數據質量源頭治理。根據檢測數據的特點和歸集方式,從源頭規范數據質量。加強數據采集質量,在接入檢測數據管理服務平臺前,通過磁盤掃描工具對既有檢測數據進行篩查,結合檢測記錄信息,對檢測數據文件進行標準化和規范化處理,通過規范化檢測數據文件格式和編碼規則,解決檢測數據文件的格式不統一和信息不完備等問題。
(2)數據質量過程治理。異常數據由設備故障、惡劣天氣和人為誤操作等原因引起,影響設備病害識別和狀態評價等數據分析客觀性。需要對原始數據中檢測到的缺失、無效等異常數據開展辨認和處理。對缺失的數據字段可通過上下文數據、中位數和拉格朗日插值法等方法進行填充;對異常數據可在數據接入時通過與同組其他數據和歷史數據的比對進行判定識別,采用刪除該組記錄或平均值修正等方式進行處理。
(3)數據質量評價和標記。在數據過程治理中,需要對檢測數據進行數據質量評價,判斷檢測數據是否符合標準或確定符合標準的比例,同時標記檢測數據質量評價結果。常用的檢測數據質量評價指標包括及時性、完整性、規范性、準確性、一致性、唯一性和關聯性等。
(4)數據治理機制。檢測數據的質量管理不僅包括對檢測數據質量的優化,還包括對檢測數據管理機構制度的優化。針對檢測數據的優化和管理,主要涵蓋檢測數據治理和數據質量評估。針對檢測數據管理機構制度的優化和管理,主要涵蓋制定數據質量的改進目標、評估流程、制定流程優化方案、制定管理監督和審核機制、實施優化和評估優化效果等多個環節[11];各級鐵路檢測數據管理機構需要建立質量管理制度,提出相應的管理措施及驗證辦法,明確各環節的質量管理職責和考核標準,將治理行為規范化和標準化,形成持續有效的運行機制。
運營管理主要面向檢測數據安全共享和安全運營過程,包括全生命周期管理、主數據管理、數據共享服務、數據分析應用及數據安全管理。
2.4.1 全生命周期管理
檢測數據生命周期為“采集—傳輸—存儲—治理—共享”。在整個生命周期中,數據主管部門通過制定檢測數據的戰略規劃,明確檢測數據的權屬,評估檢測數據的需求和應用價值,完善檢測數據架構,建立檢測數據資產管理體系;研發滿足業務需求的檢測數據分析平臺,提升檢測數據治理能力和效率,開展數據挖掘分析,豐富檢測數據分析服務;各部門協同完成檢測數據標準化和規范化工作,共建鐵路基礎設施檢測數據資源目錄,設置審計審查機制和舉行定期培訓宣傳等多個環節,實現檢測數據高效采集和集中存儲,降低檢測數據存儲和使用成本;同時,始終提供安全保障措施作為檢測數據資產管理體系運行的基礎,確保檢測數據資產管理工作的有序開展[6]。
2.4.2 主數據管理
檢測數據主數據的管理和運營維護需建立完整、全面的主數據規范,包括維修組織信息規范、基礎設施臺賬規范、檢測監測設備規范,逐步規范和完善主數據字典及其具體內容,進一步明確主數據的分管部門和主數據的維護形式及內容[12]。
對于已經形成鐵路基礎設施檢測行業標準的主數據,收集時需采用對應的標準,確保檢測數據質量目標和相應標準的內容絕對一致;部分暫時未能頒布數據標準但國鐵集團已經具有成文規定或在實際生產應用中已長期使用且具備一定效果、已形成相關業務領域事實標準的主數據,應參考相關標準性技術文件,并采用實時同步的方式進行采集和存儲服務。
2.4.3 數據共享服務
檢測數據共享服務包括頁面訪問、檢索下載和接口調用3 種服務形式。其中,頁面訪問服務支持即時性的檢測數據查詢;檢索下載服務支持小規模、短期的檢測數據共享;接口調用服務支持大規模、長期的檢測數據共享。同時,數據共享服務還應具備對數據安全等級、共享范圍和共享用戶進行配置的數據權限管理功能,支持安全可控的數據共享。
2.4.4 數據分析應用
檢測數據分析應用主要包括研究基礎設施狀態檢測指標的變化規律、識別潛在故障或病害、發布趨勢預警等,是用于科學評價設備健康狀態和指導養護維修的智能維修決策服務能力[7]。
2.4.5 數據安全管理
檢測數據在生命周期各個階段都存在著一定的安全風險,為確保檢測數據的原始性、真實性和規范性,需綜合運用數據脫敏、數據防泄漏、數字水印、數據溯源[13]等多種安全技術,確保檢測數據及其相關信息的完整性、保密性和可用性。結合基礎設施檢測數據管理分析服務的特點,制定檢測數據安全管理措施及架構,如圖2 所示,保障檢測數據安全[14]。

圖2 檢測數據安全管理架構
(1)數據傳輸安全。采用HTTPS 協議傳輸檢測數據,采用SFTP 協議遠程訪問檢測數據;從其他系統傳送檢測數據時,應采用數字簽名技術加密,禁止明文傳輸。
(2)數據存儲安全。在數據存儲前,先對原始檢測數據進行驗證,根據完整性和一致性的驗證結果,對數據問題進行記錄及報警,同時進入對應的數據治理流程。
(3)數據備份恢復。數據庫服務器采用雙機部署拓撲,確保關鍵節點發生故障時能迅速進行服務節點切換及故障節點恢復;需要具備滿足信息系統和關鍵業務功能恢復運轉的物理條件,包括電力供應、硬件設備、網絡帶寬、應急供電等;需要具備健全完善的基礎設施管理制度,保障數據備份和恢復的及時進行。
(4)數據審計。審核并記錄平臺數據的獲取和計算邏輯及關鍵數據的處理和訪問記錄;實時記錄檢測數據訪問的要素,包括時間、地點、用戶和事件等;定期備份和歸檔檢測數據管理系統上的日志文件,揭示突出問題,發現風險隱患。
(5)認證鑒權。采用統一應用賬戶授權、密碼強度校驗、異常賬戶鎖定和權限分級管控等方式,加強用戶權限管理。
基于檢測數據資產管理體系,進一步改進檢測數據管理服務平臺,以高效匯聚、安全存儲和開放共享為中心思想[15],通過檢測數據歸集管理、存儲管理、算法注冊管理、數據資源管理和任務調度管理等功能將檢測數據整合為數據資產,以實現檢測數據的資產化管理。
本文提出的鐵路基礎設施檢測數據資產管理體系包括數據管理架構與策略、數據歸集管理、數據質量管理和數據運營管理4 個管理過程域。主要成果已納入國鐵集團工電部發布的《鐵路基礎設施檢測監測數據歸集管理辦法(暫行)》[16]。融合應用大數據、5G 移動通信等技術,實現了高速鐵路綜合檢測數據“采集—傳輸—存儲—治理—共享”全生命周期的資產化管理。
后續應基于本文體系和文獻[16],進一步制定檢測數據歸集管理細則和數據質量標準,科學指導全路檢測數據資產化管理工作;同時,研究檢測數據綜合治理和質量評價技術,提升檢測數據質量管控能力,進一步實踐驗證和迭代改進檢測數據資產化管理體系。