黃 磊,姜德友
(北京交通大學 經濟管理學院,北京 100044)
鐵路各業務領域都積累了豐富的數據資源。數據要素流通賦能鐵路創新發展,而安全可靠是數據要素流通的關鍵前提和保障。目前,鐵路系統內的數據要素流通方式有3種:(1)通過兩系統間的數據接口方式;(2)通過專業大數據平臺,為專業內各系統提供數據共享服務;(3)統一通過鐵路數據服務平臺匯集鐵路數據,然后依照權屬提供給鐵路內部其他需求方。向鐵路系統外部進行數據共享的方式是通過數據接口,將需求的相關數據集共享給對方。
由此可見,鐵路數據共享主要通過數據接口,將共享數據集以機器可讀的方式提供給需求方。這種“數據搬家”式的數據共享模式,會導致數據管理權關系的傳遞,難以保障數據的隱私安全。隱私計算技術能夠幫助解決多方數據主體在數據共享中的數據隱私保護問題,即在數據“不搬家”的前提下,實現數據共享的目的與價值。開展鐵路數據隱私計算體系的構建與研究是十分必要的,其提供的安全可控、可計量的數據共享應用環境,可作為以數據接口為主要數據共享方式的既有鐵路數據服務體系的有效補充。
在多方數據共享的過程中,可能會面臨多種安全威脅和敵對行為,包括數據竊取、數據篡改、合謀攻擊、未授權訪問、否認服務攻擊等,造成數據在輸入階段、傳輸和共享過程中的隱私泄露,以及過程結果篡改等隱私問題,如圖1所示。

圖1 多方數據共享中的隱私問題
作為一種多理論和技術的集合,隱私計算主要涵蓋了多方安全計算、聯邦學習和可信執行環境等3個關鍵研究領域。
多方安全計算(MPC,Multi-party Computation)是一種在保障各方輸入信息不被泄露的前提下,實現多方共享計算的技術,使得互不完全信任的參與者間能夠進行安全的聯合計算,各方可共享計算結果,但無須公開各自的私有數據。
自20世紀80年代Yao[1]首次提出該理論以來,多方安全計算的理論研究主要集中在復雜性、效率、安全性等方面,構建了豐富的協議體系,如同態加密[2]、混淆電路[3]、秘密共享[4]、不經意傳輸[5]等協議體系;實踐研究則更關注實際應用中的問題,如計算和通信開銷、可用性、可擴展性等,例如,Wang等人[6]將可鑒別混淆電路與BMR(Beaver-Micali-Rogaway)協議結合,設計了多方混淆電路,減少了通信開銷。
聯邦學習(FL,Federated Learning)是一種分布式機器學習方法,允許多個設備或服務器在保留本地數據的情況下進行協作訓練[7],目的是解決移動設備的數據隱私問題。
FL的核心理念是在數據生成的地方進行計算。這種方式確保了數據的隱私性,同時,克服了集中式學習所需要的大量數據傳輸。根據訓練數據在不同參與方間的樣本分布特點,FL可劃分為橫向聯邦學習(HFL,Horizontal Federated Learning)、縱向聯邦學習(VFL ,Vertical Federated Learning)和聯邦遷移學習(FTL ,Federated Transfer Learning)[8]。FL的一個重要研究方向是如何設計高效、可擴展、健壯的FL算法。目前,FL的主要算法有FedAvg[9]、FedProx[10]和FedASAM[11]等。
可信執行環境(TEE,Trusted Execution Environment)是一種在硬件層面提供隱私保護的技術。TEE為數據和應用程序提供了一個安全的運行環境,該環境在物理和軟件層面均進行了隔離,有效抵御外部攻擊和內部泄露。TEE的經典實現包括SGX[12]、TrustZone[13]等。
TEE可保護數據在使用過程中的隱私,比如在云端進行計算時,即使云服務提供商也無法訪問到數據的內容[14]。這種技術有助于建立隱私計算的信任基礎,并廣泛應用于云計算和邊緣計算等場景。
目前,鐵路動車段能夠開展動車組的一~四級修,主機廠負責返廠修。針對動車組的檢修,需要動車技術資料、車載監測數據、軌旁行車安全地對車監測數據和檢修維修數據的共享。在此過程中,動車檢修故障預測與健康管理(PHM,Prognostics and Health Management)平臺起到了關鍵作用。PHM平臺需要從動車組車載信息無線傳輸系統(WTDS,Wireless Transmit Device System)獲取車載狀態數據和地對車數據,從動車組管理信息系統(EMIS,EMU Management Information System)獲取車輛履歷信息和故障信息,從動車組空心車軸探傷管理信息數據平臺(EXTMIS)獲取探傷和鏇輪數據,以及從受電弓及車頂狀態動態檢測(SJ)系統等獲取檢測數據,如圖2所示。此外,這些系統有時也需要相互獲取數據,以滿足檢修的需求。

圖2 PHM與各系統間數據共享需求
由于數據安全、技術隱私保密和數據價值等問題,動車段、主機廠、各統建信息系統均不便將數據共享、轉交給他人。因此,需要構建多方參與的隱私計算體系,根據維修、檢修、廠修需求,基于隱私計算技術,在各參與方原始數據“不搬家”的前提下,獲得所需要的鐵路各類監測系統對動車組各部件的健康狀態統計分析結果數據,從而為各自的維修、檢修、廠修方案制訂提供支撐。
我國的海鐵聯運占比率長期在2%左右,占比率較低。《推進鐵水聯運高質量發展行動方案(2023—2025年)》中要求集裝箱鐵水聯運年均增長15%以上,其中強調,要“實現車、船、箱、貨等信息的實時獲取”。海鐵聯運涉及的主體包括港口、鐵路部門、物流/船公司、理貨公司、海關和港務局等,如圖3所示,這些主體間的信息流通至關重要。

圖3 海鐵聯運數據共享主體
提高海鐵聯運占比率的關鍵在于如何獲取準確的需求與潛在需求信息,動態優化鐵路港口運輸組織與列車開行方案。目前,鐵路與港口交換的數據較少,需要開展潛在箱源數據挖掘,分析出鐵路適運和貨主適運的潛在箱源數據,而這些原始數據均具有高度的隱私安全性。運用聯邦學習和多方安全計算等隱私計算技術,可在不泄露雙方需求與原始數據的情況下,使鐵路方獲得一定時間段內,分貨類、分流向的海鐵聯運潛在適運箱源數量,從而實現確保數據安全前提下的,海鐵聯運適運潛在箱源的挖掘識別。
高速鐵路(簡稱:高鐵)沿線環境安全風險主要來自沿線周邊的異物入侵和自然災害。高鐵沿線風險監測需要整合高鐵地理信息系統(GIS,Geographic Information System)、基礎設施、安全監測等內部數據,以及鐵路外部的遙感衛星、氣象、地質、沿線環境等多源數據。然而,由于氣象、地震、遙感等外部數據源的數據量龐大、更新頻率高,各自數據安全監管存在差異,導致原始數據難以有效匯聚到鐵路相關部門。因此,可基于隱私計算技術,與氣象、地質、遙感、公安等部門進行數據共享,在各方數據“不搬家”的前提下,鐵路相關部門可獲得高鐵沿線相關風險的預警信息。
動車組的行駛里程數據直接影響鐵路部分結算公司的收益,目前,該數據由各鐵路局集團公司自行上報,主要存在3個問題:(1)上報的數據可能因技術設備差異、人為錯誤等因素產生數據誤差,導致鐵路結算公司對運營成本誤判,影響其業務運作;(2)出于數據安全考慮,結算公司無法獲取動車組在各鐵路局集團公司區段內的追蹤監測數據,因此,無法實時、準確地獲取動車組的行駛數據,也無法有效核實上報數據,增大了結算難度;(3)數據信任問題。
應引入隱私計算技術,設計動車行駛里程聯合計算方法,構建可信的數據共享機制,解決數據誤差、數據安全和信任問題。
鐵路大數據服務平臺是智能鐵路數據共享服務體系的基礎和核心,其提供的主數據、GIS數據、鐵路多種業務數據,已為京張(北京—張家口)高鐵、京滬(北京—上海)高鐵及多個鐵路局集團公司的安全建設和運營提供了數據共享、大數據分析與決策支持服務。為滿足上述場景中數據共享各方對數據隱私安全、數據價值保障等更進一步的訴求,本文構建鐵路數據隱私計算體系,作為鐵路大數據服務平臺的補充和延伸。
鐵路數據隱私計算體系架構如圖4所示。該架構以安全計算、區塊鏈、計算任務調度控制、安全協議為核心,通過項目管理、用戶管理、模型數據管理、通用算法等4個模塊提供服務支持,在鐵路大數據服務平臺的基礎上構建,旨在實現鐵路內部系統間、鐵路內外系統間的數據安全共享。

圖4 鐵路數據隱私計算體系架構
安全計算模塊主要依賴于多方安全計算和聯邦學習集群來實現。通過聯合統計功能,能夠在保護各參與方數據隱私的同時,對分布在各方的數據進行統計分析,為數據預處理和模型設計提供了全局的數據概覽。通過聯合建模功能,能夠在無須直接共享數據的情況下,協調各方共同訓練出一個全局模型,從而顯著提升模型訓練的效率和性能。此外,安全計算模塊還提供安全求交、匿蹤查詢、聯合查詢和聯合預警等功能。這些功能使得各方在保護數據隱私的前提下,能夠進行數據交換和查詢,以及對數據進行監控和預警,對數據安全管理和風險控制具有重要作用。
區塊鏈模塊通過身份認證、可信授權、日志審計、模型追蹤、安全存證、智能合約等功能,確保隱私計算交易流程的真實性、完整性和不可篡改性,從而增強鐵路數據隱私計算體系的可信度。
通過身份認證和可信授權,可有效防止非法用戶訪問和篡改交易流程數據。通過日志審計和模型追蹤,可追蹤隱私計算流程的全周期。通過智能合約,計量各方通過隱私計算獲得數據共享的應用量,為各方提供的數據共享服務價值提供結算依據。
計算任務調度控制模塊負責協調和管理計算任務。在多方數據共享和復雜計算需求的場景中,通過多方任務協同調度功能可確保計算任務的高效運行。通過內外部節點注冊管理和集群管理監控功能,可實時了解集群的運行狀況,及時發現和處理問題。通過任務日志管理功能,可記錄和審計計算任務的執行情況,發現與追蹤可能出現的問題。
安全協議模塊通過同態加密、秘密分享、密鑰交換等多方安全計算的基礎技術和工具,保護計算過程數據和結果數據在傳輸和處理過程中的安全性。同態加密功能可使數據在加密狀態下進行計算;秘密分享和密鑰交換功能可使得多方之間安全地共享數據和密鑰,防止數據在傳輸過程中的泄露。
在動車組檢修場景中,通過本文體系中安全計算模塊的聯合統計和聯合建模功能,可在動車段不獲取鐵路統一建設的系統和主機廠系統原始數據的前提下,分析和預測檢修需求和周期,提高檢修效率和效果。此外,區塊鏈模塊的日志審計和模型追蹤功能可幫助追蹤和記錄動車組檢修過程,確保檢修的準確性和可追溯性。同時,計算任務調度控制模塊可有效地管理和調度與動車組檢修相關的計算任務,提高計算效率。
在海鐵聯運潛在貨源、箱源發掘和高鐵沿線風險監測場景中,安全計算模塊的安全求交、聯合建模等功能可幫助各方在不直接共享數據的情況下,構建模型,發現潛在的適運貨源和運營安全風險,提高運輸效率和安全性。在該過程中,安全協議模塊的同態加密和秘密分享功能可保護數據在傳輸和處理過程中的安全性。同時,區塊鏈模塊的智能合約功能可為各方提供數據共享服務價值的結算依據。
在動車行駛里程計算場景中,通過安全計算模塊的聯合查詢功能,可在保護各鐵路局集團公司數據隱私的同時,準確計算動車行駛里程,為鐵路結算公司提供準確的數據支持。此外,計算任務調度控制模塊的任務日志管理功能可記錄和審計計算任務的執行情況,幫助發現和追蹤可能出現的問題。同時,區塊鏈模塊的安全存證功能可確保計算結果的真實性和完整性,增強結算過程的可信度。
本文探討了鐵路數據隱私計算體系的需求場景,提出了一種以應用需求為導向的鐵路數據隱私計算體系,介紹了體系框架,并詳細闡述了體系框架中各模塊的具體功能,以動車組檢修多方數據共享、海鐵聯運潛在貨源、箱源發掘、高鐵沿線風險監測和動車行駛里程計算等實際應用場景為例,展示了本文體系如何在保障數據隱私的前提下,實現數據的安全共享和價值最大化。本文體系在其實踐過程中仍面臨諸多挑戰,下一步將密切關注各參與方對數據隱私安全的訴求程度,選擇適用的隱私計算技術,進一步優化和完善鐵路數據隱私計算體系。