王喆
(中國鐵道科學研究院集團有限公司電子計算技術研究所,北京 100081)
在信息技術高速發展的今天,我國智能設備、互聯網、物聯網技術有重要突破,數據生產和整理能力也正逐步增加,數據規模、數據類型、數據維度有顯著提升,大數據的概念應運而生。
大數據是一場革命,使人們的生活方式、工作模式、思維模式發生翻天覆地的改變。大數據成為國家云計算和互聯網之后對ICT產業影響最大的技術創新。通過大數據技術的使用,能使組織結構、國家治理模式、企業的決策架構、商業的業務策略以及個人的生活方式等產生深遠的影響[1]。大數據最重要的應用領域之一就是預測性分析。以大數據為中心分析數據特征,以此建立合適的模型,適當在模型中增加數據,以此檢驗數據未來的變動趨勢。經驗主義將逐漸減少,基于數據的預測將成為決策的主要依據。
鐵路行業產生的數據主要有以下三個來源:
(1)設備日常監控數據。鐵路運輸的核心業務可以分為車、機、工、電、輛等幾大專業,各專業都建設了較為完備的安全監測/監控系統,如客貨車安全運行監控的5T系統,機車安全監控的6A系統,接觸網安全狀態監測的6C系統,監控信號設備運行狀態的微機監測系統等。監控類數據以結構化數據為主,數據產生頻率較高,累積數據量較大。對日常監測數據開展分析有助于評估設備的實時健康狀態,預測設備未來出現故障的概率,挖掘故障原因等。
(2)鐵路客貨運交易平臺積累的交易數據。在高速鐵路高速發展的同時,信息化進度不斷提速,12306網站和95306網站積累了大量的用戶訪問日志,訂單、支付記錄等結構化和半結構化信息,對這些數據的分析將有助于提高網站的運維水平、了解客戶的需求、預測未來銷售走勢以及通過客戶的訂單來優化運能等。
(3)線路巡檢數據。高速鐵路開通之前需要進行線路聯調聯試,對路基、橋梁、隧道、接觸網、軌道、信號系統、通信設備、噪聲環境等狀態進行系統評估與檢測;線路運營期間,綜合檢測車也會對線路進行定期巡檢來評估線路整體的健康狀態。在聯調聯試和日常巡檢過程中積累了門類豐富的檢測數據。線路檢測數據以非結構化數據(視頻、圖像)為主,每年數據增量可達PB級。這些數據是掌握線路整體健康狀態,對線路進行全生命周期管理的重要資料,是鐵路開展大數據分析的重要方向之一。
上述三種數據在國鐵集團、鐵路局存儲數據規模達55 PB,并且不同類型數據增量顯著,眾多視頻和圖片僅滿足短期保存需求。現階段,不管從數據資源總規模、日增數據量看,都標志著鐵路已經進入大數據發展時期[2]。
大數據分析往往涉及不同信息系統中的數據融合,除了數據量增長外,數據來源的廣泛性、多樣性是以往單系統數據分析所無法企及的。數據來源的廣泛性帶來了數據標準、含義不統一等諸多問題。為了解決上述問題,企業在開展大數據分析前必須引入數據治理體系。文獻[3]對大數據治理的概念、治理要素和框架以及面臨的挑戰進行了探討,提出了大數據治理的框架;文獻[4]將大數據治理體系分為協同籌劃、過程實施和監控評估三大主要板塊,并對大數據治理的核心功能進行描述;文獻[5]認為當前各行各業對大數據治理缺乏整體認識,體系建設不完善,并引入了行業通用的大數據治理體系框架;文獻[6]從數據科學技術和管理實踐問題兩個維度對大數據治理進了討論,提出了大數據治理的全景式框架,融合了數據生態、數據服務和數據基礎;文獻[7]將科學技術相關文獻、學者動態、論壇熱點等非結構化數據納入科技前瞻大數據分析的數據治理范疇,并構建數據驅動的大數據治理體系,通過LDA模型實現技術趨勢預測;文獻[8]進而判斷大數據對傳統政府治理帶來的影響,認為大數據治理是傳統政府治理走向數字化之路的關鍵,并提出了大數據時代的政府公共決策體系機制的基本結構;文獻[9]對大數據治理機構職能定位及配置進行了歸納,并形成了治理機構評價體系指標體系;文獻[10]對大數據治理存在的安全問題進行了分析并提出了應對建議;文獻[11]對網絡安全中的大數據治理給出了規劃建議,指導實施網絡安全時如何保護數據。
上述研究多側重于大數據治理的概念、范疇以及行業通用的治理體系建設。鐵路企業是具有一定行業管理職能的傳統國有企業,其大數據治理體系的建設需要依據現有信息化水平分階段分步驟的建設。
雖然鐵路信息系統建設不斷改善,但是系統之間選擇各自為戰,缺乏足夠的數據共享量,集成程度相對較差,鐵路企業需要進一步做好數據維護工作,便于進行一體化管理。目前數據管理強度落后,缺乏足夠的標準化程度,出現數據不一致、數據不精準等問題,數據質量需要在后期運作中不斷提升。結合上述現狀進行分析,本研究將提出關于鐵路大數據的治理體系,具體參考圖1。

圖1 鐵路大數據治理體系框架
該框架涵蓋了鐵路企業大數據治理從認知、組織建設、工作推進及成果展示的相關環節。其中,成熟度評估是對當前企業大數據治理現狀進行分析,從而有針對性地建設和調整治理組織,并開展大數據治理各項工作,實現對數據的全生命周期管理,最終通過數據資源全景視圖展現治理成果;根據成果的應用反饋再修正當前的企業大數據治理成熟度,成為下一輪治理工作的基礎,整個迭代流程如圖2所示。

圖2 鐵路大數據治理迭代流程
企業大數據治理成熟度分析是企業大數據治理現狀的基礎,也是判斷企業與最終發展目標距離的依據,可以將大數據治理模型劃分成組織、策略、能力等架構。分析鐵路企業大數據治理成熟度分為初始階段、起步階段、發展階段、成熟階段和創新階段,鐵路企業大數據治理成熟度階段示意圖如圖3所示。

圖3 鐵路企業大數據治理成熟度階段示意圖
鐵路從行政架構可分為國鐵集團本級、鐵路局兩級,各級內部又有不同的專業劃分,不同的機構、專業之間在人員能力、組織機構、對數據建設的重視程度與現狀都是不同的。需要對不同的機構及下屬的不同專業部門進行成熟度評估,依據部門現狀以及鐵路大數據發展的總體規劃,制定本部門未來1~3年數據治理的目標,并且本著急用先行的策略,找到能力和目標之間的差距,按部就班地實施整體規劃。
組織機構建設對數據治理過程有重要意義,這也是所有企業共識,也是數據治理的核心。因此,在鐵路企業開展數據治理需要在決策層組建由國鐵集團高層管理人員組成的數據治理委員會;在領導層,分別由國鐵集團信息管理部門以及各業務部門領導、業務專家等人員組建鐵路局數據工作小組;在實施層,由各業務部門工作人員和信息系統研發維護人員組成數據治理項目實施組,具體負責數據治理工作同業務系統的對接和實施工作。實施組根據當前企業數據治理成熟度,可以包括主數據工作組、數據全景視圖發布工作組、數據質量標準工作組等。整體組織機構如圖4所示。

圖4 鐵路大數據治理組織架構圖
元數據可結合具體用途進行劃分:業務元數據、技術元數據。技術元數據主要用于保持系統技術細節,可進行大數據平臺和倉庫的開發。業務元數據則站在業務的角度分析系統數據,能為使用者、實際系統建立語義層。
目前,鐵路主數據中心和各鐵路局應用中心運行的信息系統大約2 500個。對上述信息系統元數據的采集是構建鐵路企業級數據模型,梳理數據標準的基礎。通過建設鐵路數據服務平臺,通過抓取數據庫結構或者由信息系統定時推送兩種方式實現元數據的采集和更新,在統一平臺內部進行匯集整理。
鐵路行業的信息系統建設面臨著業務和信息系統存在差異,出現適應變革靈活性不足的問題,如站段的工務安全生產管理系統中存儲了鐵軌、道岔等基礎設施的日常監測信息,聯調聯試對這些設備產生的檢測數據則存儲在另外的信息系統中,這種條塊化的IT架構造成了信息共享困難、運營和投資成本升高等問題。建設企業級數據模型用于企業的重要業務元素以及這些元素之間的關系,能夠清楚地了解企業的數據結構和業務規則,能為IT人員和業務人員建立互動平臺,是實現業務智能的重要基礎。
在建設鐵路公司數據模型時,需要劃分多個層次:主題域模型、概念數據模型、邏輯數據模型、物理數據模型。主題域模型主要用于判斷業務抽象多個實體的相互關系;頂級實體細分成更多子實體后形成概念數據模型;設計出每個實體的屬性定義之后形成了邏輯數據模型,通常是滿足第三范式的;邏輯數據模型同具體大數據平臺的結合形成了物理數據模型。圖5是本研究提出的鐵路企業主題域模型示例。

圖5 鐵路企業主題域模型
近年來,隨著鐵路信息化建設的逐步深入,信息系統已覆蓋客貨營銷、運輸組織、經營管理等各個領域,基礎設施及設備檢測方面,鐵路的工務、電務、供電、車輛和機務等部門積累了鐵路線路、通信信號、機車車輛等各種設施設備的海量數據。這些系統之間存在著大量的共用信息,如車型、車號、物資編碼、車站名稱等。鐵路開展主數據管理首先需要判斷上述數據要素,并創建數據目錄信息;然后,判斷主數據管理模式,根據鐵路組織機構的特點,核心系統主數據采用集中型管理,次要型系統采用協同性管理的方式更容易實施;之后,還需要確定數據所有者,創建完善的數據管理組織,做好主數據流程的規范工作;最后,基于以上標準和原則建設主數據管理系統,實現鐵路全行業的主數據管理。
建設鐵路數據質量管理體系,就是要創建企業數據管理工具,提升數據管理質量,將鐵路相關的指標作為切入口,客觀分析數據的成熟性,并對數據進行集中抽取,以此滿足標準化管理的需求,組織數據稽查工作,提升優化方法的質量,做好數據清洗、數據清除等工作,降低數據多頭管理矛盾和問題,進而建立數據資產,通過創建企業數據質量管理制度、管理規范等方式,促進價值數據屬性的提升,使業務運營和經營分析質量得到提升。本文基于鐵路企業現狀提出了數據質量管理的全流程,如圖6所示。

圖6 鐵路企業數據質量管理流程設計
鐵路大數據場景下,來自各業務系統的數據會統一匯集至鐵路大數據服務平臺并開展數據質量稽核。數據質量稽核根據定義的數據稽核規則對平臺上的數據合規性進行校驗,應具備離線分析和內存準實時分析的能力從而處理TB級別數據量,并給出數據質量稽核報告。
鐵路業務信息系統中存在著大量的個人隱私數據,包括:乘車人信息、企業職工社保信息、員工履歷信息、醫療信息等;還存在著跟鐵路企業建設運營相關的涉密數據,如高鐵橋梁隧道建設期參數、安全事故信息、設備故障詳情等。由于開展大數據分析業務所需的數據集中匯聚,給數據安全帶來的更大的安全風險。
對上述敏感數據的保護需要首先建設數據的安全分級體系,包括劃定敏感數據范圍,指定隱私數據及信息安全管理委員會作為相關責任主體,制定網絡安全管理制度、密碼安全管理制度、數據備份安全管理制度,劃分平臺使用人員權限等;其次從技術角度,做好數據訪問權限控制,對結構化數據應支持粒度為單元格級的訪問控制,不同涉密等級的人員只能訪問對應密級的數據,對數據的任何操作和訪問都需要被系統記錄并存檔;另外,還要制定針對特權用戶(例如數據庫管理員、平臺運維人員等)的數據安全管理策略,以監控特權用戶對敏感數據的訪問,用戶對數據的訪問記錄應以日志的形式存儲在大數據服務平臺中作為審計依據。
實現鐵路數據全生命周期管理必須建立數據生命周期管理體系,應采用數據湖的形式存儲和管理PB級別的數據。數據湖的特點是不對匯聚的數據進行加工,保留原始數據格式,在使用之前根據業務需要開展加工和處理。在大數據量場景下為了節省存儲成本,應根據數據的產生時間和使用頻度將數據分為冷、溫、熱數據。冷數據可以采用低成本存儲方式,熱數據采用高速存儲,確保數據的高可用性。另外,還需要制定全路統一的數據生命周期管理,建立一體化的管理標準,針對目前的數據進行更細化的管理,明確管理標準、管理方案、管理制度,使數據管理工作保持科學性、系統性、統一性等。規范中還要定義數據清理原則、數據清理周期以及監督規范執行的人員,從而保證數據全生命周期管理工作的正常運作。
建設鐵路數據資源目錄系統,不僅可以作為數據治理成果展示的平臺,還是企業數據資源共享交換的門戶。該門戶連接大數據平臺,將納入大數據治理的數據資源以目錄的形式對外發布。通過企業級的數據資源全景視圖,可以使得企業所掌握的數據資源情況一目了然,是數據交換與共享的基礎,也為鐵路盤活數據資源提供了有效保證。
綜上所述,大數據治理工作是一項系統工程,不可能一蹴而就,從企業評估自身能力開始,到組織機構變革創新、政策制定、流程重建等,都是較為詳細的工作項目。從大數據分析的角度看,大數據治理缺少激動人心的業務創新,更多的是枯燥無味、苦練內功的持續投入。大數據治理工作的特點決定了企業大數據業務不可能迅速見效,領導層的決心和企業上下的協調一致是實現數據真正治理以及挖掘大數據價值的不二法門。