李靜雪
(中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
為支撐動車組相關業務,中國國家鐵路集團有限公司(簡稱:國鐵集團)已建成多個動車組相關信息管理系統。這些系統中的動車組數據在含義結構、存儲組織和維護管理等方面都存在差異,增加了系統間信息交換與共享的難度,不利于業務部門便捷地利用已有信息資源開展動車相關業務。
因此,確定動車組信息資源的信息語義、數據范圍和數據規范,采用信息類、數據元等概念對動車組信息資源進行規范化描述,對目前分散在多個系統中的動車組信息資源進行整理、歸類和建檔,建立統一、規范的數據目錄,形成系統間、部門間有序開放的動車組主數據共享模式,方便業務部門發現、定位和共享多源異構的動車組信息資源的需求已迫在眉睫。
數據資源的分類是根據數據內容的屬性或特征,遵循科學性、系統性、可擴展性、實用性等原則,將數據按照一定的原則和方法進行區分和歸類,這對于數據資源共享有著極其重要的作用[1]。根據動車組實際業務與數據來源情況,動車組數據資源以業務主題為主、數據類型和來源為輔進行數據分類,按業務域進行規劃。
目前,動車組信息資源主要來源于動車組管理信息系統(EMIS)、動車組軌旁聲學早期故障監測系統(TADS)、動車組運行故障動態圖像檢測系統(TEDS)、動車組車載信息無線傳輸系統(WTDS),后續將根據實際業務需求繼續擴充數據來源。
EMIS 的數據可劃分為基礎字典、履歷信息、配屬信息、開行實績、檢修作業記錄等[2-3],詳情如表1 所示。

表1 EMIS 業務數據分類
動車組TADS 的數據劃分為基礎字典、軸承故障和過車管理記錄;動車組TEDS 的數據劃分為探測站報文、報警處置和人工報警信息;動車組WTDS數據劃分為GPS 信息、故障信息、運行信息等。
與國鐵集團主管處室、鐵路局集團公司、主機廠、設備廠家等相關各方充分溝通后,對這些系統的業務數據與實際應用進行分析與梳理,確定了動車組數據業務域劃分及對應數據分類,如表2 所示。

表2 動車組數據業務域劃分及對應數據分類
由于實際意義相同的數據項在不同系統中存在不同描述,或相同描述的數據項在不同系統中對應不同實際意義,為了讓用戶快速、便捷地獲取《動車組數據資源目錄》所包含的數據項,了解這些數據項的含義、內容、結構,必須制定統一的數據規范[4]。
數據元是通過定義、標識、表示以及允許值等一系列屬性描述的數據單元[5],是特定的語義環境中不可再分的最小數據單元。業務部門可以通過查詢數據元來了解數據項的數據格式、取值范圍、編碼方式等數據屬性。在《動車組數據資源目錄》中,數據元是每個系統中的最小字段,按定義明確、存儲無冗余的原則進行采集。
根據實際使用需要,《動車組數據資源目錄》的數據元結構描述如下。
(1)數據元編碼:數據元的唯一標識,由組織機構、系統代碼、數據表類型代碼、數據表代碼和數據元數據代碼組成。
(2)數據元名稱:數據元的中文名稱。
(3)數據元描述:描述數據元含義的說明。
(4)數據類型及長度:數據元的數據值的類型及字符長度的表示格式。
(5)值域:數據元的取值范圍(含義清楚、無須說明的可省略;若使用代碼集,則需指明相應的代碼集)。
代碼集是編碼對象集和代碼元素集的映射關系表[6]。對于以代碼集形式表示值域的數據元,可通過查詢代碼集確定其具體取值范圍。
在動車組相關信息系統中,鐵路局、探測站、車組狀態、檢修修程等數據字典一般有約定俗成或由公文明確規定的取值,其對應數據元的值域為代碼集。代碼集描述如下:
(1)代碼集編碼:代碼集唯一編碼,由系統來源代碼和順序碼組成。
(2)對應的數據元編碼:代碼集對應的數據元編碼。
(3)對應的數據元名稱:代碼集對應的數據元名稱。
(4)編碼方式:代碼集的編碼規則。
(5)代碼表:用表格形式描述代碼及代碼含義的對應關系,包含代碼、名稱、及含義說明。
目前,EMIS 系統、TADS 系統和TEDS 系統的結構化數據存儲在關系型數據庫中,而WTDS 系統的非結構化數據存儲在非關系型數據庫中,兩種不同存儲模式的數據分別使用不同的數據采集方式。
存儲在關系型數據庫中的結構化數據具有明確的數據項及數值范圍,可分業務域梳理相關數據表,按如下步驟進行清洗與采集:
(1)明確業務域中包含的所有數據表范圍,將范圍內所有表進行篩選,剔除不需要的表(如臨時備份表、不再使用的表、操作日志表等),最終保留的數據表能描述出完整業務且無冗余;
(2)明確各數據表中字段含義及數據使用與維護情況,將未使用、不需要、不再維護的字段剔除,這些字段不納入《動車組數據資源目錄》中,且后續無需進行數據清洗;
(3)明確數據表中每一字段的定義,包括字段名稱、數據類型、數據長度、默認值、數據含義,不同表中相同字段盡量統一(不同表中,相同含義和取值的字段,如果字段名稱不同,則明確標識),并明確數據表主外鍵、索引、分區情況;
(4)明確字段編碼規則和取值范圍,如枚舉型字段需列出每個取值對應的含義,字段取值有明文規定的需列出所參考的公文;
(5)明確表中數據的質量,對于數據質量不佳或需要清洗的表,列出需清洗的字段、清洗規則及處理結果,規則描述應完整、準確、清晰。
WTDS 系統的非結構化數據不規則[7],不適于采用關系型數據庫二維表來存儲,需根據實際數據情況對WTDS 數據進行元數據結構的分析與重構。
WTDS 系統的數據分為實時數據和非實時數據2 類,這2 類數據具有相同的元數據結構,在數據資源目錄中可使用同一數據元。
同時,按數據業務及Kafka 傳輸的數據類型分類,WTDS 系統的數據可分為當前故障、歷史故障、列車運行信息、GPS 數據、車輛信息5 類;其中,車輛信息暫未使用,故只將其余4 類數據納入數據資源目錄:
(1)故障數據包括當前故障和歷史故障,兩者的元數據完全一致,可按相同方式進行整理;故障數據的元數據描述如表3 所示。

表3 WTDS 故障數據的元數據描述
故障數據中,每一種故障代碼都對應一種具體故障類型,雖然具體故障種類很多,但各類故障字典的數據結構是一致的,整理后的故障數據的元數據描述如表4 所示。

表4 整理后的故障數據的元數據描述
(2)通過GPS 原始結構和實際數據可知,無論任何車型或車輛,其GPS 數據均包括時間、速度、經度、經度方向、緯度、緯度方向等數據項,GPS數據的元數據描述如表5 所示。

表5 整理后的GPS 數據的元數據描述
列車運行信息中包括車代碼/單元代碼、模塊代碼和模塊值3 部分;其中,模塊代碼對應不同車型的參數協議[8],參數協議中每一個數據項均代表一項實際動車組或配件參數,可為參數協議中每一個數據項單獨定義元數據。WTDS 系統的參數協議按動車組和輛序分組,可將車型和車輛信息保留在數據元的描述中。列車運行信息中的數據項是通過截取字符串獲取的,不能確定其中數據項的具體類型和長度。
在充分調研動車組相關信息系統的業務場景、數據內容、數據結構、數據元的基礎上,按數據業務域對現有數據進行業務和數據盤點,借鑒其它行業先進的數據管理模式,構建《動車組數據資源目錄》。
以基礎數據中的基礎字典為例,基礎字典包含路局字典、單位字典、車型字典等,通過數據清洗與合并,保留最少的公共基礎字典;按照數據元描述規范,基礎字典數據元描述如下:
AA001-B0001-0001 路局編碼
描述:路局編碼
數據格式:CHAR(1)
值域:參見代碼集:路局代碼集
AA001-B0001-0002 動車組型號及車組號
描述:動車組型號及車組號,詳見鐵總運【2017】99 號 中國鐵路總公司關于印發《動車組型號車組號、車種車輛號和席位號編制規則》的通知
數據格式:VARCHAR2(20)
值域:無
AA001-B0001-0003 路局簡稱
描述:路局簡稱,一個漢字
數據格式:VARCHAR2(10)
值域:參見代碼集:路局代碼集
AA001-B0001-0004 單位編碼
描述:單位編碼,包括段級單位、所級單位、主機廠級單位和高級修級單位
數據格式:VARCHAR2(10)
值域:參見代碼集:單位代碼集
AA001-B0001-0005 單位名稱
描述:單位名稱,包括段級單位、所級單位、主機廠級單位和高級修級單位
數據格式:VARCHAR2(100)
值域:參見代碼集:單位代碼集
其中,動車組型號數據元有公文明確規定,其數據元描述中包含公文名;現有路局代碼集作為路局數據元的值域。
目前,《動車組數據資源目錄》已用于支持國鐵集團與主機廠的造修數據貫通,對動車組履歷填報規范、自動化設備接口技術條件等技術標準的修訂也起到指導作用。
今后,《動車組數據資源目錄》的修訂與版本更新將成為一項周期性工作,及時將動車組相關信息系統的新增數據納入資源目錄中,促進動車組數據資源的有序增長和充分利用。