胥昊
基于地理信息系統的軌道交通數據集成方法研究
胥昊
(中國鐵道科學研究院通信信號研究所北京100081)
針對城市軌道交通安全生產信息系統,以其中的地理信息系統作為前端的主應用,分析系統內異構數據集成方法的研究現狀。面向結構化數據提出基于XML中間件的數據集成方法;而對于非結構化數據則提出基于信息提取和XML封裝的集成方法,從而實現在地理信息系統平臺中實時展示的數據直接通過中間件進行調用,為異構數據集成后的應用,特別是數據挖掘應用提供可靠的保障。
城市軌道交通;安全生產系統;地理信息系統;異構數據;XML中間件
隨著科學技術的發展,城市軌道交通系統中各專業和運輸生產中的新技術、新裝備被廣泛應用。城市軌道交通各專業工種的生產組織、經營管理、安全管理、應急指揮等也因此不斷地變化,城市軌道交通信息化已成為推動城市軌道交通提升生產經營管理水平最重要、最核心的手段。然而由于各專業系統自身的信息化發展程度不平衡,在專業內形成垂直化管理,從而相對獨立、自成體系,另外各專業系統間信息資源共享程度不高,沒有形成全局高度集中統一的信息平臺[1-2],在一定程度上制約了“大運輸”的協調發展與管理創新,也不利于各類突發事件的應急集中指揮。
為更好地發揮信息資源的作用,提高信息化保障水平,科學利用、擴充信息網絡,合理整合信息資源,形成全局網絡和信息資源共享,實現關鍵作業環節全過程網上實時監控、非正常情況和事故搶險全過程網上指揮、作業標準執行和效率效益指標全面分析等功能,實時監控安全生產重要信息和信息處理追蹤,就必須加快開展信息資源整合,建成覆蓋全局、功能完善、高度共享的信息共享平臺[3],充分利用既有的計算機網絡安全平臺功能,綜合采用網絡隔離、多層交換、虛擬局域網、現代密碼、身份識別、網絡防火墻、入侵診斷和病毒防護等技術,確保城市軌道交通安全生產信息系統的可靠性、可用性、保密性、完整性、真實性和可控性。
在系統頂層應用中,將采用先進的地理信息系統,將城市軌道交通基礎數據的空間信息與其相關屬性信息結合,為城市軌道交通車、機、工、電、輛等各專業部門信息系統提供GIS(地理信息系統)數據服務和GIS功能服務,實現城市軌道交通基礎地理信息檢索、統計、分析等功能[4]。
所謂數據集成是指針對結構不同、用途不同、特征及性質不同的數據,通過一定的技術手段實現在物理上的集中或邏輯上的集中,從而為企業提供全面數據融合的過程或者系統。數據集成系統的核心任務是對各種應用系統的信息進行標準化或者規范化[5-6]處理。集成的原則是既要保持數據被集成后的副本與源數據的一致性,提高信息共享率,又要讓應用層無需關心對異構數據源數據調用的具體方法。實現這些功能的系統稱作數據集成系統,它為用戶提供統一的數據源接口協議,執行應用系統對數據源的訪問請求。只有解決數據集成這個階段,才能為其他諸如信息查詢、信息共享和挖掘應用等服務提供基礎。
2.1 數據集成的難點
1)異構性:在數據集成系統中所要集成的數據源異構性非常強。從數據類型、數值的表示方法、數據的取值范圍、數據語義等方面看,各個數據源均有不同的地方,這種多方位的異構性給集成工作帶來很大的困難[7]。
2)分布性:根據前文所述,城市軌道交通企業的管理越來越傾向于跨地區、跨行業,由此而引發的信息系統必然也是分布式的,這種分布式不單指地理上的分布,在網絡拓撲上也存在著分布。數據源和數據存儲點分布在網絡拓撲的不同結點上,對數據傳輸網絡的性能提出了較高的要求,沖突和數據副本的一致性等問題也隨之而來。
3)自治性:數據源系統本身有很強的自治性要求,使得在考慮系統集成的時候必須考慮保持原有系統的完整性。這個特點在城市軌道交通信息化系統中的表現尤為突出,例如瓦斯監控系統,根據國家規定,該系統必須自治,因此不能輕易地改變其系統內的體系結構和數據,這給數據集成系統的開放性和健壯性帶來了極大的困難[8]。
2.2 城市軌道交通安全生產數據集成難點
1)各應用業務系統的歷史數據量級非常大;
2)各應用業務系統之間數據庫沒有統一的數據接口和通信協議;
3)各應用業務系統不可以通過改變自身的設計來適應統一集成;
4)各類數據中的數據結構是異構的;
5)各數據庫之間是獨立的并且要求強自治性。
城市軌道交通生產企業所建立信息系統都是縱向獨立的,而橫向沒有信息交換,比如作為城市軌道交通安全生產重要保障手段的列車運行狀態信息系統、雨量監測系統、車輛智能軸溫探測系統、車輛運行品質動態監測系統、車輛滾動軸承軌邊故障聲學診斷系統、車輛故障動態圖像檢測系統、車輛運行安全監控系統、客運超偏載檢測監控系統、軌道衡計量檢測系統、危險貨物運輸安全監控系統和城市軌道交通信息系統安全運行監控系統等安全避險系統中產生的數據以及相關設備產生大量的實時監測數據與實時控制參數,對生產流程的實時控制、安全生產、業務分析等具有重要意義[9]。實時數據的數據有效性除了與數據正確性相關之外,還與數據的實時性關系密切。數據需要在其有效期內被合理利用,對數據的存儲和檢索的實時性要求是非常嚴格的。因此對實時數據進行快速存儲和處理的實時數據庫系統應運而生。這種數據庫是傳統的實時系統和數據庫系統相結合的產物,經過近年的快速發展,已經成為城市軌道交通企業分析信息化數據的基礎工具,為提高企業管理水平、企業效益、安全生產、提升競爭力等提供了有力的支撐。
綜上所述,異構數據集成面臨著嚴峻挑戰。較長一段時間以來,各個研究機構對集成問題提出了很多解決方案,但還是沒有統一的方法一次性解決全部難題,這也是學界持續關注數據集成研究的主要原因[10-11]。另外由于受設計和硬件發展技術水平的制約,各個數據源的數據質量有較大差別,這也是數據源產生沖突的一大原因。因此,無論從應用的需求還是技術解決方案來看,集成系統的數據集成是一個值得研究的課題,必須建立具有開放性和集成性的運行支撐環境。
鑒于數據存儲格式的差異及傳輸協議的區別,城市軌道交通信息系統中的數據可以分成兩類,一類是結構化數據,另一類是非結構化數據,也有部分研究者將數據分為三類,還有一類是半結構化數據,筆者采用兩類的分法。結構化數據即行數據,存儲在數據庫里的表單內,可以用二維表結構邏輯表達實現的數據[12]。城市軌道交通信息化系統中涉及生產、安全和運營的數據大部分為結構化數據,例如救援列車分布專題數據、車輛運行專題數據、變電所分布專題數據、供電臂分布專題數據、饋線分布專題數據等都屬于這類數據。
相對結構化數據,如果數據無法用數據庫里的二維邏輯表來表現,則把這類數據稱為非結構化數據。非結構化數據通常產生于管理信息系統中。在城市軌道交通中每天的生產調度記錄、安全事故記錄、設備維護管理記錄等都屬于這一類數據。隨著城市軌道交通內管理系統的不斷增多,需要處理的非結構化數據也迅速增長。由于歷史原因,系統之間沒有統一的規劃,使得對非結構化數據的集成問題成為集成系統中的難點。
對于非結構化數據,關系數據庫面對無法克服的困難,但有些關系數據庫也有相應的解決辦法,例如ORACLE數據庫管理軟件使用其BLOB類型的方式來存儲非結構化的辦公文檔、文本、圖片、各類報表、圖像和音視頻信息;用CLOB類型的方式直接存儲文本數據。這種處理方式表面上看解決了關系數據庫對于非結構化數據的管理,但在實際應用時,這樣的存儲方式會造成數據查詢效率非常低。為了解決查詢和檢索的效率問題,有研究者提出了一種相對較為高效的方法,即全文檢索技術。
半結構化數據和上面兩種類別都不一樣,它實質是結構化的數據,然而其特性是結構變化非常大,不能夠簡單的建立一個表和它對應,另外要了解數據的細節,也不能將數據簡單地組織成一個文件,按照非結構化數據去處理。典型的HTML文檔、XML文檔、SGML文檔、Web數據以及由異構數據集成而產生的數據等都是半結構化數據。
筆者為了滿足地理信息系統數據發布平臺實時性的要求,對城市軌道交通安全生產監測數據采用了一種綜合集成模式(見表1)。在確保數據源的應用系統能夠保持自身完整性、獨立性的前提下,采用XML數據同步技術對數據進行復制,數據副本經XML封裝后直接提交給統一視圖的GIS數據發布平臺發布,從而保證數據的實時性,同時將數據副本按照數據倉庫技術的規范,根據應用層數據挖掘的需求進行標準化(離散化)后,按照數據主題存儲至數據中心服務器,以備調用。這樣既不影響數據源系統的自治性,也滿足了城市軌道交通信息系統體系對數據進行統一集成的需求。

表1 城市軌道交通安全生產數據綜合集成方式
對于實時監測系統輸出的結構化數據,采用基于XML技術的中間件進行集成[13]。由于更新頻率的原因,實時結構化數據將無法直接從數據倉庫中的數據主題調用,只能通過XML封裝的中間件方式調用,同時將數據副本存儲到關系數據庫數據倉庫的各個數據主題中,在保證調用效率的同時確保數據源頭各系統能夠獨立運行、互不影響。
4.1 結構化數據集成
在實際城市軌道交通生產中,由于運營環境、賦存條件等各方面的情況不同,所需要監測的關鍵信息各不相同,因此在選擇監測系統的設備時往往采用多廠商設備。因此要集成這些數據需知悉所有系統的通信協議,在中間件的設計上必須做相應的數據解析,雖然一次性工作量較大,但避免了后續開發的工作量。
基于對數據采集設備的標準化描述,可利用XML文件構建設備配置庫,用于存儲數據采集軟件所需的設備信息。另外,開發采集函數庫,每個數據采集設備將對應一個動態鏈接庫,其內部所定義的函數名、所在路徑、名稱均在設備配置庫中指定。
中間件在軟件設計上分為3個模塊,分別是接口模塊、驅動模塊和核心模塊。接口模塊和驅動模塊要根據各個監控系統的接口規范和驅動程序編寫,并建立設備配置庫和采集函數庫。核心處理模塊按照設置的頻率從監控子系統中取得數據副本;數據接口負責接收來自應用層的數據抽取命令,按照子系統的規范映射為子系統的命令,并將采集到的數據副本返回給應用層(見圖1)。
采用中間件技術后,應用層系統設計時不再考慮底層傳感系統的技術細節,而只需提供調用數據的命令格式,這樣提高了軟件系統在實際應用中的可復用性、可靠性和可擴展性。整個數據采集中間件工作流程如圖2(a)所示,數據采集中間件接收到上層軟件發送的啟動采集命令時,首先讀取設備配置庫的采集配置信息,獲取設備相關信息并對設備接口進行初始化,然后調用采集函數庫中相應的數據采集函數,實現數據采樣,當采樣完成后,按照標準的數據格式進行數據封裝上傳至應用層,圖2(b)為該數據采集中間件的信息序列圖。

圖1 數據采集中間件層次結構

圖2 結構化數據采集中間件
4.2 非結構化數據集成方法
對于城市軌道交通信息系統中的非結構化數據,如礦井產量報表、安全事故分析報表等,一般以EXCEL表單或者WORD文件方式存儲,在集成此類數據時首先應該明確文件中所包含關鍵信息。對于每一個文件,表單中的各類數據是否為關鍵數據是不確定的,因此,可以根據來自上層應用系統的需求,如數據挖掘的需要來定義文件中的關鍵信息。在其導入系統時進行關鍵信息提取,并將提取的信息保存到XML文檔中,最后針對XML存儲文檔的查詢形成結果集合存儲到數據庫。當非結構化數據以文件的形式保存并需要集成時,首先應針對文件格式的不同(文本文檔、電子表格等)制定不同的集成策略,規范關鍵信息的位置并建立屬性模板。這種屬性模板也可看做是一種中間件的形式,只不過數據采集的對象不是傳感器而是文件。文件模板對文件中關鍵屬性的定義可以看成中間件的數據接口,因此通過關鍵屬性提取這種對非結構化數據的集成也是數據采集中間件的一種模式。圖3為非結構化數據集成的流程。
非結構化數據采用中間件模式進行集成后也可以參照結構化數據的處理模式,按照數據主題存儲到數據倉庫中,以備應用層調用。
圖4為城市軌道交通安全生產信息系統體系內兩類數據的集成流程。

圖3 非結構化數據采集中間件工作流程

圖4 數據集成流程
綜上所述,首先調研了異構數據集成方法的研究現狀,然后按照存儲結構的不同將異構數據分成結構化數據和非結構化數據。對于純結構化數據提出了基于XML中間件的數據集成方法;對于非結構化數據則提出了基于信息提取和XML封裝的集成方法。根據上層應用系統的不同業務需求,對于需要在地理信息系統平臺中展示的實時數據直接通過中間件進行調用。最后綜合性地給出了城市軌道交通安全生產信息系統體系內兩類數據的集成流程。
[1]崔建岷.鐵路信息資源整合實踐研究[J].鐵路計算機應用,2011(6):19-21.
[2]滕濤,劉志明.現代有軌電車調度指揮系統的研究[J].現代城市軌道交通,2013(5):6-9.
[3]徐建根,李輝康.安全生產指揮中心建設與鐵路信息化建設五統一[J].中國鐵路,2013(9):4-7.
[4]孫美,郭年根,沈鹍.鐵路工務安全生產管理信息系統的設計與實現[J].鐵路計算機應用,2013(8):23-27.
[5]吳振宇.基于Web的物聯網應用體系架構和關鍵技術研究[D].北京:北京郵電大學,2013.
[6]趙新勇.基于多源異構數據的高速公路交通安全評估方法[D].哈爾濱:哈爾濱工業大學,2013.
[7]韋樂.基于XML的異構數據交換引擎的設計[J].網絡安全技術與應用,2013(2):42-44.
[8]郎炯,劉宴兵,熊仕勇.基于SOA軟件架構的數據集成方法[J].計算機應用,2010(9):2370-2373.
[9]王陽,郭湛,伊遜政.城市軌道交通工程安全驗收評價體系的研究[J].鐵道運輸與經濟,2015,37(10):91-96.
[10]張冠軍.基于XML異構系統間的數據交換技術[J].現代電子技術,2013,36(2):45-47.
[11]李曉麗.異構數據集成技術在物聯網中的研究與應用[D].北京:北京郵電大學,2012.
[12]牛敏,米石云,張倩.網絡數據資源自動獲取技術研究與應用[J].信息技術,2013(12):23-26.
[13]李時文,盧建朱.快速有效的XML訪問控制新方案[J].計算機應用,2009,29(9):2336-2338.
(編輯:王艷菊)
Integration Method of Safety Production Data in Urban Rail Transit Based on GIS
Xu Hao
(Signal and Communication Research Institute,China Academy of Railway Sciences,Beijing 100081)
For urban rail transit safety production information system,taking geographic information system as themain application of the front end,this paper analyzed the research status of heterogeneous data integration method in the information system.For structured data,we put forward themethod of data integration based on XMLmiddleware;for unstructured data,we presented integration method on the basisof information extraction and XML encapsulation.The data displayed realtime in the geographic information system platform can directly be called through themiddlewarewhich provides guarantee for the application of heterogeneous data after integration especially for the application of datamining.
urban rail transit;safety production system;geographic information system;heterogeneous data;XMLmiddleware
U231.7
A
1672-6073(2016)02-0044-04
10.3969/j.issn.1672-6073.2016.02.010
2015-08-27
2015-09-22
胥昊,男,碩士,助理研究員,研究方向為城市軌道交通信息系統集成,d ickxh@163.com
中國鐵道科學研究院院基金項目(1351TH0902)