李 擎,張秋艷,白 磊,2
(1.北京交通大學 交通運輸學院,北京 100044;2.北京易華錄信息技術股份有限公司,北京 100043)
隨著鐵路信息化的不斷推進,管理者積累了大量與安全生產問題相關的檢查數據。這些數據全面記錄了鐵路日常生產過程中發生的安全問題,但大部分都是長文本格式,管理者難以快速、高效理解與挖掘這些數據中隱藏的新的知識。
文本挖掘是指將可理解的、事先未知的、最終可用的知識從海量文本數據中抽取出來的過程,同時利用這些知識更高效地組織信息便于今后借鑒[1]。文本挖掘技術在生物學、醫學、情報分析、人文科學等領域應用廣泛[2-6]。
本文在分析鐵路安全生產問題數據基礎上,提出一種基于文本挖掘的鐵路基礎設施設備風險隱患識別模型(TMBI-RIR,Text Mining Based Identi-fication Model for Railway Infrastructure Risk),深入分析記錄工務、電務和供電專業的設備質量問題的長文本形式的數據,確定鐵路存在風險隱患的薄弱設備類型與易發病害類型,提升管理者安全風險管理水平。
原鐵道部安全監察司的鐵路安全檢查管理信息系統已在全路推廣應用多年,系統積累了大量的安全問題數據,其登錄界面如圖1所示。系統主要功能包括安全信息處理、安全信息查詢、安全信息統計等,實現對鐵路安全生產問題錄入,班組、車間整改,鐵路局、站段整改后復查的閉環管理,輔助管理者把握鐵路日常生產中的安全風險隱患。

圖1 鐵路安全檢查管理信息系統登錄界面
系統中記錄鐵路安全生產問題的數據表結構見表1。其中,字段“大類”填寫內容為通用、工務、電務、供電、車輛等,“字段類別”填寫內容為設備質量、安全管理、現場作業、職工素質及其他。

表1 鐵路安全生產問題數據表結構
如表1所示,數據表中,問題詳情描述字段內容是以長文本形式存在的(340字符),該字段包含了較為豐富的信息,如設備類型、病害類型、病害發生位置、病害嚴重程度等信息。表2是問題詳情描述字段填寫內容樣例。管理者難以從大量的長文本形式的數據中分析出與病害類型、設備類型、病害發生位置等相關的新知識,本文采用基于文本挖掘的鐵路基礎設施設備風險隱患識別模型(TMBIRIR),挖掘長文本形式的鐵路基礎設施設備質量問題詳情描述數據中潛在的有價值信息,為管理者識別鐵路基礎設施風險隱患提供支持。
TMBI-RIR 采用基于層疊隱馬爾科夫(CHMM)的中文分詞算法對長文本形式的設備質量問題詳情數據進行分詞處理,根據分詞結果統計詞頻,確定鐵路薄弱設備類型與易發病害類型,并對分析結果以詞云圖的方式進行直觀、清晰展示,模型計算流程如圖2所示。

表2 問題詳情描述字段填寫內容樣例

圖2 模型TMBI-RIR算法流程圖
中文分詞是指把一整段中文文字串切割成最小語義詞條信息的過程[7]。采用CHMM中文分詞算法,將記錄設備質量問題的長文本形式數據切分成一個一個單獨的詞[8],其計算流程如圖3所示。

圖3 基于CHMM分詞算法的計算流程
原子切分是指將記錄設備質量問題的長文本形式文字串切分為分詞原子(如:單個漢字、標點或非漢字串等)序列。簡單未登錄詞識別是指在上一步切分結果的基礎上,利用一階隱馬爾科夫模型(HMM),識別出未登錄詞(如:線路名、車站名、管轄單位名等)。嵌套未登錄詞識別是指在上一步識別結果的基礎上,利用一階HMM,識別出嵌套了未登錄詞的復雜地名和機構名?;陬惖腍MM分詞是指在識別出所有未登記詞后,結合核心詞典,利用一階HMM,采用N-最短路徑的切分排歧策略,對普通詞和未登錄詞進行統一競爭和篩選,確定描述設備質量問題字符串的最終分詞結果。詞類的HMM標注是指在最終分詞結果的基礎上,利用一階HMM,確定描述設備質量問題字符串中各單詞的詞性(如動詞、名詞)。
其中,基于類的隱馬爾科夫分詞算法(第2層HMM),見公式(1)。給定長文本形式設備質量問題字符串S,存在多種分詞結果W=(w1,w2, …,wn),W∈? ,C=(c1,c2,…,cn) 是分詞結果W的詞類別。分詞序列W作為觀測狀態,對應的詞類別C作為真實狀態,依據隱馬爾科夫算法,選取似然函數概率P(W)最大的分詞結果W#作為最終的分詞結果。W#可以通過Viterbi算法[9]得到。為計算方便,公式(1)可等價轉化為公式(2)。其他層的隱馬爾科夫HMM算法與之類似,不再重復論述。

詞頻統計是指計算每類單詞在全部文檔中出現的次數[10],單詞的重要性一般是與它在文檔中出現的頻度成正比,使用較高頻度的單詞能較好地反映文本的特征。模型通過統計各類詞的頻度,找出哪些是高頻詞,確定出鐵路基礎設施易發病害類型、薄弱設備類型等。
詞云是由單詞組成的、形狀類似云的彩色圖形,是一種信息文本可視化技術[11]。每個單詞的相對大小,由相應詞頻的高低決定,輔以多種色彩顯示,直觀反映單詞重要性差異、展示關鍵信息。模型采用詞云可視化技術,對分析出的易發病害類型、存在風險隱患薄弱設備類型進行直觀、清晰展示。
本實例收集整理了蘭州鐵路局鐵路安全檢查管理信息系統中的2012年1月~2016年4月期間4 662條描述工務、電務和供電專業的鐵路基礎設施設備質量問題的數據,驗證TMBI-RIR的有效性。利用R編程語言[12]實現對模型的構建和求解。R是一個擁有強大統計分析及作圖功能的數據分析工具,整合了包含大多數經典統計方法與最新技術的工具包。問題詳情描述長文本形式數據的分析結果見表3和圖4。

表3 鐵路設備質量問題數據中前10個較高詞頻的單詞

圖4 鐵路設備質量問題詞云圖
分析表3和圖4可知,存在質量問題的設備類型按照詞頻由高到底排列依次是:道岔、鋼軌接頭、軌枕、鋼軌小腰、螺栓、扣件等。因此,存在風險隱患的薄弱設備為道岔、鋼軌接頭、軌枕等。
根據表3和圖4,易發病害類型按照詞頻從高到底排列依次是:高低、水平、軌距、三角坑等。因此,易發病害類型為為軌道不平順的高低、水平、規矩等。
根據上述分析結果,存在風險隱患的薄弱設備均是工務專業的鐵路基礎設施設備。鐵路管理者需對道岔、鋼軌接頭、軌枕等設備進行重點監控,對軌道不平順中的高低、水平、軌距超限等病害加強管理。
為分析大量的記錄鐵路基礎設施設備質量問題的長文本形式數據,本文提出了一種基于文本挖掘的鐵路基礎設施設備風險隱患識別模型(TMBI-RIR),通過統計各類單詞出現的次數,確定出鐵路存在風險隱患的薄弱設備類型及易發病害類型,并利用詞云圖對分析結果進行了可視化展示。作者采用蘭州鐵路局近5年的4 662條鐵路基礎設施設備質量問題數據,對提出模型的有效性進行了驗證。研究成果可為鐵路安全風險管理、養護維修決策提供有效的支持。
[1]Berry M W, Castellanos M. Survey of text mining II: Clustering,classification, and retrieval[M]. New York: Springer, 2008.
[2]陳勇躍, 田文芳, 吳金紅. 主題領域研究熱點跟蹤及趨勢預測的可視化分析方法研究[J]. 情報理論與實踐,2017(6):117-121.
[3]陳 苗,劉 超,莊俊玲,等. 基于文本挖掘的臨床帶教評價分析[J]. 中國衛生統計,2017(1):59-60.
[4]史玉珍,呂瓊帥. 基于進化模糊規則的Web新聞文本挖掘與分類方法[J]. 湘潭大學自然科學學報,2016,38(2):99-103.
[5]蔡 溢,楊 洋,殷紅梅. 基于ROST文本挖掘軟件的貴陽市城市旅游品牌受眾感知研究[J]. 重慶師范大學學報:自然科學版,2015(1):126-134.
[6]楊張博,高山行. 基于文本挖掘和語義網絡方法的戰略導向交互現象研究—以生物技術企業為例[J]. 科學學與科學技術管理,2015(1):139-150.
[7]韓冬煦,常寶寶. 中文分詞模型的領域適應性方法[J]. 計算機學報 ,2015,38(2):272-281.
[8]劉 群, 張華平,俞鴻魁,等. 基于層疊隱馬模型的漢語詞法分析[J]. 計算機研究與發展,2004(8):1421-1429.
[9]Viterbi A J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J]. IEEE Transactions on Information Theory, 1967,13(2):260-269.
[10]郭曙綸. 漢語語料庫應用教程[M]. 上海:上海交通大學出版社,2013.
[11]Afzal S, Maciejewski R, Yun J, et al. Spatial Text Visualization Using Automatic Typographic Maps[J]. IEEE Transactions on Visualization & Computer Graphics, 2012,18(12): 2556-2564.
[12]R Core Team. R: A Language and Environment for Statistical Computing[EB/OL].[2014-04-09].http:// www.R-project.org/.