999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于文本挖掘的鐵路基礎設施設備風險隱患識別模型

2018-03-01 18:57:04張秋艷
鐵路計算機應用 2018年2期
關鍵詞:鐵路文本設備

李 擎,張秋艷,白 磊,2

(1.北京交通大學 交通運輸學院,北京 100044;2.北京易華錄信息技術股份有限公司,北京 100043)

隨著鐵路信息化的不斷推進,管理者積累了大量與安全生產問題相關的檢查數據。這些數據全面記錄了鐵路日常生產過程中發生的安全問題,但大部分都是長文本格式,管理者難以快速、高效理解與挖掘這些數據中隱藏的新的知識。

文本挖掘是指將可理解的、事先未知的、最終可用的知識從海量文本數據中抽取出來的過程,同時利用這些知識更高效地組織信息便于今后借鑒[1]。文本挖掘技術在生物學、醫學、情報分析、人文科學等領域應用廣泛[2-6]。

本文在分析鐵路安全生產問題數據基礎上,提出一種基于文本挖掘的鐵路基礎設施設備風險隱患識別模型(TMBI-RIR,Text Mining Based Identi-fication Model for Railway Infrastructure Risk),深入分析記錄工務、電務和供電專業的設備質量問題的長文本形式的數據,確定鐵路存在風險隱患的薄弱設備類型與易發病害類型,提升管理者安全風險管理水平。

1 鐵路安全生產問題數據說明

1.1 安全生產問題數據表結構

原鐵道部安全監察司的鐵路安全檢查管理信息系統已在全路推廣應用多年,系統積累了大量的安全問題數據,其登錄界面如圖1所示。系統主要功能包括安全信息處理、安全信息查詢、安全信息統計等,實現對鐵路安全生產問題錄入,班組、車間整改,鐵路局、站段整改后復查的閉環管理,輔助管理者把握鐵路日常生產中的安全風險隱患。

圖1 鐵路安全檢查管理信息系統登錄界面

系統中記錄鐵路安全生產問題的數據表結構見表1。其中,字段“大類”填寫內容為通用、工務、電務、供電、車輛等,“字段類別”填寫內容為設備質量、安全管理、現場作業、職工素質及其他。

表1 鐵路安全生產問題數據表結構

1.2 問題詳情描述字段分析

如表1所示,數據表中,問題詳情描述字段內容是以長文本形式存在的(340字符),該字段包含了較為豐富的信息,如設備類型、病害類型、病害發生位置、病害嚴重程度等信息。表2是問題詳情描述字段填寫內容樣例。管理者難以從大量的長文本形式的數據中分析出與病害類型、設備類型、病害發生位置等相關的新知識,本文采用基于文本挖掘的鐵路基礎設施設備風險隱患識別模型(TMBIRIR),挖掘長文本形式的鐵路基礎設施設備質量問題詳情描述數據中潛在的有價值信息,為管理者識別鐵路基礎設施風險隱患提供支持。

2 TMBI-RIR

TMBI-RIR 采用基于層疊隱馬爾科夫(CHMM)的中文分詞算法對長文本形式的設備質量問題詳情數據進行分詞處理,根據分詞結果統計詞頻,確定鐵路薄弱設備類型與易發病害類型,并對分析結果以詞云圖的方式進行直觀、清晰展示,模型計算流程如圖2所示。

表2 問題詳情描述字段填寫內容樣例

圖2 模型TMBI-RIR算法流程圖

2.1 記錄設備質量問題的長文本形式數據分詞

中文分詞是指把一整段中文文字串切割成最小語義詞條信息的過程[7]。采用CHMM中文分詞算法,將記錄設備質量問題的長文本形式數據切分成一個一個單獨的詞[8],其計算流程如圖3所示。

圖3 基于CHMM分詞算法的計算流程

原子切分是指將記錄設備質量問題的長文本形式文字串切分為分詞原子(如:單個漢字、標點或非漢字串等)序列。簡單未登錄詞識別是指在上一步切分結果的基礎上,利用一階隱馬爾科夫模型(HMM),識別出未登錄詞(如:線路名、車站名、管轄單位名等)。嵌套未登錄詞識別是指在上一步識別結果的基礎上,利用一階HMM,識別出嵌套了未登錄詞的復雜地名和機構名?;陬惖腍MM分詞是指在識別出所有未登記詞后,結合核心詞典,利用一階HMM,采用N-最短路徑的切分排歧策略,對普通詞和未登錄詞進行統一競爭和篩選,確定描述設備質量問題字符串的最終分詞結果。詞類的HMM標注是指在最終分詞結果的基礎上,利用一階HMM,確定描述設備質量問題字符串中各單詞的詞性(如動詞、名詞)。

其中,基于類的隱馬爾科夫分詞算法(第2層HMM),見公式(1)。給定長文本形式設備質量問題字符串S,存在多種分詞結果W=(w1,w2, …,wn),W∈? ,C=(c1,c2,…,cn) 是分詞結果W的詞類別。分詞序列W作為觀測狀態,對應的詞類別C作為真實狀態,依據隱馬爾科夫算法,選取似然函數概率P(W)最大的分詞結果W#作為最終的分詞結果。W#可以通過Viterbi算法[9]得到。為計算方便,公式(1)可等價轉化為公式(2)。其他層的隱馬爾科夫HMM算法與之類似,不再重復論述。

2.2 詞頻統計

詞頻統計是指計算每類單詞在全部文檔中出現的次數[10],單詞的重要性一般是與它在文檔中出現的頻度成正比,使用較高頻度的單詞能較好地反映文本的特征。模型通過統計各類詞的頻度,找出哪些是高頻詞,確定出鐵路基礎設施易發病害類型、薄弱設備類型等。

2.3 詞云可視化展示

詞云是由單詞組成的、形狀類似云的彩色圖形,是一種信息文本可視化技術[11]。每個單詞的相對大小,由相應詞頻的高低決定,輔以多種色彩顯示,直觀反映單詞重要性差異、展示關鍵信息。模型采用詞云可視化技術,對分析出的易發病害類型、存在風險隱患薄弱設備類型進行直觀、清晰展示。

3 實例驗證

本實例收集整理了蘭州鐵路局鐵路安全檢查管理信息系統中的2012年1月~2016年4月期間4 662條描述工務、電務和供電專業的鐵路基礎設施設備質量問題的數據,驗證TMBI-RIR的有效性。利用R編程語言[12]實現對模型的構建和求解。R是一個擁有強大統計分析及作圖功能的數據分析工具,整合了包含大多數經典統計方法與最新技術的工具包。問題詳情描述長文本形式數據的分析結果見表3和圖4。

表3 鐵路設備質量問題數據中前10個較高詞頻的單詞

圖4 鐵路設備質量問題詞云圖

3.1 存在風險隱患的薄弱設備

分析表3和圖4可知,存在質量問題的設備類型按照詞頻由高到底排列依次是:道岔、鋼軌接頭、軌枕、鋼軌小腰、螺栓、扣件等。因此,存在風險隱患的薄弱設備為道岔、鋼軌接頭、軌枕等。

3.2 易發病害類型

根據表3和圖4,易發病害類型按照詞頻從高到底排列依次是:高低、水平、軌距、三角坑等。因此,易發病害類型為為軌道不平順的高低、水平、規矩等。

根據上述分析結果,存在風險隱患的薄弱設備均是工務專業的鐵路基礎設施設備。鐵路管理者需對道岔、鋼軌接頭、軌枕等設備進行重點監控,對軌道不平順中的高低、水平、軌距超限等病害加強管理。

4 結束語

為分析大量的記錄鐵路基礎設施設備質量問題的長文本形式數據,本文提出了一種基于文本挖掘的鐵路基礎設施設備風險隱患識別模型(TMBI-RIR),通過統計各類單詞出現的次數,確定出鐵路存在風險隱患的薄弱設備類型及易發病害類型,并利用詞云圖對分析結果進行了可視化展示。作者采用蘭州鐵路局近5年的4 662條鐵路基礎設施設備質量問題數據,對提出模型的有效性進行了驗證。研究成果可為鐵路安全風險管理、養護維修決策提供有效的支持。

[1]Berry M W, Castellanos M. Survey of text mining II: Clustering,classification, and retrieval[M]. New York: Springer, 2008.

[2]陳勇躍, 田文芳, 吳金紅. 主題領域研究熱點跟蹤及趨勢預測的可視化分析方法研究[J]. 情報理論與實踐,2017(6):117-121.

[3]陳 苗,劉 超,莊俊玲,等. 基于文本挖掘的臨床帶教評價分析[J]. 中國衛生統計,2017(1):59-60.

[4]史玉珍,呂瓊帥. 基于進化模糊規則的Web新聞文本挖掘與分類方法[J]. 湘潭大學自然科學學報,2016,38(2):99-103.

[5]蔡 溢,楊 洋,殷紅梅. 基于ROST文本挖掘軟件的貴陽市城市旅游品牌受眾感知研究[J]. 重慶師范大學學報:自然科學版,2015(1):126-134.

[6]楊張博,高山行. 基于文本挖掘和語義網絡方法的戰略導向交互現象研究—以生物技術企業為例[J]. 科學學與科學技術管理,2015(1):139-150.

[7]韓冬煦,常寶寶. 中文分詞模型的領域適應性方法[J]. 計算機學報 ,2015,38(2):272-281.

[8]劉 群, 張華平,俞鴻魁,等. 基于層疊隱馬模型的漢語詞法分析[J]. 計算機研究與發展,2004(8):1421-1429.

[9]Viterbi A J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J]. IEEE Transactions on Information Theory, 1967,13(2):260-269.

[10]郭曙綸. 漢語語料庫應用教程[M]. 上海:上海交通大學出版社,2013.

[11]Afzal S, Maciejewski R, Yun J, et al. Spatial Text Visualization Using Automatic Typographic Maps[J]. IEEE Transactions on Visualization & Computer Graphics, 2012,18(12): 2556-2564.

[12]R Core Team. R: A Language and Environment for Statistical Computing[EB/OL].[2014-04-09].http:// www.R-project.org/.

猜你喜歡
鐵路文本設備
諧響應分析在設備減振中的應用
沿著中老鐵路一路向南
云南畫報(2021年12期)2021-03-08 00:50:54
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
鐵路通信線路維護體制改革探索與實踐
基于MPU6050簡單控制設備
電子制作(2018年11期)2018-08-04 03:26:08
500kV輸變電設備運行維護探討
工業設計(2016年12期)2016-04-16 02:52:00
無人機在鐵路工程建設中的應用與思考
GSM-R在鐵路通信中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产在线一区二区视频| 91精品国产一区| 91精品人妻一区二区| 中日无码在线观看| 久久人妻xunleige无码| 一区二区无码在线视频| 亚洲精品大秀视频| 1级黄色毛片| 亚洲综合国产一区二区三区| 亚洲国产精品人久久电影| 熟妇丰满人妻| 亚洲视频免费播放| 国产靠逼视频| 91黄视频在线观看| 色婷婷电影网| 97久久超碰极品视觉盛宴| 亚洲热线99精品视频| 91精品小视频| 国产97色在线| 99这里精品| 亚洲婷婷在线视频| 好吊色妇女免费视频免费| 亚洲aⅴ天堂| 国产黄色片在线看| 尤物亚洲最大AV无码网站| 色色中文字幕| 亚洲精品欧美重口| 国产精品自拍合集| 亚洲久悠悠色悠在线播放| 亚洲色偷偷偷鲁综合| 欧美日韩国产系列在线观看| 老司机aⅴ在线精品导航| 久久综合伊人 六十路| 欧美精品在线视频观看| 精品一区二区久久久久网站| 91久久青青草原精品国产| 永久在线精品免费视频观看| 99国产精品国产| 国产91精品久久| 亚洲精品无码不卡在线播放| 日韩精品亚洲人旧成在线| 欧美日韩在线亚洲国产人| 亚洲国产清纯| 91黄视频在线观看| 国产亚洲精品91| 欧美成人日韩| 亚洲大学生视频在线播放 | 国产91九色在线播放| 色婷婷亚洲十月十月色天| 色综合久久久久8天国| 久久婷婷综合色一区二区| 亚洲伊人久久精品影院| 免费一极毛片| 国产精品久久久久无码网站| 欧美a在线看| 欧美一区二区三区欧美日韩亚洲| 人人看人人鲁狠狠高清| 国产免费怡红院视频| 69国产精品视频免费| 亚洲欧美日韩精品专区| 日韩精品无码免费一区二区三区| 精品久久777| 在线国产三级| 欧美啪啪精品| 特级欧美视频aaaaaa| 国产情侣一区二区三区| 亚洲伊人天堂| 99久久这里只精品麻豆| 欧美精品色视频| 国产精品亚洲一区二区三区在线观看| 国产欧美日韩专区发布| 日韩欧美网址| 91精品人妻互换| 国产三级a| 亚洲中文久久精品无玛| 国产成熟女人性满足视频| av在线人妻熟妇| 午夜啪啪网| 福利国产微拍广场一区视频在线| 超碰精品无码一区二区| 99久久精彩视频| 欧美日韩一区二区三区在线视频|