999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本大數據分析技術在鐵路行車安全領域的應用研究

2019-09-10 22:13:30桑煒
科學導報·學術 2019年44期
關鍵詞:文本挖掘大數據

桑煒

摘要:現如今,我國的鐵路建設越來越多,同時鐵路的安全被十分重視,保障鐵路行車安全是鐵路工作的重點,通過鐵路事故調查報告等文本數據對事故原因進行分析,是提高鐵路行車安全的重要手段之一。但由于鐵路系統存在海量的非結構化事故故障文本數據,難以進行有效檢索和分析,因此提出鐵路行車安全領域文本大數據分析總體框架,包括文本數據從集成、存儲到處理、計算,再到檢索、分析及應用的全部流程,并對基于鐵路領域文本數據的全文檢索、特征提取等文本大數據分析關鍵技術進行研究。最后以某鐵路局集團公司的事故故障追蹤報告為樣本,進行事故故障報告的全文檢索、故障詞云展示及關聯性分析,取得了良好效果。

關鍵詞:大數據;非結構化;行車安全;事故故障;全文檢索;文本挖掘

引言

隨著鐵路信息化的不斷發展,已相繼建成車、機、工、電、輛等各專業安全監測/監控系統近60余個,產生和存儲了PB級的文本、圖紙、視頻、圖像、聲音等多種類型的監控/監測數據。鐵路安全領域迎來了大數據時代,由于傳統數據庫無法對這些海量的數據資源進行有效的利用,從而使這些數據占據了大量的存儲空間而不能被挖掘使用,造成了數據資源的浪費。伴隨著大數據技術的快速發展,針對海量數據的存儲、分析和可視化展示等問題,出現了新的技術來支撐,例如:分布式文件存儲、并行處理等。鐵路運輸安全是一個復雜的安全系統工程,其故障(事故)之間存在著相關關聯、相互影響的耦合關系。通過運用大數據分析技術不僅可以對海量的歷史數據進行學習和挖掘,從而預測安全風險發現事故規律和事故間的相關關系,對高實時性要求的監控數據進行實時在線分析,提高預警水平。

1文本大數據分析總體框架

1.1鐵路事故故障知識圖譜技術

鐵路事故故障知識圖譜主要是構建有關事故故障實體、概念和關系的鐵路行業知識庫,以便于進行事故故障的查詢、分析和推理等。知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成。KG是人工智能技術的組成部分,其強大的語義處理和互聯組織能力,為智能化信息應用提供了基礎。為了提高搜索引擎的能力和搜索體驗,Google于2012年5月正式提出。隨著人工智能的長足發展和普及,作為人工智能關鍵技術的知識圖譜的應用越來越廣泛,例如在基于知識圖譜的智能搜索、基于知識圖譜的智能語音問答、基于知識圖譜的語義分析和基于知識譜圖的個性化推薦等。

1.2文本數據處理

文本數據處理包括本體庫構建、命名實體識別、文本向量表示和中文分詞等技術,是文本分析挖掘的重要步驟。本體庫構建是指對所研究的領域建立統一的對象模型框架,之后所有的分析都基于這個框架進行;命名實體識別是指對文本中具有特定意義的實體進行識別,包括人名、地名、機構名等;文本向量表示是指通過某些方法把文本數據向量化,轉化為向量形式的標識,從而便于之后各類分析方法的計算;中文分詞是指根據相應領域的字典并利用分詞工具將連續的文本內容切分為單獨的中文詞匯的過程。

2文本大數據分析關鍵技術

2.1基于ElasticSearch的事故故障文本全文檢索技術

為實現鐵路非結構化文本大數據的分析挖掘,首先要實現非結構化文本的分布式存儲和全文檢索。分布式存儲是應用分布式文件系統,實現非結構化文本動態可擴展的存儲。EelasticSearch(ES)通過集群提供分布式全文檢索,1個ES集群可以由多個節點組成,可動態增加。ES各節點之間通過唯一的集群名字進行識別,默認的集群名字為“EelasticSearch”,集群名字可通過elasticsearch.yml文件進行配置。ES采用去中心化節點架構,即各節點平等,可任意選1個節點為主節點。ES各節點之間通過TCP協議進行集群交互,并通過RestfulAPI接口為其他應用提供服務。ES需建立索引(Indices),實現文檔(Document)集合的統一存儲和查詢。1個索引內可以定義1種或多種類型(Type),1種類型下可以設置多個字段(Field)以便于檢索。同時ES為了提高性能和吞吐量,對索引進行分片(Shard),默認1個索引分為5個分片(R0—R4),分布在不同的節點上,同時通過復制(Replica)分片實現高可用性,以防止節點/分片出現故障?;贓S的中文文本全文檢索主要包括文本提取、中文分詞、索引建立與檢索等過程。其中中文分詞技術是實現中文文本全文檢索的基礎;索引建立是實現中文分詞后數據轉化為索引文件的過程,主要利用的技術為倒排索引;檢索過程是對要檢索內容進行中文分詞后,根據索引文件找到所檢索文檔的過程。

2.2融合鐵路領域詞典的中文分詞

鐵路事故故障文本分布式全文檢索的首要和基礎工作是實現事故故障文本的分詞。中文分詞不同于英文分詞,中文詞語之間沒有空格標記進行分割。不同的上下文環境、不同的詞語組合和不完備的語料庫造成了中文分詞的歧義。尤其針對鐵路領域的中文分詞,由于缺乏行業領域的語料庫,鐵路專業術語無法實現有效的識別。同時鐵路行業的事故故障描述不一,為鐵路事故故障文本分詞帶來更大的挑戰。例如“軌道電路紅光帶”、“軌道區段紅光帶”、“紅光帶”等描述的是一種故障,但是在文本文檔中不同人員的描述不一致,造成了同一種故障但是由多種詞語進行描述,如果嚴格按照中文分詞就出現了3種不同的故障,為文本檢索和分析造成了困難。同時鐵路行業缺乏語料庫,對于事故故障命名實體沒有統一的規范,造成事故故障文本中事故故障名稱無法識別。

2.3融合文本結構及正則表達式的特征提取

鐵路事故故障報告全文檢索實現了對文本信息的有效存儲和搜索。結合文本挖掘的分類、預測和相關性分析等,可以挖掘鐵路事故故障發生規律,指導現場人員對重點事故故障進行防范,保障鐵路安全運行。鐵路事故故障報告的基本格式有標題、概述、調查過程、原因分析、定性定責和措施及要求等六大部分。本文采用基于段落格式及正則表達式的文本特征提取。即通過正則表達式找到相應的段落,然后對重點段落的內容進行中文分詞和特征提取,提取時需要和事故故障詞庫、事故地點詞庫等專業詞庫進行匹配,若專業詞庫中存在則直接提取,若專業詞庫中不存在,需要根據正則表達式依據語法結構進行截取。

2.4鐵路設備安全風險評估

基于大數據技術進行鐵路設備安全風險評估應構建2個層面:(1)基于設備故障特征和故障模式的設備安全風險評估方法,根據設備故障診斷結果,對故障特征和故障模式進行數字化表達,建立設備的特征、模式與故障特征、故障模式的距離函數來度量設備狀態與標準故障狀態的相似程度,距離函數的值越小,則設備安全風險越高。(2)基于設備健康狀態的設備安全風險評估,根據設備當前的狀態數據,劃分不同的安全風險等級,設備狀態越差,其安全風險等級則越高。

結語

基于鐵路大數據技術,研究提出鐵路行車安全領域文本大數據分析總體框架,介紹全文檢索技術、中文分詞技術、文本檢索模型、文本特征提取與挖掘技術等文本大數據分析關鍵技術。通過在某鐵路局集團公司進行試點應用,實現了分布式存儲、近實時全文檢索、多發事故故障詞云展示和事故故障關聯關系分析,取得良好效果,研究成果可為鐵路相關業務領域的文本大數據分析提供參考。

參考文獻:

[1] 王同軍.中國鐵路大數據應用頂層設計研究與實踐[J].中國鐵路,2017(1):8-16.

[2] 中華人民共和國鐵道部.鐵路交通事故調查處理規則:鐵道部令第30號[S],2007.

[3] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.

(作者單位:湖南高速鐵路職業技術學院)

猜你喜歡
文本挖掘大數據
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
慧眼識璞玉,妙手煉渾金
文本觀點挖掘和情感分析的研究
主站蜘蛛池模板: 99久久精品国产麻豆婷婷| 日本黄网在线观看| 91在线丝袜| 91在线一9|永久视频在线| 亚洲第一天堂无码专区| 五月婷婷亚洲综合| 国产亚洲精品资源在线26u| 亚洲中文字幕在线一区播放| 亚洲精品无码不卡在线播放| 国产精品刺激对白在线| 欧美成人一级| 国产精品一区二区不卡的视频| 欧美啪啪一区| 国产色爱av资源综合区| AV片亚洲国产男人的天堂| 欧美成人精品一区二区| 精品视频福利| 欧美一级大片在线观看| 黄色三级网站免费| 欧美日韩国产在线观看一区二区三区| 福利在线不卡一区| 国产在线视频自拍| 狠狠综合久久| 国产精品无码AⅤ在线观看播放| 毛片大全免费观看| 日本三级欧美三级| 99视频精品全国免费品| 自偷自拍三级全三级视频| 久久综合国产乱子免费| 色婷婷综合在线| 色天天综合| 好紧太爽了视频免费无码| 午夜限制老子影院888| 亚洲美女AV免费一区| 91色综合综合热五月激情| 91小视频在线观看免费版高清| 91精品人妻互换| 久久精品aⅴ无码中文字幕 | 国产麻豆永久视频| 亚洲大学生视频在线播放| 日韩欧美国产区| 韩日无码在线不卡| 40岁成熟女人牲交片免费| 99精品久久精品| 中文字幕在线看| 久久情精品国产品免费| 日韩麻豆小视频| 999在线免费视频| 免费观看成人久久网免费观看| 制服丝袜亚洲| 亚洲成人免费看| 国产在线98福利播放视频免费| 国产区在线观看视频| 激情亚洲天堂| 色135综合网| 久久精品日日躁夜夜躁欧美| 中文字幕在线看视频一区二区三区| 亚洲无码91视频| 日韩午夜片| 黄色在线不卡| 青青国产成人免费精品视频| 天堂成人av| 国产高清不卡视频| 99久久99这里只有免费的精品| 国产亚洲精品91| 国产欧美日韩专区发布| 狠狠综合久久久久综| 激情视频综合网| 99人妻碰碰碰久久久久禁片| 四虎永久在线精品国产免费| 九九九国产| 自慰网址在线观看| 中文字幕久久亚洲一区| 漂亮人妻被中出中文字幕久久 | 精品一区二区无码av| 亚洲欧美极品| 天天做天天爱天天爽综合区| 欧美乱妇高清无乱码免费| 欧美a网站| 国产av剧情无码精品色午夜| 国产精品视频系列专区| 亚洲国产综合自在线另类|