999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規則模式的瓦斯爆炸事故信息抽取技術

2023-03-27 02:38:50梁建軍雷咸銳蔡忠杰
煤礦安全 2023年2期
關鍵詞:文本分析信息

梁建軍,雷咸銳,吳 斌,蔡忠杰,栗 婧

(1.山西潞安化工集團 能源事業部,山西 長治 046204;2.中國礦業大學(北京)應急管理與安全工程學院,北京 100083)

據統計2005—2020 年我國煤礦重大級別以上事故共發生253 起,傷亡5 125 人,其中瓦斯爆炸事故占各類重特大事故發生數的45%,傷亡人數的57%。對煤礦事故報告進行分析發現所有的事故皆為責任事故,且研究表明在引起事故發生的直接原因中,人的不安全行為約占80%。因此,開展行為安全研究,規范人作業過程中的行為,對于預防事故發生具有重要意義。事故案例致因分析是獲取行為原因的主要方法。目前,案例致因分析多由人工閱讀的方式對文本中描述的致因信息進行識別,但該方式費時費力,且獲取的結果會受人主觀因素影響。信息抽取是自然語言處理研究領域的重要組成部分,主要研究內容為從文本中提取特定描述信息[1]。基于此,希望借助信息抽取技術,以事故致因理論為指導,構建適用于煤礦瓦斯爆炸事故致因信息抽取方法,以快速獲取事故文本中的致因信息,探索事故發生規律,為煤礦安全管理工作開展提供數據支撐。

近年來,國內外學者對信息抽取技術進行了研究:XU Hua 等[2]對MedLEE 醫療信息抽取系統進行改進,構建了MedEx 醫療藥物信息抽取系統,利用患者診療記錄對系統抽取結果的準確性進行了驗證;SPASIC 等[3]為克服從醫療報告中獲取關于治療藥物詳細信息難的問題,設計了一種適用于臨床醫療數據信息的抽取系統;原歡[4]為解決遠洋運輸業人工處理業務郵件信息效率低下的問題,利用GATE 提供的文本工程體系框架,基于規則信息抽取技術構建海洋貨運電子郵件關鍵信息抽取方法;孫水華[5]構建基于規則模式的抽取算法模型,對中醫針對文檔中的數據進行了自動抽取;梁帥[6]、劉茜茜[7]為提升病理文本數據的利用率,以病理文本數據為研究對象,構建了結構化信息抽取系統,該系統可實現病理文本數據信息自動化結構抽取,輔助醫療人員進行疾病診斷。從上述文獻梳理可以看出,國內外學者對信息抽取技術的應用取得了很多成果。

1 理論基礎

1.1 事故模型選擇

目前常用的事故致因模型有人因分析模型(HFACS)、STAMP 模型、事故致因“2-4”模型(24Model)、SCM 模型、AcciMap 模型。事故致因模型各有優缺點,為選出最適用于煤礦領域的事故致因分析模型,將從事故模型的系統性、組成方面進行比較。SCM 模型[8]和HFACS 模型[9]屬于簡單鏈式事故致因模型,事故原因的發生存在先后順序,原因之間邏輯關系清晰。24Model 模型[10]、AcciMap 模型[11]和STAMP 模型[12]均屬于網狀事故致因模型,從系統的角度,較為完整地描述了事故致因之間的相互作用關系,認為事故原因之間既存在層級之間的正向和反饋作用,也存在因果之間的相互作用,更能夠準確地反映現今復雜的社會-技術系統的真實情況。除STAMP 模型外,其他模型均為模塊化事故致因模型。模塊化適用于大量案例分析時進行原因統計分析,便于使用和從事故報告內獲取原因進行分類。與其他致因模型相比,24Model 模型將事故原因模塊化,有利于對事故原因的歸類統計和定量分析;各模塊具有明確的定義和嚴格的界限,能夠保證事故原因彼此獨立;其多用于煤礦事故的分析,作為一個復雜網絡的事故致因模型,網絡中明確了事故原因之間的相互作用關系,基于24Model 模型的網狀特點,通過進行大量的事故分析,能夠識別出瓦斯爆炸事故中的關鍵原因。因此,選取24Model 模型作為研究開展煤礦瓦斯爆炸事故致因研究的理論基礎和分析工具。

1.2 24Model 模型定義

事故致因24Model 模型是在事故致因模型基礎上研究形成,至今先后經歷了6 個理論發展階段[13]。24Model 模型認為不安全行為和不安全物態是引起事故的直接原因;在對行為的發出者識別方面,認為動作發出者應涵蓋組織內對事故發生影響的所有工作人員;在間接原因組成上,將間接原因歸結為個人能力不足導致,其影響因素包括知識、意識、習慣、心理和生理5 個方面。24Model 模型認為引起事故的根源原因和根本原因是由組織層面導致,將根本原因歸結為安全管理體系缺失,事故發生的根源原因歸結為企業安全文化的缺失。

以24Model 模型為理論框架,基于規則模式的方法對事故致因信息抽取,需明確致因因素各模塊的定義和識別方法,以使計算機在處理文本時能夠準確抽取目標信息。

1)不安全行為。24Model 模型給出的不全行為定義為對當次事故發生有重大影響或者引起激活當次事故的行為??梢罁幷?、事故案例和風險評估3種方法對其識別[10]。

2)不安全物態。24Model 模型對不安全物態的定義為對事故發生有重大影響物態,其識別的方法有3 種:違規的物態;不違規引起事故的物態;風險評估后認為存在高風險的物態[10]。

3)間接原因。24Model 模型認為引起事故的間接原因包含知識、意識、習慣、心理和生理5 類因素[10]。安全知識對意識、習慣、行為、物態均具有較大程度的影響[14],安全知識影響路徑如圖1。從圖1 可以看出,知識對事故的影響存在3 條影響路徑,分別是因安全知識不足直接導致不安全行為和物態產生;安全知識不足引起安全意識降低或安全習慣不佳,通過安全意識或習慣對不安全行為和物態產生作用。在間接原因分析上,僅對24Model 中的安全知識不足進行抽取。

圖1 安全知識影響路徑分析Fig.1 Safety knowledge influence path analysis

1.3 信息抽取技術選擇

基于機器學習的統計抽取、基于自然語言理解抽取、基于規則模式抽取[15]是從文本中實現信息抽取的3 類主要技術方法。基于自然語言理解的信息抽取方法技術復雜,不適合廣泛信息的抽??;基于機器學習的統計抽取方法常用于分類和預測研究,側重于研究文本關鍵詞的分布,抽取結果準確性有待商榷;基于規則模式的信息抽取方法對所研究的文本語言,領域以及文本格式有著嚴重的依賴性,且可移植性弱,但針對同一類事故的抽取而言,其相對于機器學習的統計方法和自然語言理解方法抽取準確率相對要好,可以更精準地獲取待抽取文檔的主要特征信息。結合研究的內容,選擇基于規則模式的文本抽取技術作為瓦斯爆炸事故文本致因信息抽取的方法。

1.4 事故致因分析范圍確定

事故是組織根據適用要求規定的、造成確定負效應的1 個或者一系列意外事件,從事故定義可以看出,事故發生在組織之內。以24Model 模型為事故致因理論依據,研究對象為煤礦瓦斯爆炸事故,因此選取事故礦井作為分析的組織范圍,煤礦的上級單位、政府監管單位等導致的事故致因因素不計入分析范圍。結合上文的闡述,確定事故致因分析范圍和識別的內容。在原因方面主要識別內容為不安全動作,不安全物態和安全知識不足。

2 基于規則模式的致因信息抽取

2.1 致因信息抽取步驟

基于規則模式抽取算法,將煤礦瓦斯爆炸事故致因抽取分為預處理、事故文本關鍵信息抽取、分詞處理、信息匹配、間接信息抽取等5 步。

1)預處理。將事故報告文本類型轉為txt 格式,根據事故報告的特點,將1 篇完整的報告分為:首段、礦井概況、事故經過、事故原因和責任者的處理建議5 個部分,并將各部分內容存儲至不同的列表中。

2)事故文本關鍵信息抽取。利用通用“抽取規則+關鍵詞”對事故描述中關鍵語句進行抽取。

3)分詞處理。對提取出的語句進行分詞處理。

4)信息匹配。將語句分詞的結果與原因詞典中的信息進行匹配,凝練語句,獲取引起事故的不安全行為和物態。

5)間接信息抽取。將不安全行為及物態結果分別與安全知識詞典的鍵進行匹配,推導出缺失的安全知識。

2.2 規則模式抽取方法構建

事故致因抽取算法圖如圖2。

圖2 事故致因抽取算法圖Fig.2 Algorithm diagram of accident causes extraction

事故原因信息描述多樣、復雜多變且描述無規范格式,所以依靠固定的規則模式難以獲取。通過對2005—2020 年間的事故案例庫梳理發現,事故原因信息描述中常含有固定的詞語搭配,比如因違章爆破而導致事故發生,在原因描述中會出現“爆破”、“炮”、“違章”等詞匯,所以若想通過信息抽取技術獲取導致事故發生的原因信息,可通過構建原因“通用規則模式+關鍵詞”的形式對含有關鍵詞的句子進行提取,對抽取的關鍵語句進行分詞處理,將分詞結果與事故致因字典的鍵進行匹配獲取最終的事故原因描述。因此,構建高質量的關鍵詞庫和事故致因字典對信息抽取技術抽取的結果至關重要。

研究所使用的事故致因字典和關鍵詞庫是通過文獻分析[16-17]、小組討論、煤礦現場調研等方法獲得。獲取的關鍵語句部分關鍵詞庫見表1。

表1 關鍵詞詞庫Table 1 Keywords thesaurus

事故致因字典有3 部分組成,分別是行為、物態、安全知識字典。行為字典的作用是對文本抽取出信息進行同義轉述,將文本中關于不安全行為的描述轉為簡短凝練的專業術語;物態字典同理;安全知識字典作用是根據獲取的原因信息識別出導致事故發生的安全知識不足和管理體系欠缺的方面信息。部分事故致因字典信息見表2,表2 中:鍵的作用是用于匹配關鍵語句分詞結果;值為輸出的原因信息描述。

表2 事故致因字典Table 2 Accident cause dictionary

2.3 事故致因抽取實現及可視化

目前常用于科學信息分析的編程語言有Java、C++、Python、R 語言4 類。Python 是一種面向對象的腳本語言,具有的豐富且強大的庫函數可供調用,如數據分析庫Pandas、自然語言和文本處理庫NLTK、Re 等。所構建的事故致因信息抽取方法應用研究,屬于自然語言處理領域,可選擇Python 作為抽取結果實現的編程語言。與C++、Java 等匯編語言相比,Python 具有大量的自然語言處理和數據分析相關的庫函數;代碼可讀性強,簡單易學。

目前比較常見的文本可視化工具見表3。

表3 文本可視化工具Table 3 Text visualization tools

從表中可以看出:從繪制圖類型的豐富度、是否支持中文和代碼量3 個方面比較,Pyecharts 均優于其他4 類可視化工具。Pyecharts 基于Python 環境開發設計,可繪制的圖類型有柱狀圖、雷達圖、可視化地圖、樹狀圖等,且繪制圖形具有動態特征,可用于網頁的交互設計,事故致因結果展示選擇Pyecharts作為可視化工具。

3 基于規則模式的事故分析驗證

選取2007 年山西省臨汾市洪洞縣左木鄉瑞之源煤業公司重大瓦斯爆炸事故案例進行抽取展示,并將信息抽取結果分別以Html 文檔和Excel 文件保存,便于人工后續對結果的統計分析。

3.1 事故致因結果抽取

1)事故基本信息。2007 年12 月5 日左木鄉瑞之源煤業公司發生1 起瓦斯爆炸事故,共傷亡105人。5 日23:00,調度值班員聽到井下爆炸聲后向正副礦長匯報;副礦長在井口詢問情況后到通風機房送電失敗,盲目組織人員下井施救,致使15 名施救人員CO 中毒死亡;6 日5:00 向安監局報告事故。經調查,事故發生地點處于無風作業狀態,造成瓦斯大量積聚超限,工人違章爆破產生火焰引爆瓦斯。事故直接原因:①該礦超層越界、亂采濫挖;②非法盜采的9#煤層以掘代采作業點(40 m 盲巷)無風作業,造成瓦斯積聚,達到爆炸界限;③違章放炮產生火焰,引起瓦斯爆炸;煤塵參與爆炸。事故間接原因:①該礦長期違法超層越界盜采9#煤層;②違規超能力;超定員組織生產。事故發生后,該礦未按規定及時上報,遲報近6 h;在施救人員沒有佩戴專業救護裝備的情況下,盲目組織施救,造成次生事故的發生;該礦在停產整頓期間嚴重超能力、超定員組織生產;在盜采9#煤層時,沒有合理的通風系統,沒有安裝瓦斯檢測監控系統。

2)事故致因信息抽取。將處理為txt 文本類型格式的報告,讀入致因信息抽取腳本程序,首先對文本進行分塊預處理,并對事故原因描述段落進行打印。

對事故致因信息進行抽取,加載事故致因詞典和關鍵詞庫至程序,對事故原因段落的關鍵語句進行抽取。調用Jieba 分詞工具,對關鍵語句進行分詞,在完成分詞工作后通過與事故致因詞典進行匹配,獲取引起本次事故致因分析結果。使用Pandas對結果進行封裝,形成Excel 文件;利用Pyecharts 對抽取所得的數據進行可視化處理,形成Html 文檔,將Excel 文件和Html 文檔導出保存。

使用Google Chrome 瀏覽器打開導出Html 文檔,可查看事故致因可視化Tree 圖結果,事故致因信息可視化情況如圖3。

圖3 事故致因信息可視化Tree 圖Fig.3 Visualization Tree of accident cause information

3.2 事故致因信息人工分析

24Model 模型事故原因分析圖如圖4。

圖4 24Model 事故原因分析圖Fig.4 Accident cause analysis diagram of 24Model

利用24Model 對本事故原因進行人工分析,主要內容為一次性行為和物態。一次性行為是事故發生的直接原因,包括不安全行為和不安全物態2 個方面。分析事故報告可知以下問題:①不安全行為:放炮不使用水炮泥封孔、沒有合理的通風系統、超能力生產、未執行“一炮三檢”、采取作假圖紙進行生產、超層越界、亂采濫挖;②不安全物態:工作面無風、瓦斯超限、無瓦斯監控系統。

3.3 抽取結果驗證

為驗證抽取結果的準確性,簡單對構造抽取方法獲取的直接原因統計結果與事故報告及人工分析進行對比,程序抽取與人工分析對比見表4。

表4 程序抽取與人工分析對比Table 4 Comparison between program extraction and manual analysis

由表4 可知:程序抽取所抽取的致因因素均包含在內,且更具有邏輯性,更具有事故預防的實用性;而人工分析事故報告中將原因簡單分為直接原因和間接原因,未將原因進行分類,難以根據原因結果提出預防對策;程序抽取與人工分析進行對比,可發現在準確率方面,契合度較高,覆蓋人工分析所得結果的90%,由此證明了所構建方法的可靠性和抽取結果的準確性,能夠用于瓦斯爆炸事故的分析。

4 結 語

通過學科交叉的方式,構建基于規則模式的煤礦瓦斯爆炸事故信息提取技術方法,對在非結構化文本中快速提取瓦斯爆炸事故信息,基于大數據的安全生產態勢動態評估及指導安全生產進行精細化管理具有重要意義。針對專業性較強的案例致因提取,提出了基于規則模式的煤礦瓦斯爆炸事故信息抽取技術的方法和流程;在事故致因24Model 模型基礎上,構建了煤礦瓦斯爆炸事故的關鍵詞庫和事故致因字典;將抽取結果與人工分析進行對比,抽取的致因結果覆蓋人工分析的90%,證明所構建方法的可靠性和抽取結果的準確性,能夠用于瓦斯爆炸事故的分析。

猜你喜歡
文本分析信息
隱蔽失效適航要求符合性驗證分析
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产av一码二码三码无码| 72种姿势欧美久久久久大黄蕉| 欧美啪啪视频免码| 欧美在线黄| 久草热视频在线| 中文字幕在线日本| 亚洲二三区| 日本国产精品| 精品福利网| 亚洲欧美另类久久久精品播放的| 日日拍夜夜操| 国产精品视频a| 奇米精品一区二区三区在线观看| 国产日韩欧美在线播放| 国产超薄肉色丝袜网站| 在线欧美一区| 福利国产微拍广场一区视频在线| 亚洲一区二区在线无码| 国产乱子伦手机在线| 亚洲男人的天堂在线| 久久毛片基地| 伊人福利视频| 日韩精品无码免费专网站| 好紧好深好大乳无码中文字幕| 日本a∨在线观看| 91成人在线观看视频| 国产成人超碰无码| 亚洲天堂高清| 精品少妇人妻av无码久久| 日韩欧美中文字幕在线韩免费| 美女被操黄色视频网站| 中文毛片无遮挡播放免费| 国产精品尤物在线| 色欲色欲久久综合网| 色综合激情网| 少妇精品在线| 日本精品αv中文字幕| 91麻豆精品国产91久久久久| 国产无遮挡猛进猛出免费软件| 亚洲色精品国产一区二区三区| 欧美午夜在线播放| 亚洲男人的天堂网| 国产色偷丝袜婷婷无码麻豆制服| 国产成人精品一区二区免费看京| 六月婷婷激情综合| 五月婷婷综合网| 免费毛片视频| 国产精品人人做人人爽人人添| 国产微拍精品| 国产办公室秘书无码精品| 992Tv视频国产精品| 热99re99首页精品亚洲五月天| 精品三级网站| www.国产福利| 国产精品女人呻吟在线观看| 亚洲综合片| 国产成人高精品免费视频| 毛片一级在线| 国产精品大白天新婚身材| 夜夜操天天摸| 亚洲欧州色色免费AV| 黄色污网站在线观看| 色亚洲成人| 91国内在线视频| 国产成人三级| 911亚洲精品| 99re视频在线| 中文字幕在线看视频一区二区三区| 亚欧成人无码AV在线播放| 国产另类乱子伦精品免费女| 亚洲成人播放| 亚洲福利视频一区二区| 日本一本在线视频| 91青青草视频| 99热亚洲精品6码| a级毛片一区二区免费视频| 亚洲精品福利视频| 国产成人无码综合亚洲日韩不卡| 欧美笫一页| 天天综合网色| 四虎精品黑人视频| 成人小视频在线观看免费|