999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的民航事件風險評估

2022-11-14 02:55:33倪曉梅王華偉熊明蘭王峻洲
湖南大學學報·自然科學版 2022年6期
關鍵詞:文本挖掘

倪曉梅 王華偉 熊明蘭 王峻洲

摘要:為實現“安全第一、預防為主、綜合治理”的民航安全管理目標,建立了從報告中學習并評估風險等級的深度學習模型.首先采集航空安全報告系統中10年報告,根據嚴重度建立事件后果的量化指標,確定5個風險等級:高、中高、中、中低和低風險,并消除事件結果分布不平衡和結果多樣性的影響.然后應用卷積神經網絡(Convolutional Neural Network,CNN)探索非結構化的事件概要與風險等級之間的關系,通過該模型對事件進行分類,確定風險等級. 風險評估模型與不同量化指標和不同方法對比,其分類準確率可達96%,優于其他指標和方法.最后應用該模型對非結構化的事件概要挖掘,對2020年事件進行快速的風險評估,預測準確率可達80%.基于CNN的民航風險評估模型可以對文本格式的事件概要充分挖掘,快速評估與主動感知風險,對支持安全預警具有重要意義.

關鍵詞:民航安全;風險評估;安全預警;文本挖掘;卷積神經網絡

中圖分類號:X949文獻標志碼:A

Civil Aviation Incident Risk Assessment Based on Text Mining

NI Xiaomei,WANG Huawei,XIONG Minglan,WANG Junzhou

(School of Civil Aviation,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)

Abstract:In order to achieve the civil aviation safety management goal of ‘safety first,prevention first and comprehensive management’,a deep learning model is established to learn from reports and assess the risk level. Based on the 10-year incident reports available in the Aviation Safety Reporting System,we first establish quantitative indicators of incident consequences and classify all incidents into 5 levels according to their severity:high,moderately high,moderate,moderately low and low risk,which helps to eliminate the impact 0f unbalanced and intricate event consequences. Then,the relationship between the unstructured incident synopsis and the risk level is explored by convolutional neural network(CNN),and the events are classified by the model to determine the risk level. The classification model proves its superiority by comparing it with different quantitative indicators and methods,with an accuracy of 96%,which is better than the compared models. Finally,the 2020’s incident reports are predicted by this model,which enables rapid risk assessment of the synopsis of the incident,with an accuracy rate of 80%. The CNNbased civil aviation risk assessment model can fully mine the text-formatted incident synopsis,and quickly assess and actively perceive the risk level,which helps support the early warning of civil aviation safety.

Key words:civil aviation safety;risk assessment;safety warning;text mining;convolutional neural network

2021年是“十四五”的開局之年,民航局部署,到2025年,力爭全國運輸機場容量達到20億人次.運輸量的增加必然會給民航安全管理帶來嚴峻的挑戰.安全風險評估作為《民用航空安全管理規定》[1]的重要內容,是實現“安全第一、預防為主、綜合治理”目標的保障.

民航安全發展的歷史,就是從事故中學習的過程.要實現上述管理的目標,挖掘可利用的事故數據與信息,實現精準的風險評估是迫切需要解決的問題.若能深層次挖掘事故報告中描述的事故過程,拓展以往只局限于簡單查詢和統計的應用,克服依靠領域專家分析和研究的主觀性等問題,將更好地實現通過事故進行學習的功能.

機器學習和自然語言處理的發展和應用為分析航空安全報告中的非結構化文本數據提供了工具和可能.當前在本領域,陸續有學者開展了相關研究. Alkhamisi等[2]、Zhang等[3]和Tanguy等[4]對于航空安全報告系統(Aviation Safety Reporting System,ASRS)中非結構化數據的分類和預測都采用了支持向量機(Support Vector Machine,SVM).以上采用傳統機器學習的方法由于文本表示的高緯度高稀疏性,特征表達能力不強,導致預測精度不夠,需要通過其他方法的集成或處理來獲得更準確的預測結果.而如果風險等級評估過高,將導致實際風險管理中的“虛警”,造成資源的浪費;若風險等級評價過低,則會導致實際風險管理中的“漏警”,影響安全風險.

最新的研究表明,深度學習技術逐漸取代了傳統機器學習方法,成為文本分類領域⑸的主流技術. 深度學習能夠更準確地表達對象,從海量數據中自動獲取特征,實現端到端地解決問題,極大地提高了準確性.卷積神經網絡(Convolutional Neural Networks,CNN)作為典型的深度學習方法,在文本分類領域有著較好的應用.如羅文慧等[6]、蘭秋軍等[7]和GAO等[8],通過CNN構建分類模型,有效抽取句子實體關系.

基于此,本文從文本挖掘的角度出發,提出一種能夠自動評估民航運營過程中安全風險等級的模型.通過CNN找到非結構化事件信息與事件結果之間的關聯關系,建立對應風險等級,從而協助民航總局等相關單位進行風險量化、優先級設置、資源分配和決策制定,實現主動安全管理的目標.

1民航事件結果量化

ASRS是事件報告數據庫,可提供過去幾十年來發生的事件/事故信息,描述了不安全事件和危險情況[9].但由于事件結果的復雜性、數據不平衡等特點,直接建立事件概要與結果的映射在實際中需要較強的專業性,在模型算法方面的難度也較大.針對上述問題,首先建立對應的量化指標.

1.1民航事件結果

搜集從2010年1月至2019年12月ASRS報告,其中與民航運營[10]相關*的事件共有33個獨立結果,如表1所示.

此外還有約半數的事件有多個后果,對風險的辨識造成嚴重的干擾.由于結果的多樣性和復雜性,直接建立評估模型難以準確判斷風險水平.

1.2數據不平衡性

民航安全風險具有一定的聚集特點,即表現為某類事件發生次數較多,某類則相對較少.

2010年報告的所有事件單一后果分布如圖1所示.

可以看出,這33類事件具有嚴重的不平衡特性,多數類與少數類的比值超過3000,這種不平衡的類分布對假設相對平衡分布的機器學習算法提出了嚴峻的挑戰[11],同時難以解釋結果的客觀性和科學性.

1.3風險等級量化

基于以上事件后果多樣且分布不平衡兩方面的問題,量化事件后果可以更直觀地表現結果的嚴重度,減少對專業的依賴性,降低人力成本.

國際民航組織對嚴重度等級依據人員傷亡、經濟損失、機場關閉時間等[12]因素分為了5級,故本文按照此標準,將事件后果依據風險等級劃分為5個等級.則每個等級按照表1中提供的事件結果,對應風險等級如表2所示,表中“損失”即為國際民航組織提供的劃分依據.

對于單一后果的事件,按照風險等級劃分,對于多后果的事件,根據民航局“安全隱患零容忍”的態度和“從嚴從實管控安全風險”的原則,遵循按風險等級高的劃分,則事件分布如下圖2所示.

風險等級的劃分可以很好地解決事件不平衡的問題,并明確復雜事件的風險等級,這有助于模型準確性的提升[13-14].

2CNN風險評估模型

在文本分類領域常用的深度學習方法主要有CNN、循環神經網絡(Recurrent Neural Network,RNN)及其改進和集成模型等[5].

CNN仿造生物的視覺機制構建,能夠很好地提取特征信息,在分類問題上取得了較好的效果,Yoon Kim[15]最早將CNN用于提取文本的特征實現文本分類.

基于CNN的民航事件風險評估模型主要有兩大優點:(1)文本表示自動化,泛化性較強,無需專業的民航背景知識即可得到較好的特征;(2)結構靈活,基于常用結構易于設計優化結構,以便后續依托民航數據特點及安全風險規律改進模型.

CNN主要由六部分組成,輸入層、卷積層、激活層、池化層、全連接層、softmax函數等,它與普通網絡的區別就在于增加了由卷積層和池化層結合構成的特征提取器.其結構如圖3所示.

2.1文本預處理

事件概要是一種非結構化數據,它是事件/事故的簡單說明.根據NLP文本處理的基礎步驟和民航事件的特點,本文的預處理過程包括數據清洗,加載風險源自定義字典、去停用詞和分詞4個環節.

1)由于涉及到飛機型號、機場、塔臺等編號,為了便于識別,則首先清洗數據:將飛機型號如(B737,A320…)等全部轉換為aircraft,機場編號全部轉換為airport等.

2)為保障文本處理的質量,按照文獻[16]中專業術語的縮寫構建自定義詞典.

3)停用詞和分詞按照常用英語停用詞,則轉換后的語言如圖4所示.

2.2CNN結構

1)卷積層

卷積層的輸入為n×n的矩陣,卷積核大小為m×m,n≥m,權重為ω,卷積后的輸出為c,則對應位置(i,j)的輸出為:

式中:x,ω分別為x,ω在位置(i,j)的值.

2)池化層

本文在池化層的構造中采用Max-pooling方法,則對應位置(i,j)的輸出為:

p=max{c,c,…,c,…,c}(2)

3)輸出層

全連接層后生成向量f=(d,d,…,d),其中d為特征值,g為f的維度,將f輸入到softmax分類器中進行風險等級分類,由于風險等級有5級,則選用多分類交叉熵損失函數作為目標函數L:

式中:y為樣本s的標簽,與等級c為同一風險等級時

則為1,不同為0,p為樣本s屬于等級c的概率.

3實驗

實驗平臺為3.00 GHz,Intel(R)Core(TM)i7- 9700 CPU,8GB內存,在Google Colab中實施,實驗程序基于開兀軟件庫Tensorflow2.0和keras.

3.1實驗結果

10年報告共28351條信息,選取其中25%為測試數據,其余為訓練數據.CNN風險評估模型結構和參數如圖5所示.

結構圖說明最大詞向量維度為90,卷積層采用Conv1D.

參數設置如下:epoch次數為60,即共訓練60 輪,迭代次數為1000,學習率為0.02,訓練后準確率可達96.3%,結果如圖6所示.

3.2對比實驗

為驗證該方法的優越性,分別通過不同量化指標和不同模型兩方面的對比說明,如下圖7所示.

其中(a)表示應用CNN模型分別對事件后果無分類(即保留原始數據中的33種后果)、參考文獻[2]將事件后果風險等級分為高,中,低三等(本文即將中高、中低等風險全部歸結為中等風險)和本文提出的5級對比.結果表明同樣使用CNN,5等級的量化指標不僅符合國內和國際的標準,準確度也更高.

在5等級的量化標準下,圖7(b)表示分別應用SVM、CNN和RNN進行文本分類.結果說明:CNN模型的分類效果最好;同時也表明,對于民航事件信息,以CNN和RNN為代表的深度學習模型準確度高于以SVM為代表的傳統機器學習模型.

在本實驗中,CNN模型在準確度上略優于RNN,這是因為CNN模型的詞向量最大為90,不屬于長序列,CNN模型足夠處理.而民航詞匯的專業性讓CNN能夠專注于捕捉民航事件文本的語義信息.

3.3預測

為進一步驗證模型的通用性,將2020年共2111份報告輸入CNN分類模型,預測2020年的風險等級,對事件進行風險評估,結果表明準確率可達到79.6%,混淆矩陣如圖8所示:

其中單個事件的風險評估過程如圖9所示:

圖9說明對于單個事件,當采集到一線人員的事件描述時,即可通過本模型進行風險等級的預測,對于上述事件,風險等級的預測結果為3級,即中度風險,對比原事件信息,對應的事件后果為發布新的起降許可,符合中等風險的損失標準,說明預測正確.

同時預測結果的有效性也說明:采用該模型,后續在工程中,采集到一線人員對事件的描述后,可以無需專家分析而直接對事件進行評估,確定風險水平,以便民航各個部門快速響應,針對風險等級采取對應措施,從而減少財產損失和人員傷亡.

實驗結果表明CNN風險評估模型可以有效對非結構化的事件報告分類,而對事件結果按照風險等級的量化可以有效提高分類的準確率,最新的實驗數據進一步驗證了模型的通用性.

4結論

本文通過提取ASRS事件信息,針對其非結構化、不平衡等特點,通過對事件風險等級的量化分級與映射,設計了風險評估模型.提高了事件概要的分類與預測準確度,為實現主動風險管理提供支撐.主要結論如下:

1)結合實際風險管理需要,將所有事件結果分成5級,在工程上可直觀評估事件風險,同時在算法上可解決數據不平衡問題;

2)應用CNN網絡建立民航事件風險評估模型,專注于捕捉民航事件文本的語義信息,準確率可達96.3%,通過與不同量化指標和模型的對比說明了優越性;

3)在事件分類的基礎上,進一步拓展其功能,開展風險預測,通過2020年的報告進行評估預測,新事件的風險等級基本可被準確評估.

未來隨著事件分析維度的增加和事件數量的積累,為更好地發揮模型通過事件學習的功能,或可在原CNN模型的基礎上通過預訓練、正則化和集成等方法進一步提高模型性能.

參考文獻

[1]中華人民共和國交通運輸部令2018年第3號.民用航空安全管理規定[S].北京:中華人民共和國國務院公報,2018.

Decree No. 3,2018 of the ministry of transport,PRC Civil aviation safety management regulations [S]. Beijing:Bulletin of The State Council of the People,s Republic of China,2018(In Chinese).

[2]ALKHAMISI A O,MEHMOOD R. An ensemble machine and deep learning model for risk prediction in aviation systems [C]//2020 6th Conference on Data Science and Machine Learning Applications (CDMA). Riyadh,Saudi Arabia:IEEE,2020:54-59.

[3] ZHANG X G,MAHADEVAN S. Ensemble machine learning models for aviation incident risk prediction [J]. Decision Support Sys- tems,2019,116:48-63.

[4] TANGUY L,TULECHKI N,URIELI A,et al. Natural language processing for aviation safety reports:from classification to interactive analysis[J]. Computers in Industry,2016,78:80-95.

[5] MINAEE S,KALCHBRENNER N,CAMBRIA E,et al. Deep learning:based text classification [J]. ACM Computing Surveys,2021,54(3):1-40.

[6]羅文慧,蔡鳳田,吳初娜,等.基于文本挖掘的道路運輸安全風險源辨識模型[J].西南交通大學學報,2021,56(1):147-152.

LUO W H,CAI F T,WU C N,et al. Text-mining based risk source identification model for transportation safety[J]. journal of Southwestjiaotong University,2021,56(1):147-152. (In Chinese)

[7]蘭秋軍,李衛康,劉文星.不同情境下中文文本分類模型的表現及選擇[J].湖南大學學報(自然科學版),2016,43(4):141-146.

LAN Q J,LI W K,LIU W X. Performance and choice of Chinese text classification models in different situations[J]. journal of Hunan University(Natural Sciences),2016,43(4):141-146.(InChinese).

[8] GAO X,XU X B,LI D C. Accuracy analysis of triage recommendation based on CNN,RNN and RCNN models [C]//2021 IEEE Asia-Pacific Conference on Image Processing,Electronics and Computers. Dalian,China:IEEE,2021:1323-1327.

[9] NASA. ASRS program briefing[EB/OL]. US:Aviation Safety Reporting System,2020[2021-04-10]. https://asrs.arc.nasa.gov/overview/summary.html.

[10] Air carrier certification:14 CFR-121[S]. USA:Federal Aviation Administration,2020.

[11] BUDA M,MAKI A,MAZUROWSKI M A. A systematic study of the class imbalance problem in convolutional neural networks[J]. Neural Networks,2018,106:249-259.

[12] MOHAMED C. Safety management system [M]. Cairo:International Civil Aviation Organization,2018:34-39.

[13]郎憲明,李平,曹江濤,等.基于非平衡數據處理的管道泄漏檢測與定位研究[J].湖南大學學報(自然科學版),2018,45 (2):110-118.

LANG X M,LI P,CAO j T,et al. Study on pipeline leak detection and location based on imbalance data processing[J]. journal of Hunan University(Natural Sciences),2018,45(2):110-118. (In Chinese).

[14] ZHU X H,WANG j Z,HONG Z H,et al. Empirical studies of institutional federated learning for natural language processing[C]//Findings of the Association for Computational Linguistics:EMNLP 2020. Stroudsburg,USA:Association for Computational Linguistics,2020:625-634.

[15] KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg,USA:Association for Computational Linguistics,2014:1746-1751.

[16] FAA. Approved NOTAM contractions [EB/OL]. USA:Federal Aviation Administration,2021 [2021-04-10]. https://www. notams.faa.gov/downloads/contractions.pdf

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 五月激情婷婷综合| 亚洲首页在线观看| 国产激情国语对白普通话| 99视频在线精品免费观看6| 91麻豆精品国产91久久久久| 日韩a在线观看免费观看| 国产91成人| 亚洲欧美日韩中文字幕一区二区三区 | 欧美啪啪网| 日韩激情成人| 日韩精品亚洲一区中文字幕| 色爽网免费视频| 亚洲水蜜桃久久综合网站 | aaa国产一级毛片| 依依成人精品无v国产| 免费无码AV片在线观看中文| 亚洲一级毛片免费观看| 久久久噜噜噜| 亚洲愉拍一区二区精品| 色亚洲激情综合精品无码视频| 国产福利微拍精品一区二区| 国外欧美一区另类中文字幕| 亚洲欧美日韩另类在线一| 国产人碰人摸人爱免费视频| 久久91精品牛牛| 成人av手机在线观看| 国产99免费视频| 国产丝袜丝视频在线观看| 99精品视频在线观看免费播放| 丁香六月激情婷婷| 国产不卡网| 国产免费看久久久| 免费a级毛片视频| 男人天堂亚洲天堂| 中文字幕无线码一区| 国产精品成人免费视频99| 成人毛片免费观看| 国产亚洲视频中文字幕视频| 香蕉国产精品视频| 日日噜噜夜夜狠狠视频| 97成人在线视频| 欧美国产综合色视频| 精品一区二区三区自慰喷水| 九九精品在线观看| 浮力影院国产第一页| 国产成人精品高清不卡在线| 夜夜爽免费视频| 熟女日韩精品2区| 国产精品丝袜在线| 97视频免费在线观看| 亚洲人网站| 久久精品这里只有国产中文精品| 国产毛片网站| 国产一级做美女做受视频| 在线精品亚洲一区二区古装| 97无码免费人妻超级碰碰碰| 亚洲人在线| 色综合久久无码网| 亚洲精品在线91| 玖玖精品视频在线观看| 欧美国产中文| 日韩人妻无码制服丝袜视频| 91福利免费| 亚洲人成色77777在线观看| 国产亚洲精品在天天在线麻豆| 日韩精品无码免费一区二区三区| 久久黄色小视频| 亚洲黄色激情网站| 91精品免费久久久| 激情国产精品一区| аⅴ资源中文在线天堂| 久久人妻xunleige无码| 精品福利网| 国产91丝袜在线观看| 在线视频一区二区三区不卡| 亚洲第一极品精品无码| 欧美日韩另类在线| 久久精品无码国产一区二区三区 | 久久青草免费91线频观看不卡| 久久精品亚洲热综合一区二区| 好久久免费视频高清| 欧美五月婷婷|