999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘和復雜網絡的事故致因重要度評估方法*
——以房屋市政較大以上事故為例

2022-05-19 05:37:24陳志遠王鐵驪
中國安全生產科學技術 2022年4期
關鍵詞:關聯文本

陳志遠,王鐵驪

(南華大學 經濟管理與法學學院,湖南 衡陽 421001)

0 引言

項目施工,安全第一。工程項目施工參與方眾多,施工現場復雜多變,安全管理任務尤為艱巨,不僅關系到各責任主體單位的經濟效益,還直接影響到人民群眾的生命財產安全。為明確安全管理工作的內容,進行事前風險管控,很多學者聚焦于尋找事故致因的研究,主要包括案例分析、統計分析和構建事故致因模型3類?;诎咐治觯琙hou等[1]引入事故網絡理論,詳細分析杭州地鐵重大基坑坍塌事故的經過,提取了11條主要事故致因。統計分析則運用統計學的方法,分析大量有代表性的事故案例,能揭示事故發生的普遍規律[2]。鄭霞忠等[3]通過分析152起建筑工程高處墜落事故,揭示了人為失誤在高空墜落事故中的作用路徑。然而統計分析過程需要依賴專家的經驗判斷和歸納總結,具有較強的主觀性。同時事故的發生具有復雜性,是人、物、環境、管理多因素耦合作用的結果。Suraji等[4]基于項目參與方的約束和響應時間,構建事故致因模型,揭示了風險因素之間潛在的復雜關系。構建事故致因模型雖能系統地分析事故致因間耦合作用的機制,但構建模型時需要依靠理論假設,同時事故樣本數量也有局限性。

近年,文本挖掘理論和技術快速發展,為分析大量文本數據提供了有力支撐。如Goh等[5]將文本挖掘與6種機器學習算法(LR,RF,KNN,DT,NB,SVM)結合,對美國1 000起工程建設事故進行分類,總結了各類事故的主要原因。Zhong等[6]在文檔分詞的基礎上,借助線性判別分析(LDA)將高維分詞結果劃分為34類,利用專家知識,歸納了34個風險因素。借助專家知識雖能準確地提取事故致因,但過度依賴專家的主觀判斷。多數研究還局限于提取事故致因,缺乏對風險因素的評估?;陉P聯規則(Apriori algorithm)的風險因素評估方法已運用于交通安全領域[7-8],在工程建設領域,結合關聯規則的事故致因評估研究尚較為少見。

因此,本文在已有研究的基礎上,把文本挖掘應用到房屋市政較大以上事故的分析中,采用最小詞頻閾值文檔頻的信息增益評估函數(DFn-IG)對特征集降噪,借助詞頻分析提取安全事故的風險因素,引入復雜網絡評估事故致因因素的重要度。以達到充分挖掘事故調查報告中的有效信息,為安全管理工作提供參考的目的。

1 文本挖掘方法與流程

1.1文本挖掘流程

文本挖掘流程包括文本數據收集、文本預處理、構建自定義詞庫、文本特征抽取、數據分析、知識發現等步驟,其主要分析過程如圖1。

圖1 基于文本挖掘的事故致因分析流程

1)文本數據收集:根據2010—2019年國內房屋市政較大以上生產安全事故的通報信息,收集對應的事故調查報告文本。

2)文本預處理:提取事故調查報告文本中闡述事故致因的部分,去除無價值、重復、缺陷的文本數據。

3)構建自定義詞庫:添加目前已經廣泛運用到文本挖掘領域的成熟詞庫,并在提取事故致因的基礎上,構建添加與事故致因對應的同義詞詞表。

4)文本特征抽?。何谋厩蟹趾螅柚鶧Fn-IG評估函數,對分詞結果降噪。利用特征項詞頻,篩選降噪結果,回溯特征項在調查報告中的具體表述,確定事故致因。

5)數據分析:統計詞頻、文檔頻,并根據事故致因的互現情況,構建無向加權復雜網絡,改進傳統的TF-IDF算法,綜合詞頻和事故致因因素的關聯特征評估其重要度。

1.2 特征項降噪與致因提取

事故調查報告是非結構化的文本數據,主要有2類噪聲詞,第1類詞頻繁出現在各調查報告中,但無助于分析事故致因,如“直接原因”、“事故”等;第2類噪聲詞如地名、企業名稱等,在各調查報告中有不同的內容,且在每一份調查報告中出現的頻次較低。

設置最低詞頻閾值可直接去除第2類噪聲詞;陳曉云等[9]由信息增益(IG)、互信息(MI)、χ2統計(CHI)等方法的比較分析,得出在處理低頻特征集和高維特征集時,信息增益法在查全率和查準率上相對其他方法更具優勢,能有效去除第1類噪聲詞。因此,本文結合DFn和IG評估函數,處理噪聲詞。計算公式如式(1)所示:

(1)

利用DFn-IG評估函數,對分詞結果降噪,然后根據調查報告中的語意,確定特征項代表的事故致因。在此基礎上,構建與事故致因相對應的同義詞詞表。

1.3 事故致因的重要度評估

在TF-IDF的基礎上,Xu等[10]引入信息熵對其進行改進,綜合事故致因的頻次和分布,評估事故致因的重要度。改進的TF-H算法雖然解釋了事故致因重要度與其文檔頻DF正相關的問題,但在相同文檔頻下,事故致因的重要度與其頻次呈反比。此外,以上2種方法僅從事故致因的文檔分布特征來評價其重要度,缺乏對事故致因因素間關聯關系的考量。

(2)

式中:wij表征網絡節點i,j間的邊權值;aij*表征邊的關聯邊權值,以平均邊權值為基準,判定2事故致因因素間關聯關系的強弱。

節點的關聯加權度為Ki*,以衡量與某1事故致因具有強關聯關系的事故致因因素的數量,計算公式如式(3)所示:

(3)

式中:N表征事故致因因素的總數,Ki*用來衡量與某一事故致因具有強關聯關系的事故致因因素的數量。

基于詞頻-關聯關系的TF-K*評估函數的計算公式如式(4)所示,TF-K*值越大,事故致因對安全事故的影響越重要。

(4)

式中:i表征事故致因因素i;TF(i)表征事故致因因素i的詞頻。TF-K*(i)值越大,事故致因因素i對安全事故的影響越重要。

2 數據收集與事故致因提取

2.1 收集事故信息

從住房與城鄉建設部官網,抓取2010—2019年的生產安全事故信息,共計6 000起房屋市政類生產安全事故,其中較大及以上生產安全事故共255起[11],歷年生產安全事故情況如圖2(a)所示。

圖2 2010—2019年房屋市政工程生產安全事故分布

2.2 收集調查報告

針對較大以上事故的通報信息,從各地應急管理部門官網、易安網、安全管理網和建筑企業官網,搜集對應的調查結果,最終獲得158份事故調查報告,事故類型分布如圖2(b)所示。

2.3 創建語料庫

事故調查中包含大量與事故致因無關的內容,如事故基本情況、責任人員和責任劃分等。因此,僅將事故發生經過和原因分析2個部分的內容,作為文本挖掘的語料庫。

2.4 構建分詞詞庫

本文在Python3的環境下,使用PyCharm借助開源的Jieba算法對文本進行分詞,通過自建停用詞詞庫、分詞詞庫和同義詞詞庫的方式,以提升分析語料庫的能力。

1)停用詞詞庫:停用詞是文檔中經常出現,對文本分析無價值的一類詞。如“派駐”、“廣場”、“臺階”等。結合目前常用的停用詞詞表:HIT和MIL-SCU等,構建停用詞詞庫。

2)分詞詞庫:直接對調查報告進行分詞,事故致因會丟失有價值的信息。如“安全意識淡薄”,經切分后變成“安全”、“意識”、“淡薄”3個詞語,失去了原本所表達的信息。結合搜狗細胞詞庫、百度詞庫中收納的大量土木建筑類專業詞匯,構建出基礎分詞詞庫。

3)同義詞詞庫:中文的表述中,不同的詞語可表達相同的含義。如“工人違章操作”在不同的事故調查報告中,有“工人違規作業”、“違章操作”等表述。因此,從158份報告中隨機抽取40份,分析統計同一事故致因的不同表述,形成文本挖掘的同義詞詞庫。

2.5 文本分詞與特征項降噪

對語料庫分詞,得到29 442個原始特征項。根據式(1),計算特征項的DFn-IG函數值。不同最小詞頻閾值下,特征集容量與單次噪聲去除量如圖3。隨著閾值增大,單次去除量逐漸減小,為防止關鍵詞被剔除,取新增幅度最低點n=8為分詞用最小詞頻閾值。

圖3 不同閾值下降噪結果

2.6 提取事故致因

結合降噪后特征項在調查報告中的具體描述,提取40個主要事故致因,如表1所示。

表1 房屋市政較大以上生產安全事故致因(部分)

2.7 網絡構建與數據分析

根據事故致因在調查報告中的共現情況,計算風險因素的共現矩陣,利用Gephi軟件繪制事故致因共現網絡,如圖4所示。為進一步評估風險因素的重要度,計算評估函數值如表2所示。

圖4 事故致因共現網絡

3 結果分析

3.1 事故致因因素分析

從表2可以看出,事故安全風險因素主要包括5類:自然環境條件、項目安全管理、相關單位安全管理、現場人員和材料設備,涵蓋了張偉等[12]和Hoa等[13]研究中提及的施工安全事故致因。

表2 安全風險因素及其特征指標

A32,A33反映項目實施過程中的自然環境,由于工程項目的開展與施工環境密切相關,出現極端的環境時,現場組織和管理體系多難以應對,極易引發生產安全事故。

A1,A6,A7,A8,A10,A15,A17,A20,A29,A37體現房屋市政工程依然存在安全管理體系不健全、規章制度執行不到位的問題。貫徹執行合理的安全制度,可有效避免風險因素演變成事故。但在工程實踐中,貫徹實施安全措施需要投入大量時間和資源,建筑企業常會因為經濟上的壓力和人員短缺等問題,縮減該方面的支出,帶來一系列安全生產風險隱患。

A11,A14,A16,A30,A38,A39體現房屋市政工程中違法違規承發包項目的行為依然存在。由于工程項目建設具有專業性,不具備生產資質的企業開展生產活動,不僅違反相關法律規定,還存在大量的安全風險隱患,很容易引發生產安全事故。

A5,A18,A21,A22,A23,A31,A34,A40體現建筑單位編制施工方案的工作依然存在短板,在編制實施具體的安全措施方面還有很多盲點,這既是安全管理的短板,也是導致生產安全事故的高風險因素。

A2,A3,A4,A26,A27,A28,A35,A36體現項目參與單位的安全管理工作存在短板,施工企業心存僥幸心理,監理單位、政府部門等相關單位在工作中存在漏洞,風險管控工作還有很多不足。

A9,A12,A13,A19,A24反映房屋市政工程的從業人員,存在安全意識不足,專業素質不高,缺乏系統培訓的問題。Tam等[14]研究表明技術交底和定期的安全訓練能夠提升工人的安全能力,但工程項目通常持續時間較短,工人流動性大,建筑工人一般只在工程建設的初期接受短暫的安全培訓,這些培訓并不能顯著提升他們的安全意識和專業水平。

3.2 事故致因重要度分析

由于TF7=TF8=116,DF8=DF14=45,因此選擇A7,A8,A14因素的數據進行對比。盡管A7和A8的詞頻相同,但A7的文檔頻更高、關聯加權度更高,表明A7在調查報告中的分布更均勻,與其他致因因素的關聯更緊密,更容易引發事故,因此其重要度應更高。表2中的數據顯示,TF-H值和TF-K*值判別結果均為A7>A8,與分析結果吻合。以上數據的比較,驗證了相較于傳統的TF-IDF值,TF-K*值具備同TF-H值一致的判別能力。

A8和A14具備相同的文檔頻,表明其在相同數量的事故中出現,而二者的WD/K值僅相差0.08,表明二者與其他致因因素的關聯強度基本相同,但A8的詞頻更高,表明其被強調的次數更多,因此綜合詞頻、文檔頻和關聯加權度來看,認為A8的重要度高于A14。表2的數據顯示,TF-K*值的判別結果與分析結論吻合。以上數據較好地驗證了相較TF-H值,采用基于關聯加權度的TF-K*更能全面準確地衡量事故致因的重要度。

3.3 低頻致因因素分析

Mitropoulos等[15]的研究顯示,事故的發生與施工作業的自然環境密切相關,惡劣的自然環境會帶來更多的風險因素,但在事故報告中很少提及相關內容,所有事故調查報告中僅14份提及惡劣天氣。因此,盡管自然環境相關的致因因素出現的頻次不高,但在項目安全管理過程中仍值得關注。Manu等[16]研究發現,不合理的進度目標,會給施工作業帶來工期壓力,出現材料積壓、交叉作業、忽視安全風險等問題,極易引發生產安全事故。調查報告中很少提及工期設置不合理,所以其重要度評價靠后,但該因素的重要性仍不能忽視。

4 結論

1)基于DFn-IG評估函數對分詞結果降噪,在保留大部分關鍵信息的條件下剔除噪聲詞,避免了在提取事故致因時出現維數災難。

2)基于詞頻分析,從158份事故調查報告中提取40個事故致因因素,并構建事故致因的同義詞詞庫,完整抽取調查報告中有關事故致因的信息。

3)引入復雜網絡表征事故致因因素間的關聯關系,提出基于詞頻—關聯加權度的重要度評估方法,經數據驗證,在比較相同文檔頻下的事故致因重要度時,該方法更具優勢。

猜你喜歡
關聯文本
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产va在线| 国产人在线成免费视频| 亚洲天堂精品在线观看| 激情亚洲天堂| 日本a级免费| 成人在线天堂| 亚洲一级色| 亚洲无码视频图片| 国产成人区在线观看视频| 在线不卡免费视频| 永久免费无码日韩视频| 高清不卡一区二区三区香蕉| 日韩性网站| 国产福利影院在线观看| 亚洲欧美人成人让影院| 日韩区欧美国产区在线观看| 国产一级视频在线观看网站| 美美女高清毛片视频免费观看| 国产自产视频一区二区三区| 蜜臀AV在线播放| 曰AV在线无码| 久久一级电影| 亚洲无码精品在线播放| 免费人成在线观看视频色| 国产网站一区二区三区| 亚洲 欧美 偷自乱 图片| 啪啪啪亚洲无码| 亚洲一区二区视频在线观看| 欧美综合成人| 国产精品欧美亚洲韩国日本不卡| 丝袜久久剧情精品国产| 亚洲码一区二区三区| 2021国产乱人伦在线播放| 国产玖玖视频| 亚亚洲乱码一二三四区| 亚洲av无码人妻| 日韩专区欧美| 国产原创第一页在线观看| 国产一级α片| 98精品全国免费观看视频| 亚洲 成人国产| 国产精品第一区| 国产男人的天堂| 亚洲手机在线| 亚洲AV成人一区二区三区AV| 日韩欧美国产另类| 国产欧美日韩一区二区视频在线| 欧美成人看片一区二区三区| 亚洲国产天堂久久综合226114| 欧美日韩免费| 欧美亚洲国产精品第一页| 欧美中文字幕在线视频| 福利片91| 国产青榴视频| 国产在线视频导航| 小说 亚洲 无码 精品| 国产午夜无码专区喷水| 91免费观看视频| a级毛片在线免费观看| 国产素人在线| 国产精品香蕉| 日韩视频福利| 波多野结衣的av一区二区三区| 色婷婷视频在线| 精品人妻系列无码专区久久| 国产精品页| AV无码无在线观看免费| 一本无码在线观看| AV无码无在线观看免费| 国产综合日韩另类一区二区| 欧美日韩va| 国产原创演绎剧情有字幕的| 露脸一二三区国语对白| 91免费国产高清观看| 狠狠综合久久久久综| 69av免费视频| 国产区人妖精品人妖精品视频| 中文国产成人精品久久| 国产视频自拍一区| 欧美色99| 欧美成人精品一区二区| 色哟哟色院91精品网站|