999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘和復雜網絡的事故致因重要度評估方法*
——以房屋市政較大以上事故為例

2022-05-19 05:37:24陳志遠王鐵驪
中國安全生產科學技術 2022年4期
關鍵詞:關聯文本

陳志遠,王鐵驪

(南華大學 經濟管理與法學學院,湖南 衡陽 421001)

0 引言

項目施工,安全第一。工程項目施工參與方眾多,施工現場復雜多變,安全管理任務尤為艱巨,不僅關系到各責任主體單位的經濟效益,還直接影響到人民群眾的生命財產安全。為明確安全管理工作的內容,進行事前風險管控,很多學者聚焦于尋找事故致因的研究,主要包括案例分析、統計分析和構建事故致因模型3類?;诎咐治觯琙hou等[1]引入事故網絡理論,詳細分析杭州地鐵重大基坑坍塌事故的經過,提取了11條主要事故致因。統計分析則運用統計學的方法,分析大量有代表性的事故案例,能揭示事故發生的普遍規律[2]。鄭霞忠等[3]通過分析152起建筑工程高處墜落事故,揭示了人為失誤在高空墜落事故中的作用路徑。然而統計分析過程需要依賴專家的經驗判斷和歸納總結,具有較強的主觀性。同時事故的發生具有復雜性,是人、物、環境、管理多因素耦合作用的結果。Suraji等[4]基于項目參與方的約束和響應時間,構建事故致因模型,揭示了風險因素之間潛在的復雜關系。構建事故致因模型雖能系統地分析事故致因間耦合作用的機制,但構建模型時需要依靠理論假設,同時事故樣本數量也有局限性。

近年,文本挖掘理論和技術快速發展,為分析大量文本數據提供了有力支撐。如Goh等[5]將文本挖掘與6種機器學習算法(LR,RF,KNN,DT,NB,SVM)結合,對美國1 000起工程建設事故進行分類,總結了各類事故的主要原因。Zhong等[6]在文檔分詞的基礎上,借助線性判別分析(LDA)將高維分詞結果劃分為34類,利用專家知識,歸納了34個風險因素。借助專家知識雖能準確地提取事故致因,但過度依賴專家的主觀判斷。多數研究還局限于提取事故致因,缺乏對風險因素的評估?;陉P聯規則(Apriori algorithm)的風險因素評估方法已運用于交通安全領域[7-8],在工程建設領域,結合關聯規則的事故致因評估研究尚較為少見。

因此,本文在已有研究的基礎上,把文本挖掘應用到房屋市政較大以上事故的分析中,采用最小詞頻閾值文檔頻的信息增益評估函數(DFn-IG)對特征集降噪,借助詞頻分析提取安全事故的風險因素,引入復雜網絡評估事故致因因素的重要度。以達到充分挖掘事故調查報告中的有效信息,為安全管理工作提供參考的目的。

1 文本挖掘方法與流程

1.1文本挖掘流程

文本挖掘流程包括文本數據收集、文本預處理、構建自定義詞庫、文本特征抽取、數據分析、知識發現等步驟,其主要分析過程如圖1。

圖1 基于文本挖掘的事故致因分析流程

1)文本數據收集:根據2010—2019年國內房屋市政較大以上生產安全事故的通報信息,收集對應的事故調查報告文本。

2)文本預處理:提取事故調查報告文本中闡述事故致因的部分,去除無價值、重復、缺陷的文本數據。

3)構建自定義詞庫:添加目前已經廣泛運用到文本挖掘領域的成熟詞庫,并在提取事故致因的基礎上,構建添加與事故致因對應的同義詞詞表。

4)文本特征抽?。何谋厩蟹趾螅柚鶧Fn-IG評估函數,對分詞結果降噪。利用特征項詞頻,篩選降噪結果,回溯特征項在調查報告中的具體表述,確定事故致因。

5)數據分析:統計詞頻、文檔頻,并根據事故致因的互現情況,構建無向加權復雜網絡,改進傳統的TF-IDF算法,綜合詞頻和事故致因因素的關聯特征評估其重要度。

1.2 特征項降噪與致因提取

事故調查報告是非結構化的文本數據,主要有2類噪聲詞,第1類詞頻繁出現在各調查報告中,但無助于分析事故致因,如“直接原因”、“事故”等;第2類噪聲詞如地名、企業名稱等,在各調查報告中有不同的內容,且在每一份調查報告中出現的頻次較低。

設置最低詞頻閾值可直接去除第2類噪聲詞;陳曉云等[9]由信息增益(IG)、互信息(MI)、χ2統計(CHI)等方法的比較分析,得出在處理低頻特征集和高維特征集時,信息增益法在查全率和查準率上相對其他方法更具優勢,能有效去除第1類噪聲詞。因此,本文結合DFn和IG評估函數,處理噪聲詞。計算公式如式(1)所示:

(1)

利用DFn-IG評估函數,對分詞結果降噪,然后根據調查報告中的語意,確定特征項代表的事故致因。在此基礎上,構建與事故致因相對應的同義詞詞表。

1.3 事故致因的重要度評估

在TF-IDF的基礎上,Xu等[10]引入信息熵對其進行改進,綜合事故致因的頻次和分布,評估事故致因的重要度。改進的TF-H算法雖然解釋了事故致因重要度與其文檔頻DF正相關的問題,但在相同文檔頻下,事故致因的重要度與其頻次呈反比。此外,以上2種方法僅從事故致因的文檔分布特征來評價其重要度,缺乏對事故致因因素間關聯關系的考量。

(2)

式中:wij表征網絡節點i,j間的邊權值;aij*表征邊的關聯邊權值,以平均邊權值為基準,判定2事故致因因素間關聯關系的強弱。

節點的關聯加權度為Ki*,以衡量與某1事故致因具有強關聯關系的事故致因因素的數量,計算公式如式(3)所示:

(3)

式中:N表征事故致因因素的總數,Ki*用來衡量與某一事故致因具有強關聯關系的事故致因因素的數量。

基于詞頻-關聯關系的TF-K*評估函數的計算公式如式(4)所示,TF-K*值越大,事故致因對安全事故的影響越重要。

(4)

式中:i表征事故致因因素i;TF(i)表征事故致因因素i的詞頻。TF-K*(i)值越大,事故致因因素i對安全事故的影響越重要。

2 數據收集與事故致因提取

2.1 收集事故信息

從住房與城鄉建設部官網,抓取2010—2019年的生產安全事故信息,共計6 000起房屋市政類生產安全事故,其中較大及以上生產安全事故共255起[11],歷年生產安全事故情況如圖2(a)所示。

圖2 2010—2019年房屋市政工程生產安全事故分布

2.2 收集調查報告

針對較大以上事故的通報信息,從各地應急管理部門官網、易安網、安全管理網和建筑企業官網,搜集對應的調查結果,最終獲得158份事故調查報告,事故類型分布如圖2(b)所示。

2.3 創建語料庫

事故調查中包含大量與事故致因無關的內容,如事故基本情況、責任人員和責任劃分等。因此,僅將事故發生經過和原因分析2個部分的內容,作為文本挖掘的語料庫。

2.4 構建分詞詞庫

本文在Python3的環境下,使用PyCharm借助開源的Jieba算法對文本進行分詞,通過自建停用詞詞庫、分詞詞庫和同義詞詞庫的方式,以提升分析語料庫的能力。

1)停用詞詞庫:停用詞是文檔中經常出現,對文本分析無價值的一類詞。如“派駐”、“廣場”、“臺階”等。結合目前常用的停用詞詞表:HIT和MIL-SCU等,構建停用詞詞庫。

2)分詞詞庫:直接對調查報告進行分詞,事故致因會丟失有價值的信息。如“安全意識淡薄”,經切分后變成“安全”、“意識”、“淡薄”3個詞語,失去了原本所表達的信息。結合搜狗細胞詞庫、百度詞庫中收納的大量土木建筑類專業詞匯,構建出基礎分詞詞庫。

3)同義詞詞庫:中文的表述中,不同的詞語可表達相同的含義。如“工人違章操作”在不同的事故調查報告中,有“工人違規作業”、“違章操作”等表述。因此,從158份報告中隨機抽取40份,分析統計同一事故致因的不同表述,形成文本挖掘的同義詞詞庫。

2.5 文本分詞與特征項降噪

對語料庫分詞,得到29 442個原始特征項。根據式(1),計算特征項的DFn-IG函數值。不同最小詞頻閾值下,特征集容量與單次噪聲去除量如圖3。隨著閾值增大,單次去除量逐漸減小,為防止關鍵詞被剔除,取新增幅度最低點n=8為分詞用最小詞頻閾值。

圖3 不同閾值下降噪結果

2.6 提取事故致因

結合降噪后特征項在調查報告中的具體描述,提取40個主要事故致因,如表1所示。

表1 房屋市政較大以上生產安全事故致因(部分)

2.7 網絡構建與數據分析

根據事故致因在調查報告中的共現情況,計算風險因素的共現矩陣,利用Gephi軟件繪制事故致因共現網絡,如圖4所示。為進一步評估風險因素的重要度,計算評估函數值如表2所示。

圖4 事故致因共現網絡

3 結果分析

3.1 事故致因因素分析

從表2可以看出,事故安全風險因素主要包括5類:自然環境條件、項目安全管理、相關單位安全管理、現場人員和材料設備,涵蓋了張偉等[12]和Hoa等[13]研究中提及的施工安全事故致因。

表2 安全風險因素及其特征指標

A32,A33反映項目實施過程中的自然環境,由于工程項目的開展與施工環境密切相關,出現極端的環境時,現場組織和管理體系多難以應對,極易引發生產安全事故。

A1,A6,A7,A8,A10,A15,A17,A20,A29,A37體現房屋市政工程依然存在安全管理體系不健全、規章制度執行不到位的問題。貫徹執行合理的安全制度,可有效避免風險因素演變成事故。但在工程實踐中,貫徹實施安全措施需要投入大量時間和資源,建筑企業常會因為經濟上的壓力和人員短缺等問題,縮減該方面的支出,帶來一系列安全生產風險隱患。

A11,A14,A16,A30,A38,A39體現房屋市政工程中違法違規承發包項目的行為依然存在。由于工程項目建設具有專業性,不具備生產資質的企業開展生產活動,不僅違反相關法律規定,還存在大量的安全風險隱患,很容易引發生產安全事故。

A5,A18,A21,A22,A23,A31,A34,A40體現建筑單位編制施工方案的工作依然存在短板,在編制實施具體的安全措施方面還有很多盲點,這既是安全管理的短板,也是導致生產安全事故的高風險因素。

A2,A3,A4,A26,A27,A28,A35,A36體現項目參與單位的安全管理工作存在短板,施工企業心存僥幸心理,監理單位、政府部門等相關單位在工作中存在漏洞,風險管控工作還有很多不足。

A9,A12,A13,A19,A24反映房屋市政工程的從業人員,存在安全意識不足,專業素質不高,缺乏系統培訓的問題。Tam等[14]研究表明技術交底和定期的安全訓練能夠提升工人的安全能力,但工程項目通常持續時間較短,工人流動性大,建筑工人一般只在工程建設的初期接受短暫的安全培訓,這些培訓并不能顯著提升他們的安全意識和專業水平。

3.2 事故致因重要度分析

由于TF7=TF8=116,DF8=DF14=45,因此選擇A7,A8,A14因素的數據進行對比。盡管A7和A8的詞頻相同,但A7的文檔頻更高、關聯加權度更高,表明A7在調查報告中的分布更均勻,與其他致因因素的關聯更緊密,更容易引發事故,因此其重要度應更高。表2中的數據顯示,TF-H值和TF-K*值判別結果均為A7>A8,與分析結果吻合。以上數據的比較,驗證了相較于傳統的TF-IDF值,TF-K*值具備同TF-H值一致的判別能力。

A8和A14具備相同的文檔頻,表明其在相同數量的事故中出現,而二者的WD/K值僅相差0.08,表明二者與其他致因因素的關聯強度基本相同,但A8的詞頻更高,表明其被強調的次數更多,因此綜合詞頻、文檔頻和關聯加權度來看,認為A8的重要度高于A14。表2的數據顯示,TF-K*值的判別結果與分析結論吻合。以上數據較好地驗證了相較TF-H值,采用基于關聯加權度的TF-K*更能全面準確地衡量事故致因的重要度。

3.3 低頻致因因素分析

Mitropoulos等[15]的研究顯示,事故的發生與施工作業的自然環境密切相關,惡劣的自然環境會帶來更多的風險因素,但在事故報告中很少提及相關內容,所有事故調查報告中僅14份提及惡劣天氣。因此,盡管自然環境相關的致因因素出現的頻次不高,但在項目安全管理過程中仍值得關注。Manu等[16]研究發現,不合理的進度目標,會給施工作業帶來工期壓力,出現材料積壓、交叉作業、忽視安全風險等問題,極易引發生產安全事故。調查報告中很少提及工期設置不合理,所以其重要度評價靠后,但該因素的重要性仍不能忽視。

4 結論

1)基于DFn-IG評估函數對分詞結果降噪,在保留大部分關鍵信息的條件下剔除噪聲詞,避免了在提取事故致因時出現維數災難。

2)基于詞頻分析,從158份事故調查報告中提取40個事故致因因素,并構建事故致因的同義詞詞庫,完整抽取調查報告中有關事故致因的信息。

3)引入復雜網絡表征事故致因因素間的關聯關系,提出基于詞頻—關聯加權度的重要度評估方法,經數據驗證,在比較相同文檔頻下的事故致因重要度時,該方法更具優勢。

猜你喜歡
關聯文本
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产综合精品日本亚洲777| 成人午夜视频在线| 精品福利视频导航| 日韩精品毛片| 国产视频自拍一区| 亚洲AV无码不卡无码 | 好吊色妇女免费视频免费| 亚洲天堂网视频| 精品成人免费自拍视频| 一级毛片在线播放| 香蕉久久国产超碰青草| 无码国内精品人妻少妇蜜桃视频| 国产综合色在线视频播放线视| 国产亚洲欧美日韩在线观看一区二区| 日韩精品免费一线在线观看| 91福利免费| 久久鸭综合久久国产| 国产精品太粉嫩高中在线观看| 国产迷奸在线看| 久久精品嫩草研究院| 亚洲欧美在线看片AI| 狠狠色综合网| 夜夜高潮夜夜爽国产伦精品| 亚洲精品无码专区在线观看| 亚洲天堂在线免费| 91小视频在线观看免费版高清| 99久久99这里只有免费的精品| 国产中文一区二区苍井空| 国产美女在线免费观看| 伊人网址在线| 久久香蕉国产线看观看亚洲片| www.99在线观看| 欧美啪啪网| 亚洲美女视频一区| 国产色爱av资源综合区| 国产99视频免费精品是看6| 国产欧美在线观看精品一区污| 国产精品免费p区| 亚洲成人精品在线| 香蕉久人久人青草青草| 亚洲av无码片一区二区三区| 色网站在线免费观看| 波多野结衣一区二区三区四区视频| 久草性视频| 国产亚洲精久久久久久久91| 日韩精品资源| 国产在线一区二区视频| 亚洲天堂精品在线| 亚洲国产欧洲精品路线久久| 国产精品毛片一区| 99re在线免费视频| 免费三A级毛片视频| 国产网站免费| 欧美成人在线免费| 亚洲中文在线看视频一区| 久久黄色影院| 无码粉嫩虎白一线天在线观看| 欧美福利在线观看| 尤物国产在线| 亚洲国内精品自在自线官| 黄色网站不卡无码| 国产欧美日韩专区发布| a级毛片网| 午夜免费小视频| 国产凹凸视频在线观看 | 国产成人精品日本亚洲| 九色在线观看视频| 欧美亚洲第一页| 日韩成人在线网站| 亚洲欧美在线精品一区二区| 无码福利视频| 99视频精品在线观看| 国产一级二级三级毛片| 日韩国产精品无码一区二区三区| 午夜三级在线| 国产资源站| 色哟哟色院91精品网站 | 91无码网站| 亚洲aaa视频| 亚洲成a人片7777| 尤物亚洲最大AV无码网站| 91伊人国产|