田水承,黃 權
(1.西安科技大學 安全科學與工程學院,陜西 西安 710054;2.西安科技大學 安全與應急管理研究所,陜西 西安 710054)
瓦斯事故以其破壞性強、經濟損失大、人員死亡多等顯著特點對煤礦安全生產造成嚴重危害[1]。在我國發生的煤礦事故中,瓦斯事故占煤礦事故總數的35%以上[2]。因此探究煤礦瓦斯事故致因,對于礦井防治瓦斯事故具有重大意義。為了更好的實現對煤礦瓦斯事故的預控,國內學者針對煤礦瓦斯事故致因進行了大量研究[3-4]。這些研究方法在識別事故致因時主要通過人工研讀統計事故案例,在提取事故致因時存在一定的主觀性。因此選用文本挖掘技術對煤礦瓦斯事故致因進行分析,文本挖掘是指從大量的文本集中發現隱含的模式并提取有用信息[5],現階段被不少學者應用各個領域的研究[6-8]。目前在煤礦領域使用文本挖掘技術的研究較少,為減少主觀性對提取事故致因的影響,在相關研究的基礎上,為此,借助文本挖掘技術和社會網絡分析方法識別煤礦瓦斯事故致因及其作用關系,為煤礦瓦斯事故的預控提供依據。
對于文本挖掘中事故致因的分析,需要選取詳細的事故調查報告。事故調查報告對事故發生的過程、直接和間接原因及各方責任有較為全面的描述[7]。因此從中國煤礦安全生產網、應急管理部以及各省市相關的行政管理部門網站收集2012—2020 年煤礦瓦斯事故調查報告126 例,作為文本挖掘的語料。事故類型包括煤與瓦斯突出事故、瓦斯爆炸事故和瓦斯中毒窒息事故等各類瓦斯事故,以確保在使用該語料庫分析煤礦瓦斯事故時的客觀性。
R 語言是一套完整的數據處理、計算和制圖軟件系統,可以根據用戶需求選擇對應的程序包來實現文本挖掘過程中所需要的數據統計、分析處理以及結果可視化等功能,因此選用R 語言對煤礦瓦斯事故進行文本挖掘[9]。在進行文本挖掘時需將126例煤礦瓦斯事故調查報告整理成文本集導入R 語言,為了提高分詞的準確性,需自定義歸并詞表群和停用詞表群后再進行分詞處理,歸并詞表群主要源與搜狗細胞詞庫中安全工程、采礦工程、煤礦工作、安全生產等領域的專業詞匯,由于事故調查報告的表述不同,會導致分詞結束后出現同意義但不同表述的詞組,例如“安全管理混亂”、“安全管理人員未履行職責”、“安全管理不到位”、“缺乏有效的安全管理”等詞組,因此需要將這些詞組歸并。
在分詞過程中共分析出334 項原始特征值,其中包含著許多無用的信息,會影響后續的分析及計算速度,所以需對文本的特征項進行降維處理和選擇。由于χ2統計χ2(t,ci)在召回率和查準率方面比其他降維手段更優,因此通過χ2統計對煤礦瓦斯事故文本集的特征項進行降維處理[9]。公式為:
式中:m 為特征項的維數。
通過m 值移除多余的特征項后,即可達到特征項降維的目的。降維時在R 語言中調用Boruta 和Caret 這2 個程序包,并用χ2統計實現特征項降維,煤礦瓦斯事故調查報告特征項降維結果如圖1。
圖1 煤礦瓦斯事故調查報告特征項降維結果Fig.1 Dimension reduction results of characteristic items in coal mine gas accident reports
根據分詞后的詞頻結果,對挖掘所得的煤礦瓦斯事故致因重要性程度進行展示,在R 語言中加載Wordcloud2 程序包,得到煤礦瓦斯事故致因詞云(圖略),在詞云中各致因字體呈大到小從中間向四周分布,越重要的因素位置越靠近中央且字體越大。
在這31 項致因中,根據各項致因的排列位置,可將其分為關鍵致因和一般致因。關鍵致因包括安全管理混亂、安全監管不到位、違規操作、安全培訓與教育不足這4 項,其余項為一般致因。分析詞云可知在煤礦生產過程中發生瓦斯事故往往是作業人員的違規操作所引起的,而違規操作的背后就隱藏著企業中安全管理的混亂以及安全培訓與教育的不足,缺乏對作業人員的管理與培訓是現在大多數煤礦企業發生瓦斯事故的間接原因。因此煤礦企業需要針對以上關鍵致因做出合理的管控,同時相關部門的安全監管對保障煤礦企業的安全生產也具有著重要作用。
在煤礦生產過程中上述的4 種關鍵致因造成了多數的瓦斯事故,但是事故往往是由多種致因共同作用所導致。因此選用共現分析來探討各致因間的共現規律,共現分析是對每2 個致因在文本集中出現的次數進行統計,當這組致因在文本中共同出現時計為“1”,不共同出現時則計為“0”進行累積,最后得到的煤礦瓦斯事故致因共現矩陣見表1。將所得的共現矩陣導入Gephi,繪制的煤礦瓦斯事故致因共現網絡結構如圖2。
圖2 煤礦瓦斯事故致因共現網絡結構圖Fig.2 Co-occurrence network structure of coal mine gas accident causes
表1 煤礦瓦斯事故致因共現矩陣(部分)Table 1 Co-occurrence matrix of causes of coal mine gas accidents(part)
在網絡圖中,每一節點對應著相應的致因,節點越大且節點顏色越偏向紅色,則表明該節點在網絡中處于越為重要的地位且具有較大影響力,節點越小且節點顏色越偏向藍色則反之。節點間的連線表示其共同出現在同一事故中,而節點之間的連線越多,則表明這2 項致因間的關聯性越強。在圖中安全管理混亂T1、安全監管不到位T2、違規操作T3、安全培訓與教育不足T4這4 個節點均偏大且顏色偏向紅色,體現了這4 個關鍵致因在共現網絡中的重要地位。并且這些關鍵致因與其他節點的連線也較多,表明這些關鍵致因與其他節點的關聯性較強。在煤礦瓦斯事故中,加強對這4 項關鍵致因的防控能有效的預防事故的發生并適當減少一般致因的出現。
中心性分析是社會網絡分析的主要方面,反映了某個節點在網絡中的重要性程度。因此借助Ucinet 軟件對煤礦瓦斯事故的致因進行點度中心性分析,得到了共現網絡中的絕對點度中心度、相對點度中心度以及點度中心度占比,煤礦瓦斯事故致因點度中心性分析見表2。
表2 煤礦瓦斯事故致因點度中心性分析(部分)Table 2 Point centrality analysis of causes of coal mine gas accidents(part)
第1 列Degree 列為絕對點度中心度,表示為1個節點與其他節點直接連接的總和,反映了網絡圖的整體中心性。如表中所示,安全管理混亂、安全監管不到位、違規操作、安全培訓與教育不足這4 項致因度值較高,與致因詞云和網絡圖所示情況相同,體現了這4 項關鍵致因在網絡中的重要地位。第2 列NrmDegree 列為相對點度中心度,表示為1 個節點的絕對點度中心度與圖中節點最大可能的度數之比,可用于展示整體網絡的集中程度。最后1 列Share 列為點度中心度的占比,表中前4 項致因的占比達到了0.307,表明這些致因在網絡中發揮著主要作用,因此在煤礦生產作業中需要重點防控。
通過點度中心性分析明確了4 項關鍵致因在網絡中的重要地位,為進一步探求一般致因在煤礦瓦斯事故中所發揮的聯系和傳遞作用,對煤礦瓦斯事故致因進行介數中心性分析,得到去除關鍵致因后一般致因的介數中心度,煤礦瓦斯事故一般致因介數中心性分析見表3。其中通風管理混亂、缺乏有效的安全監控、領導重視程度不足、人員配備不到位、對火工品管理不規范這5 項致因具有高水平的介數中心度,表明這些致因在事故發生的最短路徑中出現并與其他致因間的關系緊密,因此需對這些致因加強管控,切斷其與事故的聯系。
表3 煤礦瓦斯事故一般致因介數中心性分析(部分)Table 3 Betweenness centrality analysis of general causes of coal mine gas accidents(part)
通過2 類中心性分析后,進一步的核心邊緣結構分析能夠區分網絡中高密度的網絡核心,以及低密度的網絡邊緣[10],煤礦瓦斯事故致因的邊緣結構分析如圖3。圖中的紅色節點群為核心區域,藍色節點群為邊緣區域,其中核心致因包括安全管理混亂、安全監管不到位、違規操作、安全培訓與教育不足、通風管理混亂、技術管理薄弱、缺乏有效的安全監控、瓦斯治理不到位、防突措施不到位、瓦斯檢查不到位。核心區域內各節點聯系緊密,為避免多米諾骨牌效應的產生,需對這些節點采用對應的防控措施以加強干涉,從而避免事故的發生。
圖3 煤礦瓦斯事故致因的邊緣結構分析Fig.3 Analysis of core edge structure of coal mine gas accidents
1)通過收集126例2012—2020 年發生的煤礦瓦斯事故調查報告后,借助文本挖掘技術和R 語言進行語料庫構建、文本分詞、特征值降維等文本挖掘處理流程,得到了31 項煤礦瓦斯致因,并通過詞云進行可視化處理后劃分了安全管理混亂、安全監管不到位、違規操作、安全培訓與教育不足4 項關鍵致因以及27 項一般致因。
2)通過共現網絡結構圖展現了各致因間的共現關系,并對致因網絡進行了點度中心性分析明確了4項關鍵致因在網絡圖中的重要地位。通過介數中心性分析得到通風管理混亂、缺乏有效的安全監控、領導重視程度不足、人員配備不到位、對火工品管理不規范這五項致因在瓦斯事故中起著聯系和傳遞作用。進一步的核心邊緣結構分析劃分了網絡中的核心區域和邊緣區域,為煤礦瓦斯事故的防控提供參考。