基于LDA的地鐵施工安全隱患排查要點挖掘與可視化研究

2021-05-31 02:19:30

土木建筑工程信息技術 2021年2期

(華中科技大學土木與水利工程學院，武漢 430074)

引言

為緩解交通壓力，我國軌道交通建設呈現快速增長趨勢[1]。伴隨著地鐵的高速建設，地鐵事故也接踵而至。隱患排查工作已在地鐵施工的全生命周期中占據重要地位，隱患作為導致事故的源頭，受到國家和企業的高度重視，因此很多地鐵企業將遏制事故發生的關注點轉向隱患的辨識、響應和消除[2]。目前，施工安全員主要借助地鐵施工隱患排查系統查詢、存儲和統計隱患，對于系統中積累的大量非結構化隱患排查記錄，存在信息處理慢、信息不共享等問題，導致文本中隱含的易發隱患、隱患排查要點、隱患內部聯系等信息并沒有被挖掘，且由于文本數量冗雜，相關工作嚴重依賴導則與安全員經驗，需要投入大量人力成本，如何挖掘有效信息顯得尤為重要[3-4]。

以上研究為地鐵施工隱患管理提供了有益思路，隱患排查系統在地鐵施工隱患管理過程中占有重要地位，但是隱患排查系統中積累了大量隱患排查記錄分析工作嚴重依賴導則與地鐵安全管理工作者，并且研究發現關于挖掘隱患主題和隱患排查要點的研究還相對較少[8-10]。由于系統隱患排查記錄信息冗雜，難以通過人工閱讀或簡單統計的方式處理地鐵施工隱患文本數據，需要花費很多人力和物力[11-12]。為解決上述問題，提高隱患排查工作效率和安全管理決策，同時促進排查工作實現全程自動化，本文提出了一個自動化分析隱患記錄框架，框架集合中文分詞技術、TF-IDF(Term Frequency-Inverse Document Frequency)算法、基于Gibbs的LDA(Latent Dirichlet Allocation-Gibbs)主題模型算法、WC(Word Cloud)技術和WCN(Word Co-occurrence Network)分析技術。基于此框架，借助了文本挖掘技術和可視化技術的優點，地鐵隱患排查系統中積累的歷史數據下隱含的隱患信息可以不用花費人力被發現并被進行可視化展示，這些信息為指導隱患排查工作提供數據基礎，實現從海量數據中挖掘隱患排查要點，提高文本處理效率，從而節約人力和物力。

1 地鐵施工安全隱患排查要點挖掘及可視化

地鐵施工隱患排查記錄中蘊含反映地鐵施工隱患主題的知識，但由于文本數量龐大，難以通過人工閱讀的方式歸納總結，需要花費很多人力和物力。為解決上述問題，本文提出了一個自動化分析隱患記錄框架，具體框架如圖1所示，此框架實現自動化分析隱患記錄的目的，從而節約人力和物力。

1.1 隱患數據來源

本文選取的隱患數據來源是武漢地鐵施工隱患排查記錄，搜集時間范圍從2016年到2018年在建地鐵線路的3 000條施工隱患排查記錄，具體在建施工地鐵路線為武漢地鐵5號、6號、7號、8號、21號、27號地鐵線等。地鐵施工隱患排查系統中積累了大量的隱患排查記錄，記錄中包含：隱患編碼、下發時間、線路、標段、工點、隱患部位、隱患描述和隱患等級等，在本研究中，借助隱患下發時間、隱患部位和隱患描述來挖掘有價值的信息，部分記錄見表1。

圖1 地鐵施工安全隱患排查要點挖掘與可視化流程圖

1.2 隱患數據分析方法

借助Python軟件，首先對隱患描述進行數據預處理(中文 jieba 分詞、去停用詞處理、自定義詞典)，隨后借助文本挖掘技術和可視化技術的結合，主要進行了4項步驟：

(1)利用Term Frequency-Inverse Document Frequency(TF-IDF)算法估計一個詞語對一個文檔集的重要程度，從而對隱患描述下的關鍵詞有一個整體的概括[13-14]；

(2)基于TF-IDF篩出特征值較高的關鍵詞，在挖掘文本主題之前，需要估計最佳主題個數，從而使聚類結果達到最優，本文采用經典指標困惑度(Perplexity)確定最佳主題個數K[15]，然后吉布斯(Gibbs)抽樣的Latent Dirichlet Allocation(LDA)模型識別出大規模隱患描述語料庫中潛藏的主題信息和隱患排查要點[16， 17]；

(3)結合時間維度，通過Word Cloud(WC)技術[18]對隱患描述進行可視化分析，繪制隱患詞云演化圖；

(4)基于LDA-Gibbs聚類主題，推斷隱患描述標簽，定義隱患描述類別。結合隱患描述類別和隱患，借助可視化軟件Gephi[19]，繪制隱患Word Co-occurrence Network(WCN)[20]，挖掘隱患內部相關關系。

表1 原始語料集合簡單樣本

2 結果分析

2.1 隱患高詞頻分析

為了提高管理者和地鐵一線施工工人對隱患的快速認知，本文借助文本挖掘技術有效自動挖掘隱患排查信息。根據TF-IDF中TOP20的規制，抽取2016-2018年隱患描述關鍵詞，初步概括隱患高頻關注點。如表2，TF-IDF值代表所對應的關鍵詞對于整個語料庫中的重要程度，前五TF-IDF值對應的“基坑”、“臨邊防護”、“一閘多機”、“配電箱”、“鋼筋”關鍵詞經常出現在隱患描述中，這提醒管理者在地鐵施工過程中，應時刻注意基坑的狀態，加強臨邊防護措施，嚴禁一閘多機行為，時刻檢查配電箱狀態，規范鋼筋施工工序等。

表2 隱患高頻詞分布

圖2 LDA-Gibbs主題模型困惑度

2.2 地鐵施工隱患排查要點

基于LDA-Gibbs算法，參數α經驗值為1/K，β為0.01，關鍵詞為10。困惑度變化圖像如圖2所示，最小困惑度對應的主題個數K=37，通過進一步專家篩選，最終得到主題個數為34個，見表3。

根據LDA模型文本聚類的特征詞，經專家判斷并結合數據源描述，進而發現每個隱患主題下包含的隱患排查要點，從而推斷所對應的隱患主題。如表3中序號1所對應的關鍵詞(“吊裝”、“吊車”、“汽車吊”、“支腿未打開”、“資料”、“吊鉤”、“限位器”、“小鉤”、“未報備”、“保險裝置”)，進而歸納總結得到表4序號1對應的起吊設備隱患排查要點(“吊車支腿未打開”、“吊車資料未報備”、“吊車小勾未設置限位器”、“吊鉤保險裝置損壞”)，最后推斷隱患主題為“起吊設備隱患”，從中可以表明施工工人在布置起吊設備時，需要注意前期吊車資料是否報備，吊車支腿是否打開，吊車小勾是否有設置限位器和吊鉤保險裝置是否損壞等要點。基于LDA模型分析武漢地鐵2016-2018年施工安全隱患排查記錄數據過程中發現的隱患排查要點問題，表4中歸納總結出每個隱患類別下的排查要點對于指導隱患排查可以起到借鑒和指導作用。

表3 地鐵施工隱患主題挖掘結果

同時，基于 LDA挖掘的地鐵施工安全隱患主題：起吊設備隱患、模板隱患、消防設備隱患、上下通道隱患和現場用電隱患等34主題(具體可見文中表格4)，對隱患安全分類標準具有一定的參考價值。將隱患主題分門別類，對應隱患34個類別，使其成為一個有序的組合，并將其應用于隱患信息系統下隱患分類的下拉列表，輔助未來的隱患排查工作，為組織開展軌道交通安全質量隱患排查治理工作提供借鑒，并彌補隱患分類還沒有一個統一的及普遍認可的分類標準的空白，基于LDA模型實現將抽象的非結構化數據到知識的轉化，提高了文本處理效率，極大地節約了人力物力，同時識別出的隱患主題/類別為系統工程分類標準規范提供理論依據。

2.3 隱患詞云演化分析

為了幫助管理者及一線工人快速捕捉地鐵隱患信息，借助詞云圖技術為地鐵安全管理工作者提供一種全新的可視化視角，更加直觀地提示管理者著重控制關鍵隱患部位以及預防致因。

如圖3所示，2016-2018隱患詞云演化圖表明，各年份地鐵施工關鍵詞如下：2016年為“基坑”、“臨邊防護”、“一閘多機”； 2017年為“基坑”、“出入口”、“架設不及時”； 2018年為“基坑”、“鋼筋”、“臨邊防護”。從各個階段隱患關鍵詞的熱點分布圖中由此可以分析：

(1)“基坑”是地鐵施工中存在隱患的主要施工部位，隨著城市建設的飛速發展、人口密集越來越大，基坑的開挖深度已經從原來的4-6m發展到現如今最深的已達20多m，在地鐵工程施工過程中，基坑作為隱患高發部位，對基坑工程的質量進行控制尤為重要[21]；

(2)“鋼筋”工程在建筑施工質量管理中的重要性也逐漸凸顯。現代化地鐵工程施工要求日新月異，地鐵鋼筋施工質量管理工作的難度和重要性也隨之提高，現場施工管理人員在隱患排查工作中需要更加便捷和有效的手段來嚴格監督管理鋼筋工程的施工進度和施工質量[22]。

此外，根據詞云圖關鍵詞之間的相對位置，在一定程度上描述和揭示隱患關鍵詞之間的相互關系—關鍵詞相對位置距離相近，表明這兩個關鍵詞經常出現在同一種隱患事故中。比如在詞云圖(a)中，“一閘多機”與“不規范”相對位置較近，表明施工工人在設置配電箱時經常出現操作不規范的行為。這就為施工管理人員的隱患排查工作指引了方向，可以針對這一問題著重規范現場施工人員在安裝配電箱時嚴禁“一閘多機”的行為。在詞云圖(b)中，“架設不及時”與“鋼支撐”、“安全隱患”相對位置較近，說明地鐵施工過程中，“鋼支撐架設不及時”會帶來嚴重的“安全隱患”問題。例如：“鋼支撐架設不及時”會導致圍護結構水平變形及地表沉降急劇增大，從而對周邊環境產生不利影響。那么施工人員在隱患排查工作中就應該提高對鋼支撐架設時間節點的關注。在詞云圖(c)中，“出入口”與“堆放”、“安全隱患”聯系緊密，表明在地鐵施工過程中，“出入口”地點由于材料“堆放”常常會帶來嚴重的“安全隱患”，如：工人在出入口被物體絆倒而受傷或者出入口因材料堆積而引發坍塌事故等。這表明施工管理人員應當著重加強施工現場建筑材料堆放的規范管理，特別是出入口必須保持通暢，不得堆放任何材料和雜物，預防因材料堆放不合理導致的安全事故發生。

2.4 地鐵施工隱患共現分析

為了發現各類隱患在不同施工部位發生的情況，建立隱患部位—隱患類別共現網絡圖。圖中的節點分別代表34種隱患類別和其所對應的若干施工部位，如圖4所示。

從圖4中網絡節點的大小可以發現易發隱患前5名是臨邊防護隱患、現場用電隱患、工人安全防護用品隱患、桿件搭設隱患、鋼筋隱患，并且從點與點連線的粗細可以發現共現關系，例如：隱患發生部位“基坑”與這三大隱患類別(“現場用電隱患”、“工人安全防護隱患”和“臨邊防護隱患”)存在密切的共現關系，表明在地鐵基坑施工過程中，施工安全員應該密切關注“現場用電隱患”、“工人安全防護隱患”和“臨邊防護隱患”主題所對應的相關隱患排查要點。圖4可視化地描述和部分揭示隱患主題與隱患部位間關系，且促進施工管理人員對關鍵節點信息的快速信息化訪問。

圖4 隱患部位—隱患主題/類別網絡圖

3 結論

本文提出了一個基于文本挖掘和可視化技術的自動化分析隱患文本框架，并以武漢地鐵施工隱患排查記錄為數據源驗證框架的有效性，此框架是一次數據驅動安全隱患排查管理的有效嘗試，同時以一種全新的可視化視角為安全隱患排查管理開辟了一種新思路。總結而言，本論文的研究成果與結論主要有：

(1)本文提出了一種基于文本挖掘與可視化技術的自動化分析隱患排查文本框架，該框架可實現自動化分析大量安全隱患記錄，有效發揮隱患管理系統積累的歷史數據的最大價值，提高隱患信息的數據驅動進程和隱患排查工作效率，同時提高安全管理決策和促進排查工作實現全程自動化。

(2)本文將LDA-Gibbs模型應用于從大量的非結構化地鐵施工安全隱患描述文本中，識別出了34個隱患類別和相對應的隱患排查要點且將34個隱患類別與丁樹奎分類標準比較驗證了LDA-Gibbs模型的有效性。此無監督學習方法不需要人工標注，適用于處理大數據文本，識別出的隱患是基于數據的真實反映，彌補了基于文本的地鐵施工隱患自動化識別隱患類別和排查要點研究的空白。

(3)本文將地鐵施工安全隱患類別分為起吊設備隱患、模板隱患、消防設備隱患、上下通道隱患等34類別，34個類別隨對應的重點隱患排查要點，具體可見文中表格4。基于每一條地鐵施工安全隱患類別重點所對應的隱患要點，對有效指導地鐵施工人員開展安全隱患排查治理工作和促進我國地鐵施工安全隱患排查要點規范標準編制具有重要意義。

(4)本文提供了一種數據驅動下隱患信息可視化展示的手段，通過詞云圖(Word Cloud)技術可視化表達隱患關鍵詞分布，實現從大量非結構化隱患記錄中挖掘各個階段的對隱患關鍵詞的熱點分布，并基于時序分析得到關鍵詞的演化路徑。為進一步描述和部分揭示隱患地點與類別關系，借助詞共現網絡分析(Word Co-occurrence Network)為地鐵安全管理工作者提供了一種可視化視角，有利于地鐵安全管理工作者對地鐵隱患信息的快速捕捉，從而指導安全管理決策和隱患排查工作。