李國清 李學玉 侯 杰 強興邦 王 浩 國禎翔 趙 威
(1.北京科技大學土木與資源工程學院,北京 100083;2.山東黃金礦業(萊州)有限公司三山島金礦,山東 萊州 261442)
礦山作業條件復雜、勞動環境惡劣,長久以來被視為高危險、高消耗的勞動密集型行業,安全生產在礦山企業中備受重視。在礦山生產過程中存在多種安全隱患,及時發現和治理這些隱患對于保障安全生產、避免安全事故的發生具有重要意義,因而安全隱患的精準辨識與迅速排查日益受到重視。許多礦山積極完善安全管理制度,建立相應的管理信息系統[1-3],以提升現場安全管理水平,治理安全隱患,完成安全檢查的信息化與數字化,礦山的安全管理逐漸從事后總結轉變為事前預防。
隨著信息系統的長期應用,系統中積累了大量礦山監測監控、日常安全檢查、安全隱患排查與整改、設備運行狀態、人員安全記錄等信息[4]。這些數據都是礦山在解決實際安全隱患過程中積累下的寶貴財富,不僅數量巨大,而且數據的類型多樣、數據增長幅度逐漸增加,傳統的數據分析方法對于這些數據的分析效果并不理想[5]。
大數據分析技術的發展以及數據挖掘等算法和工具的日益完善為礦山安全隱患數據的深層次利用提供了有效途徑。例如,Lluís Sanmique等[6]利用數據挖掘技術對一個由西班牙采礦業2003—2012年中近7萬起職業事故和死亡報告組成的數據庫進行了分析;劉紅賓等[7]構建了煤礦安全數據挖掘系統原型架構,確定了礦山安全數據的主題域,有效地對煤礦安全生產信息進行了管理。但是大數據分析技術學習成本高、難度大,需要用到的分析工具配置復雜,不利于該技術在礦山企業的廣泛應用。綜上所述,本研究的重點是融合現代安全管理理論、大數據分析、數據挖掘和系統研發等多種技術手段,探索以文本挖掘技術為主的大數據分析方法在礦山安全隱患分析與預警中的應用,從大量安全隱患數據中獲取需要的規律規則和知識,實現礦山安全管理數據資源的有效利用;通過計算機軟件技術封裝復雜的數據分析算法,形成科學有效的安全生產大數據分析與數據可視化展示,提高礦山安全管理水平,最大限度地保障開采過程中人員和設備等要素的安全。
以國內某大型礦山安全生產管理系統中積累的7萬多條安全隱患排查數據作為原始數據來源,這些安全隱患檢查數據中包含了隱患發生時間、地點、隱患問題描述等大量有效信息。但是安全檢查數據存在記錄隨意、用語不規范、行業習慣用語多、問題描述不清晰等問題,限制了其更深層次的有效利用;同時,礦山安全生產管理的特殊性和復雜性使得相應的采礦安全信息維度眾多、內容龐大、層次多極化,因而在傳統模式下,管理人員很難全面、實時、直觀地掌控和分析礦山的安全生產狀況。面對這些格式多樣、標準不一、以文本數據為主的非結構化數據,礦山企業缺乏有效的分析方法,難以從海量的安全數據中提取出可指導安全生產的有價值信息,造成了數據資源的堆積與浪費。經過分析研究,這些安全隱患記錄數據呈現出突出的大數據4V特征,即數據體量(Volume)大、種類(Variety)多樣、數據增長速度(Velocity)快、價值(Value)密度低。受限于傳統數據分析的方法與功能,這些安全數據只用于完成簡單的安全問題處理、報表分析和數據統計,數據的生命周期相當短暫,在隱患排查完成后即以分散化、無序化的形式堆積,沉淀成為大量的歷史數據,對于增加隱患排查的針對性、可視化描述安全隱患的分布規律和關聯關系等遠未起到支撐作用。
大數據分析技術是通過分析挖掘算法實現從海量的、價值密度較低的數據中,提取出其中潛在有用的信息的過程,而且分析的對象可以是任何類型的數據。因此本研究引入大數據分析中的文本挖掘與可視化方法,對這些礦山安全隱患數據進行分析,挖掘安全隱患中的隱藏知識,以實現安全管控從事后分析到事前預防、從被動應對到主動防控、從單一要素到精細協同的安全管理智能化的目標。
(1)面向大數據分析的危險源智能辨識。利用大數據分析方法智能辨識礦山生產過程中的主要危險源,從人的不安全行為、物的不安全狀態、環境影響、管理層面、時間和空間等維度辨別出影響礦山安全生產的主要危險源,為礦山找到主要風險點內容和區域提供依據。
(2)面向大數據分析的安全風險主題挖掘。利用大數據分析技術完成主要安全風險問題的歸集,分析出礦山安全風險的核心主題,獲得的礦山安全風險主題對安全風險排查與治理具有重要參考價值。
(3)面向語義網絡大數據分析的安全風險辨識。基于大數據分析中的語義網絡分析模型進行安全風險辨識與分析,找到安全風險間的關聯與隱性知識,對于礦山找到安全隱患致因具有重要意義。
(4)面向關聯大數據分析的安全隱患誘導與演化分析。針對安全風險大數據間關聯進行分析,梳理作業過程中風險相關性規律,直觀地展示出安全風險間的關聯關系,以此指導安全管理者對礦山安全風險形式快速做出分析,以及制定相應的隱患治理方案。
礦山安全隱患大數據平臺以云計算平臺和大數據分析平臺作為基礎性平臺,云計算平臺為安全隱患數據的存儲、模型計算提供支持,大數據分析平臺為安全數據抽取、加工、分析和深層次利用提供基礎平臺,系統整體架構如圖1所示。從事務處理和服務角度,系統可以劃分成數據資產管理和平臺運維管理2部分,數據資產管理主要包括基礎數據采集和數據預處理,平臺運維管理包括知識庫、算法庫、執行分析腳 本和數據可視化管理等。

圖1 安全隱患大數據分析系統整體框架Fig.1 Framework of big data analysis system for potential safety hazards
安全隱患大數據分析系統的整體框架分為大數據采集層、大數據預處理層、大數據分析層和大數據可視化層,其功能和作用如下:
(1)大數據采集層。將不同來源、形式的隱患數據按照統一的數據標準進行集中存儲。安全隱患數據來源廣泛,采集形式多樣,安全隱患數據主要來源于不同周期、不同主題的礦山現場安全檢查工作,數據表現為非結構化文本數據以及圖像、視頻資料,數據采集形式分為電腦端和移動端軟件2種。
(2)大數據預處理層。將安全隱患文本數據抽取、轉換、清洗、標準化處理后歸集為不同主題的數據倉庫,生成面向決策分析需求的數據立方體。安全隱患數據清洗包括缺失數據填補、錯誤數據修正、以及數據格式統一等;針對文本數據特征,需結合礦山安全知識構建安全隱患標準化詞庫,運用詞庫實現隱患描述的標準化分詞,并從時間、空間、致因、類型、責任主體等維度構建安全隱患數據立方體。
(3)大數據分析層。以礦山安全知識庫和大數據分析算法庫為依托,定期執行大數據分析腳本,實現大數據分析結果動態更新。
(4)大數據可視化層。針對礦山安全隱患大數據分析結果特征,構建危險源辨識、危險源歸類、安全風險主題挖掘、安全隱患知識圖譜、安全隱患致因分析、安全風險預警等主題下的數據呈現方案。
礦山安全隱患辨識與預警系統的功能體系如圖2所示,通過系統的各項子模塊實現數據準備、數據模型化處理和數據可視化呈現,同時,系統將數據接口、知識庫、模型庫、可視化組件管理模塊化,保障了系統的高拓展性和強兼容性。

圖2 系統功能體系Fig.2 Software function system
系統功能體系如下:
(1)數據標準化。該模塊以語料庫、停用詞庫、多維數據集管理的形式為系統提供基礎數據標準化支持。其中語料庫包括常用語詞庫、礦山安全詞庫和自建詞庫等。停用詞包括邏輯詞、關聯詞、副詞、數詞、代詞等。多維數據集的構建將安全隱患文本按照維、維的層次、維的度量進行標準化存儲。
(2)數據挖掘模型庫。該模塊以數據挖掘模型為基礎,結合安全隱患數據特征,將各個數據挖掘算法實例化,對加載數據按照數據挖掘模型邏輯順序進行數據處理,并對分析結果進行結構化存儲,便于數據可視化。
(3)數據可視化。該模塊用于安全隱患大數據分析結果的呈現,服務于安全管理者進行風險預警與科學決策。模塊以商務智能展示工具、圖形庫為基礎,根據可視化工具的數據需求,定制個性化數據轉化接口,實現可視化工具的數據填充。
(4)系統管理。該模塊用于系統核心功能管理,保證系統能夠在安全隱患數據來源增加、數據挖掘模型擴充以及可視化形式日益豐富的情況下具有良好的升級能力。
安全隱患大數據分析邏輯涵蓋“四橫四縱”,如圖3所示。橫向上以具體問題為導向,確定數據處理目的和途徑,選擇適合的大數據挖掘模型和方法。縱向上以數據處理邏輯為主線,分為數據標準化、隱患辨識和致因分析以及安全預警。

圖3 安全隱患大數據分析邏輯模型Fig.3 Big data analysis logic model of safety hazards
(1)數據標準化。針對安全隱患數據的非結構、記錄不規范問題,從缺失數據填補、錯誤數據修正、數據格式校正等角度完成數據標準化處理,主要方法包括數據清洗、詞條分析和多維數據集構建。
(2)危險源和安全風險主題辨識。為明確礦山安全重點關注問題,按照隱患時間、空間、致因維度辨識重大危險源,并從“人-機-環-管”和隱患主題歸集角度聚焦礦山主要面臨安全風險,主要方法包括:詞頻統計、趨勢分析、聚類分析和主題挖掘。
(3)安全隱患致因規律挖掘。針對重點關注隱患,分析其產生、表現、關聯問題有助于控制和消除安全風險,通過構建詞條共現矩陣和關聯規則方式,呈現隱患并發性和關聯性規律。
(4)安全風險預警。數據分析解決了事后規律分析問題,而隱患數據的深層次利用途徑之一則是安全風險的預告預警,運用安全風險等級預測、事故規律推演等手段實現安全風險狀態的監控和預警。
確定數據觀察的角度與知識挖掘路徑,是大數據分析的前提和基礎,這需要對大量隱患信息進行維度化、標準化處理。安全隱患排查記錄數據均以非結構或半結構化的文字形式記錄,同時數據的記錄方式受到檢查人員用語習慣影響存在較大差異,為安全知識挖掘帶來了難度,為此,探索一種安全數據結構化表達方式十分重要,滿足從多個維度對安全問題進行描述的要求。為確保對安全問題描述維度抽取過程的全面性,本研究以“六何分析方法”為指導[8],它是在美國政治學家拉斯韋爾提出的“5W分析法”的基礎上經不斷總結完善,逐步形成的一套科學分析問題的模式。最終提煉出的礦山安全隱患描述模型如圖4所示。

圖4 礦山安全隱患維度劃分Fig.4 Dimension division of mining safety hazards
大數據分析模型是安全隱患分析與辨識的核心部件。通過分析各類數據挖掘算法的優勢與適用條件,結合礦山安全隱患數據特征,選擇適合處理礦山安全隱患數據的模型,在將模型實例化后嵌入系統模型庫,便于數據分析時的自動化、便捷化調用。
3.2.1 主題挖掘模型
主題挖掘模型可用于揭示礦山頻發、高危、高風險的安全管理主題,實現安全管理主題域的挖掘與歸集,以此提高礦山安全管理工作的針對性。主題挖掘模型是一種概率生成模型,常用于挖掘大規模文檔集的潛在主題。其基本原理是通過詞項在文檔集中的共現信息,利用概率反推文檔的主題結構,進而得到整個文檔集的主題分布。
主題挖掘算法包括:HDP、LDA、DTM和 LSA等[9]。其中,LDA模型具有較強的泛化能力,適合處理大量數據集,同時該模型對于描述不規范、存在大量專業詞匯的文本數據具有較高的準確度,因此,選用LDA模型進行安全隱患數據的主題挖掘[10]。
3.2.2 語義網絡分析模型
隨著礦山安全隱患數據容量不斷擴大,安全隱患文本表現出海量、無序、離散特征,梳理安全隱患語義脈絡成為礦山安全管理的難題之一。語義網絡分析模型是一種以網絡格式表達知識構造的模型,將語義網絡分析模型引入安全隱患數據分析,通過計算語義距離及隱患要素詞性,構建安全隱患要素及其共現關系的集合,深層次地表示隱患結構、層次及隱患間的因果關系,直接而明確地表達出安全隱患的語義關系[11]。語義網絡構建的經典算法主要包括術語頻率反向文檔頻率(TF-IDF),潛在語義分析(LSA)和BM25技術等[12]。
3.2.3 關聯規則挖掘模型
安全隱患的各類危險源不是孤立存在的,它們之間存在潛在的、隱含的關聯,礦山各類危險源之間隱含關聯規則的揭示對提高危險源識別的準確性和隱患排查效率具有重要作用。Apriori算法是挖掘布爾關聯規則頻繁項目集的經典算法,利用Apriori算法,通過設置適當的支持度、置信度和提升度閾值可以挖掘出引發礦山安全事故的隱患間的內部關聯規律[13],以此為基礎構建一種關聯隱患預警方法[14],為隱患的預測性排查和安全事故致因的隱含性要素揭示提供模型支持,有助于礦山企業實現本質安全。
3.2.4 隱患分類模型
礦山安全隱患數據中蘊含著大量安全隱患的規律、規則和知識,通過隱患的自動分類,可以實現非結構化礦山隱患文本資源的有序整合。常用的文本分類算法包括:支持向量機、K最近鄰、人工神經網絡和樸素貝葉斯等[15]。支持向量機方法可以保證解的唯一性和全局最優性,解決了神經網絡等方法難以避免的局部極值問題,且算法復雜度與樣本維度無關[16],具有穩定性、魯棒性、高準確率等優點,因此,選用SVM算法進行隱患類型的分類。
3.2.5 事故預測模型
準確的事故隱患預測能夠將安全隱患消滅在萌芽狀態,使安全生產事故由事后處置轉變為事前預防,保證礦山企業生產安全。常用的事故預測方法有統計回歸法、時間序列法、馬爾科夫鏈法、灰色預測法、神經網絡法和鏈路預測等[17]。本研究采用ARIMA模型對由安全隱患積累導致的安全生產事故進行預測,通過揭示安全隱患可能的發展走向,使管理人員以全新的視角解決安全隱患特征提取及預測等諸多問題。
礦山安全隱患大數據由于其來源復雜、形式多樣、數量巨大等特征,其隱含知識的可視化也面臨著諸如時間跨度大、數據維度多、數據關聯復雜等問題。為此,礦山安全隱患大數據可視化需要充分結合分析結果特征,選擇能夠呈現出數據內在的模式、關聯和結構的可視化圖形,使復雜的安全隱患信息易于理解與應用。
3.3.1 時序特征可視化
礦山安全隱患的形成、變化與時間緊密相關,其時序性表現在數據隨時間呈現出規律性或者周期性的變化特征,因此,如何將動態變化的隱患文本與時間相關的規律進行展示,是隱患信息可視化的一項重要內容[18]。
利用時間線工具在對隱患頻次進行統計并以柱狀圖的形式進行可視化的基礎上,對安全隱患在時間維度呈現出的變化趨勢進行擬合和預測,通過設置預警值的方式,可以實現基于頻次特征的礦山安全隱患預警。時序特征可視化結果如圖5所示。
3.3.2 多維特征可視化
礦山安全檢查從多個維度上考量隱患發生的原因及具體情況,包括時間、地點、隱患問題、責任人、獎懲措施、整改辦法等,多維數據可視化可以幫助安全管理人員發現數據多個屬性維度間的關系,而高維可視化越有效,識別出潛在的模式、相關性或離群值的概率越高。

圖5 礦山安全隱患時序特征可視化Fig.5 Visualization of time series characteristics of mine safety hazards
桑基圖可以突出呈現安全隱患的關鍵信息流動,同時形象地展現隱患特征在不同隱患主體之間的比例關系,有助于管理人員把握安全隱患細節[19]。采用桑基圖對安全隱患在時間、空間、責任主體和隱患類型等維度呈現出的多維特征進行可視化,結果如圖6所示。圖中的每個分支代表1條信息流,分支的寬度和流向分別呈現了不同維度安全隱患的發生頻率及特點。

圖6 礦山安全隱患多維特征可視化Fig.6 Visualization of multidimensional characteristics of mine safety hazards
3.3.3 層次特征可視化
礦山安全隱患數據量龐大且層次結構不清晰,需要借助可視化方法對數據的結構和形式進行轉換,更好地呈現出數據間關聯、層級與脈絡。層次邊緣捆綁可以用于表示節點間的網絡關系,適合節點較多的數據關系可視化[20]。本研究利用層次邊緣捆綁技術對礦山安全隱患的層次結構特征進行可視化,結果如圖7所示。

圖7 礦山安全隱患層次特征可視化Fig.7 Visualization of hierarchical characteristics of mine safety hazards

(1)數據抽取。通過數據接口對某大型礦山集成化安全生產管理系統在長期應用過程中積累的海量非結構化安全隱患排查數據進行抽取,作為安全隱患大數據分析的原始數據來源。
(2)數據清洗。為了保證文本挖掘效果,根據礦山安全隱患數據特征,對抽取出的隱患排查數據進行規范化處理,剔除對于隱患信息分析挖掘無意義的內容,并利用數據映射的方式對記錄中不規范的格式及錯別字進行糾正。
(3)語義分詞庫構建。在整合通用語義庫、礦山生產專業詞匯、安全管理專用詞庫等行業語義詞庫的基礎上,分析礦山安全管理中普遍關注的要素[21],結合礦山安全管理特點構建專門用于礦山安全生產大數據分析的語義分詞庫。
(4)隱患多維數據集構建。采用jieba算法對隱患數據進行分詞處理,完成安全主題數據的單元化、要素化拆分。利用文本聚類方法,將文本特征詞歸集到相應的維度,形成安全主題多維數據集[22]。通過對安全風險產生的頻次數據進行加工,實現大量描述性的安全隱患數據的標準化和格式化。
通過模型的自組織與自調度,實現不同安全隱患數據分析需求的實時響應。借助商務智能分析工具完成可視化系統的搭建,將安全大數據分析結果以各種分析圖表和模型的形式進行集成化展示。
(1)危險源智能辨識模塊。根據礦山安全隱患的頻率與程度數據,采用詞云圖、氣泡圖、柱狀圖和環形圖等從人的不安全行為、物的不安全狀態、責任主體、時間和空間等維度智能辨識影響礦山安全生產的主要危險源,為礦山找到主要風險點內容和區域提供依據。危險源智能辨識模塊如圖8所示。

圖8 危險源智能辨識模塊Fig.8 Intelligent identification module for potential hazards
(2)安全隱患知識發現模塊。采用層次邊緣捆綁、力導向布局、桑基圖和詞共現散點圖表征礦山主要危險源之間的相關性與共伴生規律,為安全風險的分級管控與防治提供支持。安全隱患知識發現模塊如圖9所示。

圖9 安全隱患知識發現模塊Fig.9 Know ledge discovery module for hidden safety hazards
(3)礦山安全事故預警模塊。以時間維度為依據,采用變化趨勢圖對不同致因的安全隱患的變化趨勢進行可視化。結合知識發現模塊挖掘得到安全隱患的誘導與演化規律和礦山安全生產事故的演化路徑,用以指導礦山有針對性地開展安全管理工作,制定相應的隱患治理方案,提高礦山安全檢查工作的效率,并在一定程度上實現對安全事故的預警。礦山安全事故預警模塊如圖10所示。

圖10 礦山安全事故預警模塊Fig.10 Accident warning module
系統應用于國內某大型礦山企業,實現了安全隱患智能識別、診斷、預測與預警,為礦山危險源分級、安全防控策略制定以及安全應急處置提供了決策支持,減少了礦山安全事故的發生,使傳統的嚴重依賴直覺判斷和經驗的安全管理轉向基于大數據分析的精準安全管控,大幅提高了安全管理人員對安全隱患認識、管理和決策能力。
針對礦山安全隱患排查數據具有數據量大、不規范、非結構化特征,定義大數據存儲與分析的數據結構,部署安全隱患大數據的清洗、轉換、抽取等數據結構化操作。通過開發安全隱患辨識與預警大數據分析系統,將大數據挖掘模型、算法加以封裝,實現大數據分析功能的實體化與系統化。
(1)大數據分析技術在礦山安全隱患文本知識挖掘方面具有較好的適用性,可以有效解決礦山安全隱患數據規范化存儲、深層次利用與可視化問題。
(2)根據礦山安全隱患數據分析場景,構建了一套體系完整的礦山安全隱患分析與預警系統解決方案,形成了以大數據采集、預處理、分析與可視化為核心部件的系統架構,設計了以數據標準化、數據挖掘模型庫、數據可視化和系統管理為核心的功能模塊,規劃了安全隱患大數據分析“四橫四縱”邏輯。系統成功應用于國內某大型礦山,驗證了解決方案的可行性與有效性。
(3)聚類分析與主題挖掘模型解決了重大危險源和安全風險主題辨識問題,明確了礦山安全重點關注問題。語義網絡分析和關聯規則分析模型解決了重點關注隱患的產生、表現、關聯問題,有助于控制和消除安全風險。分類模型與預測模型將安全管理模式從“事后分析”轉變為“事前預防”,實現了安全風險狀態的預測。