沈亮 戴洪帥 王天嬌 張峰 馮等田*
(1.青島理工大學商學院,山東 青島 266520;2.山東財經大學統計學院,山東 濟南 250014)
城市作為國家和地區政治、經濟、社會生活和環境發展的中心,因其特有的空間集聚性和流動性,一旦發生突發公共事件,諸如傳染性疾病、油氣管道爆炸、地震、毒氣泄漏等各種自然或人為災害,極易造成大量人員傷亡和嚴重財產損失,極大地影響城市的公共安全[1]。而僅僅依靠人工統計策略和傳統信息處理技術,政府部門和企業很難做到快速反應與精準決策。大數據技術具有對公共安全數據進行信息收集、提取和分析的能力,能夠為城市運行提供安全預警、統計分析、輔助決策等服務,從而提升城市公共安全管理水平。本文以石油化工企業日常檢查所產生的安全事故記錄為研究對象,利用大數據技術對其進行文本挖掘[2-4],找出導致安全事件可能發生的主要原因和規律,并將統計結果以可視化展示。在此基礎上,本文提出切實有效的公共安全管理建議供石化企業與政府參考,增強員工安全生產(HSE)意識,預防安全事故的發生。
隨著科技的發展、高通量手段的成熟以及時間的推移,在城市公共安全領域、經濟領域、生物化學等領域都遇到了復雜數據的統計分析問題,數據價值將變得越來越重要。與傳統所收集的數據不同,當今各領域數據呈現分散、破碎及信息尚待解析等特征,重點表現為數據復雜、不同的解析策略可能產生豐富的結果。近年來,大數據技術成為了各行業數據科學研究者的主要工具, 同時大數據技術在大樣本、高通量的數據分析工作中起到日益重要的作用。
作為我國重要的能源與原材料產業,石油化工在國民經濟中始終占據著舉足輕重的地位。由于石化企業產生的數據量大、數據類型多、存儲格式復雜,雖然研究者對石化數據的利用已經多年,比如安全生產指標、銷售產品的品種,但大多只是運用傳統統計方法和圖表的形式來進行分析和研判,大數據技術的利用率并不高。由于在石化企業的日常安全檢查中,記錄信息使用最多的是文本格式,從而文本挖掘被認為比數據挖掘具有更高的商業潛力。因此,利用文本挖掘手段對可能影響石化公共安全的因素進行研究是有重要價值的[5-6]。
本文以官方統計的浙江鎮海煉化數據為研究對象,數據共包含9685條安全檢查記錄的原始文本,其涵蓋了從2001年至2015年間石油化工安全檢查中的事故發生類型、事故處理方法、問題發生原因及整改措施等內容,并且也從技術改進和管理等方面對安全事故中的失誤和不足進行了補充說明,因此比其他數據文件更具有代表性。
本文選取研究對象中的每日安全生產檢查報告作為文本挖掘的語料,利用 R 語言進行數據提取[7],并選取信息完整、記錄詳細、數據量大且事故原因具有代表性的記錄納入數據集。本文所有的程序都在R-3.5.1 版本的環境下運行,此外本文還借助于jiebaR, jiebaRD, Rcurl, devtools, cidian 等軟件包進行編程。
由于采集的文本數據一般含有較多的無用信息,因此需要對其進行預處理。而對文本數據進行預處理的關鍵步驟是如何分詞,即將每一句話分解為有意義的詞語。如某個安全員的檢查結論是“運用大數據的檢測方法,壓力表有泄漏”,分詞之后變成“運用”“ 大”“ 數據”“的”“檢測 ”“方 法”“壓力”“ 表”“ 有”“泄漏”。由此可見,其并未將“大數據”以及“壓力表”分解成一個詞。因此,為使分詞結果達到預期效果,避免專業詞匯切分誤差以及停用詞的干擾,在分詞時還需加入與石化安全工程相關的專業詞典和停詞。步驟如下:
(1) 首先利用R語言讀入數據,并使數據形成語料庫。R語言提供了多種讀取不同類型數據的命令,常用數據存儲類型有txt,csv等格式。在讀取txt數據文件時,通常使用read.table(f ile,header = TRUE, sep = “,”, …);而在讀取csv 數據文件時,通常使用read.csv(f ile, header = TRUE, sep = “,”, …)。
(2) 其次,本文在R語言中加載安全工程。scel、化工產品名。scel、石油專業詞匯。scel、石油天然氣。scel以及石油石化專業術語。scel這五個詞典,然后將漢字詞典的專業詞匯與文檔中文本遍歷匹配完成初步的詞語切分。在R語言環境下利用jiebaR程序包中的segment( )命令對文本進行分詞,并生成列表向量。
(3) 對于分詞后出現的某些虛字、詞和數字,如“的”“我”“在”“這里”“不僅”“1”“2”等,由于這些虛字、詞和數字的實際意義不大,因此被稱為停用詞(Stop Words)。為提高檢索效率,本文將對分詞中出現的這些停用詞進行篩選和過濾。在這里導入現有的停詞表,編輯關于停詞與去掉停詞的程序,檢索停用詞表并移除此類干擾詞以過濾在安全生產記錄文本中可能造成可視化分析偏差的停用詞。 在R語言中,使用worker( )命令來達到去除停詞的目的。
此外,本文主要研究引起安全事故發生的原因和規律,因此記錄中的整改方法、解決情況、監察部門等暫時剔出研究范圍。
文本挖掘是大數據技術的重要應用領域之一,它通過處理大規模的文本信息,進一步挖掘其中隱含的結構規律,以結構化方式表示為價值知識的過程[8-11]。文本挖掘主要包括數據的收集及預處理、統計分析和統計決策三個步驟。首先按照事先設定的規則批量提取信息作為源數據;然后利用軟件將文本的句子按照結構切分為便于分析的詞語組合,同時剔除研究意義較小的干擾詞語,稱為分詞。統計分析是對評價文本的深入挖掘,通過詞頻分析、關聯分析與聚類分析等技術對數據進行建模處理,獲取知識或信息。
雖然每一位安全檢查員記錄的事故內容不一樣,但經過長時間的積累,運用數據挖掘手段仍然能找到影響安全生產的主要因素。一般來說某一問題被提出的次數越多,越能說明其在安全生產中的重要性,而詞頻分析恰恰能夠處理這類問題。
在R語言中,引用strsplit函數并自定義多元抽函數,通過lapply 函數對其進行循環,它引用多元抽函數,將向量中的每個元素作為參數,對去掉停詞的文檔運用正則表達式進行匹配拆分。最后使用table函數得到各詞組詞頻,詞頻越高的詞語對于分析文本知識作用越大。為了從海量文本及時有效的挖掘到所需信息,本文針對由兩個字(二元抽)、三個字(三元抽)、四個字(四元抽)及以上所構成的詞語進行重點分析。本文分別將2元抽、3元抽、4元抽及以上統計的分詞按詞頻降序排列,然后選擇其中詞頻較高的詞語生成文檔詞矩陣列表,見表1。

表1 分詞詞頻統計表
在表1中可以看到,2元抽中“管線”一詞出現的頻數最高,共557次;對應的事故發生原因主要有管線冷凝、管線出現砂眼泄漏、管線腐蝕等。其次“泄露”“處理”“蒸汽”“出口”“檢查”“法蘭”的詞頻也高于400。在2元抽的結果下,可以看到管線腐壞泄漏等問題是引發安全事故的重要原因之一。此外,“檢查”“班組”“聯系”等與人相關的事故記錄的詞頻也較高,可知許多安全事故的發生與各部門員工的工作素質也有較大的聯系。
在3元抽的情況下,“壓力表”一詞出現頻數最高,共出現369次,表明其為經常出現缺陷或故障的設備。其次,“滅火器”“過濾器”“控制閥”等詞組頻數也較高,體現了企業的不安全狀態和安全管理缺陷。
在4元抽及以上的情況下,(不)“符合要求”出現的頻數最高,共出現27次,這暴露出了部分生產人員或技術人員的不安全操作模式?!凹託淞鸦币辉~出現22次,這是由于加氫工藝的主要設備是在高壓、高溫、且有硫化氫存在的狀態下運行的,從而容易引發安全事故。此外,“回水溫度”“飛灰倉泵”等與石化生產操作相關的專業詞匯由于所抽單位擴增而逐漸顯現出來。
可視化分析是通過計算機展示更直觀的圖像,然后多尺度漸進式地完成數據分析與提煉,發現目標領域知識的方法。詞云圖[11-13]是文本挖掘的一種可視化展示,本文利用詞云技術對數據進行分析,并生成可視化圖像進而分析其內在規律。
根據分詞所得到的語料庫,利用R軟件中“Wordcloud”包制作詞云圖,詞云圖中每個詞的大小與其詞頻數成正比增加。為了更直觀的展現某些詞標簽的重要性,本文首先生成了整體詞云圖(圖1)。 為了更詳細地發現不同長度分詞對石化公共安全生產造成的影響,在圖1的基礎上,本文還生成了二元抽詞云圖(圖2)、三元抽詞云圖(圖3)和四元抽及以上詞云圖(圖4)。

圖1 整體詞云圖

圖2 二元抽詞云圖

圖3 三元抽詞云圖

圖4 四元抽及以上詞云圖
由圖2至圖4可以得到,相關安全事故記錄中的高頻詞主要有泄漏、處理、壓力表、滅火器、加氫裂化等。結合分詞結果(表1)和詞云圖可以看出,在石油化工企業日常檢查的歷史安全事故記錄中,引發安全事故的原因包括:所配置壓力表可能因質量問題或無按時檢查磨損情況無紅線,使其失去了確保安全作用導致安全事故;在生產過程中對原油進行加工時,具有自燃性或腐蝕性的原材料或石油化工產物泄漏,或管線泄漏,帶來安全隱患。此外,企業班組交接班不及時出現看管空檔、員工沒有按時對設備或工序檢查、記錄人員在日常檢查記錄中不認真等情況也是出現安全事故的重要原因之一;上述結論與近年石化安全事故報道基本相符。
在詞云圖中,雖然能夠發現導致石化企業事故原因的分布情況,但是僅從詞頻上來分析,高頻詞語中出現了大量的諸如“故障”“現場”等對事故原因的判斷沒有明顯作用的常見詞語。從詞云圖上來看,一個致險因素可能被分成不同長度的詞語重復出現,因此需要對詞語賦予相應權重以突出關鍵詞,找到安全事故頻繁發生的關鍵點,以期利用數據做出更有價值的預測。
TF-IDF (Term Frequency-Inverse Document Frequency)是一種用于文本挖掘 (text mining) 與信息檢索 (information retrieval)的常用加權算法[10-13],其主要作用是文本分類和對關鍵詞的提取。TF代表某個詞語的頻數與詞語總數的比值,而IDF為逆文檔頻率,表示某個詞語的重要性與包含這個詞語的文檔數目成反比,即其他相關文檔數越少,越能說明該詞語對于企業安全事故發生的特殊作用性。TF-IDF主要用以評估某個字詞對于一個文件集(或一個語料庫)的重要程度。一般來說,某個詞的重要性大小與其在文件中出現的頻數成正比,但同時也會與它在語料庫中出現的頻率成反比。TF-IDF算法如下:

式中:N為文件集(或語料庫)中文本的總數;N(x)為文件集(或語料庫)中包含詞x的文本總數。
詞x的TF-IDF則定義為:

式中:TF(x)為詞x在當前文本中的詞頻。
利用TF-IDF算法對關鍵詞進行篩選和整理,得到部分詞語的重要性大小如圖5所示。為了研究導致安全事故發生的致險因素的具體來源,可根據圖5中的關鍵詞結合原始記錄將石油化工安全事故發生原因分成以下四類。

圖5 關鍵詞TF-IDF統計圖
(1)泄漏缺陷。產品生產的主要過程是對原油進行提純和深加工,原材料以及中間產物通常存在易燃性,有自燃危險。同時由于產物或所用藥劑通常存在腐蝕性或一些毒性,如果對所用材料或中間產物處置不善,承載設施出現老化或損壞等均可能會發生泄漏而引發安全事故。
(2)設備故障。石油化工生產設備體量大、相關配置多,需要小心使用并經常檢修。在生產運行中,如果沒有對設備進行按時檢修及維護,則容易出現設備故障;為了實現石油原材料的高利用率,設備運行的條件通常設定地極為苛刻,若生產人員操作不當,則出現的設備運行錯誤等問題也會造成安全事故。
(3)人為因素。在一些石化企業中,往往缺乏生產安全管理技能、員工安全意識的培養。從而導致安全生產管理相關制度形同虛設,加深了石化生產中員工的錯誤認識,出現換班不及時、檢修不到位、對安全事故處理不當、消防設施和管理不夠完善等現象,導致石化生產處于不安全狀態,安全隱患增多。
(4)其他因素。在安全事故記錄中以較少出現或首次出現的安全事故發生原因,如惡劣天氣影響、部分隱患缺陷等。
由上文所分析來看,引起石化事故發生的致險因素具有隱蔽性強,涉及方面多等特點。 因此要從實際出發,對石化企業安全管理過程應實行長期且有規律的監控,制定完備的設備管理制度,特別是對已檢查出的問題進行及時有效的處理;同時要加強對企業生產操作、管理和技術人員的安全培訓工作,進一步提高員工的操作技能和水平,減少或者避免安全事故的發生。
本文利用大數據技術對浙江鎮海煉化數據進行了統計分析。根據數據特征,利用文本挖掘手段提取影響城市安全生產過程中的潛在因素,并利用詞云等可視化方式對統計結果做出展示。通過關鍵詞的提取進行探索性的數據分析,作為對安全事故診斷和預測的重要手段。 強化信息化和大數據技術在城市安全管理的研究與應用,發揮它們在信息挖掘、關聯因素分析、趨勢預測和輔助決策方面的作用,是治理現代城市公共安全問題的緊迫需要;以風險防控為起點,以大數據技術為導向的治理模式將是城市公共安全管理的新利器。