劉雙躍,夏 川(北京科技大學土木與環境工程學院,北京100083)
基于關聯規則算法的鋼鐵企業隱患管理重點研究
劉雙躍,夏 川
(北京科技大學土木與環境工程學院,北京100083)
在鋼鐵企業隱患排查信息系統得到廣泛應用的同時,產生了海量的隱患排查治理的數據,而企業如何利用這些數據來指導隱患管理的研究和應用卻缺乏針對性和可操作性。將鋼鐵企業存在的隱患進行規范化的描述,對規范化后積累的隱患臺賬進行分析;使用SAS軟件,設計了數據預處理的流程,并以鍛造廠車間隱患臺賬為例,應用關聯規則算法,得到了優先需要關注的規則及其支持度、置信度和提升度三個指標;從作業區班組及其進行的作業活動兩個層面出發,生成相應的圖形,直觀地幫助鋼鐵企業找到優先需要改善的規則,以及優先需要關注的作業區班組、作業活動以及隱患類型,并通過橫向和縱向的分析比較,發現不同規則的相對重要程度,以為企業快速提高隱患管理能力提供重點和方向。
鋼鐵企業;隱患;關聯規則算法;管理重點
鋼鐵在基礎建設中發揮著不可替代的作用,但是由于其生產中常涉及高溫高壓反應、有毒有害物質和易燃易爆的氣體液體,而且作業現場存在連續化高強度的作業,各類事故時常發生,特別是違反操作規程或勞動紀律原因而產生的事故[1-2]。要減少事故的發生,必須減少事故的基本組合因子隱患,隱患是事故發生量變的積累,事故是隱患質變導致的結果[3]。為了使隱患排查更加科學高效,各地都啟動了隱患排查治理“兩化”體系(標準化、信息化)建設,特別是云計算的引入,更是提高了實時處理大量隱患數據的能力[4]。但是部分企業隱患錄入依靠個人的描述,造成不同人對同一隱患描述不同,這樣既難以準確簡潔描述隱患,也不利于對隱患信息后續的分析。另外,很多企業處理大量隱患數據還停留在對隱患信息中出現的頻數做統計。目前一些學者開始將數據挖掘方法引入到安全生產之中,并取得了一定的成果。如Kniesner等[5]使用非均衡面板數據模型評價煤礦安全季度檢查和安全狀況之間的關系,得到煤礦安全檢查實施中最有效的方式;Spurgin等[6]通過對影響核電站操作人員在安全方面表現因素進行模擬分析,得到著力于改善關鍵因素要比盲目地培訓更有效的結論;陳帆等[7]結合粗糙集理論和RBE神經網絡模型評價地鐵施工的安全風險,提高了評價的精度;吳昊等[8]通過多維數據的Apriori算法,得到了各種因素對于道路交通事故影響的特點;汪瑩等[9]構建了煤炭企業班組安全管理7大功能體系,通過數據挖掘得到了不同安全監測點危險級別。但是對于企業管理人員應當重點關注哪些方面來加強隱患管理,往往結論的針對性和可操作性較低。本文對隱患進行規范化的描述,對積累的隱患臺賬進行數據預處理,并應用關聯規則算法,通過生成兩種特定形式的規則,得到優先需要關注的規則,具體到特定的作業區班組、作業活動和隱患類型,同時通過橫向比較同一班組所造成的多個隱患,縱向比較造成同一隱患類型所涉及的作業區班組,找到隱患管理的重中之重,從而對企業隱患管理的指導更加清晰和明確。
1.1隱患數據的采集
高效的隱患數據采集離不開計算機系統軟件技術,本文融合安全隱患分級閉合管理的思想[10],開發多角色協同軟件,以保證隱患數據實時高效地采集[11]。隱患描述的規范化可以參照《安全生產事故隱患排查治理體系建設實施指南》,將隱患分為基礎管理和現場管理,又細分為24小類,再結合企業已有的隱患描述和實際情況,隱患錄入人員就可以通過選擇多層次的下拉列表框完成隱患的描述,這樣既可以達到隱患描述精準、簡練,又利于使用算法進行分析[12]。通過電腦端或移動終端,用戶采集到的隱患數據都可進入到服務器的數據庫之中,為知識發現做好原始數據的準備[13]。
1.2關聯規則算法
隱患數據中部位、類型、責任班組等信息都是名義數據,即只用來區分個體在屬性上的特征或類別上的不同,不表示大小、先后、優劣之分。要找出它們多種組合情況聯系的大小,關聯規則算法作為十大經典數據挖掘算法是理想的方法之一[14],其在繁雜的大型數據庫中,可以方便地找出各屬性關聯性的強弱,從而挖掘出有助于提高隱患管理的信息[15]。關聯規劃算法的基礎表需要用二元形式來表示(0和1),對于非二元屬性可以轉化為二元屬性,如隱患級別這個屬性包括四級,即隱患級別=一級、隱患級別=二級、隱患級別=三級、隱患級別=四級,劃分成四個二元屬性。該算法基礎表中的每一行(t1~tp)表示一個事務,每一列(i1~iq)表示一個項,事務出現則值為1,不出現則值為0,如表1所示。

表1 關聯規則算法的基礎表Table 1 Underlying table of association rules algorithm
I={i1,i2,i3,…,iq}是所有項的集合,T= {t1,t2,t3,…,tp}是所有事務的集合,若項集X是T中一個事務tj的子集,則這個候選項集X的支持度計數可以定義為
σ(X)=count{t|X?t,t∈T}
關聯規則是形如候選項集X→候選項集Y的表達式,其中X∩Y=?,關聯規則的強度可以用支持度(Support)、置信度(Confidence)和提升度(Lift)三個指標來衡量。
支持度(Support)(X→Y)表示候選項集X和Y同時出現的支持度計數占總事務頻數的比率,定義如下:

支持度是衡量該規則出現頻繁程度的指標,支持度小則說明該規則很少出現,不重要;支持度大則說明該規則出現頻繁,相對重要。頻繁項集產生需要搜索的是指數規模的,為了刪除不重要的規則,需要引入最小支持度(minsup),保留支持度大于或等于最小支持度的規則,刪除支持度小于最小支持度的規則。
置信度(Confidence)(X→Y)表示候選項集X和Y同時出現的支持度計數占候選項集X支持度計數的比率,定義如下:

置信度是衡量通過規則進行推理可靠性大小的指標,置信度越低表示候選項集Y包含在候選項集X的事務出現的概率越小;反之概率越大。相似地,引入最小置信度(minconf),保留置信度大于或等于最小置信度的規則,刪除置信度小于最小置信度的規則。
提升度(Lift)(X→Y)表示置信度(Confidence)(X→Y)和支持度(Support)(Y)之比,定義如下:

提升度可衡量X和Y的關聯程度的強弱,提升度大于1,表示候選項集X的提高會使候選項集Y提高;提升度小于1,表示候選項集X的提高會使候選項集Y降低[16]。
2.1隱患描述的規范化
由于鋼鐵企業涉及的作業存在連續性和交叉性,相同作業活動的隱患較為相似,因此隱患的規范化描述應以各作業區的多種作業活動展開。本文以鍛造廠為例,對涉及鍛造廠車間現場管理中從業人員違規作業存在的隱患進行了規范化描述。
將鍛造廠車間分為:壓機作業區、錘部作業區、天車作業區、退火作業區和精整作業區,每個作業區都有若干個班組和作業活動,每種作業活動又包含許多對應的隱患類型,因此以作業區班組、作業活動和隱患類型三個屬性進行分析。若要考慮到各隱患本身重要的級別可能不一樣,可以分別對同一級別的隱患進行分析。如以鍛造廠車間中的錘部作業區為例,隱患描述規范化后積累的隱患臺賬見表2。

表2 錘部作業區隱患臺賬Table 2 Ministry of hammer's hazard management standing books
2.2數據預處理的流程
原始數據存在許多問題,比如數據內涵不一致,同一數據重復出現,需要用到的數據為空值,數據中存在錯誤,數據結構與所選的數據挖掘模型不匹配等等,這就需要在數據挖掘之前對原始數據進行預處理[17],滿足數據挖掘的要求。本文采用在數據挖掘領域應用最為廣泛的SAS(Statistics Analysis System)作為實現數據挖掘的工具。SAS可以實現和外部數據庫的直接訪問,導入到SAS中的數據就可以進行數據的預處理。隱患數據預處理流程如圖1所示。

圖1 隱患數據預處理流程Eig.1 Hazard data preparation process
WORK.ASSOCIATION數據集節點可用于導入鍛造廠車間的隱患臺賬,Insight探索節點可以實現交互式探索和分析,查看作業區班組、作業活動和隱患類型三個屬性的分布情況。Data Set Attributes數據集屬性節點可用于修改數據集的名稱(Name)、角色(Model Role)和度量方式(Measurement),序號屬性用來標識各條記錄,角色設置為標識變量(ID),度量方式設置為連續變量(Interval);作業區班組、作業活動和隱患類型三個屬性是最終要形成關聯結果的屬性,角色均設置為目標變量(target),度量方式設置為名義變量(Nominal);其他沒有用到的屬性廢棄,角色設置為舍棄不用(rejected)。Rep Lacement替換節點可用于替換數據集中的缺失值和某些非缺失值的替換方法,對于作業區班組、作業活動和隱患類型這些非連續數值變量,出現缺失值或者不屬于隱患規范化描述之內的值,均用樣本高頻值的方法替換[18]。
2.3關聯規則算法的結果
數據預處理完成時,利用Association節點對預處理過的數據進行Apriori算法的運算,設置好最小支持度和最小關聯度,只有滿足條件的規則才會被顯示出來,這些規則代表了需要重點關注的隱患。每條滿足條件的規則都包含關聯集合的項目數(Relations)、提升度(Lift)、支持度(Support)、置信度(Confidence)四個指標(見表3),利用這些指標可對不同規則的相對重要程度進行后續區分。

表3 關聯規則算法生成的結果Table 3 Result of association rules algorithm
2.4隱患管理重點的分析
并不是所有生成的規則都能用來指導隱患管理,比如表3中第2條規則:停爐時管線不吹刷,爐內殘留煤氣→精鍛停爐操作,而停爐時管線不吹刷,爐內殘留煤氣隱患類型,本身就包含于精鍛停爐操作的,所以分析該規則沒有意義。本文利用SAS篩選出特定形式的規則,再將這些規則生成圖形,每種顏色代表一個支持度區間,每種形狀代表一個置信度區間,圖形的相對大小代表提升度的大小,這樣就可以直觀地反映出有用的結果。
2.4.1作業區班組層面的分析
如果要在某個作業區班組中,找出其進行作業活動中產生隱患較為頻繁的規則,這就需要針對作業區班組層面進行分析,生成作業區班組→作業活動+隱患類型形式的規則,如圖2所示。

圖2 作業區班組→作業活動+隱患類型形式的規則Eig.2 Rules in operational team→(job activity+hazard type)form
某作業區班組進行特定作業活動產生特定的隱患越頻繁,說明本條規則的支持度越大。如圖2中綠色圖形的支持度最大,也就是壓機作業區2班進行精鍛加熱爐給火作業時,生成點爐時沒打開煙道閘板隱患類型最頻繁,因此提高壓機作業區2班在進行精鍛加熱爐給火作業中點爐時沒打開煙道閘板隱患類型的意識和技能,是隱患治理的重點。每個作業區班組易產生的隱患可能有多個,但是多個隱患之間的重要程度也有差別。如圖2中壓機作業區2班所在行有兩個圖形,綠色“×”字形和黃色圓柱體,兩者進行橫向比較,前者比后者的支持度和置信度都要高,說明就提高壓機作業區2班的隱患管理而言,提高精鍛加熱爐給火作業時點爐時沒打開煙道閘板隱患類型的管理要比提高先給煤氣、后點火隱患類型更重要。
某作業區班組在進行各類作業活動產生隱患時,屬于特定作業活動和隱患類型的概率越大,其置信度越大,說明就該班組而言,提高本作業活動和隱患類型是隱患治理工作的重點。如圖2中六棱柱置信度最大,對于淡藍色六棱柱,說明精整作業區1班在作業形成隱患時,屬于在矯直機下料作業中兩根鋼絲繩不等長隱患類型的概率有55%以上,所以對于精整作業區1班,提高對矯直機下料作業中兩根鋼絲繩不等長隱患類型的管理要比其他的隱患類型重要得多。
4.2.2作業活動層面的分析
如果要在某個作業區班組進行特定作業活動中找出其產生特定隱患較為頻繁的規則,并在此基礎上找出屬于哪種隱患類型的概率大,這就需要針對作業活動層面進行分析,生成作業區班組+作業活動→隱患類型形式的規則,如圖3所示。

圖3 作業區班組+作業活動→隱患類型形式的規則Eig.3 Rules in(operational team+job activity)→hazard type form
作業區班組+作業活動→隱患類型和作業區班組→作業活動+隱患類型兩種形式的規則,關于支持度的分析方法和結果都是一樣的,區別在于對置信度的分析。某作業區班組進行特定作業活動產生隱患時,屬于特定的隱患類型概率越大,說明本條規則的置信度越大。如圖3中六棱柱置信度最大,對于紅色六棱柱,說明壓機作業區3班在進行精鍛加熱爐給火作業形成隱患時,屬于點爐時燒嘴泄露隱患類型的概率有57%以上,所以對于壓機作業區3班在精鍛加熱爐給火作業,提高對點爐時燒嘴泄露隱患類型的管理要比其他的隱患類型重要得多。造成同一隱患類型所涉及作業區班組可能有多個,但是它們的嚴重程度也存在差別。如圖3中點爐時沒打開煙道閘板所在列有兩個圖形,油綠色八面體和淡綠色四棱錐,兩者進行縱向比較,前者比后者的支持度和置信度都要高,說明了精鍛加熱爐給火作業時,壓機作業區2班要比壓機作業區1班更易生成點爐時沒打開煙道閘板的隱患類型,所以就點爐時沒打開煙道閘板隱患類型而言,壓機作業區2班更需要加強管理。
為了有效利用隱患臺賬,幫助企業找到隱患管理的重點,本文首先對鋼鐵企業可能存在的隱患進行規范化;然后將隱患排查治理系統生成的隱患臺賬利用SAS進行數據的預處理,采用關聯規則算法,得出各個規則的支持度、置信度和提升度三個指標;最后通過對作業區班組→作業活動+隱患類型形式規則的分析,得出了需要重點關注的作業區班組及其在進行某種作業活動中易發生的隱患類型,同時對易發生多種隱患類型的作業區班組,通過橫向比較得出了對該作業區班組而言更需關注的隱患類型,并通過對作業區班組+作業活動→隱患類型形式規則的分析,得出了需要重點關注作業區班組進行的作業活動類型及其易發生的隱患類型,同時再對造成同一隱患類型的多個班組,通過縱向比較得出了對該隱患類型而言更需提高管理的班組。通過以上的分析比較,使隱患管理人員真正掌握企業中需要優先關注的作業區班組、作業活動以及隱患類型,并了解它們之間的相對重要程度,明確了隱患治理的重點,為隱患排查治理能力的提高和減少事故的發生提供指導。
[1]王志,張倩倩.鋼鐵企業安全生產現狀與問題分析[J].工業安全與環保,2014,40(10):93-95.
[2]楊濤,尹景燕.鋼鐵企業生產事故致因要素分析[J].安全與環境學報,2013,13(4):213-215.
[3]鄭賢斌.淺析安全、危險、隱患和事故之間的關系[J].中國安全生產科學技術,2007,3(3):50-52.
[4]徐衛東,劉祖德.基于云計算的企業安全管理趨勢研究[J].安全與環境工程,2014,21(3):86-93.
[5]Kniesner T J,Leeth J D.Data mining mining data:MSHA enforcement efforts,underground coal mine safety,and new health policy implications[J].Journal of Risk and Uncertainty,2004,29(2):85-108.
[6]Spurgin A,Petkov G.Advanced simulator data mining for operators'performance assessment[J].Studies in Computational Intelligence,2005,5:487-513.
[7]陳帆,謝洪濤.基于粗糙集和RBE神經網絡的地鐵施工安全風險評估[J].安全與環境學報,2013,13(4):232-235.
[8]吳昊,李軍國.基于關聯規則理論的道路交通事故數據挖掘模型[J].電子技術應用,2009(2):135-142.
[9]汪瑩,周婷,王光岐,等.基于數據挖掘的安全管理信息系統研究—以某煤炭企業班組安全管理為例[J].中國礦業大學學報,2014,43(2):362-367.
[10]高春學,曲志清,張建文.安全生產隱患排查治理方法探討[J].安全與環境工程,2008,15(2):112-115.
[11]趙作鵬,尹志民,陳金翠,等.協同軟件技術在煤礦隱患排查系統中的應用[J].煤炭工程,2010(5):115-117.
[12]王升宇,江飛.煤礦隱患管理系統優化[J].遼寧工程技術大學學報(自然科學版),2012,31(5):696.
[13]Eayyad U,Piatetsky-Shapiro G,Smyth P.Erom data mining to knowledge discovery in databases[J].AI Magazine,1996,17 (3):37-54.
[14]Wu X D,Vipin K,Ross Q J,et.al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008,14(1): 1-37.
[15]Chen C Q,Yan P,Wei Q.Discovering associations with uncertainty from large databases[J].Recent Advances in Decision Making,2009,222:45-50.
[16](美)Pang-Ning T,Michael S,Vipin K.數據挖掘導論(完整版)[M].范明,范宏建等譯.北京:人民郵電出版社,2011.
[17]Cooley R,Mobasher B,Srivastava J.Data preparation for mining world wide web browsing patterns[J].Knowledge and Information Systems,1999,1(1):5-32.
[18]杜強,賈麗.SAS統計分析標準教程[M].北京:人民郵電出版社,2010:299-323.
Research on Focal Points of Hazard Management in Iron and Steel Enterprises Based on Association Rules Algorithm
LIU Shuangyue,XIA Chuan
(School of Civil and Environmental Engineering,University of Science&Technology Beijing,Beijing 100083,China)
While hazard investigation and management information system is widely used in iron and steel enterprises,the system produces a great mass of hazard investigation and management data.But it's often lacking in pertinence and operability for iron and steel enterprises administrators to use these data to guide hazard management's research and application.This paper first standardizes descriptions of iron and steel enterprises'hazard and analyses hazard standing books.Then taking forging factory workshop's hazard management standing books for instance,this paper uses Statistical Analysis System(SAS)to design data preparation process,and applies association rules algorithm to obtaining the rules which need prior attention and their related Lift,Support and Confidence's value.Last,resulting from the two aspects of the operational team and their performance,the corresponding graphics can help iron and steel enterprises to find the priority of rules for improvement and the priority of operational teams,job activities or hazard types for attention.Vertical and horizontal comparison analysis can help to distinguish the relative important degrees of different rules,which provides the direction and focal points for enhancing hazard management abilities.
iron and steel enterprises;hazard;association rules algorithm;focal points of management
X92
A
10.13578/j.cnki.issn.1671-1556.2015.05.016
1671-1556(2015)05-0091-05
2015-04-02
2015-06-02
劉雙躍(1958—),男,博士,教授,主要從事產業安全技術、危險辨識與安全評價、安全預警與管理系統等方面的教學與科研工作。E-mail:liusy@ustb.edu.cn