黃常海,高德毅,2,胡甚平,耿鶴軍,彭宇
(1.上海海事大學商船學院,上海 201306;2.上海市教育委員會,上海 200003)
船舶交通是與國民經濟密切相關的重要交通方式,為我國經濟和社會發展作出巨大貢獻,然而船舶交通事故屢見不鮮.[1]對船舶交通事故進行分析,挖掘事故潛在的致因關系,對預防和控制船舶交通事故的發生具有重要的意義.
國內外學者從不同的角度對事故的影響因素進行分析.張曉輝[2]利用數據挖掘方法對水上交通基礎數據進行全因素挖掘實驗.劉正江等[3]利用數據挖掘對人為失誤與其影響因素之間的關系進行挖掘,初步確定船舶避碰過程中人為失誤與引發因素之間的對應關系.牟軍敏等[4]通過對重特大惡性碰撞事故的數據挖掘,量化提取事故特征,并利用廣義線性模型對船舶碰橋事故建立概率預測模型.KOKOTOS等[5]用分類樹方法對航運事故進行數據挖掘,認為引入國際安全管理(International Safety Management,ISM)規則以后,人的因素導致的事故減少.梁第等[6]結合基于屬性頻度的約簡算法和改進的值約簡算法對水上交通事故典型案例進行分析,并加入相關的支持度和置信度.賈愛鵬等[7]對80份船舶碰撞事故報告進行分析,提取導致事故的人的因素,用STATISTICA統計分析軟件對其進行關聯規則分析.然而,上述研究中較少涉及對船舶交通事故致因關系的研究,尤其是事故致因與事故屬性的關聯關系研究,同時缺少對基于數據挖掘結果的事故應對策略研究.本文在分析關聯規則及Apriori算法的基礎上,提出船舶交通事故關聯規則挖掘基本流程.以某海事局轄區范圍內連續10年的船舶交通事故數據為樣本,按照船舶交通事故關聯規則挖掘流程,運用Apriori算法對樣本數據進行挖掘.深入分析所挖掘數據的強關聯規則,探討事故致因間的潛在關系,并提出防范船舶交通事故的應對策略.
給定一個含有m個事務的數據庫D={t1,t2,…,tm},有n個屬性,這n個屬性組成的項集為I={i1,i2,…,in},那么其中的每個事務 t都是一個項集,且t?I.設A是一個項集,當A?t時稱“事務t包含 A”.
關聯規則是形如X?Y的蘊含式,其中X和Y是項集,且 X?I,Y?I,X∩Y=φ,X 稱為規則前項(或前件,antecedent),Y稱為規則后項(或后件,consequent).
關聯規則X?Y的支持度s是數據庫中包含support(X?Y)的事務占全部事務的百分比,它是概率 P(X∪Y),記作 support(X?Y)=P(X∪Y).
關聯規則X?Y的置信度c是包含X∪Y的事務數與包含 X的事務數的比值,它是條件概率P(Y/X),記作 confidence(X?Y)=P(Y/X).[8]
提升是用規則的置信度除以規則后項的支持度所得的比值;部署能力是指支持規則前項但不支持規則后項的事務占全部事務的比例.[8]
在進行關聯規則挖掘前,用戶預定義最小支持度閾值min_sup和最小置信度閾值min_conf.如果某個項集的s≥min_sup,則稱這個項集為“頻繁項”(也稱“大項集”,LargeItemsets),所有的“頻繁 k-項集”組成的集合通常記作 Lk.[9-10]
關聯規則挖掘過程主要包括兩個階段:第一階段從數據集中找出所有的頻繁項集,均滿足s≥min_sup;第二階段由這些頻繁項集產生關聯規則,計算這些關聯規則的置信度c,然后保留那些滿足c≥min_conf的關聯規則.[11]
Apriori算法是一種挖掘關聯規則頻繁項集的的經典算法.該算法使用逐層搜索的迭代方法,頻繁k-項集用于探索頻繁(k+1)-項集.首先,找出頻繁1-項集的集合,記作L1;然后利用L1找頻繁2-項集的集合L2,利用L2找L3,如此下去,直到不能找到頻繁k-項集為止.找每個Lk需要進行一次數據庫掃描.Apriori具有一個重要性質:頻繁項集的所有非空子集都必須是頻繁的.Apriori算法主要由連接步和剪枝步組成,在這兩步中采用Apriori的性質可以提高該算法的效率.
船舶交通事故關聯規則挖掘流程包括準備數據,清理數據,建立模型,產生頻繁項集,產生強關聯規則,分析強關聯規則等,見圖1.

圖1 船舶交通事故關聯規則挖掘流程
選擇海事事故數據庫中M海事局(簡稱)6個轄區內的894起船舶交通事故作為關聯規則挖掘的原始數據信息.
隨著我國發展水平的不斷提高,人民群眾對于生活環境要求也在不斷的提高,居住環境干凈整潔已經不能夠滿足當前的需要?,F如今我國園林綠化還比較簡單,不符合時代發展潮流,所以,我國必須要提高重視程度加大投入力度來開展園林綠化活動。
海事事故數據庫中數據量較大,為方便關聯規則的挖掘,可去除船名、事故具體位置等信息,并修正帶有缺省值的項,最終得到進行海事事故關聯規則挖掘的樣本數據.
基于船舶交通事故的致因分析,建立船舶交通事故致因關系模型,其中事故致因主要包括意外原因、自然原因、航道碼頭原因、交通原因、船舶貨物原因、船員原因及其他人員原因等.基于事故特征分析,建立船舶交通事故屬性關系模型.
以船舶交通事故后果為后項,以事故致因、事故屬性為前項,建立船舶交通事故關聯規則分析模型,見圖2.

圖2 船舶交通事故關聯規則分析模型
首先產生候選集Ck,所謂候選集就是可能成為頻繁項集的項目集合.然后,基于候選集Ck計算支持度并確定頻繁項集Lk.
從由頻繁項集產生的所有的簡單關聯規則中選擇置信度大于用戶指定最小置信度閾值的關聯規則,組成強關聯規則集合.
對挖掘出來的強關聯規則進行分析,解釋其與海事事故之間的內在聯系,剖析事故致因的關聯關系.
以船舶事故為導向生成的船舶交通事故與事故致因、事故屬性的關系的網絡圖見圖3,考慮到節點、鏈接較多以及圖形尺寸的限制,鏈接顯示閾值設置為50.以船舶交通事故后果為導向生成的事故后果程度與事故致因、事故屬性的關系的網絡圖見圖4,鏈接顯示閾值設置為30.導向網絡圖可直觀地表達因素之間關系的強弱程度.從圖3和4可知:事故原因中的船員原因和自然原因與事故關聯度大,尤其是船員原因與事故關聯度大;其次是貨船(船舶分類1)、鄉鎮個體船(船舶分類2)、霧季(季節特征)與事故關聯度也較大.

圖3 船舶交通事故因素網絡(事故為導向)

圖4 船舶交通事故因素網絡(事故后果為導向)
按照船舶交通事故關聯規則挖掘流程,依次完成數據準備和數據清理后,產生頻繁項集和強關聯規則(見表1).在本次實驗中,最小支持度取10%, 最小置信度取70%.

表1 船舶交通事故強關聯規則
應用關聯規則方法對船舶交通事故統計數據進行挖掘,不僅可以對事故致因和事故屬性進行其單一因素的定量分析,還可以解決常規數理分析方法難以實現的任務,即多因素關聯關系挖掘.對強關聯規則挖掘的結果如下:
(1)從事故后果統計可知,輕微事故在Q轄區內發生的船舶交通事故中占主要部分.
(2)港口泊位附近水域是事故的高發水域,該水域中貨船發生的事故以及由船員原因導致的事故與輕微事故關聯度高.
(3)霧季是Q轄區內船舶交通事故的高發期.
(4)Q轄區的進口船、貨船、鄉鎮個體船與輕微事故關聯度高,Q轄區貨船中的鄉鎮個體船、航行中的貨船、航行中的鄉鎮個體船與輕微事故關聯度高.Q轄區涉及船員原因的輕微事故與貨船、鄉鎮個體船關聯度高.
船舶交通事故關聯規則挖掘以客觀事故統計資料為基礎,可以科學、準確地挖掘事故致因與事故屬性的關聯關系.基于船舶交通事故強關聯規則分析的結果,客觀制定針對性的防范對策.
(1)加強對Q轄區船舶交通事故的防范,針對重點水域采取針對性安全管理措施,遏制特定水域的事故多發態勢.
(2)霧季是全年中的事故多發期,需重點加強防范.督促航運公司在安全管理體系中建立有效可行的霧航制度,在霧季來臨前做好霧航理論知識學習、設備檢查和保養;督促船舶加強霧區瞭望和值班人員配備,認真執行交接班制度,采用安全航速;提高值班人員安全意識,保證霧航安全.
(3)加強管理力度,督促港航企業及個體從業者遵守相關法律法規,規范經營;禁止不合格的航運公司和低標準船舶進入航運市場,并加快對老舊船舶的淘汰步伐,通過實施嚴格的船舶檢驗提高船檢質量.重點加強對鄉鎮個體船的監管,從船舶管理、船檢、現場檢查等方面,全面提升對鄉鎮個體船的安全管理,尤其是對Q轄區的鄉鎮個體船的管理.
(4)完善水上交通安全隱患舉報機制,暢通投訴舉報渠道,提高群眾參與水上交通安全監督的積極性和主動性.注意對執法人員的監管.
(5)加強對港航從業人員的專業技能培訓,完善培訓網絡和培訓內容,提高培訓質量.普及水上交通安全法規及常識,提高水上交通安全意識.加強對執法人員的業務培訓.重視船員管理和教育,加強對船員的安全技能培訓,提高船員的安全知識和安全操作技能,尤其注重針對鄉鎮個體船船員的培訓,重點提升鄉鎮個體船船員的職業技能和安全意識,盡可能地防止人的因素導致的船舶交通事故的發生.
船舶交通事故案例數據是對船舶交通事故進行致因分析的重要資料.對船舶交通事故統計數據進行數據挖掘,分析事故致因的潛在關系,是預防船舶交通事故、促進船舶交通安全的重要手段.本文提出運用關聯規則方法對船舶交通事故統計數據進行挖掘,構建船舶交通事故關聯規則分析模型.對多因素關聯關系挖掘的實現可彌補傳統數理統計方法重在對單一因素致因程度進行分析的缺陷.
采用Apriori關聯規則挖掘算法,在影響船舶交通安全的海量信息中,挖掘與船舶交通事故關聯度高的因素,迅速發現船舶交通安全隱患問題并及時預警,避免或減少船舶交通事故的發生.對強關聯規則進行剖析,提出防范船舶交通事故的應對策略,對船舶交通主管機關、航運公司、船舶值班人員具有重要參考意義.在后期研究中,可以通過增加事故屬性、設立屬性權值等方式進一步完善實驗,提高所挖掘出的規則的準確度.
[1]胡甚平,黃常海,張浩.基于云模型的海上交通系統風險蒙特卡羅仿真[J].中國安全科學學報,2012,22(4):20-26.
[2]張曉輝.云理論和數據挖掘在水上安全分析中的應用[D].大連:大連海事大學,2011.
[3]劉正江,吳兆麟.基于船舶碰撞事故調查報告的人的因素數據挖掘[J].中國航海,2004(2):3-8,16.
[4]牟軍敏,鄒早建,黃立文,等.水上交通事故模式的研究[J].武漢理工大學學報:交通科學與工程版,2005,29(3):489-492.
[5]KOKOTOS D X,LINARDATOS D S.An application of data mining tools for the study of shipping safety in restricted waters[J].Safety Sci,2011,49(2):192-197.
[6]梁第,張銘麗.Rough Set理論研究及其在水上交通事故分析的應用[J].科學技術與工程,2009,9(13):3916-3919.
[7]賈愛鵬,王勝利.基于STATISTICA的人為失誤與船舶碰撞之間關系的研究[J].浙江國際海運職業技術學院學報,2011,7(4):6-8.
[8]劉紅,吳四.多維關聯規則數據挖掘在船舶價格影響因素分析中的應用[J].上海海事大學學報,2013,34(4):31-37.
[9]宓為建,徐子奇,劉園.大型港機結構應力峰值與小車位置關聯規則的數據挖掘[J].上海海事大學學報,2006,27(3):42-46.
[10]袁建中,蔡存強,胡志武.港口國監督(PSC)決策支持算法[J].上海海事大學學報,2013,34(2):30-34.
[11]張云濤,于治樓,張化祥.關聯規則中頻繁項集高效挖掘的研究[J].計算機工程與應用,2011,47(3):139-141.
[12]王培吉,趙玉琳,呂劍峰.基于Apriori算法的關聯規則數據挖掘研究[J].統計與決策,2011(23):19-21.