張曉東, 張浩, 陳亮, 肖英杰
(1.上海海事大學 商船學院,上海 201306; 2. 上海海事局,上海 200086)
船舶事故的分析、預測、評價技術已成為現(xiàn)代船舶安全管理的核心.水上交通事故預測根據過去和現(xiàn)在的事故統(tǒng)計資料,分析近期和未來的事故發(fā)展態(tài)勢.事故預測的精確性[1]主要基于兩個基本前提:一是可知的信息;二是正確的事故預測方法.近年來,事故調查分析技術與方法逐漸成為研究的熱點.國內外學者對水上交通事故的分析和預測已取得一些重要研究成果.常用事故預測方法有回歸預測法、時間序列預測法、馬爾可夫預測法、灰色預測法、貝葉斯網絡預測法、人工神經網絡預測法、支持向量機預測法等.張玲等[2]提出考慮事件次序及其影響因素的多種調查技術組合分析法.楊家軒等[3]提出采用電子海圖技術建立水上交通事故信息系統(tǒng).黃志[4]采用灰色系統(tǒng)理論中的關聯(lián)分析原理,對臺灣海峽發(fā)生事故的特點及規(guī)律進行分析.徐國裕等[5]運用灰色關聯(lián)系統(tǒng)分別分析300總噸及以上船舶在臺灣海峽及其附近水域中發(fā)生的海難事故.熊清平等[6]指出目前我國對事故的分類和統(tǒng)計不規(guī)范、不完善,缺乏可比性和準確性.何易培等[7]構建寧波—舟山海區(qū)涉漁碰撞事故多發(fā)原因結構模型,提出針對性的預警預防預控措施.牟軍敏等[8]提出應用數據挖掘技術全面整理、分析內河船舶交通事故的思想.劉正江等[9]利用數據挖掘技術確定船舶避碰過程中人失誤與引發(fā)因素之間的對應關系.王鳳武等[10]提出針對大風浪天氣發(fā)生的海損事故,運用灰色系統(tǒng)理論中的關聯(lián)分析方法,得出造成海損事故的主因是船舶不適航和人為因素. 張欣欣等[11]基于HFACS對水上交通事故原因進行系統(tǒng)分析.周偉等[12]提出艙面集裝箱墜海事故再現(xiàn)仿真方法.陳咫宇等[13]提出基于分形理論的水上交通事故預測模型.于衛(wèi)紅等[14]提出海難數據倉庫的雪花模型. 鐘連德等[15]在路段劃分和影響因素分析的基礎上,利用收集的多條高速公路數據建立基于廣義線性回歸的高速公路事故預測模型.以上研究對事故致因進行較詳盡的闡述,本文從我國海事局的事故統(tǒng)計調查和回歸分析的角度對水上交通事故進行預測.
對事故進行分類是分析事故發(fā)生內在規(guī)律的一項重要內容,目前在各國的海難統(tǒng)計法規(guī)中,大多數國家按事故的直接原因對船舶航行事故進行分類.本文以國內某港區(qū)航道及附近水域為例進行事故統(tǒng)計分析.
該水域船舶交通流量大,船舶大小和類型多樣,航道曲折狹窄,多條航道連通港口,含有單點和雙點系泊浮筒,船舶事故時有發(fā)生.不同類型船舶發(fā)生事故統(tǒng)計結果見表1.

表1 事故船型分布百分比 %
通過對近幾年(2002—2007年)水上交通事故的收集和整理,按事故類型和事故船舶類型統(tǒng)計的結果見圖1.

圖1 事故類型統(tǒng)計
由圖1可知,該水域事故種類主要為碰撞、觸碰或浪損事故,其次是沉沒事故,其他類型的事故則相對較少.碰撞、觸碰或浪損事故主要涉及到大船與大船、大船與小船、小船與小船之間發(fā)生的水上交通事故,事故中的小型船舶包括漁船、工程船、交通船、小型運輸船等,該類事故嚴重時會造成受損船舶的沉沒.
事故發(fā)生水域位置的百分比見表2.

表2 事故發(fā)生位置百分比 %

圖2 事故地點分布
從事故地點可以看出:在主航道和警戒區(qū)等交叉航道較多水域易發(fā)生事故,這與該水域通航環(huán)境復雜、交通流擁擠和沖突相一致.
2002—2007年有記錄時間的部分水上交通事故按時間統(tǒng)計見圖3.

圖3 事故發(fā)生時間統(tǒng)計圖
從圖3可以看出,船上大副、二副、三副值班的班次都有事故發(fā)生,但根據時間節(jié)點分析,大多數事故發(fā)生在白天,而且基本集中在日出和日落期間.由于大船的航行通常不太注重白天黑夜的影響,而在該水域航行的一些小船一般白天開航、夜間停航休息,加上日出和日落期間往往是駕引人員心理疲憊和煩躁的時間段,如果上述兩方面正好相遇,則將在此時間、空間發(fā)生事故.
通過以上對事故數據的統(tǒng)計分析,可以對事故發(fā)生的原因進行定性分析,為定量分析提供依據.
在建模之前進行一系列描述性的統(tǒng)計和相關分析,確定可能影響事故發(fā)生的最為基本和最為重要的因素,最終確定可以進入模型的若干個相互獨立的變量,根據因變量和自變量的特點選擇計數模型. EViews軟件提供計數數據的多種估計方法[16],有標準泊松和負二項極大似然法(ML)及擬極大似然法(QML).
定性變量的常見分布類型有二項分布、多項分布、泊松分布、負二項分布等.事故數量、死亡和失蹤人數、受傷人數是任意非負整數,是典型的計數數據,不服從正態(tài)分布,而可能服從泊松分布或負二項分布,所以在計量分析時采用計數模型比線性模型更合適.假定被解釋變量的離散取值服從某種泊松分布[17],其分布函數為
(1)
式中:λ=E(yi),λ=Var(yi),即隨機變量y的均值與方差均為λ;若以X=(x1,x2,…,xm)表示影響λ的m個自變量,泊松回歸模型就是描述服從泊松分布的目標變量y的均值λ與解釋變量X之間關系的回歸模型,可以表示為
logλ=Xβ
(2)
式中:β為待估計的參數,它可以采用迭代非線性加權最小二乘法或極大似然法估算.在給定xi的條件下,yi的條件密度為
(3)
如果隨機變量yi的均值等于方差,那么泊松最大似然估計就是一致和有效的.而實際上的事故數量數據往往具有過離散特征,如果在隨機變量yi過度發(fā)散(即方差大于均值)的情況下仍然使用泊松回歸模型,可能會低估參數的標準誤差,高估其顯著性水平,從而在模型中保留多余的解釋變量,最終導致不合理的結果.為消除這種不利影響,使用負二項回歸模型代替泊松回歸模型進行估計,通過引入伽馬分布的誤差項構建負二項分布,負二項回歸模型在條件均值μ中引入一個獨立的隨機效應u,從而擴展泊松回歸模型,即logμi=logλi+logui,則負二項回歸模型的回歸形式[15]為
logμi=xiβ+ei
(4)
式中:ei為隨機誤差(exp(ei)服從Γ分布).在負二項回歸模型中,yi對xi,ui的條件分布仍為泊松分布:
f(yi|xi,ui)=(exp(-λiui)(λiui)yi)/yi!
(5)
此時,隨機變量yi的條件均值和方差分別為λ和λ(1+η2λ),其中η2=1/yi,是對條件方差超出條件均值程度即發(fā)散程度的衡量.
(1)用QML進行參數估計.QML是在一系列分布假定下才能實現(xiàn)的,它的估計比較穩(wěn)健,即使分布指定錯誤也能產生正確定義條件均值參數的一致估計.結果這種穩(wěn)健性類似于普通回歸:即使殘差分布非正態(tài),ML估計也是一致的.普通最小二乘法中,一致性要求是條件均值m(x,β)=x′β,而在QML中,一致性要求有m(x,β)=exp(x′β).估計標準差的方法是用信息矩陣的逆計算得到,但不具備一致性,除非y的條件分布指定正確.然而即使指定錯誤,用一種穩(wěn)健的方式估計標準差仍是可能的.
(2)參數估計檢驗.離散數據計數模型的參數估計是通過極大似然估計實現(xiàn)的,估計參數的檢驗主要通過Wald檢驗完成.參數檢驗有助于對抽樣總體的均值作出一些推斷,Wald檢驗類似于線性回歸模型中的t檢驗,因此常被稱為廣義t檢驗.Wald檢驗的假設為H0:βj=0.建立t統(tǒng)計量為
(6)

(3)按如下準則進行模型的擬合優(yōu)度校準、驗證和變量的引入判別:①PesudoR2統(tǒng)計量對模型進行擬合優(yōu)度檢驗,R2值較大說明擬合得較好;②log likelihood(LL)對數極大似然函數值是基于極大似然估計得到的統(tǒng)計量,對數似然值用于說明模型的精確性,越大說明模型越精確;③t估計參數的顯著性在5%水平;④Pearson卡方值和自由度的比值在0.8~1.2之間;⑤Akaike’s Information Criteria (AIC)準則,用于評價模型的好壞,一般要求AIC值越小越好.
使用上述技術方案得到分析預測模型.由于建模過程中引入模型擬合優(yōu)度校準、驗證和變量引入判別規(guī)則,使最終獲得的預測模型具有較好的擬合優(yōu)度,從而使模型的預測精度得以提高.
水上交通事故的發(fā)生是多種因素綜合作用的結果,各個影響因素相互關聯(lián),而相關性較大的自變量不能同時加入模型.因此,在建模之前進行一系列描述性的統(tǒng)計和相關分析,最終確定12個相互獨立的變量,見表3.從海事事故數據的特點和海事局事故數據統(tǒng)計的規(guī)律,以及便于獲取、統(tǒng)計和分析的角度,選取傷亡數作為輸出變量,選取影響事故發(fā)生的參數(船舶注冊地、事故類型、事故船舶類型、事故發(fā)生位置和事故發(fā)生時間)作為解釋變量,這5個解釋變量分別有2個、3個、3個、2個和2個風險水平,共72個風險水平,針對以上風險水平運用EViews軟件對數據進行擬合.
首先采用負二項分布形式進行回歸預測,把全部自變量代入模型.回歸結果表明:有些變量在統(tǒng)計模型上是不顯著的,不能拒絕其系數為0的假設;有些變量的回歸系數有悖于常理;同時,發(fā)現(xiàn)因為定性指標過多而出現(xiàn)多重共線性.采取逐步回歸消除多重共線性,分別擬合被解釋變量相對于每個解釋變量的一元回歸,并將各回歸方程的擬合優(yōu)度R2按照大小順序進行排序;然后將R2大的解釋變量加入模型中進行估計,根據模型估計結果進行參數估計值的t檢驗,若t檢驗顯著,則保留,否則剔除該變量,不斷重復該過程直到加入所有顯著的變量.最終保留船舶注冊地a1,2個事故類型變量b1和b3,2個船舶類型變量c2和c3,2個事故水域位置變量d1和d2,事故發(fā)生時間e1,重新建立模型.運用EViews軟件對數據進行擬合,擬合結果見表4.

表3 統(tǒng)計和相關分析變量
EViews軟件擬合結果為:@EXP(-0.271 933 715 6c+1.042 835 302a1-1.079 165 854b1-0.956 563 531 9b3+2.152 955 984c2+2.347 856 323c3+2.619 790 039d1+1.864 938 605d2-0.323 531 493 4e1)其中,@EXP表示返回指數值.
α是負二項分布的回歸參數,用來表示數據的過離散程度,α越大數據越離散(方差大于均值),α為0時,數據服從泊松分布.模型間的優(yōu)劣比選以AIC統(tǒng)計量、log likelihood 為判定標準, 通過比較表4中2種分布模型的回歸指標,可以看出負二項分布形式的預測模型較好.比較兩個模型的擬合情況,表明負二項回歸模型的擬合優(yōu)度好于泊松回歸模型. 事故傷亡數的殘差值、實際值和預測值結果見圖4.
建立基于負二項回歸的事故預測模型,選取傷亡數作為輸出變量,選取影響事故發(fā)生的參數(船舶注冊地、事故類型、事故船舶類型、事故發(fā)生位置等)作為解釋變量,分析發(fā)現(xiàn)事故船舶類型和事故類型對模型的影響顯著.從變量的顯著性看,各個變量都比較顯著,它們對事故受傷人數的影響較大.估計結果顯示在表示船舶注冊地的2個屬性中,1.042 835表示來自國內注冊的船舶對事故發(fā)生產生較大影響,傷亡數更多,這反映國內注冊船舶與國外還注冊船舶存在較大差距;在表示事故類型的3個屬性變量中,船舶發(fā)生碰撞比沉沒情況下傷亡數要少;在表示船型的3個屬性變量中,漁船和駁船上船員人數較多、保障措施比集裝箱船和油船差(模型中未引入,相當于0),發(fā)生的傷亡數明顯大.因為漁船和客船等在白天航行,夜間通航視線較差,船員易出現(xiàn)疲勞等,所以夜間發(fā)生傷亡數比白天多.研究結果與國內外學者的研究成果相一致,對防范我國水上交通事故具有參考意義.

表4 回歸結果比較

圖4 事故傷亡數的殘差值、實際值和預測值
參考文獻:
[1] 鄭小平, 高金吉, 劉夢婷. 事故預測理論與方法[M]. 北京: 清華大學出版社, 2009.
[2] 張玲, 陳國華. 事故調查分析方法與技術述評[J]. 中國安全科學學報, 2009, 19(4): 169-176.
[3] 楊家軒, 史國友, 賈傳熒. 水上交通事故管理系統(tǒng)設計與實現(xiàn)[J]. 中國航海, 2008, 31(4): 375-378.
[4] 黃志. 福建沿海船舶事故的灰色關聯(lián)分析[J]. 上海海事大學學報, 2006, 27(1): 21-25.
[5] 徐國裕, 張運杰, 吳兆麟. 臺灣海峽及附近水域海難事故的灰色關聯(lián)分析[J]. 中國航海, 2007(1): 25-28.
[6] 熊清平, 孫清. 水上交通事故分類與統(tǒng)計方法探討[J]. 天津航海, 2009(2): 39-42.
[7] 何易培, 池方慶, 戴東起. 舟山外海區(qū)涉漁碰撞事故原因分析與對策研究[J]. 中國航海, 2008, 31(4): 400-404.
[8] 牟軍敏, 鄒早建, 齊傳新. 數據挖掘技術在內河交通事故分析和預防中的應用[J]. 中國航海, 2004 (1): 27-29.
[9] 劉正江, 吳兆麟. 基于船舶碰撞事故調查報告的人的因素數據挖掘[J]. 中國航海, 2004(2): 1-6.
[10] 王鳳武, 吳兆麟, 鄭中義. 大風浪海損事故的灰色關聯(lián)分析[J]. 大連海事大學學報, 2003, 29(4): 31-34.
[11] 張欣欣, 軒少永, 席永濤, 胡甚平. 基于 HFACS 的海上交通事故原因系統(tǒng)分析[J]. 上海海事大學學報, 2012, 33(4): 15-19.
[12] 周偉, 吳善剛, 肖英杰, 等. 艙面集裝箱墜海事故再現(xiàn)仿真[J]. 上海海事大學學報, 2011, 32(2): 47-51.
[13] 陳咫宇, 胡甚平, 郝嚴斌. 基于分形理論的水上交通事故預測[J]. 上海海事大學學報, 2009, 30(3): 18-21.
[14] 于衛(wèi)紅, 賈傳熒. 海難事故的數據挖掘[J]. 計算機工程, 2007, 33(11): 34-36.
[15] 鐘連德, 孫小端, 陳永勝. 高速公路事故預測模型[J]. 北京工業(yè)大學學報, 2009, 35(7): 966-971.
[16] 易丹輝. 數據分析與 EViews 應用[M]. 北京: 中國統(tǒng)計出版社, 2012.
[17] 謝建國. 經濟影響、政治分歧與制度摩擦——美國對華貿易反傾銷實證研究[J]. 管理世界, 2006(12): 8-16.
[18] 徐飛. 負二項回歸模型在過離散型索賠次數中的應用研究[J]. 統(tǒng)計教育, 2009(4): 53-55.