周丹,鄭中義
(大連海事大學 航海學院,遼寧 大連 116026)
能見度良好時影響船舶領域的因素的重要性分析
周丹,鄭中義
(大連海事大學 航海學院,遼寧 大連 116026)
為了對能見度良好時影響船舶領域因素的重要性進行評價并進行因素約簡,降低船舶領域模型的復雜度,本文選擇主成分回歸算法和基于粗糙集算法對其進行分析。利用主成分回歸算法得到了影響船舶領域的因素的重要度;利用基于粗糙集算法得到了影響船舶領域因素的約簡集與因素重要度。對兩種方法得到的結果進行比較,確定了影響船舶領域因素的重要性。結果表明,船舶大小、船舶類型、船舶速度、會遇角度、密度和駕駛員級別較重要,風、浪、流、能見度的重要度次之,且風、浪、流對船舶領域的影響可以忽略。
影響因素;主成分回歸;船舶領域;粗糙集;重要度
能見度良好時,影響船舶領域的因素眾多,確定船舶領域模型時很難將全部影響因素同時進行考慮。例如Goodwin[1]對水域類型和船舶密度對船舶領域的影響進行了統計,PIETRZYKOWSKI Z等和Hsu都對會遇局面對船舶領域的影響進行了研究[2-3], PIETRZYKOWSKI Z模型中同時對水域參數和船舶大小對船舶領域的影響進行了研究[4],Hansen等對水域類型和水域參數進行了研究[5],范賢華等所建模型中包含了船長、速度、潮流速度[6],王云英對限制性水域的領域進行了研究[7],王寧提出的四維船舶領域模型中船舶領域大小的確定包含影響因素船舶長度和速度[8-9]。王寧給出了船舶領域模型的四維解析框架,包含了船舶領域的全部影響因素,但模型較復雜[10]。基于神經網絡[11-12]方法得到的船舶領域與其影響因素的關系,雖能同時考慮較多的影響因素,但這種方法是一種黑箱的方法。
眾多影響船舶領域的因素給船舶領域的研究帶來了困難,而不同因素對船舶領域影響的大小不同,目前缺乏對影響船舶領域的因素對船舶領域影響重要性的分析。確定不同影響因素的重要度,對其進行約簡,可以簡化建立船舶領域模型的難度與復雜性,且可以保證所建模型的合理性與精確性。
利用主成分回歸分析與基于粗糙集的相關算法對影響船舶領域的因素的重要度進行分析,并對兩種方法得到的結果進行對比確定了對船舶領域影響較重要的因素、重要度較小的因素和可刪掉因素。
1.1 船舶領域
1.1.1 船舶領域樣本的選取
根據藤井和Goodwin對船舶領域的定義,船舶領域為駕駛員為保證航行安全想要保持的船舶之間的最小安全會遇距離,其一種具體體現即為采取避碰措施的船舶與中心船實際通過的最近會遇距離,設為d。其次,假設一密度均勻的船舶交通流在與某船舶會遇并采取避碰措施通過如圖1所示,船舶領域由船舶之間的最小安全會遇距離決定,且在中心船o周圍同一方向RBi上,船o1的轉向幅度必大于o2、o3,o1與中心船通過距離為d處船舶密度增大最多,即為船舶密度最大處,與藤井定義的領域邊界吻合。所以以d作為對船舶領域影響因素進行分析的領域樣本[2]。

圖1 船舶避碰運動Fig.1 Behavior of the ships collision avoidance
1.1.2 船舶領域大小的度量
船舶領域不同方位的邊界到中心船的距離不同,樣本數據中的船舶領域不能進行比較。所以將樣本中,中心船周圍不同方位上的領域大小轉換為相同方位上的領域大小。設船舶領域模型中任意方位β上的領域邊界到中心船的距離為dβ,尾部扇區長為l(中心船到尾部端點的距離),以中心船舶船首方向為0,船尾為180°,左右對稱。參考Goodwin船舶領域模型[1],設船舶領域樣本滿足如下dβ與l的比例關系:
(1)
1.2 影響因素
船舶領域影響因素主要可分為人、船、環境、管理四類。其中管理在所選水域范圍內,存在的差異很小,不予考慮。針對數據來源水域的特點,參考文獻[2],對開闊水域能見度良好時,影響船舶領域的
因素的選取如表1。

表1 影響船舶領域的因素
2.1 數據來源與數據處理
根據渤海及黃海北部水域內的船舶自動識別系統AIS)數據,通過計算,選擇其中2 023起數據為樣本,時間為2014年9月26日到2014年10月13日。氣象數據來自于中央氣象臺的天氣預報,水文數據來自于國家海洋環境預報中心的預報。A1、B1、C1、 C2、C3、C4、 l為常規度量方式,其他影響因素的度量方式如表2,原始數據如表3。

表2 數據度量方式

表3 原始數據
2.2 研究方法的選擇
首先對數據的相關性進行分析,根據數據特征選擇較恰當的研究方法。利用SPSS軟件進行kaiser meyer olkin (KMO)測量和巴利特檢驗得到結果如表4,其中近似卡方值顯著性為 0.000,KMO測量值為 0.653,表明樣本數據之間存在一定的相關性。對樣本數據之間存在相關性的問題,可選擇主成分回歸分析法進行分析。而不同的方法有各自不同的優缺點,為了增加結果的可信度,選擇基于粗糙集的算法對影響因素進行分析,并對兩種方法得到的結果進行對比。由于基于粗糙集算法對數據沒有較特殊的要求,所以兩種算法均適用于研究需要。

表4 KMO和巴利特檢驗結果
主成分分析可以把相關性較強的自變量綜合在同一主成分中,各主成分彼此獨立,應用時選擇其中包含了原數據大部分信息的主成分作為新的變量進行回歸分析,然后把主成份回歸方程轉換為線性回歸方程,得到因變量與原始自變量的回歸系數。根據因變量與原始自變量的回歸系數的大小可以找出影響因素中的重要因素。具體步驟為:
1)數據標準化。
2)計算影響因素數據的協方差矩陣∑。
3)計算∑的征值λi(i=1,2,…,p)和特征向量aij(i,j=1,2,…,p),并按λi(i=1,2,…,p)大小順序排序,計算主成分貢獻率及累計貢獻率,選擇前m個主成分的累計貢獻率大于85%。
4)對前m個主成分與船舶領域做回歸分析。
5)將主成分還原為原變量,得到原變量與船舶領域的回歸方程。
使用SPSS統計軟件IBM SPSS Statistics 22對影響船舶領域的因素觀測數據進行主成分分析,得到主成分的特征根和方差百分比。從表5的計算結果可以看到當提取前6個主成分時,主成分的累積方差貢獻率達到了84.766%,可以近似滿足對累積方差貢獻率的要求,即包含了原數據的大部分信息,所以主成分的提取結果為前6個主成分。對前6個主成分做回歸分析,主成分回歸參數估計如表5。
表5 主成分的貢獻率、累計貢獻率
Table 5 The contribution rates and the cumulative contributionrate of the Principal component

主成分特征根方差百分比/%累積/%F13.15931.58931.589F21.46314.62846.217F31.06110.61456.831F40.9829.81966.650F50.9459.45476.104F60.8668.66284.766F70.6986.97591.741F80.5975.96997.710F90.1981.97799.687F100.0310.313100.000
表6 主成分回歸參數估計
Table 6 Parameter estimation of principal component regression

主成分估計參數標準誤差t顯著性截距2415.08527.61587.4540.000F131.89927.6221.1550.248F2213.64827.6227.7350.000F374.65427.6222.7030.007F440.76627.6221.4760.140F56.57127.6220.2380.812F6-314.41927.622-11.3830.000
表6中只有第2、第3和第6主成分對應的P值小于0.05,其他主成分對應的P值都大于0.05,說明只有第2、第3和第6主成分是顯著的。以第2、第3和第6主成分為自變量,以船舶領域為因變量做回歸分析,得到如式(2)所示的回歸方程:
(2)
將主成分F2,F3與原始變量的關系式代入式(2),得到因變量與影響因素的關系:

-262.842 4,13.194 2,20.957 9,5.019 3,
-19.128 7,50.265 4)(A1,A2,B1,B2,
(3)
式(3)的回歸系數中B3(會遇角度)的系數最大;其次A2(船舶類型)和B2(密度)的系數也很大,二者大小接近;A1(船舶長度)、B1(速度)和D1(駕駛員級別)的系數也較大;C1(風) 、C2(浪)、C3(流)和C4(能見度)的系數較小。
基于粗糙集理論的影響船舶領域的因素對船舶領域影響的重要度分析首先定義其對影響因素的依賴度,然后比較去掉某因素時,船舶領域對其他因素的依賴度與增加該因素時船舶領域對其他因素的依賴度的影響來判斷某因素的重要性并進行屬性約簡。設影響因素集P,船舶領域Q,任一影響因素a,a的重要度及P的約簡過程如下:
1)計算ind(P-a)與ind(Q)
2)計算Q的P正域與Q的P-a正域
posP(Q)=posind(P)(ind(Q))
3)計算船舶領域依賴于影響因素的依賴度
4)因素a重要度為
5)因素約簡若某影響因素子集P′的重要度σPQ(P′)為0,則P-P′為P的Q約簡。
數據的離散化劃分如下:
1)船舶長度:按照船舶長度等間隔劃分,單位:m,1=[0,100),2=[100,200),3=[200,300),4=[300,400]。
2)船舶類型:按照船舶類型的特殊性,1={其他船舶},2={港口作業船和特種船舶},3={貨輪},4={油輪和化學品}。
3)速度:按照船舶速度,以對地航速為5.5kn等間隔劃分,1=[0,5.5),2=[5.5,11),3=[11,16.5) ,4=[16.5,22]。
4)密度:按照水域內不同區域密度的大小,密度相近的劃分為一類,根據對數據的統計可將數據劃分為:1={丹東、錦州、營口及天津與大連之間的密度較小水域},2={黃驊、東營、濰坊附近水域},3={大連、煙臺、威海、龍口附近水域}, 4={天津港附近水域}。
5)會遇角度:會遇角度以本船為對象,左右對稱,船頭方向為0o,船尾為180o。參考會遇局面劃分,1=[0,5),2=[5,54),3=[54,112.5) ,4=[112.5,180]。
6) 風:按照風級數為1級等間隔劃分,1=[4,5),2=[5,6),3=[6,7) ,4=[7,8]。
7)浪:按照浪高為0.6m等間隔劃分,1=[1.2,1.8),2=[1.8,2.4),3=[2.4,3.0) ,4=[3.0,3.6]。
8)流:按照平均流速為1kn等間隔劃分,1=[1,2),2=[2,3),3=[3,4) ,4=[4,5]。
9)能見度:按照能見度等級為2km等間隔劃分,1=[10,12],2=[13,15],3=[16,18] ,4=[19,21]。
10)駕駛員級別:按照駕駛員級別,1={三副},2={二副},3={大副}。
船舶領域大小的劃分為:按照l的大小,m,等間隔劃分。
利用MATLAB編程計算,得到影響因素重要度結果如圖2。圖中只有C1,C2,C3的屬性重要度為0,根據屬性重要度定義和屬性約簡定義可知,利用船舶領域影響因素重要度求相對約減,只需考慮重要度為0的因素,且不必要子集為重要度為0的最大子集。所以求影響船舶領域的因素的約減只需考慮C1,C2,C3。 圖3為包含影響因素C1,C2,C3的可能不必要子集重要度計算結果,其中屬性重要度為0或近似為0且最大的子集分別為{C1}、{C2、C3}所以設影響船舶領域的因素約簡集為R和S:
R={會遇局面、船舶大小、速度、風、駕駛員級別、密度、船舶類型、能見度}
S={會遇局面、船舶大小、速度、浪、流、駕駛員級別、密度、船舶類型、能見度}
約簡集R、S的重要度如圖4、圖5。

圖2 影響船舶領域的因素重要度Fig.2 The importance of the factors of ship domain

圖3 影響因素子集重要度Fig.3 The importance of the factors subset

圖4 約簡集R的影響因素重要度Fig.4 The importance of the factors of reduction set R

圖5 約簡集S的影響因素重要度Fig.5 The importance of the factors of reduction set S
圖2、4、5中同一影響因素重要度的差距很小,說明了約簡掉的影響因素對其他影響因素的重要度影響很小,與屬性約簡的定義吻合。
根據粗糙集的計算結果,重要度最大的為B3(會遇角度),其次是B2(密度)、D1(駕駛員級別)和B1(速度),A1(船舶長度)和A2(船舶類型) 的重要度也較大,C4(能見度)、C1(風)、C2(浪)和C3(流)的重要度較小。
基于粗糙集的影響因素重要度計算結果與主成分回歸分析結果如表7。
表7 主成分回歸與基于粗糙集方法的因素重要度結果的比較
Table 7 Comparison of importance degrees between principal component regression and rough set method

因素重要度及排序(粗糙集)重要度及排序(主成分回歸)A10.149 ⑤107.3939 ④A20.104 ⑥187.5904 ②B10.185 ④-69.8481 ⑤B20.157 ②160.8022 ③B30.239 ①-262.8424 ①C10 ⑩13.1942 ⑨C20 ⑩20.9579 ⑦C30.001 ⑧5.0193 ⑩C40.015 ⑦-19.1287 ⑧D10.165 ③50.2654 ⑥
兩種方法比較得到的結論相同,影響船舶領域的因素中都較大的為B3(會遇角度)、B2(密度)、D1(駕駛員級別)、B1(速度)、A1(船舶長度)和A2(船舶類型),較小的為C1(風)、C2(浪) 、C3(流)和 C4(能見度)。且利用基于粗糙集的算法得到的結果中,風或浪、流被約簡掉,基于主成分回歸分析的算法中風或浪、流的重要度也非常小,兩算法得到的結果也具有一致性。
利用主成分分析理論對能見度良好時影響船舶領域的因素進行篩選的結果與利用粗糙集算法得到的結果大致相同,證明了兩種算法分析的有效性,保證了結論的正確性。對影響船舶領域的因素進行篩選對降低研究船舶領域的復雜性具有重要意義,為研究船舶領域提供新的思路,利于對船舶領域的研究并簡化其在實際中的應用。
[1]GOODWIN E M. A statistical study of ship domains[J]. The journal of navigation, 1975, 28(3): 328-344.
[2]PIETRZYKOWSKI Z, URIASZ J. The ship domain-a criterion of navigational safety assessment in an open sea area[J]. The journal of navigation, 2009, 62(1): 93-108.
[3]HSU H Z. Safety domain measurement for vessels in an overtaking situation[J]. International journal of e-navigation and maritime economy, 2014, 1: 29-38.
[4]PIETRZYKOWSKI Z. Ship’s fuzzy domain-a criterion for navigational safety in narrow fairways[J]. The journal of navigation, 2008, 61(3): 499-514.
[5]HANSEN M G, JENSEN T K. Empirical ship domain based on AIS data[J]. The journal of navigation, 2013, 66(6): 931-940.
[6]范賢華, 張慶年, 周鋒, 等. 水流條件下內河船舶領域模型[J]. 大連海事大學學報, 2013, 39(1): 46-48. FAN Xianhua, ZHANG Qingnian, ZHOU Feng, et al. Model of ship domain in river water[J].Journal of Dalian Maritime University, 2013, 39(1): 46-48.
[7]WANG Yueying, CHIN H C. An empirically-calibrated ship domain as a safety criterion for navigation in confined waters[J]. The journal of navigation, 2016, 69(2): 257-276.
[8]WANG Ning. An intelligent spatial collision risk based on the quaternion ship domain[J]. The journal of navigation, 2010, 63(4): 733-749.
[9]WANG Ning, MENG Xianyao, XU Qingyang, et al. A unified analytical framework for ship domains[J]. The journal of navigation, 2009, 62(4): 643-655.
[10]WANG Ning. A novel analytical framework for dynamic quaternion ship domains[J]. The journal of navigation, 2013, 66(2): 265-281.
[11]WANG Ning, TAN Yue, LIU Shaoman. Ship domain identification using fast and accurate online self-organizing parsimonious fuzzy neural networks[C]//Proceedings of the 30th Chinese Control Conference. Yantai, China: IEEE, 2011: 5271-5276.
[12]ZHU Xiaolin, XU Hanzhen, LIN Junqing. Domain and its model based on neural networks[J]. The journal of navigation, 2001, 54(1): 97-103.
Importance analysis of the effect factors in ship domain of good visibility
ZHOU Dan, ZHENG Zhongyi
(Navigation College, Dalian Maritime University, Dalian 116026, China)
To evaluate the significance of influencing factors in the ship domain and then reduce factors, the complexity of the study of ship domain was reduced. The principal component regression algorithm and the algorithm based on rough sets were selected to perform the analysis. The principal component regression algorithm and the algorithm based on rough sets were used to obtain the significance degrees of the factors of the ship domain. The correlation algorithm based on rough sets was also used to obtain the reduction set. Then, the significance of the factors was obtained by comparing the results of the two methods. Results show that the size, type, speed, encounter angle, density, and the level of the navigators are the most important factors. Wind, wave, flow, and visibility are less important factors, and the effect of wind, waves, and flow can be ignored.
influencing factors; principal component regression; ship domain; rough set; importance degree
2015-09-18.
時間:2016-12-12.
國家自然科學基金項目(51409033).
鄭中義(1964-),男,教授,博士生導師.
鄭中義,E-mail:dlzzyi@sina.com.
10.11990/jheu.201509058
U676.1
A
1006-7043(2017)01-0020-05
周丹,鄭中義. 能見度良好時影響船舶領域的因素的重要性分析[J]. 哈爾濱工程大學學報, 2017, 38(1): 20-24. ZHOU Dan, ZHENG Zhongyi. Importance analysis of the effect factors in ship domain of good visibility[J]. Journal of Harbin Engineering University,2017, 38(1): 20-24.
網絡出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20161212.1631.032.html