石常坡,朱武斌
(連云港引航站, 江蘇 連云港 222042)
近年來,海洋資源開發和國際航運的高速發展給港口交通和管理提出了更高的要求,迫切需要提高海上交通信息智能化管理水平,因此,基于AIS 的數據研究成為智能交通研究領域的研究熱點,AIS 數據研究在數據挖掘、航行安全、船舶行為分析、貿易分析等領域發揮著重要作用。
AIS 數據作為時空數據類型,記錄著船舶軌跡的位置和時間序列,通過AIS 數據挖掘可以識別船舶的航行路線、港口錨泊作業特殊區、港口熱點會遇區和碰撞危險區等,利用AIS 中蘊含的大量海上交通特征信息,采用數據挖掘技術,對船舶軌跡進行聚類分析,構建軌跡聚類模型,采用改進的DBSCAN 算法對大量AIS 數據聚類研究,分析船舶進出港口的航行路徑、不同季節的交通流方向以及不同類型船舶的引航方法,為外籍船舶進出港口、主管部門實施航路規劃和智能交通研究提供數據支撐。
本文研究區域為連云港主港區航道及錨地水域,研究水域從五號錨地至主港區防波堤,全長22 海里,研究區域內水域開闊無遮擋且附近船舶數量眾多,包括工程船、漁船、商船等,船舶數量隨著國家的發展逐年遞增,船舶引航艘次統計如圖1 所示。根據《國內航行船舶船載電子海圖系統和自動識別系統設備規定》:船載 AIS設備將不定時的發送動靜態數據。實驗數據選取連云港航道主航道2019年 6月份的AIS 數據,數據包括船舶識別碼(MMSI),時間(GPS TIME),經度(LONGITUDE),緯度(LATITUDE),速度(SPEED),航向角(COURSE)等信息,如表1 所示,本文研究船舶類型為A 級船臺,研究水域年進出船舶量達6 千多艘次,為連云港繁忙區。本次研究的AIS 信息來源于連云港港口采集的AIS 數據,從 AIS 數據接收服務器提取出研究水域所需的AIS 信息報文文件,運用AIS 數據解碼模塊實現數據解碼,對解碼的數據進行數據預處理,剔除錯誤信息,建立AIS 數據庫并對其數據分析,以使得到的AIS 數據真實反映船舶航行軌跡。
船舶AIS 數據通過船舶AIS 設備發射到岸上AIS 基站、地方海事局,再由相關行業用戶進行下載使用,初始AIS 數據存在異常數據,需要對數據進行預處理,剔除包括航向偏差大、MMSI 位數不對、經緯度不在正常范圍內等錯誤信息,還包括大量冗余數據,如果不預處理會存在影響數據準確性、影響運行速度等問題。AIS數據有22 種不同類型,報文分為明暗碼兩大類,其中暗碼遵照IEC61162 進行解碼,先對報文進行解析。
然后將解碼數據進行預處理,挑選出所需水域AIS信息,包括動、靜態信息,建立數據庫,最后將兩者相同MMSI 的動靜態信息保存到 txt 中,刪除重復數據,最終提取出船舶的UTC、MMSI、經緯度、速度、航向等船舶信息。以連云港港口AIS 數據為例,數據處理顯示為圖2 所示,其中如圖a 紅色航跡為異常數據顯示,圖b 為經過預處理顯示。
船舶軌跡聚類就是利用聚類算法對船舶軌跡進行聚類,找出具有相似船舶運動演化方式的軌跡簇,揭示船舶軌跡內在聯系,目前廣泛應用于船舶研究的算法大致分為基于距離、密度、統計學三種算法,對應上述算法的典型代表包括:Hausdorff 距離( Hausdorff Distance,HD) 算法、DBSCAN 算法、混合高斯模型 (Gaussian Mixture Model,GMM) 的軌跡建模方法、K-Means算法等。
目前,軌跡聚類方法選取主要從以下兩方面進行:
(1) 將整條軌跡作為目標的聚類方法,該方法缺點是軌跡數據量大,時間和空間要求高、軌跡子段丟失等問題;
(2) 將軌跡進行分段劃分,對軌跡子段作為目標的聚類方法,運用該方法 可能無法完全獲取整條軌跡的特征,但能較好地把握軌跡子段的特征,且綜合各子段的特征也能較好地對整條軌跡的特征進行描述。
船舶AIS 信息播發時間間隙根據船舶航向和航速變化率進行,采集到的AIS 信息包含大量不同時間信息的軌跡分段,軌跡劃分不僅需要體現軌跡的特性,又要保證軌跡的準確性和簡潔性,由于連云港航段路程簡單,彎曲路段少并且彎曲幅度小,因此船舶AIS 體現的特征點簡單,通過船舶轉向的航向角閾值與速度變化率閾值就可以進行劃分如圖4。
建立特征點集(a、b、c....),將相鄰航段之間的航向和航速進行計算,航跡間的夾角為,計算公式如下:
式中av、ac分別為速度變化率和航向變化率,為相鄰時間間隔。
根據上式公式再結合航向航速閾值對軌跡進行分類,將符合閾值的特征點進行收集,閾值設定的設定要兼顧計算速率、細節以及聚類效果。在復雜航段航向航速變化較大的水域,簡單的航向閾值和速度閾值不能很好地體現軌跡的原始特征,需要進一步優化特征點的選取,利用智能算法找點全局最優結果,使得數據還原真實軌跡。
船舶軌跡劃分需要利用AIS 數據特征信息進行聚類,如船舶的MMSI、航向、航速以及船位等4 個主要特征信息,提高軌跡的聚類效果和準確的,通過對航向、航速、船位進行距離計算,并進行歸一化處理,本文還將MMSI 作為其他三項度量綜合權重的系數,MMSI 不符合的軌跡分段直接忽略,減少聚類計算復雜度。相似度的度量主要包括軌跡間距度量、航速信息度量、MMSI 綜合權重系數以及最后的綜合度量。根據速度、航向、軌跡距離以及MMSI 綜合權重系數公式,再對相關距離進行歸一化處理,使得不同量綱之間可以進行計算,首先定義相關權重,且滿足權重取值大于等于0,。在對距離進行歸一化處理時采用Z-score 標準法進行,處理過的數據符合正態分布,公式為:
為進一步加強船舶軌跡聚類效果,本文對傳統DBSCAN 算法進行改進,加入AIS 約束條件,提高聚類精度,對基于AIS 改進的DBSCAN 中的領域,密度閾值,船舶航向,航速以及MMSI 進行定義。定義軌跡數據集N 由不超過領域的軌跡組成,且定義核心對象滿足領域內的軌跡數目大于或者等于密度閾值,定義軌跡Li的數據集N(),軌跡點集為D,p 為軌跡點且,軌跡聚類滿足航向、航速以及MMSI 三個條件,具體定義如下:
其中短距離范圍為的地球曲度可以忽略不計,在航向計算過程中需要注意臨界數值的轉換。
船舶AIS 信息為船舶航行安全提供了數據支持,通過對AIS 數據的處理,利用AIS 軌跡聚類模型對有效數據進行聚類,形成有效的航路軌跡,對不同船舶的航行習慣、路徑進行分析,引航員通過大量的AIS 數據分析能直觀有效地指導引航員操縱船舶,避開淺灘或者流急水域,船舶航行的轉向時機、轉向速度、轉頭速率等進行學習,引航員能夠直觀感受船舶的運動態勢,達到提高引航員的引航安全性。