,,,
(1.大連海事大學 航海學院,遼寧 大連 116026;2.舟山海事局 船舶交通管理中心,浙江 舟山 316000;3.交通運輸部 政策研究室,北京 100736)
近年來AIS數據挖掘方法和應用迅速發展。學者們主要基于AIS數據點[3]或軌跡線[4],利用一定的數學模型和信息技術開展相關數據挖掘。數據點方法能充分利用AIS對象的多個屬性開展定制化分析,軌跡線方法在分析船舶航路、航線上取得良好效果。通過挖掘歷史AIS數據可以識別海上錨泊區、作業區、擁擠區等特殊區域[3],識別船舶主要航路[5],分析船舶領域和運動模式[6],研究船舶密度和速度分布[7],評估船舶會遇或碰撞風險[8],推算到港概率或航跡趨勢[9],開展異常檢測[10],設計或審查定線制[11],研究碳排放[12],等。
在海上交通特征分析方面,雖然出現很多研究成果甚至成熟的軟件,但鮮見充分利用AIS數據對象的多種屬性進行約束聚類分析的文獻。本文采用AIS數據點方法,引入航速、航向和海上移動通信業務標識(maritime mobile service identify,MMSI)屬性,改進DBSCAN(density- based spatial clustering of applications with noise)算法,對大量船舶AIS數據進行約束聚類分析,辨識船舶航路,區分不同類型船舶的交通流,并計算平均航向和航速,為主管部門開展航路規劃、實施船舶交通組織提供依據。
AIS是一種船舶導航設備,在航時最快2 s、最慢3 min發送1次,內容包含船舶靜態數據(船名、呼號、MMSI、船舶編號、船舶類型、船長、船寬等)、船舶動態數據(經度、緯度、船艏向、航向、航速等)和船舶航次數據(載貨、吃水、目的地、計劃到達時間等)[13]。AIS的強制配備和廣泛應用,不僅提高了船舶航行安全和效率,而且為挖掘海上船舶交通特征提供了較好的素材。
定義1。基于AIS數據的船舶運動點集為有限序列T={p1,p2,…,pn},第i個船舶運動點pi={timei,mmsii,loni,lati,sogi,cogi}。其中,timei為產生時間,mmsii為所屬船舶的海上移動通信業務標識,loni為經度,lati為緯度,sogi為對地航速,cogi為對地航向。
MMSI由9位數字組成:M1I2D3X4X5X6X7X8X9。其中:M1I2D3為水上識別國家代碼,代表分配給某個國家或地區的水上識別代碼,基本范圍為201~799,中國籍船舶的M1I2D3為412、413或414,其他為國際船舶。X則為0~9中的任意一個數字,由管理機構負責分配[14]。
DBSCAN算法是一種具有噪聲、基于密度的聚類分析算法,可以將數據集分成若干簇,并有效地處理噪聲點,過濾低密度區域。其基本思想是在含有噪聲的數據空間中,通過不斷擴展有足夠高密度的區域來進行聚類,發現任意形狀的高密度點集。由于DBSCAN算法提出較早,聚類效果、時間復雜度和算法復雜度的綜合評價較高,在空間聚類算法領域得到了廣泛的應用。學者們主要從提高聚類效率和效果、增加處理對象屬性維度等兩個方面改進DBSCAN算法。
對于船舶運動點pi,6個屬性均包含著豐富的交通特征信息。考慮到MMSI編碼有一定的規律,沿同一航路行駛的船舶具有近似的速度和航向,本文通過引入MMSI、航速、航向3個屬性值改進DBSCAN聚類算法,即將MMSI滿足指定類別、具有相似的航速和航向的船舶聚類。
定義2。船舶eps鄰域是以特定點為圓心,以eps為半徑的圓內且滿足一定條件的點集,即給定軌跡集D,軌跡點p的鄰域N(p)={q∈D|dist(p,q) 為解析航速相近、航向相似的(特殊)船舶流,改進DBSCAN算法進行AIS數據約束聚類時,約束條件是航速差小于MaxSog,航向差小于MaxCog且同屬于(指定的)船舶類別。改進后的算法(AIS- DBSCAN)偽代碼如下。 輸入:船舶AIS點集合D,航向變化范圍MaxCog,航速變化范圍MaxSog,mmsi類別MC,鄰域半徑eps和最小鄰域點數MinPts; 輸出:簇集,標記每個點的簇名。 AIS- DBSCAN(D,eps,MinPts,MaxCog,MaxSog,MC) clustered=0; 標記所有點為未分類點; for(p∈D) do if(點p為未分類點)then 從p中解析出mmsi; 鄰域為Q=QUERYNEIGHBOR (p, eps, MinPts, MaxCOG, MaxSOG, MC), 總數為np; if(np≥MinPts)then 標記p為核心點,p及Q集合內點label=clusterId; EXPEND(Q, clustered, eps, MinPts); clustered+1; end if else 標記p為噪聲點; end else end if end for EXPEND(Q,clusterId,eps,MinPts) while(Q不為空)do 取出Q集合中的點q, 計算q的鄰域K= QUERYNEIGHBOR (q, eps, MinPts, MaxCOG, MaxSOG, MC), 總數記作nq; If(nq1≥MinPts)then for(k∈K)do If(k是未標記點或者是噪聲點)then 標記點k的label=clusterId; end if if(k是未標記點)then 將k添加到Q集合中; end if end for end if 從Q中移除q; end while QUERYNEIGHBOR (p, eps, MinPts, MaxCOG, MaxSOG, MC) 新建集合Q; for(q∈D) do if (dist(p, q) if(p.mmsi∈MC &&|p.SOG- q.SOG| Q.add(q); end if end if end for return Q; 算法AIS- DBSCAN調用2個函數EXPEND和QUERYNEIGHBOR,和原DBSCAN具有同樣的復雜度O(n2)。 實例選取舟山北部的浙滬交界水域,浙江沿海東航路、中航路、洋山港主航道、小型船舶和漁船習慣航路等在這里交匯,交通流密集,通航狀態復雜。使用一款軟件調取2016年7—12月的船舶流量線,如圖1所示。 圖1 研究區域 東航路流量線最密集,中航路其次,洋山港主航道不明顯。該圖盡管能看出大致的船舶航路,但無法解析船舶AIS點集合的聚類特征,難以計算主要船舶流的航向、航速,無法識別國際船舶等重要船舶交通流。 以圖1中ABCD圍起的四邊形為研究對象,提取2017年1月1—10日的23余萬條船舶AIS數據。對數據進行預處理,去除速度小于0.5 kn、屬性值缺失、MMSI不合規范的點,得到221 695條數據,格式如表1所示。 表1 AIS數據列表 使用JAVA語言編寫并借助WEKA軟件運行以上算法。根據日常經驗,將速度差MaxSog設置為2節,航向差MaxCOG設置為5°。選取不同的MMSI類別,反復調整eps、MinPts參數,得到下述聚類結果。 3.2.1 主要航路聚類 當MMSI不加限制、eps為0.01、MinPts為300時,聚類得到7個簇,可視化結果見圖2,各簇聚類數量和比例、平均航速與航向見表2。 圖2 主要航路聚類 參數簇號0123456數量/個318803582417769130922349118002754比例/%273115112102平均速度/kn9.69.18.19.59.79.112.7平均航向/(°)1812324145281220103 聚類得出了7條船舶密集交通流,其中1條(簇5)目前航路指南中尚未明確。洋山港主航道出口船舶速度明顯較大,說明洋山港主航道船舶多數滿載進港,空載離港。東航路、中航路雙向交通流交織,缺乏定線制規則和必要的交通組織,通航秩序較差。 3.2.2 國際船舶交通流聚類 當MMSI指定為國際船舶(201≤MID<412或415≤MID<799)、eps為0.01、MinPts為400時,聚類得到2個不同的簇,可視化結果見圖3,各簇聚類數量和比例、平均航速與航向見表3。 圖3 國際船舶航路聚類 參數簇號78數量/個70627968比例/%4753平均速度/kN13.910.6平均航向/(°)102283 簇7平均航向181°,平均速度13.9 kn,占47%,為洋山港主航道出口船舶流;簇8平均航向283°,平均速度10.6 kn,占53%,為洋山港主航道進口船舶流。 簇7、簇8在平均航向、速度以及可視化軌跡上都與簇4、簇6類似,說明洋山港主航道進出口以國際船舶為主。進出口船舶交通流分界明顯,通航秩序較好。 3.2.3 漁船交通流聚類 當MMSI指定為漁船(舟山籍漁船MID為900或MMSI=41242XXXX)、eps為0.01、MinPts為400時,聚類得到一個簇,可視化結果見圖4,簇數量和比例、平均航速與航向見表4。 圖4 漁船航路聚類 參數簇號9數量/個2435比例100%平均速度/kn9.1平均航向/(°)221 該簇和簇5在平均速度、航向以及位置都非常相似,可推斷這是一條漁船習慣進出航路。 改進DBSCAN算法,引入航速、航向和MMSI開展約束聚類,并結合實際AIS數據情況調整相關參數,成功識別出國際船舶和漁船航路,計算了簇內平均航速與航向,提取到總體數量少但主管部門監管任務重的特殊船舶的航行特征。所提方法突破了DBSCAN算法僅使用空間密度的局限,增加了多種屬性約束,且可以根據語義需要隨意調整,具有較大的靈活性。實例測試結果與監管經驗相符,說明該方法可行和有效。 本文僅提取AIS動態數據開展研究,如何整合包含船舶類型、尺度等要素的AIS靜態數據開展聚類分析,將是下一步研究方向。 [1] 鄭濱.基于數據挖掘的海上交通流數據特征分析[J].中國航海,2009,32(1):60- 65. [2] 潘家財.數據挖掘在海上交通特征分析中的應用研究[J].中國航海.2010,33(2):60- 64. [3] PALLOTTA G, VESPE M, BRYAN K. Vessel Pattern Knowledge Discovery from AIS Data: A Framework for Anomaly Detection and Route Prediction[J]. Entropy. 2013,15(6):2218- 2245. [4] 肖瀟,邵哲平.基于AIS信息的船舶軌跡聚類模型及應用[J].中國航海,2015,38(2):82- 86. [5] CHEN J, LU F, PENG G. A quantitative approach for delineating principal fairways of ship passages through a strait[J]. Ocean eng. 2015,103:188- 197. [6] 周丹,鄭中義.基于AIS數據的船舶領域影響因素分析[J].上海海事大學學報,2016(2):7- 11+52. [7] 甄榮,邵哲平,潘家財.等基于AIS信息的航道內船舶速度分布統計分析[J].集美大學學報(自然科學版),2014(4):274- 278. [8] 潘家財,姜青山,邵哲平.船舶會遇的時空數據挖掘算法及應用[J].中國航海,2010(4):57- 60+64. [9] 孟范立.利用AIS數據挖掘建立船舶到達規律模型[J].艦船科學技術,2016(10):28- 30. [10] LIU B, DE SOUZA E N, HILIARD C, et al. Ship movement anomaly detection using Specialized distance measures[C]. 2015 18th International Conference on Information Fusion (Fusion), 2015:1113- 1120. [11] BO Liu, STAN Matwin, MARCIN Sydow. Knowledge- based clustering of ship trajectories using density- based approach[C]. IEEE International Conference on Big Data, 2014. [12] YAO X, MOU J, CHEN P, et al. Ship emission inventories in estuary of the Yangtze River using terrestrial AIS data[J]. The international journal on marine navigation and safety of sea transportation. 2016,10(4):633- 640. [13] 劉軼華,肖英杰,關克平.基于AIS海上交通調查的船舶定線制設計[J].南通航運職業技術學院學報,2013(4):37- 41. [14] 胡菠.水上移動業務標識碼資源的管理[J].中國海事,2009(3):50- 53.2.2 基于AIS數據改進DBSCAN算法
3 實例分析
3.1 數據抽取和預處理


3.2 聚類分析






4 結論