段俊利
【摘 要】 隨著我國對外經濟貿易的快速發展,航運市場日益繁榮。為維護航運交通秩序,提高港口營運效率,并能夠根據不同船型的航運市場現狀作出相應調整,獲得船舶精準類型就顯得尤為重要。但目前只能通過購買入級船舶文件來獲取船舶類型信息。本文提出一種基于AIS的靜態數據進行船舶識別的算法,利用船長、船寬、左舷距、尾距以及吃水深度及其聯合特征,利用機器學習分類算法,將集裝箱船、散貨船、雜貨船從貨船中識別出來。經過模型選擇、參數調優之后的模型平均準確率為95%。
【關鍵詞】 AIS靜態數據 機器學習 船舶分類
1.引言
隨著我國航運業的快速發展,中國在船舶保有量和港口貨運量方面躋身世界前列。船舶識別成為研究的重點之一。目前大多數船舶類型識別基于圖形識別。蔣少峰等提出基于結構特征的SAR商用船舶分類算法[1],可對散貨船、集裝箱船和漁船進行分類;梁錦雄用BP神經網絡對六類船舶的紅外圖像進行識別[2];趙亮等人利用卷積神經網絡對數字船舶圖像提取特征,然后融合HOG和HSV特征構建船舶圖像特征,再用支持向量機方法對集裝箱船、客船、漁船、軍艦、帆船進行分類[3]。
本文創新性地提出了一種基于AIS靜態數據的船舶分類識別方法,利用AIS靜態數據中船長、船寬、左舷距、尾距、吃水深度以及長寬比、船寬與吃水深度比和船長與尾距比三個聯合特征,利用機器學習分類模型,將集裝箱船、散貨船、雜貨船從貨船中識別出來。
2. AIS靜態數據
2.1AIS靜態數據
本文使用的是AIS靜態數據,靜態數據包括:MMSI(船舶唯一標識符)、time(收到靜態數據包的時間)、shiptype(船舶類型)、length(船長)、width(船寬)、left(左舷距)、trail(尾距)、imo(船舶編號)、name(船名)、callsign(呼號)、draught(吃水)、destination(目的地)、eta(預抵港時間)。
2.2數據獲取與清洗
利用Python語言讀取AIS靜態數據數據庫文件,并將貨船篩選出來。使用AIS靜態數據中Name,IMO、MMSI三個字段與入籍船文件進行匹配,來獲得船舶類型信息。并標記集裝箱船為1,雜貨船為2,散貨船為3,其他船型為4。
3.機器學習分類算法
KNN是通過測量不同特征值之間的距離進行分類。如果一個樣本在特征空間中K個最相似的樣本中大多數屬于某一個類別,則該樣本也屬于這個類別。
支持向量機一般來說是二分類模型,其基本模型是特征空間上的間隔最大的線性分類器,在解決多分類問題時使用“一對一”或者“一對其余”的策略,在解決非線性分類時表現比較好。
決策樹是帶有特殊含義的樹結構,其每個根結點代表數據的特征標簽,根據該特征不同的特征值將數據劃分成幾個子集,每個子集都是這個根結點的子樹,然后對每個子樹遞歸劃分下去,而決策樹的每個葉子結點則是數據的最終類別標簽[4]。
隨機森林屬于集成學習,其基分類器是CART分類樹,集成方法是Bagging。隨機森林將多個基分類器投出最多票數的類別或者類別之一作為最終類別。隨機森林可使用袋外分數來評估泛化能力。
4.實驗分析及結果
本實驗基于2016年8月1日的AIS靜態數據,有效數據為15644條。將整理好的數據進行數據預處理。缺失數據較少,直接將缺失數據剔除,并利用標準差標準化方法對數據進行歸一化處理。
本文利用scikit-learn基于樹的特征提取進行特征選擇,特征選擇后保留的特征為:width、length、trail、trail/length、length/width五個特征。
分別建立KNN、支持向量機、決策樹、邏輯回歸以及隨機森林五種分類模型。進行五折交叉驗證,并使用f1-socre作為評價指標,隨機森林分類效果最好,選擇隨機森林模型。
接下來使用網格搜索法對隨機森林參數進行調優。最終的模型結果如表3.1所示。
5.結語
本文利用機器學習分類算法將集裝箱船、散貨船、雜貨船從貨船中識別出來。所用數據為AIS靜態數據里面的五個原始靜態特征以及聯合特征,經過特征選擇,模型選擇,最終選擇隨機森林算法。實驗結果表明本文算法對貨船的精確分類具有很好的效果。
【參考文獻】
[1] 蔣少峰,王超,吳樊,等.基于結構特征分析的COSMO-SkyMed圖像商用船舶分類算法[J].遙感技術與應用,2014,29(4):607-615.DOI:10.11873/j.issn.1004-0323.2014.4.0607.
[2] 梁錦雄,王刻奇.基于BP神經網絡的船艦目標識別分類[J].艦船科學技術,2015,37(3):206-209.DOI:10.3404/j.issn.1672-7649.2015.03.046.
[3] 趙亮,王曉峰,袁逸濤.基于深度卷積神經網絡的船舶識別方法研究[J].艦船科學技術,2016,38(8):119-123.DOI:10.3404/j.issn.1672-7619.2016.08.025.
[4] 馬景義,吳喜之,謝邦昌.擬自適應分類隨機森林算法[J].數理統計與管理,2010,29(5):805-811.