聶 陽, 初秀民, 劉興龍
(1.武漢理工大學 智能運輸系統研究中心,武漢 430063;2. 水路公路交通安全控制與裝備教育部工程研究中心,武漢 430063;3. 武漢理工大學 能源與動力工程學院,武漢 430063)
NIE Yang1,2,3, CHU Xiumin1,2, LIU Xinglong1,2,3
內河AIS數據有效性分析方法對比
聶 陽1,2,3, 初秀民1,2, 劉興龍1,2,3
(1.武漢理工大學 智能運輸系統研究中心,武漢 430063;2. 水路公路交通安全控制與裝備教育部工程研究中心,武漢 430063;3. 武漢理工大學 能源與動力工程學院,武漢 430063)
為確定內河AIS數據有效性分析的方法,分析內河AIS數據特性,構建內河AIS數據分析試驗平臺。同時,分別使用曲線擬合法和模糊C均值聚類法對采集的典型河段的內河船舶AIS數據的有效性進行歸類分析,并對測試結果進行對比分析。結果表明:AIS錯誤數據很少時,模糊C均值聚類法和曲線擬合法對AIS數據分類的效果相似;但涉及到海量AIS數據時,曲線擬合法優于模糊C均值聚類法。
水路運輸;船舶自動識別系統;曲線擬合;模糊C均值聚類;錯誤率
NIEYang1,2,3,CHUXiumin1,2,LIUXinglong1,2,3
Abstract: In order to find rational methods for analyzing the validity of AIS information, the characteristics of inland AIS information are analyzed and an inland AIS information analysis experiment platform is constructed. A set of typical AIS information collected from real inland water traffic is grouped on the effectiveness basis by means of curve fitting method and the Fuzzy C-Means (FCM) clustering respectively. The analysis of the results from both processing methods indicates that the two methods give similar results when the rate of wrong AIS information is low, but when the rate is higher, curve fitting method is superior to FCM algorithm.
Keywords: waterway transportation; AIS; curve fitting; fuzzy c-means clustering; error rate
船舶自動識別系統(Automatic Identification System,AIS)數據是監控船舶航行和優化水上交通管理的基礎。AIS由岸基設施和船載設備組成。在當前的港口船舶引航和船舶航行監控系統中,AIS已得到充分應用。AIS信息可顯示在電子江圖上,供使用者直觀地獲取船舶信息,提高船舶航行的監控效率。
由于AIS沒有完整的信息驗證機制,實際應用中大量的錯誤AIS數據需依靠經驗來判斷,工作量極大,因此需找出一種適用于AIS數據有效性分析的方法。關于數據的有效性分析,常用的方法有曲線擬合法、模糊聚類法和一階差分法等。鄭琳等[1]在對海洋監測數據進行質量評估時,運用曲線擬合法判別數據異常值,依據數據分布情況擬合曲線并設定閾值,有效檢驗出極端異常的數據。對基于船舶軌跡的AIS數據的研究,張文娟等[2]提出用一階差分法去噪,實際驗證結果表明該方法是可用且有效的,但沒有實際應用到海量的AIS數據分析中。目前模糊聚類算法的應用已較為廣泛和成熟,其中模糊C均值聚類[3]的應用最為廣泛,但應用于海量數據聚類分析中的較少。
WANG等[4]采用AIS數據在仿真平臺重現船舶碰撞事故,為處理水上交通事故取證。PAN等[5]建立AIS數據可視化模型,用于評估海上交通狀況和智能運輸系統。MULYADI等[6]探討基于AIS數據建立的馬都拉海峽海底管線上方的船舶下沉頻率模型的發展。齊樂等[7]基于AIS數據建立避讓的船舶領域模型,但未探討AIS數據的有效性。對此,開展AIS數據有效性分析方法的研究,分別用曲線擬合法和模糊聚類法分析AIS數據,以確定較優的AIS數據有效性分析方法,為提高AIS數據質量提供理論方法。
1.1數據特性
在分析AIS數據的有效性時,需首先了解AIS數據的特性。AIS是一種廣播式的通信網絡,任何信息的發送都是點對點發生的。AIS 信息包括船舶的動態信息、靜態信息、航行信息及安全信息。[8]
1) 船舶靜態信息包括海上移動業務標識碼(Maritime Mobile Service Identity, MMSI)、船型及船名等。
2) 船舶動態信息包括船位、航速及航向等。
3) 航行信息包括船舶吃水及預到時間等。
4) 安全信息即與船舶航行安全相關的信息。
這里主要對影響航行船舶實時監控的船舶AIS動態數據的有效性進行分析,并以此確定AIS數據的有效性。船舶動態數據的錯誤類型有以下3種:
1) 經緯度不正常。
2) 經緯度在正常值范圍內,但其值顯著區別于船舶軌跡正常經緯度值。
3) 航向角與正常值沒有明顯的區別,但在軌跡中顯示轉向不平滑。
1.2數據采集
根據AIS數據的特性和傳輸方式,分別在武漢白沙洲大橋、長江大橋及天興洲大橋旁邊的躉船的頂部安放AIS數據采集點(見圖1)。AIS數據采集平臺(見圖2)包括數據接收模塊、數據傳輸模塊和供電模塊等3個部分。
1.2.1數據接收模塊
AIS數據接收模塊由AIS核心板、甚高頻(Very High Frequency, VHF)天線和全球定位系統(Global Positioning System, GPS)天線組成。
(1) AIS核心板是一個微型的B級船臺[9],不僅能接收其他船舶和岸基發出的AIS信息,還可向外發送本船臺的AIS信息和GPS信息;
(2) VHF天線和GPS天線分別將接收到的AIS信息及GPS信息傳送到AIS核心板中,AIS核心板對信號進行處理后向外傳輸本船和他船的AIS信息。

圖1 AIS數據采集點分布

圖2 AIS數據采集平臺實圖
1.2.2數據傳輸模塊
AIS數據采集平臺采用網絡傳輸數據。通過RS232轉COM口,從AIS核心板輸出封包好的AIS報文,然后使用3G路由器的DTU(Data Transfer Unit)功能將標準串口通信的傳輸協議轉換成TCP/IP協議,作為客戶端通過公網向服務器端傳輸數據。
1.2.3供電模塊
AIS基站的供電模塊由太陽能供電板、鉛蓄電池和太陽能控制盒構成。供電模塊主要給AIS核心板和DTU供電。服務器端的主機直接由220 V的交流電源供電。
1.2.4數據解析與存儲模塊
在服務器端,通過數據接收程序對接收到的AIS數據進行解析并將其存儲在SQL Server 2008數據庫對應的表中。
2.1曲線擬合法
曲線擬合法是一種通過試驗獲得有限對測試數據來求取近似函數的方法。常用的曲線擬合方法有:直線擬合、二次多項式擬合、三次多項式擬合、半對數擬合回歸、Log-Log擬合回歸、Logit-Log擬合、四參數擬合及三次樣條插值等。
在分析AIS數據時,通過曲線擬合和經驗判斷來確定經緯度、航速和航向角閾值,以此來判別AIS數據的正確性。以100 000條AIS數據為例,錯誤數據占3.19%,曲線擬合判別出的錯誤數據為3 140條,占3.14%,接近實際情況。由此可見,曲線擬合法可用于分析AIS數據。
對于長時間、大樣本的AIS數據,在航道環境和電磁干擾等要素變化不大的武漢航段,可運用曲線擬合的方法進行異常數據的判別。對大量的船舶AIS數據進行曲線擬合,以曲線的邊界點作為控制邊界篩選異常數據。在積累具有一定時間跨度的資料的基礎上,該方法擬合邊界特征曲線得到的曲線方程能對數據進行可靠的判別。
2.2模糊C均值聚類法
模糊C均值聚類(Fuzzy C-Means,FCM)是用隸屬度確定所分析的數據點隸屬于某個聚類的程度的聚類算法。FCM把n個向量xi(i=1,2,…,n)分為c個模糊組,然后求每組的聚類中心,使非相似性指標的價值函數最小。[10]為與引入的模糊劃分相適應,隸屬矩陣U只允許有取值在[0,1]間的元素。加上歸一化規定,一個數據集的隸屬度的和=1,即
?j=1,2,…,n
(1)
由此,FCM的價值函數(或目標函數)為
(2)

構造新的目標函數(見式(3)),可求得使式(2)達到最小值的必要條件。這里λj,j=1,2,…,n,是式(1)的n個約束式的拉格朗日乘子。對所有輸入參量求導,使式(2)達到最小的必要條件見式(4)和式(5)。


(3)
(4)
(5)
由式(4)和式(5)可知,模糊C均值聚類算法是一個簡單的迭代過程。以此處理方式運行時,FCM用下列步驟確定聚類中心ci和隸屬矩陣Uc×n:
1) 用值在[0,1]的隨機數初始化隸屬矩陣Uc×n,使其滿足式(1)中的約束條件。
2) 用式(4)計算c個聚類中心ci,i=1,2,…,c。
3) 根據式(2)計算價值函數。若其值小于某個確定的閾值,或其相對上次價值函數值的改變量小于某個閾值,則算法停止。
4) 用式(5)計算新的Uc×n矩陣,返回步驟2。
在分析海量AIS數據時,計算的復雜度難以避免,因此需首先快速確定聚類中心,提高計算的效率。
試驗分析的數據是經采集處理后存入到SQL Sever 2008數據庫中的船舶AIS數據,包括經緯度、航速和航向角等。
從試驗平臺SQL Server 2008數據庫中取30 000條AIS數據,并將其分為3組,以每組10 000條數據為樣本。分別運用以上2種方法對數據進行分類,對比各組統計出的數據錯誤率,以得到較優的AIS數據有效性分析方法。AIS數據分析流程見圖3。

圖3 AIS數據分析流程
3.1曲線擬合分析
在分析AIS數據時,采用Excel中的多項式擬合功能分別對航速和經緯度數據進行擬合,得到數據曲線方程;然后確定閾值邊界并篩選數據,統計錯誤數據量。
用曲線擬合法檢驗的船舶信息有經緯度和航速,擬合情況見圖4和圖5。航速在0~1 n mile/h的船舶位置未發生明顯變化,因此可視為靜止,即航速視為0,1 n mile/h航速作為航速頻數分布擬合曲線的起始位置。根據經驗判斷,內河船舶航速不可能超過20 kn。

圖4 速度-頻數分布擬合情況

圖5 經緯度分布擬合情況
由圖4可知,速度-頻數分布的擬合曲線方程為
(6)
式(6)表示的曲線所劃定的最大航速為15.7 n mile/h,因此正確的航速數據應在[0,15.7] n mile/h內。
由圖5可知,經緯度擬合的曲線方程為
y=0.612 7x+95.563
(7)
在武漢航段航行的船舶的經緯度需在一定的范圍內。以擬合直線為準,結合航道情況,經計算,數據密集處經緯度應滿足式(8)。
|y-0.6127x-95.563|≤0.015 369
(8)
船舶無論是上行還是下行,航向角信息必須滿足基本的規律,即航向角(C)應在[0,360°]內。結合曲線擬合劃定的航速(V)和經緯度(φ,λ)閾值邊界,可知正確的AIS數據應同時滿足以下條件:

(9)
按式(9)中的條件,運用SPSS軟件統計,可得到各組AIS數據的正確量。統計結果見表1。
3.2模糊C均值聚類分析
模糊聚類分析的目的是將相似的數據歸到一起,這里比較的是4類數據,更具可比性。根據AIS錯誤數據的類型,將每組的船舶數據分為6類處理,一半為錯誤數據,一半為正確數據,即聚類數為6類,6類之外的數據視為錯誤數據。根據模糊C均值算法處理數據的步驟,采用MATLAB程序實現,流程見圖6。

表1 曲線擬合分析結果

圖6 模糊C均值聚類分析流程圖
在算法實現過程中,典型的3類船舶錯誤數據為錯誤數據所屬的類,隸屬度以0.5為界,不屬于任何一類的數據視為異常錯誤數據。3組船舶數據聚類分析結果見表2。

表2 模糊C均值聚類分析結果
3.3計算結果分析
比較2種方法統計出的數據錯誤率可知:在第1組和第2組數據中,2種方法統計出的數據錯誤率相近,可見在錯誤數據所占比例高于5%時,2種方法統計數據的準確度相差不大,即2種方法的有效性相似;在第3組數據中,2種方法統計出的錯誤數據所占比例相差不到1/100,可見在錯誤數據率<5%時,2種方法的統計效果基本相同。
分析AIS數據采集平臺的各個模塊,說明AIS數據的采集和傳輸特點,由此引出AIS數據的特性,總結出AIS數據的3種錯誤類型。運用曲線擬合法和模糊C均值聚類法分析數據的過程及特性,分別對3組AIS數據進行分類分析。結果表明:曲線擬合法和模糊C均值聚類法在分析錯誤較少的海量AIS數據時都是較好的方法;在分析海量的AIS數據時,模糊C均值聚類法計算量增加,效率不及曲線擬合法。對這2種方法的分析結果進行研究,可為提高甄別海量AIS錯誤數據的效率和準確度提供一些參考。
[1] 鄭琳, 劉艷, 崔文林, 等. 海洋監測數據質量評估研究[J]. 海洋通報,2014(2):228-234.
[2] ZHANG Wenjuan, WU Qing, SANG Lingzhi, et al. Denoising Method of Inland AIS Information Based on Vessel Track [C]//Distributed Computing and Applications to Business, Engineering & Science (DCABES). 11th International Symposium on, IEEE, 2012.
[3] 張洪艷. 模糊C均值聚類算法及應用[J]. 科技資訊,2014(5):178-179.
[4] WANG Yang, ZHANG Jinfen, CHEN Xianqiao, et al. A Spatial-Temporal Forensic Analysis for Inland-Water Ship Collisions Using AIS Data[J]. Safety Science,2013,57:187-202.
[5] PAN Jiacai, JIANG Qingshan, HU Jinxing, et al. An AIS Data Visualization Model for Assessing Maritime Traffic Situation and its Applications[J]. Procedia Engineering,2012,29:365-369.
[6] MULYADI Y, KOBAYASHI E, WAKABAYASHI N, et al. Development of Ship Sinking Frequency Model Over Subsea Pipeline for Madura Strait Using AIS Data[J]. WMU Journal of Maritime Affairs,2014,131:43-59.
[7] 齊樂,鄭中義,李國平. 互見中基于AIS數據的船舶領域[J]. 大連海事大學學報,2011(1): 48-50.
[8] 史鍵, AIS系統的構成及信息處理[J]. 中國水運(下半月), 2010(10): 91-92.
[9] 嚴新平, 馬楓, 初秀民, 等. 長江船舶交通流實時采集關鍵技術研究[J]. 中國航海,2010,33(2):40-45.
[10] 文傳軍,汪慶淼,詹永照. 均衡模糊C均值聚類算法[J]. 計算機科學,2014(8):250-253.
MethodsforAnalyzingValidityofInlandAISInformation
(1. Intelligent Transport System Research Center, Wuhan University of Technology, Wuhan 430063, China; 2. Engineering Research Center of Transportation Safety, Ministry of Education, Wuhan 430063, China; 3. Energy and Power Engineering School, Wuhan University of Technology, Wuhan 430063, China)
U666.1;U698
A
2016-01-11
國家自然科學基金(61273234);中央高校基本科研業務費專項資金(2015-ZY-057)
聶 陽(1988—),男,江西宜春人,碩士生,研究方向為水上交通感知與控制。E-mai:847114398@qq.com 初秀民(1969—),男,吉林通化人,研究員,博士,研究方向為交通信息采集與處理技術。E-mai: chuxium@whut.edu.cn
1000-4653(2016)02-0059-04