王顥程 左毅 李鐵山 王震宇



摘要:為解決內河航道中具有不同運動模式的船舶軌跡識別問題,提出一種基于寬度學習系統(broad learning system, BLS)的船舶軌跡分類算法。對通航區域進行劃分并制定軌跡篩選規則以構建標簽矩陣。利用分段三次Hermite插值法分別從軌跡點記錄時間上等時距和軌跡點空間分布上等間距兩個角度,從原軌跡數據中進行特征點坐標的提取以構建軌跡特征矩陣。將標簽矩陣和軌跡特征矩陣代入BLS以實現分類算法的訓練與測試。以京杭運河淮安段交叉航道AIS數據為實例,進行軌跡分類實驗。結果表明,基于BLS的船舶軌跡分類算法在分類精度和訓練耗時上均優于基于反向傳播神經網絡和支持向量機的軌跡分類算法。
關鍵詞:? 內河運輸; 船舶軌跡; 軌跡分類; 寬度學習系統
中圖分類號:? U675.79
文獻標志碼:? A
收稿日期: 2020-09-25
修回日期: 2020-12-07
基金項目:
國家自然科學基金(51939001,61976033,U1813203,61803064,61751202);中央高校基本科研業務費專項資金(3132019345);遼寧省自然科學基金(2019-ZD-0151,2020-HYLH-26);遼寧省興遼英才計劃(XLYC1807046,XLYC1908018);大連市科技創新基金(2018J11CY022)
作者簡介:
王顥程(1995—),男,遼寧遼陽人,碩士研究生,研究方向為交通信息工程及控制,(E-mail)buttonwxc@sina.com;
左毅(1981—),男,遼寧沈陽人,副教授,博導,博士,研究方向為計算機應用技術,(E-mail)zuo@dlmu.edu.cn;
李鐵山(1968—),男,遼寧錦州人,教授,博導,博士,研究方向為智能船舶控制理論與技術、非線性系統智能控制理論與應用研究,(E-mail)tieshanli@126.com
Classification algorithm of ship trajectory in inland
waterways based on broad learning system
WANG Haochenga,b, ZUO Yia,b, LI Tieshana,b, WANG Zhenyua,b
(
a. Navigation College; b. Maritime Big Data & Artificial Intelligent Application Centre, Dalian Maritime
University, Dalian 116026, Liaoning, China)
Abstract: In order to solve the problem of identifying ship trajectories with different motion patterns in inland waterways, a ship trajectory classification algorithm based on the broad learning system (BLS) is proposed. The navigation area is divided and the trajectory selection rules are formulated to construct the label matrix. The piecewise cubic Hermite interpolation algorithm is used to extract the characteristic point coordinates from the original trajectory data from the perspectives of the equal time interval in the recording time and the equal space interval in the spatial distribution to construct the trajectory characteristic matrices. In order to train and test the classification algorithm, the label matrix and trajectory characteristic matrices are put into the BLS.The AIS trajectory data of the Huaian section of the Beijing-Hangzhou Canal are selected for the trajectory classification experiment. The result shows that the ship trajectory classification algorithm based on the BLS is superior to those based on the back propagation neural network and the support vector machine in classification accuracy and training time.
Key words: inland waterway transport; ship trajectory; trajectory classification; broad learning system
0 引 言
加快內河水運發展已經成為我國國家戰略,建成暢通、高效、平安、綠色的現代化內河水運體系勢在必行。而隨著內河水運的不斷發展,船舶交通量越來越大,通航飽和度逐漸升高,使得內河通航水域海事安全監管面臨更大挑戰[1]。船舶自動識別系統(automatic identification system,AIS)的普及使得航運安全監管的研究擁有了原始數據的支持[2],使得對于船舶異常行為識別、通航量預測、船舶軌跡追蹤等方面的航跡數據分析成為可能[3],而對航跡數據進行分析的重要環節之一即是對船舶軌跡信息的分類。
船舶軌跡分類方法主要包括機器學習算法中無監督學習的聚類算法和有監督學習的分類算法。在無監督學習的聚類算法方面:MA等[4]通過利用軌跡單向距離構建軌跡間相似度矩陣[5],提出一種基于譜聚類的船舶運動模式識別算法。魏照坤[6]利用最小描述長度準則將原始軌跡劃分為若干個子軌跡,通過簡化的Hausdorff距離計算法度量了不同子軌跡段間的相似性,最后利用具有噪聲的基于密度的聚類方法(density-based spatial clustering of applications with noise, DBSCAN)[7]完成了對具有不同運動模式的船舶軌跡的區分。SHENG等[8]在上述方法的基礎上,提出一種利用綜合距離函數計算軌跡結構相似性的DBSCAN,同樣實現了對具有不同運動特征的船舶軌跡的分類。然而,上述基于密度的聚類方法需要設置的閾值較多,且尚不能分析單條完整軌跡的運動特點。在有監督學習的分類算法方面:劉磊等[9]提出一種軌跡間綜合距離計算方法,并結合K近鄰(K-nearest neighbor, KNN)算法完成了船舶軌跡的分類。綜合距離的計算需綜合考慮軌跡點坐標、航向、航速等多種因素,還需要人為設定各因素的權值,且對原始數據的完整性及準確度要求較高。CHEN等[10]將軌跡的原始數據用最小二乘三次樣條曲線近似(least-squares cubic spline curves approximation, LCSCA)表示后構建稀疏表示分類法(sparse representation classification, SRC)的字典矩陣,根據殘差最小化原則完成了軌跡類別的判斷。LCSCA算法解決了分類算法的軌跡點特征矩陣維度統一問題,但各軌跡近似表示后的取點數量會受到算法限制,且在構建SRC的字典矩陣時每類軌跡的數量均需相同。
上述方法在實際操作中往往需要對原始數據進行多方面的信息統計,需要人為設置的閾值較多,對原始數據的完整性要求較高。針對以上問題,本文提出一種基于寬度學習系統(broad learning system,BLS)的內河航道船舶軌跡分類算法。首先,對研究區域進行子區域劃分,從AIS數據庫中篩選出可用的軌跡數據并作標記,以構造標簽矩陣。然后,對軌跡數據進行特征提取。考慮到研究區域的地形、通航規則以及AIS數據上傳頻率對原始軌跡數據的影響,利用分段三次Hermite插值法分別從軌跡點記錄時間上等時距和軌跡點空間分布上等間距這兩個角度對原始軌跡數據進行特征點坐標提取并構建軌跡特征矩陣,供分類模型選擇。為完善軌跡特征矩陣的構建,利用特征點坐標值之差定義并計算各特征點以圓周法表示的航跡向值。最后,切分軌跡特征矩陣及標簽矩陣以構成多組訓練集和測試集樣本并代入BLS網絡進行交叉驗證,完成分類模型的訓練與測試,從而實現對AIS軌跡數據的自動分類。以京杭運河淮安段交叉航道的AIS軌跡數據為例對所提分類算法進行驗證。
1 基于BLS的船舶軌跡分類算法
1.1 軌跡特征矩陣的構建
AIS數據庫中各軌跡的數據長度可能不同,因此不能直接利用原始數據構造軌跡特征矩陣進行分類。考慮到軌跡曲線無法用一條曲線直接表示,利用一種分段多項式插值法從各軌跡上提取相同數量的特征點以統一各軌跡特征向量的維度。常用的分段多項式插值法包括分段線性插值、三次樣條插值和分段三次Hermite插值[11]。分段線性插值簡單易行,但曲線不光滑且精度不高,故不適用于針對船舶軌跡數據的插值。三次樣條插值獲得的曲線光滑度較高,但求解代價較大,精確度受端點導數條件影響,且有時會出現插值越界現象。而分段三次Hermite插值通過構造適當的插值節點導數計算方法可以有效地解決上述問題[12],因此本文采用該插值法。為增加分類模型對于原始軌跡數據的魯棒性,分別從軌跡點記錄時間上等時距和軌跡點空間分布上等間距這兩個角度對軌跡數據進行特征點提取,以構建軌跡特征矩陣。
1.1.1 等時距提取軌跡特征點
等時距提取軌跡特征點時,分段三次Hermite插值法以軌跡點的記錄時間(協調世界時,UTC)為自變量,分別求解軌跡點經度和緯度在各時間段內的插值函數[13]。最后,將該軌跡記錄時間段均分后取得的時間數列分別代入經度和緯度在對應時間段內的插值函數,即可求解該軌跡等時距提取特征點后的各點坐標值。下面以經度的插值為例,介紹分段三次Hermite插值法的具體實現過程。
設某條軌跡的軌跡點坐標向量為
R
=((x1,y1),(x2,y2),…,(xn,yn)),軌跡點記錄時間向量為
T=(t1,t2,…,tn)。其中,xi和yi分別為第i個軌跡點的經度和緯度,ti為第i個軌跡點的記錄時間。記該軌跡上某兩個相鄰軌跡點的記錄時間段為[tj,tj+1],則tj、tj+1、xj、xj+1均為已知量,j=1,2,…,n-1。此外,記tj和tj+1時刻軌跡點的經度對記錄時間的一階導數分別為vxj和vxj+1。根據分段三次Hermite插值,該時間段上的三次插值函數可設為
Xj(t)=ajt3+bjt2+cjt+dj
式中:aj、bj、cj、dj均為未知量。由于該三次多項式一階可導,則有
vXj(t)=dXj(t)dt=3ajt2+2bjt+cj
通過求解線性方程組:
xj=ajt3j+bjt2j+cjtj+dj
xj+1=ajt3j+1+bjt2j+1+cjtj+1+djvxj=3ajt2j+2bjtj+cjvxj+1=3ajt2j+1+2bjtj+1+cj
即可得到待定系數aj、bj、cj、dj的值。然而,由于從原始軌跡數據中無法獲得軌跡點經度對時間的導數vxj、vxj+1,這里使用一種利用經度數據在前后相鄰的軌跡點記錄時間段的一階差商進行加權的方式對導數進行近似計算[12]。
如圖1所示,對于三次插值函數的所有中間節點(xk,tk),k=2,3,…,n-1,記其在前后相鄰兩個軌跡點記錄時間段的一階差商分別為δk、δk+1,則有
δk=xk-xk-1tk-tk-1
δk+1=xk+1-xktk+1-tk
記該節點前后相鄰兩個時間段的權值分別為ωk、ωk+1,則有
ωk=131+tk-tk-1tk+1-tk-1
ωk+1=131+tk+1-tktk+1-tk-1
該節點處的一階導數vxk可近似計算為
vxk=
δkδk+1ωkδk+ωk+1δk+1,δkδk+1>0
0,δkδk+1≤0
由于端點處只能獲得一側時間段的一階差商,上述加權求解的方式不再適用,故特別令端點處的一階導數與其相鄰時間段的一階差商相等,即
vx1=δ2
vxn=δn
經上述計算,該軌跡的經度值在各記錄時間段的插值函數可表示為
X(t)=X1(t),t∈[t1,t2]
X2(t),t∈[t2,t3]
Xn-1(t),t∈[tn-1,tn]
同理可得緯度值在各記錄時間段的插值函數:
Y(t)=Y1(t),t∈[t1,t2]
Y2(t),t∈[t2,t3]
Yn-1(t),t∈[tn-1,tn]
設該軌跡按等時距劃分的分段數為p,則提取的各特征點的時間值可表示為
t′m=t1+(m-1)(tn-t1)/p
式中:m=1,2,…,p+1。該軌跡按等時距提取的特征點坐標向量可表示為:Rt=((X(t′1),Y(t′1)),(X(t′2), Y(t′2)),…,(X(t′p+1),Y(t′p+1)))。圖2為某軌跡數據分段數p分別取10和20時的等時距提取特征點效果圖。從圖2可知,等時距提取該軌跡特征點時,分段三次Hermite插值法能夠較好地描繪出該軌跡的特征。
a)原始軌跡數據
b)p=10
c)p=20
將從所有軌跡數據中提取出的特征點坐標向量按行排列,即可完成軌跡特征矩陣的構建。設共有
M
條軌跡,則等時距構造的軌跡特征矩陣
Xt=
Rt,1
Rt,2
Rt,M=
X(t′1,1)Y(t′1,1)…X(t′p+1,1)Y(t′p+1,1)
X(t′1,2)Y(t′1,2)…X(t′p+1,2)Y(t′p+1,2)
X(t′1,M)Y(t′1,M)…X(t′p+1,M)Y(t′p+1,M)
1.1.2 等間距提取軌跡特征點
與上述分別求解經度和緯度對于時間的插值函數的思路不同,對軌跡等間距提取特征點時,分段三次Hermite插值法以軌跡點的經度為自變量,求解緯度在各軌跡點經度區間內的插值函數。最后,根據曲線長度公式對插值曲線等長分段,各段的端點即該軌跡等間距提取的特征點。具體實現過程如下。
同樣記某軌跡的軌跡點坐標向量為:
R=((x1,y1),(x2,y2),…,(xn,yn))。記該軌跡某兩個相鄰的軌跡點Pj(xj,yj)、Pj+1(xj+1,yj+1)的經度區間為[xj,xj+1],j=1,2,…,n-1。若xj≠xj+1,則記此兩點處緯度對經度的導數為vyj和vyj+1。根據分段三次Hermite插值,該經度區間上的三次插值函數及其導數分別為
Fj(x)=ejx3+fjx2+gjx+hj
vFj(x)=dFj(x)dx=3ejx2+2fjx+gj
通過求解線性方程組:
yj=ejx3j+fjx2j+gjxj+hjyj+1=ejx3j+1+fjx2j+1+gjxj+1+hjvyj=3ejx2j+2fjxj+gjvyj+1=3ejx2j+1+2fjxj+1+gj
即
可得到待定系數ej、fj、gj、hj。若xj=xj+1,插值函數表達式為
x=xj (yj≤y≤yj+1)
經上述計算,各軌跡點間的插值函數可表示為
Fj(x), xj≠xj+1x=xj, xj=xj+1
獲得各軌跡點間的插值函數表達式后,即可根據曲線長度公式計算各段插值函數的曲線長度。如圖3所示,記軌跡點Pj(xj,yj)與Pj+1(xj+1,yj+1)間的插值函數曲線長度為Sj,函數Fj(x)的導函數為F′j(x),則有
Sj=
∫xj+1xj(1+F′2j(x))1/2dx,xj≠xj+1
yj+1-yj,xj=xj+1
設該軌跡按等間距劃分的分段數為p,等間距分段的長度閾值為S′m,則S′m可表示為
S′m=1p(m-1)n-1j=1Sj
式中:m=1,2,…,p+1。從軌跡點P1(x1,y1)開始,沿插值函數曲線計算累計曲線長度l。當l≥S′m時,記錄此處的坐標值(x′m,y′m)作為第m個特征點的坐標,則該軌跡等間距提取的特征點坐標向量可表示為
Rs=((x′1,y′1),(x′2,y′2),…,(x′p+1,y′p+1))。圖4為把第1.1.1節示例軌跡分成段數p(分別取10和20)的等間距提取特征點效果圖。由圖4可知,利用分段三次Hermite插值法能夠在空間分布上等間隔地提取出該軌跡的特征點。
將從所有軌跡數據中提取出的特征點坐標向量按行排列,即可完成軌跡特征矩陣的構建。設共有M條軌跡,則等間距構造的軌跡特征矩陣
Xs=
Rs,1
Rs,2
Rs,M=x′1,1y′1,1…x′p+1,1y′p+1,1x′1,2y′1,2…x′p+1,2y′p+1,2
x′1,My′1,M…x′p+1,My′p+1,M
1.1.3 包含航跡向信息的軌跡特征矩陣構建
為充分利用提取的特征點信息,用特征點坐標值計算各特征點以圓周法表示的航跡向值以完善軌跡特征矩陣的構建。如圖5所示,以等間距提取軌跡特征點為例,當軌跡分段數為p時,記提取的前p個特征點為P′m(x′m,y′m),m=1,2,…,p。定義P′m真北方向與它與下一個特征點P′m+1連線的順時針夾角作為特征點P′m的航跡向dm,其取值范圍為 [0°,360°)。特別地,定義軌跡末端的特征點P′p+1的航跡向與點P′p的航跡向相同,即dp+1=dp。
記包含航跡向信息的特征點坐標向量為
Rsd,則該向量可表示為
Rsd=((x′1,y′1,d1),(x′2,y′2,d2),
…,(x′p+1,y′p+1,dp+1))。設共有M條軌跡,則包含航跡向信息的等間距軌跡特征矩陣
Xsd=
Rsd,1Rsd,2
Rsd,M=
x′1,1y′1,1d1,1…x′p+1,1y′p+1,1dp+1,1x′1,2y′1,2d1,2…x′p+1,2y′p+1,2dp+1,2
x′1,My′1,Md1,M…x′p+1,My′p+1,Mdp+1,M
包含航跡向信息的等時距軌跡特征矩陣
Xtd可同理獲得,
Xtd可表示為
Xtd=
Rtd,1
Rtd,2
Rtd,M=X(t′1,1)Y(t′1,1)d1,1…X(t′p+1,1)Y(t′p+1,1)dp+1,1X(t′1,2)Y(t′1,2)d1,2…X(t′p+1,2)Y(t′p+1,2)dp+1,2
X(t′1,M)Y(t′1,M)d1,M…X(t′p+1,M)Y(t′p+1,M)dp+1,M
1.2 BLS分類算法
BLS是由CHEN等[14]提出的一種基于隨機向量函數鏈接神經網絡(random vector functional - link neural network, RVFLNN)的增量式學習算法。由于BLS的訓練過程無須反復迭代樣本數據且通過嶺回歸求解偽逆的方式計算網絡輸出層權重矩陣,故與傳統的反向傳播神經網絡和深度神經網絡相比,BLS具有結構簡單且建模準確的優勢,并克服了訓練時間長、易陷入局部最優及受參數初始化區域限制等一系列缺陷[15],十分適合訓練數據量大且實時性要求較高的應用場景,如軌跡數據分類。BLS網絡結構如圖6所示,主要包括輸入樣本層、特征映射層、增強節點層和輸出層,每層算法流程闡述如下。
1.2.1 特征映射層
設輸入的訓練數據矩陣為
X∈
RM×N,訓練數據的標簽矩陣為
Y∈
RM×C。通過n個特征映射函數i()將X映射為n組特征映射節點,設每組由k個節點組成,第i組特征映射節點
Zi可表示為
Zi=i(
XWei+
βei)
式中:
Wei∈
RN×k為隨機生成并通過稀疏自編碼器確定的最優特征映射權重矩陣,βei為其對應的偏置矩陣。在實際應用時,映射函數i()往往直接選擇為線性映射函數。
1.2.2 增強節點層
將特征映射層獲得的n組特征映射節點
Zi表示為
Zin=(
Z1,
Z2,…,
Zn),
Zin∈
RM×nk,并將
Zin與增強節點層相連,通過非線性函數
ξj()將
Zin映射為m組增強節點,設每組由q個節點組成,則第j組增強節點
Hj可表示為
Hj=
ξj(
Zin
Whj+
βhj)
式中:
Whj∈
Rnk×q為隨機生成的增強節點權重矩陣,
βhj為其對應的偏置矩陣。增強節點的激活函數
ξj()可以選擇為不同的非線性激活函數,如tansig函數、sigmoid函數、tanh函數等,從而達到充分提取輸入數據特征信息的目的。不失一般性,第i個隨機映射函數i()和第j個隨機映射函數ξj()的下標在下文中予以省略。
1.2.3 輸出層權重矩陣W的求解
將增強節點層的m組增強節點
Hj表示為
Hjm=(
H1,
H2,…,
Hm),
Hjm∈
RM×mq,并將特征映射節點組
Zin與增強節點組
Hjm合并表示為
A=(
Zin|
Hjm)
則BLS的輸出結果可表示為
Y=
(
Z1,…,
Zn|ξ(
Zin
Wh1+
βh1),…,ξ(
Zin
Whm+
βhm))
W=(
Z1,…,
Zn|
H1,…,
Hm)
W=
(
Zin|
Hjm)
W=
AW
其中,
W為輸出層的連接權值矩陣,則有
W=
A+
Y
其中,
A+為矩陣
A的偽逆矩陣。BLS通過求解
A+的嶺回歸近似解來對
A+進行計算,從而求得連接權值矩陣
W,完成模型訓練,即
A+=limλ→0(λ
I+
AT
A)-1
AT
設輸入的測試數據矩陣為
X′∈
RM′×N,經特征映射層和增強節點層處理后的輸入矩陣記為
A′,訓練后的BLS可根據式
Y′=
A′
W直接求出輸出矩陣
Y′∈
RM′×C。
1.3 BLS軌跡分類模型的構造
利用BLS進行軌跡分類的重點在于軌跡
特征矩陣的構建。設每條軌跡的分段數為p,經等間距或等時距提取特征點后所構建的軌跡特征矩陣記為
X∈
RM×N(
X=
Xt,
Xs,
Xtd,
Xsd),軌跡特征矩陣的標簽矩陣記為
Y∈
RM×C。其中,M為所有軌跡數據的條數,C為軌跡類別個數。
對軌跡特征矩陣及其標簽矩陣進行劃分,記訓練集輸入矩陣為
Xtrain∈
RM1×N,標簽矩陣為
Ytrain∈
RM1×C;記測試集輸入矩陣為
Xtest∈
RM2×N,標簽矩陣為
Ytest∈
RM2×C,M=M1+M2。記BLS訓練后的輸出層權重矩陣為
W,測試集經特征映射層和增強節點層處理后的輸入矩陣設為
Aout,則根據
Yout=
Aout
W可直接求得網絡的輸出矩陣
Yout∈
RM2×C。輸出矩陣
Yout每行的C個輸出值即為BLS求出的各條軌跡分別屬于C個類別的概率,各行最大值所在位置索引即為各條測試軌跡所被判斷的類別,與測試集標簽矩陣
Ytest對比后即可得出測試集準確率。算法流程見圖7。
2 實驗及結果分析
以京杭運河淮安段交叉航道2018年6月至11月AIS數據進行軌跡分類實驗。如圖8所示,研究范圍為33.38°N~33.53°N,119.05°E~119.22°E的矩形區域。所有在航船舶軌跡點的空間分布情況見圖9。
首先,對研究區域進行子區域劃分,從AIS數據庫中提取出可用的軌跡數據并構建標簽矩陣
Y。然后,為選出最優的分類模型,利用分段三次Hermite插值法分別從軌跡點記錄時間上等時距和軌跡點空間分布上等間距這兩個角度對原始軌跡數據進行特征點提取,構建軌跡特征矩陣
Xt、
Xs及其對應包含特征點航跡向信息的軌跡特征矩陣
Xtd、
Xsd。同時,為驗證基于分段三次Hermite插值的軌跡特征提取算法的有效性,利用LCSCA算法進行軌跡特征提取,其所構建的軌跡特征矩陣分別記為
Xl和
Xld。最后,將軌跡特征矩陣和標簽矩陣
代入BLS進行模型的訓練與測試,并與反向傳播神經網絡(BPNN)和支持向量機(SVM)等目前常用的機器學習分類模型進行對比實驗。經過參數優化,根據交叉驗證所得的測試集平均準確率和耗時結果,選出最優的軌跡分類模型。實驗流程見圖10。
2.1 AIS數據預處理
為從AIS數據庫中篩選出有效的軌跡數據,首先對實驗區域進行子區域劃分。如圖11所示,研究區域被劃分為A、B、C、D、E、F等6個子區域。其中,子區域A、B、C限定了各類別軌跡的起止范圍,子區域D、E、F則使得屬于各類別軌跡的船舶在一個航次內盡可能僅經過航道交叉處一次。
根據軌跡點的分布情況,將所有軌跡分為6類,分別為1號(B→A)、2號(C→A)、3號(A→B)、4號(C→B)、5號(A→C)和6號(B→C)軌跡。然后,根據劃分的子區域制定軌跡篩選規則。例如:將屬于某一MMSI的軌跡點數據按記錄時間早晚逐行排列,若其中存在位于子區域B的軌跡點P1(x1,y1),并且在之后的24 h內存在位于子區域A的軌跡點且在此期間無軌跡點位于子區域D,則從P1開始逐行標記軌跡數據為“1”;若軌跡點Pn+1(xn+1,yn+1)不在子區域A內或雖在子區域A內但航向與軌跡點Pn(xn,yn)的相差超過90°,則停止標記。經上述規則篩選后,提取出的1號類別軌跡的軌跡點坐標向量R=((x1,y1),(x2,y2),…,(xn,yn))。經過篩選,共提取出1 007條軌跡的軌跡點坐標向量。依據類別標簽構建該數據集的軌跡標簽矩陣Y,其結構可表示為
Y=001000000010100000
式中,各行內數字“1”所在的位置索引(1~6)即為數據集中各條軌跡所屬類別。各類別軌跡數量分布見表1,各類別軌跡的軌跡點空間分布見圖12。
2.2 軌跡分類實驗
2.2.1 實驗數據集劃分
為充分利用實驗數據并盡可能避免過擬合現象,將所有軌跡特征矩陣和標簽矩陣按行以相同順序隨機排列后,無重復地劃分為4組(第一組251條,第二組252條,第三組252條,第四組252條)進行交叉驗證實驗。即每種軌跡特征矩陣和標簽矩陣以其中1組的數據作為測試集輸入矩陣,其余3組作為訓練集輸入矩陣,共進行4組實驗并統計各組分類結果的平均值。
2.2.2 軌跡分段數的確定
構造軌跡特征矩陣前應確定所提取軌跡特征向量的維度,即確定軌跡分段數p的取值。首先,對BLS、SVM、BPNN等3種分類模型的部分關鍵參數進行初始化。對于BLS,特征映射節點組數設為6,特征映射節點層每組節點數設為5,增強節點組數設為10,增強節點層每組節點數設為10;對于SVM,懲罰系數C設為1.0,核函數設為RBF函數,核函數gamma值設為0.007,訓練周期設為100;對于BPNN,網絡結構設為包含5個節點的單隱層網絡,激活函數設為ReLU函數,學習率設為0.002,訓練周期設為100。然后,統計
Xl、
Xt、
Xs、
Xld、
Xtd、
Xsd這6種軌跡特征矩陣在取不同軌跡分段數p(取值范圍為2~30;受LCSCA算法本身限制[10],
Xl和
Xld中p的最小值為5)進行構造時,各分類模型交叉驗證后所得測試集的平均準確率。最后根據統計結果,選擇在模型測試集平均準確率最高的基礎上數值最小的p值作為該軌跡分類模型的軌跡分段數。統計結果見圖13和表2。
不同軌跡分段數對應的分類模型測試集平均準確率
2.2.3 實驗結果比較
完成各分類模型軌跡分段數的確定后,即可將
Xl、
Xt、
Xs、
Xld、
Xtd、
Xsd等6種軌跡特征矩陣分別代入BLS、SVM、BPNN等分類模型中進行模型訓練和預測。對各分類模型通過網格化尋優進行調參,選取交叉驗證后各分類模型測試集平均準確率最高的實驗結果進行記錄,結果見表3。
從表3可以看出,相比于SVM和BPNN,BLS在基于6種軌跡特征矩陣的分類實驗中均有更高的測試集平均準確率和更少的訓練時間。利用分段三次Hermite插值法構建的軌跡特征矩陣
Xt、
Xs、
Xtd和Xsd在各分類模型上表現均優于利用LCSCA算法構建的軌跡特征矩陣Xl和Xld。對于加入了特征點航跡向信息的軌跡特征矩陣Xtd、Xsd相比于未加入該信息的軌跡特征矩陣Xt、Xs,各分類模型的測試集平均準確率有了提升,其中以BPNN的提升效果最為顯著。綜合表2和3的實驗結果可知,當軌跡分段數p=5,等間距構造包含特征點航跡向信息的軌跡特征矩陣Xsd且使用BLS進行分類時,實驗取得了最好的分類效果(訓練集平均準確率為99.50%,測試集平均準確率為98.91%),此時的軌跡分類模型即為最優模型。
2.2.4 最優軌跡分類模型結果分析
為具體評價最優軌跡分類模型在各類別軌跡上
的表現,以精確率(P)、召回率(R)和綜合評價指標(F)來統計其在各類軌跡上的分類結果。精確率定義如下:
P=TpTp+Fp
式中:Tp為被模型判斷為正的正樣本數;Fp為被模型判斷為正的負樣本數。召回率定義如下:
R=TpTp+Fn
式中:Fn為被模型判斷為負的正樣本數。綜合評價指標可用來綜合度量精確率和召回率,其定義如下:
F=2PRP+R
當F值較高時,說明該模型在此類軌跡的分類上較為有效。
最優軌跡分類模型在測試集各類軌跡上的分類結果統計見表4。另外,為觀察各組實驗中該模型在各類軌跡上取得的F值的分布情況,制作各組實驗F值結果的誤差棒圖(見圖14)。其中,各誤差棒的上下端橫線和節點分別代表4組實驗中該模型在各類軌跡上取得的最大、最小和平均F值。
由表4和圖14可知,該最優軌跡分類模型對各類軌跡測試集的分類結果平均F值均在96以上,而其1號及3號類別軌跡的F值下限與其余4類軌跡的相比較低,但仍高于90,說明該模型能夠對實驗軌跡數據進行有效的分類。
3 結 論
對船舶軌跡進行分類是AIS數據分析的重要環節之一,其可對船舶異常行為識別、通航量預測、船舶軌跡追蹤等提供技術上的支撐。由于手動標記并分類海量軌跡數據的工作量十分巨大,且AIS軌跡記錄可能會因傳輸條件或人的因素而產生數據丟失或內容不完整的情況,所以十分有必要對有限的軌跡數據進行自動分類。本文提出一種基于寬度學習系統(BLS)的內河航道船舶軌跡分類算法,該算法可根據具體實驗數據和實驗區域的選擇,利用分段三次Hermite插值法從等時距或等間距兩種角度提取特征點以構造軌跡特征矩陣,將軌跡特征矩陣代入訓練好的BLS即可完成對船舶軌跡的自動分類。為充分利用特征點位置信息,本文還提出一種基于特征點坐標值之差的特征點航跡向計算方法,以完善軌跡特征矩陣的構建。為驗證算法的有效性,本文使用京杭運河淮安段的AIS數據作為實驗數據進行了軌跡分類實驗。結果表明,基于BLS的軌跡分類模型在測試集上的平均準確率最高可達98.91%,其在分類精度和訓練耗時上均優于反向傳播神經網絡(BPNN)和支持向量機(SVM)等常用的軌跡分類模型。如何利用AIS數據對內河交叉航道內的船舶進行實時軌跡類別預測將是下一步的研究方向。
參考文獻:
[1]
楊小軍, 肖英杰, 馮宏祥. 航道關鍵段動態通航飽和度模型及其應用[J]. 上海海事大學學報, 2012, 33(1): 37-40. DOI: 10.3969/j.issn.1672-9498.2012.01.008.
[2]朱姣, 劉敬賢, 陳笑, 等. 基于軌跡的內河船舶行為模式挖掘[J]. 交通信息與安全, 2017, 35(3): 107-116, 132. DOI: 10.3963/j.issn.1674-4861.2017.03.014.
[3]朱飛祥, 張英俊, 高宗江. 基于數據挖掘的船舶行為研究[J]. 中國航海, 2012, 35(2): 50-54.
[4]MA Wenyao, WU Zhaolin, YANG Jiaxuan, et al. Vessel motion pattern recognition based on one-way distance and spectral clustering algorithm[C]//International Conference on Algorithms & Architectures for Parallel Processing. Springer, 2014: 461-469.
[5]LIN Bin, SU Jianwen. One way distance: for shape based similarity search of moving object trajectories[J]. Geoinformatica, 2008, 12(2): 117-142. DOI: 10.1007/s10 707-007-0027-y.
[6]魏照坤. 基于AIS的船舶軌跡聚類與應用[D]. 大連: 大連海事大學, 2015.
[7]肖瀟, 邵哲平, 潘家財. 基于AIS信息的船舶軌跡聚類模型及應用[J]. 中國航海, 2015, 38(2): 82-86.
[8]SHENG Pan, YIN Jingbo. Extracting shipping route patterns by trajectory clustering model based on automatic identification system data[J]. Sustainability, 2018, 10: 2327-2339. DOI: 10.3390/su100 72327.
[9]劉磊, 初秀民, 蔣仲廉, 等. 基于KNN的船舶軌跡分類算法[J]. 大連海事大學學報, 2018, 44(3): 15-21. DOI: 10.16411/j.cnki.issn1006-7736.2018.03.003.
[10]CHEN Zhijun, XUE Jie, WU Chaozhong, et al. Classification of vessel motion pattern in inland waterways based on automatic identification system[J]. Ocean Engineering, 2018, 161: 69-76. DOI: 10.1016/j.oceaneng.2018.04.072.
[11]陳志軍, 吳超仲, 呂能超, 等. 基于改進三次Hermite插值的車輛時空軌跡重構研究[J]. 交通信息與安全, 2013, 31(6): 43-46. DOI: 10.3963/j.issn.1674-4861.2013.06.009.
[12]張旭臣.分段三次Hermite插值在水文上的應用[J]. 南水北調與水利科技, 2009, 7(5): 92-94. DOI: 10.3969/j.issn.1672-1683.2009.05.026.
[13]LIU Lei, LIU Xinglong, CHU Xiumin, et al. Coverage effectiveness analysis of AIS base station: a case study in Yangtze River[C]//International Conference on Transportation Information and Safety. IEEE, 2017: 178-183.
[14]CHEN C L P, LIU Zhulin. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE Transactions on Neural Networks & Learning Systems, 2018, 29(1): 10-24. DOI: 10.1109/TNNLS.2017.2716952.
[15]賈晨, 劉華平, 續欣瑩, 等. 基于寬度學習方法的多模態信息融合[J]. 智能系統學報, 2019, 14(1): 150-157. DOI: 10.11992/tis.201803022.
(編輯 賈裙平)