李少君,劉曉東,2
(1.武漢郵電科學研究院,湖北武漢 430070;2.武漢虹旭信息技術有限責任公司,湖北武漢 430070)
隨著大數據時代的來臨,數據呈指數趨勢爆炸式增長,同時全球對數據傳輸的需求日益增加。由于船舶在海上行駛時,雷達、AIS 獲取數據后,再通過數據融合處理,數據質量在經過多次處理后雖然有所提升,但是有一些失真,在這種情況下,由船舶后臺獲取的數據中,無法分辨出目標的具體屬性,現有的作法是利用規則對數據進行分類,但是這種方法對數據的質量和容量有一定要求。同時,由于數據的來源不同,規則在一定程度上有局限性,在實時數據量過大時,也無法滿足結果的實時性,所以,在利用規則的同時,對數據進行打標簽分類,再建立并訓練神經網絡模型,利用訓練好的模型對數據進行處理,可以在滿足一定實時性的同時,保證數據的準確性。
隨著雷達等設備在海上布置的完善,船舶領域中船只的AIS 數據、雷達數據、北斗衛星數據也迅速增長,傳統的數據存儲平臺已經不能支撐如此級別的數據量以及并發計算量,同時海洋的大部分業務都對數據處理的實時性有一定的要求,所以選擇使用大數據平臺對數據進行存儲和處理,大數據平臺不光可以對大規模的數據進行存儲及高效的計算,還可以在信息密度低的數據中挖掘出有用的信息并保證計算的實時性[1-2],可以滿足海洋業務的絕大部分需求。
該研究的大數據平臺架構如圖1 所示。

圖1 大數據平臺架構圖
從圖1 中不難看出,數據的流動根據每層結構的功能不同進行了劃分,其中HDFS 和Hive 儲存目標點的歷史原始數據,對于海上雜散目標的判斷,既要將歷史數據作為訓練模型的輸入,又要在離線判斷時把歷史數據作為標簽數據的來源,而對于后續的雜散目標進行在線判斷時,需要在實時流中截取數據,總的來說,大數據平臺豐富了數據來源的多樣性、多路徑的同時,也滿足了實驗對數據容量的要求。
對已收集到的AIS 數據[3]、雷達數據、北斗衛星數據進行數據融合。多雷達數據融合[4]的基本原理是用整個雷達網的雷達探測信息跟蹤目標,用目標狀態(位置、速度、航向)估計平滑目標的位置、速度、航向,在目標航跡的準確性、連續性、光滑性方面提高情報的質量。從技術上看,它主要解決時空統一、校正系統誤差、雷達航跡跟蹤和關聯、目標狀態估計和自適應處理等幾類問題。將融合后的數據進行刪選,對AIS 正常船航行的軌跡記錄按時間進行截取,截取后的單軌跡時間不超過300 s。分別對處理后的來自于AIS 的數據和雷達數據進行特征處理,從而篩選擬合測試數據以及速度過小的數據。
將篩選出來的數據進行標簽標記[5-6],將由AIS獲取的數據標為0。
數據標定分為兩類,一類根據條件限定標定為1,另一類則標定為0,目的是將樣本區分為正樣本和負樣本。利用針對雜散目標的定義設定的規則作為區別正負樣本的標準,在區別的過程中,根據數據的差異性,也可以及時發現事先未考慮到的情況,例如在選取目標點某一時間段在福建省區域的數據時可以發現以下幾種情況:
1)在某一時刻,目標點的軌跡從右上區域瞬移到了左下區域,分析其原因,可能是在處理從雷達獲取的數據時,將兩個不同的目標識別成一個目標,導致了目標的瞬移現象。為了避免這種情況,需要在完善規則的同時,加上對異常數據的處理,異常的數據包括在多雷達目標融合時未融合上的數據和融合錯誤的數據。
2)有時某一目標以一個相對平滑的軌跡完成了一個往返,但是在該軌跡上,目標點的速度變化異常明顯(速度在1 節和8 節之間不斷變化),且變化速率明顯超過了當下船舶的極限,運動的軌跡流向也不符合日常船舶行駛的規律,可以判斷,在該時刻下,該目標是離散目標的可能性很大。
3)對于有些跳動性大的軌跡,其對應目標點速度變化率很大的同時,其航向也不斷改變,這種跳動性過大的情況也符合雜散目標的定義。
4)有的數據顯示,目標在某一時刻以平穩的速率瞬移到3 海里外的地點。考慮到雷達數據的目標融合問題,可知這是一個典型的融合錯誤導致的軌跡異常,也需要對規則作進一步完善,還原數據的真實性及合理性,從而提高實驗的準確率,因為雜散目標識別的目的在于保障準確性。
雜散目標訓練集數據獲取及處理步驟如下所示:
1)在大數據平臺中獲取數據。
2)對AIS 的軌跡記錄按時間進行篩選,篩選的規則有:
①軌跡存在的時間不超過300 s。
②整條軌跡轉向角的幅度不超過100°。
③整條軌跡中,目標點加速度變換率不超過0.5 m/s3。
3)分別對篩選處理后的數據進行特征處理。
4)利用部分規則對處理的數據打標簽。
5)將打好標簽的數據作為正樣本、負樣本進行輸入。
2.1.1 設定雜散目標規則
在獲取的數據中,部分數據存在明顯異常,將異常的數據提取進行分析,可以看出,數據異常主要有以下幾個原因:
1)數據采集的過程中數據丟失,導致數據為空。
2)在做多雷達數據融合時,數據未融合,導致數據類型無法對應,即將同一艘船的軌跡分成了兩艘或多艘。
3)數據中存在預測數據,為了對船舶航行進行預警,融入Hive 中的數據保留了對船舶進行保速保向的預測數據。
為使檢測效果最優,經過多次篩選,將異常數據過濾掉。
2.1.2 數據分桶解決間隔
對于從AIS 提取的數據,其時間戳間隔并不是固定的,即在相同時間范圍內,數據點個數并不固定,但是在使用模型進行訓練時,數據的維度必須相同,針對這種情況,使用數據分桶的策略,具體步驟如下:
1)計算每個數據的時間戳與第一個數據時間戳的差值。
2)選取適合的時間間隔作為哈希桶的周期。
3)將每個數據點的時間戳差值除以周期,取其整數部分作為桶號。
4)求得每個桶內數據的平均值作為輸出。
5)得到時間間隔為周期的數據。
當每個數據桶的時間周期設定偏小時,會存在部分數據桶中沒有數據;若時間周期設定過大,則輸出數據量較小,并且可能會損失信息。通過觀察輸入數據的時間間隔,最終選擇30 s 作為時間周期。
2.1.3 特征處理
由于原始的速度、航向、經緯度數據無法利用規則篩選掉固定目標、漂浮物等,因此在對離散目標進行判斷時,主要考慮雷達雜波(非正常回波、雷達回波噪音)以及海浪等非正常目標,一般認為出現時間短于300 s、速度以及移動形式不規律的目標很大可能屬于雜散目標。雜散目標識別任務主要是對對象數據進行預處理以及特征抽取,進而通過模型判定是否屬于雜散目標。所以需要將原始特征進行轉換,具體需要的特征如下:
根據經緯度的變化計算出經緯度變化量的均值、方差;根據船艏向的變化計算出轉向角的均值;根據單位時間內的速度變化率計算出加速度的均值;針對目標點的長度計算出長度的均值和方差;根據原數據中速度大小計算出速度的均值和方差,共10 個特征。
2.1.4 篩選擬合測試數據
由于獲取到的源數據中存在速度不變、人工添加的數據以及速度過小、可能停泊的數據,為了保證數據不失真以及結果的準確性,要在對決策樹進行訓練前將該類型的數據識別出來,具體的做法也是對處理后的特征進行判斷,將速度過小或者明顯為人工添加的數據進行清洗[7-8]。
雜散目標識別算法[9]的結果是離散與非離散兩種情況。將預處理后的數據輸入到決策樹算法后擬合出相應的模型,再使用交叉驗證[10]、學習曲線等相關評估方法對模型進行評估[11]。
2.2.1 決策樹
一棵決策樹包含一個根結點、若干個內部結點和若干個葉結點。葉結點對應于決策結果,其他每個結點則對應于一個屬性測試;每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中[12];根結點包含樣本全集,從根結點到每個葉子結點的路徑對應了一個判定測試序列[13]。樹結構圖如圖2所示。

圖2 樹結構圖
2.2.2 數據輸入
在大數據平臺上拉取部分數據到本地進行測試,為避免模型過擬合,選取的數據在處理后也應具有隨機性和完整性,所以在選取數據時,應對數據進行篩選,以避免數據在目標融合中未被識別或識別錯誤的情況。對目標點的10 個特征對應的值也要進行一定清洗和篩選,去掉異常值及空值。特征字段表格如圖3 所示。

圖3 特征字段表格
學習曲線[14]是將訓練集準確率和交叉驗證集準確率作為訓練集實例數量的函數曲線,使用學習曲線可以判斷一個學習算法是否存在偏差。隨著樣本數量的增加,當訓練集準確率和交叉驗證準確率低于期望準確率,且兩者的準確率幾乎相等時,模型存在高偏差情況,即模型處于欠擬合狀態,此時增加數據樣本并不會優化算法,需要增加特征來優化模型;當交叉驗證集的準確率與訓練集的準確率存在很大的差距時,模型存在高方差問題,此使模型處于過擬合狀態,需要增加數據樣本或者減少特征數目來解決。
在經過優化的模型中加入樸素貝葉斯與決策樹混合分類方法[15],選取不同時間段的數據作為輸入后,將實驗結果進行分組對比,其中第一組數據使用AIS 的非雜散目標作為輸入,第二組在第一組的基礎上加上了獲取數據時出現的時間(time)和出現的次數(count),第三組中FalseStray 是在雜散數據中被標記為非雜散的數據再加上數據來源為AIS 的一類非雜散目標數據,第四組則將以上三組中用到的數據相加。將數據分為多組進行對照,可以用不同來源的數據對模型進行驗證,同時也將目標點出現的時間以及次數特征作為輸入進行測試,以達到模型優化的目的。模型正確率結果如圖4 所示。從圖中可以看出,正確率總體上符合預期,新加入的兩個特征對模型提升效果不明顯,對雜散目標的判斷正確率在90%以上,滿足了多雷達獲取的數據以及AIS 數據中對雜散目標的識別。

圖4 模型正確率結果
為了在AIS 數據、雷達數據、北斗衛星數據中對海上雜散目標的識別分類,在提升數據質量的同時,對雜散目標主要包括雷達雜波(非正常回波、雷達回波噪音)以及海浪等非正常目標進行識別,能有效提高海上航行船舶的信息收集能力,并幫助海岸數據中心[16]對各種目標點的屬性判斷以及做后續的數據分析,也可以與實際運用相結合,例如海上避碰、海上搜救等,該次實驗將多個數據來源的目標進行規則劃分后,利用決策樹訓練模型,將測試的結果通過多組對比實驗,在優化了模型的同時,提升了識別的正確率,可以做到海上雜散目標的精準識別。