陳兆熙,王 莉
(南昌交通學院,江西南昌 330100)
船舶導航系統為船舶路徑規劃的自動化發展提供了有效輔助,船舶能夠使用性能卓越的導航系統完成航行控制[1–2]。而目前航行距離的逐漸增加,航向和航行環境的不可判斷性凸顯,地理信息定位數據也呈爆發式增長。在海量信息數據環境中,想要準確、快速挖掘所需的導航數據,存在一定難度。甄榮等[3]在挖掘船舶導航信息中的航跡數據時,使用高斯混合模型,此模型以高斯混合聚類的方式,完成航跡信息挖掘。但當屬性差異不顯著的航跡數據混雜在一起時,信息挖掘精度便會下降。任成杰等[4]在挖掘船舶導航信息中的航跡數據時,使用GRU 自編碼器先提取航跡數據特征,再以聚類的方式完成航跡數據聚類挖掘。但此方法在提取大規模航跡數據特征時,需要經過多次訓練,才可以保證編碼器的特征提取精度,因此存在挖掘耗時長的問題。
針對以上問題,本文設計一種基于滑動窗口的船舶導航信息關聯挖掘系統。
所設計的基于滑動窗口的船舶導航信息關聯挖掘系統整體架構如圖1所示。
此次設計的船舶導航信息關聯挖掘系統屬于Client/Server 結構,當用戶在客戶端的挖掘界面輸入導航信息挖掘請求后,客戶端將請求信息發送至服務端,服務端由船舶導航信息挖掘模塊組成,通過信息訪問接口API,在船舶導航信息數據源中采用滑動窗口劃分的方式提取候選數據流,再構建船舶導航信息挖掘的關聯規則,挖掘滿足用戶請求條件的導航信息,返回挖掘界面。
船舶導航信息關聯挖掘系統硬件結構如圖2所示。
圖2 系統的硬件結構Fig.2 Hardwarestructure of thesystem
如圖2所示,系統硬件結構主要包括S3C2440處理器、人機交互屏、CAN 總線、串口等。CAN 總線和導航設備自身的標準串行接口相連,便可作為系統客戶端和服務端的連接載體。人機交互屏可為用戶提供挖掘請求輸入、挖掘結果顯示服務,具備人機交互功能。系統硬件平臺主控制器為ARM920T 內核,在此控制器管理下,系統的LCD顯示器可以支持STN 格式、TFT 格式數據的顯示。控制器具備3通道的串行接口,4通道高速數據JTAG 接口,具備大規模船舶導航信息處理能力。
圖3為船舶導航信息關聯挖掘算法示意圖。
如圖3所示,采用滑動窗口進行導航信息關聯挖掘時,將船舶導航信息流輸入本文系統后,系統通過滑動窗口先挖掘出獲選信息流。獲取候選信息流后,再采用Apriori 算法挖掘導航信息數據流中的頻繁項集,完成船舶導航信息關聯挖掘。
1.2.1 基于滑動窗口的候選信息流挖掘
設置需要挖掘的船舶導航信息類型P是時間段t中的數據at,則基于滑動窗口的候選信息流挖掘步驟為:
1)提取某段船舶導航信息記錄的時間序列,從時間t開始,設置滑動窗口信息點為
式中: d (.)為 距離計算函數;a vg(.)為平均計算函數。
3)若時間段t與時間段t?1導航信息之間的距離均值絕對值是則
此時處于距離均值周圍的船舶導航信息為:
5)多次執行上述操作,最后輸出候選導航信息流A。
1.2.2 基于Apriori 算法的導航信息關聯挖掘
關聯規則可以體現數據之間相關性,若多個數據之間存在相關性,關聯規則便可體現數據之間的關系。為了對導航信息進行關聯挖掘,以獲得候選導航信息流為基礎,采用Apriori 算法進行導航信息的關聯挖掘。
設置候選導航信息流A中的某信息為項,各個導航信息記錄就是1個項集,將其設成A={A1,A2,...,Am},m為項集中導航信息記錄總數目。關聯規則設成其中,a表示導航信息中的某數據,Y表示用戶請求信息類型,在分析關聯規則是否滿足需求時,需要使用支持度support(aY)與置信度con fidence(aY),前者表示某項集在用戶需求信息類型中的支持度,后者表示關聯規則的可信度,支持度與置信度的計算公式為:
其中:count(aY) 為船舶導航信息a和用戶請求信息的匹配數目;count(a) 為 船舶導航信息a的信息量。分析a與Y之間的關聯規則支持度與置信度,如果均滿足最小閾值,那么a就是和Y匹配的導航信息。在分析a與Y之間關聯規則支持度與置信度的基礎上,采用Apriori 算法先把候選導航信息數據流A映射為“0”與“1”的元素矩陣,稱為布爾矩陣。矩陣行與列分別表示導航信息數據類型、用戶請求的導航信息類型。比如滑動窗口分為5 個,那么便可構建5×5的布爾矩陣:
將布爾矩陣C每列用戶請求的導航信息項,以并集的方式,構建候選頻繁A項集,整理C中各列“1”元素的數目,執行剪枝處理,如果i列“1”元素數目小于閾值 β,便采取剪枝處理,反之去除此列,構建頻繁A?1項集。
將頻繁A?1項 集執行連接處理,將C的項列執行邏輯“與”計算,得到候選頻繁A?2項集。將候選頻繁A?2項集中,每個子元素的“1”和閾值對比,更新候選頻繁A?2 項集。循環操作,當項集A為空集便可停止,輸出最后挖掘的頻繁項集,此項集即為用戶請求的船舶導航信息關聯挖掘結果。
為測試本文系統是否有效,進行系統導航信息挖掘性能分析。
圖4和圖5為本文系統挖掘界面為用戶提供的請求信息示例圖、導航信息挖掘結果顯示圖。
圖4 導航信息挖掘請求信息示例圖Fig.4 Example of navigation information mining request information
圖5 導航信息挖掘結果顯示圖Fig.5 Display of navigation information mining results
為體現本文系統的挖掘精度,以航跡信息為例,將挖掘的航跡信息量Aj和實際航跡信息量Ab之間平均距離O作為指標,O可體現挖掘信息量的完備性,其數值越小,表示信息越完備、越準確。則
表1 船舶導航信息中航跡信息挖掘效果Tab.1 Effect of track information mining in ship navigation information
可知,船舶導航信息中航跡信息挖掘效果較好,O的數值極小,說明本文系統挖掘信息量的完備性顯著,準確性顯著。原因是本文系統能夠將船舶導航信息數據流劃分為多個滑動窗口,通過關聯規則挖掘的方式,挖掘與用戶請求相匹配的導航信息。圖6和圖7為本文系統使用前后,多種導航信息挖掘耗時對比結果。
圖6 系統使用后挖掘耗時Fig.6 Mining timeconsumption after system use
圖7 系統使用前挖掘耗時Fig.7 Mining time beforesystem use
對比可知,本文系統對多種導航信息挖掘耗時小于0.4 s,和使用前相比,挖掘耗時明顯縮短,說明本文系統的挖掘效率有所提升。原因是本文系統利用滑動窗口劃分技術,能夠把大規模的船舶導航信息分解為多個窗口,提高數據挖掘有序性,從而保證數據的處理效率。
本文設計基于滑動窗口的船舶導航信息關聯挖掘系統,引入滑動窗口技術和關聯規則挖掘算法,能夠在規模化、復雜化的導航信息流中,將雜亂無章的信息劃分為多個挖掘操作窗口,從而以關聯規則挖掘的方式,提取匹配用戶請求的導航信息數據。實驗結果顯示,本文系統導航信息挖掘的完備性顯著,準確性顯著,挖掘耗時小于0.4 s,導航信息挖掘性能得到提升。