胡濤 李波 姚為
(中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 湖北省武漢市 430074)
近年來,過度捕撈已使得我國海洋漁業(yè)資源急劇的減少[1]。海洋中不同的漁船作業(yè)方式捕捉魚的大小、捕撈魚量、捕撈魚類存在較大區(qū)別,不同的作業(yè)方式對漁業(yè)資源的傷害往往不同。其中,拖網(wǎng)漁船因?yàn)槠涔ぷ魈匦詫O業(yè)資源的傷害巨大[2],有些地區(qū)甚至對拖網(wǎng)漁船實(shí)行了一年禁拖的措施[3]。依靠漁船在海洋中航行的軌跡數(shù)據(jù)來識(shí)別漁船的作業(yè)方式、進(jìn)而保護(hù)海洋資源是一個(gè)很有意義的工作。
漁船的軌跡數(shù)據(jù)主要包括漁船的位置、航速、航向和日期,Pipanmekaporn 等人利用聚類策略和循環(huán)神經(jīng)網(wǎng)絡(luò)對漁船的軌跡進(jìn)行表示,從而達(dá)到漁船作業(yè)方式判斷的目的[4]。Zong 等人利用數(shù)學(xué)形態(tài)學(xué)的方式捕獲漁船的經(jīng)緯度信息從而判斷漁船的作業(yè)方式[5],鄭巧玲等人借助航速、航向二個(gè)因子建立了神經(jīng)網(wǎng)絡(luò)模型對漁船作業(yè)方式進(jìn)行判斷[6]。沈凱等人提取大量關(guān)于出行漁船的軌跡特征,使用邏輯斯蒂回歸模型完成對漁船作業(yè)方式的判斷[7]。Haiguang 等人設(shè)計(jì)了一個(gè)從數(shù)據(jù)預(yù)處理、特征提取、特征選擇、模型訓(xùn)練,建立了漁船作業(yè)方式模型FVID[8]。任迎春等人采用支持向量機(jī)識(shí)別漁船的作業(yè)方式[9]。
本文對漁船的軌跡提取大量的手工特征、使用集成的特征選擇算法對提取的大量手工特征進(jìn)行篩選,保留對漁船作業(yè)方式判斷最有效的特征。
漁船的軌跡T 是由多個(gè)軌跡點(diǎn) Pj 組成的,其中 Pj 主要包括當(dāng)前軌跡點(diǎn)的經(jīng)緯度、速度、方向、時(shí)間信息。無法直接使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法直接建立模型,需要從這些軌跡點(diǎn)中提取關(guān)鍵的特征,將該軌跡包含的所有軌跡點(diǎn)轉(zhuǎn)換成一維向量。
由于軌跡數(shù)據(jù)主要包含4 個(gè)重要的信息:經(jīng)緯度、速度、方向、時(shí)間,所以主要分為單個(gè)變量進(jìn)行特征提取,以及組合多個(gè)信息進(jìn)行特征提取。具體的操作如表1所示。

表1:特征工程介紹
經(jīng)緯度信息主要提取了統(tǒng)計(jì)特征,提取軌跡包含的所有軌跡點(diǎn)的經(jīng)緯度的最大值、最小值、極差、均值、眾數(shù)等。速度信息除了提取了軌跡包含的所有軌跡點(diǎn)的速度的統(tǒng)計(jì)信息以外還包括分桶特征,即將速度分為[0,1),[1,2),[2,3),.,[18,19),[19,20),[20,+∞)一共 21個(gè)桶,統(tǒng)計(jì)軌跡包含的所有軌跡點(diǎn)的速度落在每個(gè)桶之間的次數(shù)以及占的比例。航向信息是先對軌跡的航向信息進(jìn)行一階差分來衡量航向變換的快慢,然后對得到的一階差分信息進(jìn)行一些統(tǒng)計(jì)學(xué)運(yùn)算從而提取特征。一階差分代表的意思是當(dāng)前軌跡點(diǎn)的航向與上個(gè)軌跡點(diǎn)的航向的差值。速度與經(jīng)緯度交互特征指的是將速度劃分為低速(0 到8 海里/小時(shí))、中速(9 到16 海里/小時(shí))、高速(16 節(jié)以上),統(tǒng)計(jì)在三個(gè)區(qū)間內(nèi)經(jīng)緯度坐標(biāo)的統(tǒng)計(jì)信息。時(shí)間與經(jīng)緯度的交互特征指的是通過經(jīng)緯度信息和時(shí)間信息計(jì)算漁船的平均速度,然后對得到的平均速度提取統(tǒng)計(jì)特征。
經(jīng)過特征工程后每條軌跡產(chǎn)生了168 個(gè)特征,即使用這168 個(gè)一維信息來代表該條軌跡。
如算法1所示,特征選擇算法主要可以分為過濾法(Filter)、包裝法(Wrapper)、嵌入法(Embedding)三種。其中嵌入法主要依賴于一些機(jī)器學(xué)習(xí)模型表現(xiàn)特征選擇能力,如正則化具體表現(xiàn)為當(dāng)一個(gè)特征對應(yīng)的系數(shù)為 0 時(shí)表示該特征不重要,樹模型具體表現(xiàn)為某個(gè)特征在構(gòu)造樹時(shí)有無作為劃分?jǐn)?shù)據(jù)的節(jié)點(diǎn)。
嵌入式特征是一種高效、選擇精度高的方法對于分類任務(wù)來說,本文主要采用 lightgbm 模型[10]作為嵌入式特征選擇的基礎(chǔ)學(xué)習(xí)器。根據(jù)構(gòu)造樹時(shí)使用該特征的次數(shù)的總和作為特征重要性,將特征重要性小于均值的特征視為無關(guān)特征或者噪聲特征,從而達(dá)到特征選擇的效果。

特征選擇存在很大的不穩(wěn)定性,小小的數(shù)據(jù)變動(dòng)可能會(huì)導(dǎo)致選擇出來的特征子集差異特別大,所以特征選擇的性能會(huì)受到很大的影響。而集成學(xué)習(xí)可以吸收多個(gè)結(jié)果的優(yōu)缺點(diǎn)從而使得整體的結(jié)果趨于穩(wěn)定。
本文依靠交叉驗(yàn)證來劃分?jǐn)?shù)據(jù)集。將每折劃分得到的訓(xùn)練集數(shù)據(jù)采用基于lightgbm 的嵌入式特征選擇算法進(jìn)行學(xué)習(xí),從而得到M 個(gè)特征選擇的結(jié)果,M 代表交叉驗(yàn)證的折數(shù)。然后采用了詞頻統(tǒng)計(jì)將這M 個(gè)結(jié)果進(jìn)行整合,得到特征在這M 次選擇結(jié)果中出現(xiàn)的次數(shù)。最后設(shè)置超參數(shù) N,將在這M 次選擇結(jié)果中出現(xiàn)次數(shù)大于等于N 的特征保留,從而得到最終特征子集。算法 1 是本文所提出的基礎(chǔ)特征選擇算法的偽代碼。
實(shí)驗(yàn)數(shù)據(jù)來源于福建省海洋局的公開實(shí)驗(yàn)數(shù)據(jù),包括了8166條漁船出行的軌跡記錄。
按 8 比 2 的比例劃分成訓(xùn)練集和測試集,大約包含1600 個(gè)測試集和6400 個(gè)訓(xùn)練集。基于交叉驗(yàn)證的集成特征選擇算法設(shè)置的折數(shù)為5,采用的分類器是 lightgbm,表2 主要討論了基于lightgbm 嵌入式的特征選擇、基于改進(jìn)的基于交叉驗(yàn)證的集成特征選擇算法的不同閾值N 對實(shí)驗(yàn)結(jié)果的影響。

表2:實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果中可以看出改進(jìn)的特征選擇算法在閾值取2 時(shí)各項(xiàng)性能都有明顯的提升。當(dāng)閾值選取為2 的適合的交叉驗(yàn)證分類效果最好,具體原因是閾值過大的時(shí)候也會(huì)過濾掉一些有效的特征。閾值選用一個(gè)適中的往往會(huì)取得更好的效果。
本文主要對漁船軌跡數(shù)據(jù)進(jìn)行了特征工程,設(shè)計(jì)了一種集成特征選擇算法來對特征工程得到的特征進(jìn)行選擇。最終對于漁船的作業(yè)方式的辨別的準(zhǔn)確率可以達(dá)到 91.5%。通過對漁船作業(yè)方式的辨別,對于漁業(yè)資源的保護(hù)和管理有重要的意義。