999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的中西太平洋黃鰭金槍魚漁場預報模型

2022-11-13 08:03:30周為峰唐峰華石永闖
農業工程學報 2022年15期
關鍵詞:模型

張 聰,周為峰,唐峰華,石永闖,樊 偉

基于機器學習的中西太平洋黃鰭金槍魚漁場預報模型

張 聰1,2,周為峰1※,唐峰華1,石永闖1,樊 偉1

(1. 中國水產科學研究院東海水產研究所,上海 200090;2. 中國農業科學院研究生院,北京 100081)

為提供準確的中西太平洋黃鰭金槍魚漁場預報信息,該研究利用2008-2019年中國水產集團43艘遠洋延繩釣漁船在中西太平洋海域(0°~30°S;110°E~170°W)作業的漁業數據,通過方差膨脹因子篩選、歸一化處理,選取時空因子、海洋環境因子及大尺度氣候數據等共35種特征因子,構建了一種隨機森林和極端梯度提升決策樹相結合的XGBRF模型,并利用五折交叉驗證法確定最佳參數,選擇邏輯回歸、分類與回歸樹、最近鄰、自適應增強、梯度提升決策樹、極端梯度提升決策樹和隨機森林等模型作為對照,建立8種黃鰭金槍魚漁場預測模型并進行模型間的比較分析。結果表明,XGBRF模型對中西太平洋黃鰭金槍魚漁場的預測性能比其他模型更好,其準確率、漁場召回率、漁場F1得分、非漁場查準率和曲線下面積值AUC均最高,分別為75.39%、87.36%、82.64%、66.32%和79.48%,且模型的受試者工作特征曲線ROC更靠近左上角;海表溫度是影響中西太平洋黃鰭金槍魚漁場分布最重要的環境因子,其他因子依次是300 m水層溫度、50 m水層鹽度、葉綠素a濃度、南方濤動指數以及表層鹽度因子,時空因子和其余大尺度氣候因子的影響程度較低;基于XGBRF預報模型得到的漁場預測結果與實際作業范圍總體一致。XGBRF集成模型對中西太平洋海域黃鰭金槍魚的漁場預報具有較好的效果,可為漁場預報提供參考。

機器學習;模型;中西太平洋;黃鰭金槍魚;漁場預報

0 引 言

黃鰭金槍魚()屬鱸形目、金槍魚屬,廣泛分布于熱帶和亞熱帶水域,中西太平洋是金槍魚漁業重要的作業區域[1]。延繩釣被認為是最合理的金槍魚捕撈方法之一。近年來,由于過度捕撈、漁業管理不當等問題,漁場時空分布的穩定性降低,加之金槍魚高度洄游的特性,金槍魚中心漁場范圍分散且分布廣泛[2]。精確的漁場預報模型能夠提高對潛在漁區和非漁區的識別能力,從而有效縮短尋漁時間,減少尋漁成本,提高漁獲產量,對金槍魚漁業的發展具有重要意義。

魚類的生長發育與周圍的海洋環境密切相關,利用不同的海洋環境因子建立漁場預報模型是當前漁場預報的常用手段[3]。貝葉斯(Bayesian)是一種常見的漁場預報模型建模方法,周為峰等[4]基于貝葉斯分類器,利用環境因子及不同分類策略構建8種南海外海黃鰭金槍魚預報模型,最高準確率達75%。回歸模型也很常見,如廣義相加模型(Generalized Additive Model,GAM)[5-6],Perez等[7]依據GAM模型,利用單位捕撈努力量指數預測菲律賓周圍海域的黃鰭金槍魚分布。Zagaglia等[8]基于GAM統計模型分析了巴西東北部黃鰭金槍魚延繩釣數據與海表溫度等環境變量之間的關系,證明了漁獲量與環境數據之間的非線性關系。隨著計算機技術的發展,人工神經網絡(Artificial neural network, ANN)逐漸應用到黃鰭金槍魚漁場預報模型中,鄭志輝[9]基于人工神經網絡模型有效預測了中西太平洋馬紹爾海域黃鰭金槍魚的漁場分布。棲息地指數模型(Habitat Suitability Index,HSI)近年來受到較多關注,趙海龍等[10]以產量來表征資源量,結合海表溫度、海面高度按季度建立東太平洋黃鰭金槍魚棲息地適應性指數,預報的準確率達到66%以上。盡管上述漁場預報模型的結構簡單便利,但這些模型大多是單一的預報模型且只使用海洋表面環境數據。由于海洋漁業信息具有模糊性、復雜性、不精確性的特點,單一模型容易過擬合而泛化性能差,無法滿足漁場預報應用對于精度的要求。且上述模型大多采用具體的海洋環境因子,對于與海洋因素密切相關的各種大尺度氣候數據的研究較少。

針對數據復雜和模型單一的問題,為提供準確的中西太平洋黃鰭金槍魚漁場預報信息,本文提出隨機森林[11](Random Forest,RF)和極端梯度提升決策樹[12](eXtreme Gradient Boosting,XGBoost)相結合的XGBRF(XGBoost with RF)混合集成模型,根據2008-2019年中西太平洋黃鰭金槍魚的漁業數據,結合31種特征因子和4種大尺度氣候因子,通過方差膨脹因子(Variance Inflation Factor,VIF)篩選、歸一化處理,建立了8種黃鰭金槍魚漁場預測模型。通過模型檢驗和對比,篩選預報精度較高、預測性能較好的模型,分析環境因子影響漁場分布的重要程度,以提高大數據和人工智能方法在黃鰭金槍漁業中的應用,為今后漁場預報的模型構建提供參考。

1 材料與方法

1.1 數據來源

以中西太平洋黃鰭金槍魚延繩釣漁船的作業范圍(110°E~170°W、0°~30°S)為研究海域,使用的漁業生產數據來自2008-2019年中國水產集團43艘遠洋延繩釣漁船漁撈日志,包括船名、作業日期(年/月/日)、作業位置(經度、緯度)、漁獲信息(魚種、產量、尾數和下鉤數等)。

葉綠素a濃度數據來源于美國國家海洋和大氣管理局數據庫(https://oceancolor.gsfc.nasa.gov/)。海面高度異常(Sea Level Abnormal,SLA)數據來源于AVISO(Archiving, Validation and Interpretation of Satellite Oceanographic data)數據庫(https://www.aviso.oceanobs.com)。渦動能(Eddy Kinetic Energy,EKE)、0~500 m水層的垂直溫度和鹽度數據來源于哥白尼海洋環境監測服務中心網站(http://marine.copernicus.eu)。環境數據的時間分辨率為月,SLA、EKE和0~500 m水層垂直溫度和鹽度數據的空間分辨率為0.25°×0.25°,Chla的空間分辨率為4 km。使用python將環境數據的空間分辨率統一為0.5°×0.5°的空間格網并與漁獲量數據進行匹配。

大尺度氣候數據均為月度數據,南方濤動指數(Southern Oscillation Index,SOI)和北極濤動指數(Arctic Oscillation Index,AOI)來源于美國海洋與大氣局氣候預測中心;太平洋年代際振蕩指數(Pacific Decadal Oscillation Index,PDOI)來源于華盛頓大學(http://research.jisao.washington.edu /pdo),北太平洋環流振蕩指數(North Pacific Gyre Oscillation Index,NPGOI)來源于http://www.o3d.org /npgo /。

1.2 數據處理

1.2.1 CPUE計算

將漁區網格以0.5°×0.5°進行劃分,按月對其作業位置、尾數和放鉤數進行統計,計算各漁區網格內的黃鰭金槍魚單位捕撈努力量漁獲量[13](Catch Per Unit Effort,CPUE),公式為

1.2.2 衍生環境因子計算

本文選取的衍生環境因子包括海表溫度距平(SSTdt)、海表溫度梯度(SSTG)、葉綠素距平(Chladt)和葉綠素梯度(ChlaG)。SSTdt,j、Chladt,j、SSTG,j和ChlaG,j計算公式如下:

1.2.3 CPUE與各環境因子的相關性分析

采用Python的seaborn包計算Pearson相關系數并進行顯著性檢驗,結果如表1所示。假設顯著性水平為0.05(即超過95%的概率有相關關系),本文中CPUE與各指標均呈現顯著相關關系(<0.05)。

1.2.4 數據標準化與共線性分析

由于漁業數據和海洋環境數據具有不同的量綱和數量級,直接用原始指標值進行分析,會突出數值較高的指標在綜合分析中的作用,為了保證結果的可靠性,需要對原始數據進行標準化處理。本文采用數據歸一化方法將各個特征映射到[0,1]的范圍,計算公式為

式中、、max、min分別為歸一化后的值、實際值、最大值、最小值。

對于環境因子之間可能存在共線性的問題,本文采用方差膨脹因子VIF進行篩選,VIF的計算公式如下:

式中是第個變量在所有其他變量上回歸時的復相關系數。各環境變量之間的Person相關系數矩陣圖如圖1所示。

表1 CPUE與變量間的相關系數和P值

注:Lat表示緯度;Lon表示經度;Chla表示葉綠素a濃度;Chladt表示葉綠素距平;SSTdt表示海表溫度距平;SSTG表示海表溫度梯度;ChlaG表示葉綠素梯度;SLA表示海面高度異常;EKE表示渦動能;S、T(=0,50,100,…,500)分別表示對應深度處的鹽度和溫度;PDOI為太平洋年代際振蕩指數;SOI為南方濤動指數;AOI為北極濤動指數;NPGOI為北太平洋環流振蕩指數。

Note: Lat indicates latitude; Lon indicates longitude; Chla denotes chlorophyll a concentration; Chladt indicates chlorophyll anomaly; SSTdt indicates sea surface temperature anomaly; SSTG indicates sea surface temperature gradient; ChlaG indicates chlorophyll gradient; SLA indicates abnormal sea level; EKE denotes eddy kinetic energy; Sand T(= 0,50, 100, ..., 500) respectively represent the salinity and temperature at the corresponding depth; PDOI is the Pacific interdecadal oscillation index; SOI is the Southern Oscillation Index; AOI is the Arctic oscillation index; NPGOI is the North Pacific circulation oscillation index.

圖1 各變量間Pearson相關系數

1.3 XGBRF漁場預報模型的建立

隨機森林算法結合自助采樣和隨機子空間思想對決策樹進行集成,可降低使用單一決策樹時可能出現的較大誤差和過擬合現象,從而得到更加穩定和準確的預測效果。XGBoost算法作為一種可擴展的樹提升系統,通過正則化項、二階泰勒展開等策略控制模型的復雜度并提高運行效率,能有效應對高維度的復雜數據。

由于漁業數據數量龐大、特征維度高,考慮到隨機森林并行集成、不易過擬合的優勢及XGBoost算法在分類問題中的優秀性能,本文提出XGBRF混合集成模型,將boosting與bagging思想相結合,選擇XGBoost算法作為預報模型的基本框架來訓練隨機森林。本文中XGBRF模型的算法流程如圖2所示,參數設置如表2所示。

注:L為損失函數,P′為迭代次數,T為樹的數量,θ為一個隨機向量,b(x)為基學習器。訓練集D由M個樣本組成,D=(xi, yi),i=1,2,3,…,M。G為一階導數和,H為二階導數和。

表2 XGBRF集成模型中的參數設置

2008-2019年中西太平洋黃鰭金槍魚的延繩釣數據共18 013條。本研究采用五折交叉方法隨機劃分為訓練數據(80%數據)和測試數據(20%數據)。對數據集進行預處理,將單位捕撈努力量按照三分位數劃分為0和1,分別對應非漁場和漁場。為了驗證模型的有效性,以邏輯回歸(Logistic Regression,LR)、分類與回歸(Classification and regression tree,CART)、近鄰(K Nearest Neighbors,KNN)、自適應增強(Adaptive boosting,Adaboost)、梯度提升樹(Gradient Boosting Decision Tree,GBDT)、XGBoost和RF共7種模型作為對照,對照模型均在相同的實驗環境下使用同一數據集。為了消除由于數據劃分造成模型訓練的性能誤差,本文中所使用的模型均采用網格搜索和兩次五折交叉驗證訓練法以得到最優參數。各模型的參數設置如表3所示。

表3 模型參數設置

1.4 模型精度評價

模型精度是判別預報結果與真實漁場信息符合程度的標準。本文使用準確率(Accuracy)、查準率(Precision)、召回率(Recall)、F1得分(F1-score)、受試者工作特征曲線(Receiver Operating Characteristic,ROC)及曲線下的面積(Area under Curve,AUC)值綜合評價模型的性能。

將模型中少數類樣本記為負例(非漁場),多數類樣本記為正例(漁場),則各個評價指標的計算公式為

式中TP、TN、FP、FN分別代表預測值和真實值均為漁場、預測值和真實值均為非漁場、預測值為漁場而真實值為非漁場以及預測值為非漁場而真實值為漁場。ROC曲線由真正率和假正率分別作為縱坐標和橫坐標繪制得到,AUC值是ROC曲線與橫坐標圍成的面積,值域在 0~1之間。

2 結果與分析

2.1 基于VIF的特征選擇

基于方差膨脹因子VIF的特征選擇過程中,剔除環境因子中VIF較高的值后重新計算剩余變量的VIF值,重復操作直至剩余變量的VIF值均小于10。VIF選擇后的變量如表4所示。方差膨脹因子篩選后的變量共19種,除了SLA、S0和T150,其余環境因子的VIF值均小于5,可作為模型輸入變量。

表4 特征選擇后的環境變量VIF值

2.2 預測結果及模型對比分析

將20%的測試數據分別代入LR、CART、KNN、Adaboost、GBDT、XGBoost、RF和XGBRF模型,分別計算各個模型的Accuracy、Precision、Recall、F1-score、AUC值,結果如表5所示。

表5 各模型預測結果對比

由表5可知,XGBRF模型在準確率和AUC的值均最高,分別為75.39%和79.48%,證明模型的預測效果較好。對于漁場和非漁場的預測結果,8種模型的漁場召回率、查準率和F1-score相對于非漁場均較高,可以看出所有模型對于漁場的識別均要好于非漁場。RF模型對于非漁場的識別效果較好,其非漁場F1-score(60.27%)最高,XGBRF模型表現次之,其非漁場查準率(66.32%)最高。對于遠洋漁業而言,漁船的作業圍繞中心漁場進行以提高漁獲產量和捕撈效率,因此中心漁場的預報精度具有重要意義,XGBRF模型的漁場查準率略低于RF模型,但其召回率(87.36%)和F1-score(82.64%)均最高,證明模型對于真實漁場的識別精度高,XGBRF模型的性能總體上優于其他模型。

各個模型的ROC曲線如圖3所示,由圖3可知,XGBRF模型較其他模型的ROC曲線更靠近左上角,能夠較好地包含其他模型,證明模型的分類和預測效果較好。

圖3 不同模型的ROC曲線

2.3 模型因子的重要性分析

借助sklearn中的feature_importances_方法,得到入模因子對中西太平洋黃鰭金槍魚漁場預報的重要程度圖(圖4)。由圖4可知,研究結果顯示海表溫度是影響黃鰭金槍魚漁場布的最主要因素,為7.573%,300 m水層溫度、50 m水層鹽度、葉綠素a濃度(Chla)、南方濤動指數(SOI)和表層鹽度(S0)對黃鰭金槍魚的影響也較大,分別為7.369%、6.765%、6.533%、6.284%和6.212%。除SOI以外,其余大尺度氣候因子的影響相對較低。時空因子的相對重要性較環境因子低。

圖4 模型輸入因子的相對重要性排序

2.4 模型驗證

模型利用2008-2019年的真實數據進行訓練和預測。將20%測試集的實際數據與模型預測的數據疊加,結果如圖5所示。

由圖5b可知,測試的漁場主要分布在10°~20°S,155°~175°E海域,這一海域模型的識別程度較高,但也存在一定的誤判。在27°S海域附近也有少量漁場分布,但該海域的識別程度較低。非漁場的實際與預測結果如圖5a所示,非漁場的分布與漁場的分布范圍相似,在15°S以下的海域具有較好的識別度,但非漁場的總體識別率低于漁場的識別率。總體而言,預測的漁場位置與實際漁場位置存在少量的偏差,相較于其他模型,預測結果的精確度與可信度高。

注:審圖號GS(2016)1665。

3 討 論

3.1 環境因子選擇的合理性

海洋環境因子是影響黃鰭金槍魚活動和空間分布的重要外在因素,現有的研究表明,黃鰭金槍魚漁場的形成極易受到海洋環境因子的影響[5,15-16]。葉綠素a濃度通過海洋食物鏈原理影響漁場分布;溫度是影響魚類活動最基本的海洋環境要素之一[17];海平面高度異常作為與平均海平面的差值[18],反映了包括海流、冷暖水團、鹽度、海洋鋒面等海洋動力特征,常被應用于海洋漁場分析;渦動能是通過影響環流、海水溫度以及葉綠素a的分布,從而影響黃鰭金槍魚的漁場分布;研究表明,黃鰭金槍魚的垂直移動現象明顯[19-20],其主要的垂直移動范圍從幾十米至幾百米,且不同水層的溫度會影響黃鰭金槍魚漁場的分布;南方濤動伴隨季節上升流的延遲可能與某些海域浮游植物的繁盛有關[21];太平洋年代際振蕩被證明與SST具有一定的關聯[22];北太平洋環流振蕩、北極濤動等其他大尺度氣候也有助于全面的了解海洋環境的變化[23]。因此,本研究選取的環境因子包括葉綠素a濃度、海面高度異常、渦動能、0~500 m水層的垂直溫度和鹽度數據,為了增大樣本間差異,提高模型對中心漁場的識別能力,計算了SST和Chla的衍生變量(SSTdt、SSTG、Chladt和ChlaG)。

影響漁業的海洋環境因子關系錯綜復雜,多個特征變量之間存在較強的相關性(圖1),研究表明相關系數大于0.85[24],方差膨脹因子大于10[25],變量之間可能存在共線性,造成重要變量的預測結果不顯著[26]。本研究綜合考慮各個海洋環境因子及共線性因素對模型精度和效率的影響,最終確定的入模變量具有一定的科學性和合理性。

3.2 模型因子的相對重要性

海表溫度通過影響黃鰭金槍魚的生長、覓食、洄游遷徙等直接影響漁場的分布和變動,研究表明絕大多數黃鰭金槍魚可至10 m以內的淺層活動[20],結果表明海表溫度是最重要的環境因子。300 m水層溫度對黃鰭金槍魚的影響同樣重要,這可能與黃鰭金槍魚的垂直活動且主要集中在300 m深度水層有關[27],除此之外S50、S0、S150、T150等對黃鰭金槍魚的影響也間接證明了其垂直游動的特性。葉綠素a濃度作為海洋初級生產力的指標,其對黃鰭金槍魚漁場分布的影響已被多人研究證實,且Chla的梯度分布(ChlaG)與鋒面的形成有關,也與中心漁場的分布存在聯系[28]。大尺度氣候數據中,南方濤動指數SOI對黃鰭金槍魚的影響相對較大,這與Torres-Faurrieta[29]的研究結果一致,NPGOI、PDOI、AOI的影響相對較小,這可能與大尺度氣候影響的滯后效應有關[30]。

3.3 漁場與非漁場的劃分

三分位數是統計學研究中最常用的方法之一。在進行漁場分類的研究中,對于“中心漁場”的界定并沒有一個統一的標準,已有的研究大多采用三分位數對漁場進行劃分[11,31-32],部分學者利用三分位數將漁區劃分為高、中、低3個漁區,基于預報模型進行分別預測。但是需要考慮到的是CPUE作為連續變量,處于三分位數邊界區域的值往往大小相近,會給模型的預測造成一定的困難,且各種復雜環境要素如氣候異常、海洋大尺度事件、漁類洄游等的影響進一步導致中產漁區的預測準確率較低[11,32-33],造成分類損失。本研究結合真實漁業數據,將大于整年單位捕撈努力量第一三分位數T1的區域定義為漁場,其余部分作為非漁場,減小由于臨界區域造成的模型性能損失,實現簡單且具有一定的實際意義。

3.4 模型性能對比

本文中XGBRF模型得到的預報準確率為75.39%,漁場召回率和AUC值分別為87.36%和79.48%,預報效果優于棲息地指數模型[10](準確率66%)、GAM模型[6](解釋率37.2%)、stacking算法[34](準確率68.72%)、貝葉斯分類器[4](準確率75%),且實驗結果顯示XGBRF模型相比于RF和XGBoost模型在各個指標上的表現均有一定程度的提升,這是因為XGBRF模型結合了boosting與bagging思想的優點,XGBoost作為基本框架能夠針對錯誤樣本進行學習,顯著提高學習效率,同時隨機采樣和隨機特征選擇的加入增大了模型的靈活性,使其具有更好的泛化性能。LR和CART屬于簡單模型,簡單直觀、解釋性強,但LR容易欠擬合,CART容易過擬合,兩種模型的預測精度均不高。KNN通過計算不同數據之間的歐式距離來進行分類,準確度高,對異常點不敏感,在本研究中的表現較好。Boosting方法能夠針對樣本進行學習進而提高學習效率,Adaboost利用錯誤分類的樣本來識別問題;GBDT通過計算負梯度來擬合殘差,該類模型能充分學習每個弱分類器,具有很高的精度,結果顯示兩者在本研究中的表現互有優劣。XGBoost算法在GBDT的基礎上進行了優化,模型的效率更高、泛化性能更強、應用范圍更廣,研究結果也證明其效果好于Adaboost和GBDT。RF作為bagging的升級,不僅具有Bagging并行集成的優勢,同時其基學習器的決策邊界往往更加靈活,有效解決了單一決策樹的性能瓶頸,具有較高的泛化能力。實驗中RF模型的漁場和非漁場召回率均較高,間接證明了模型的泛化能力。

3.5 模型精度評價

模型的評價指標是直接判斷一個模型好壞的關鍵,漁場預報發展至今,各種預報模型層出不窮,需要對模型進行合理合適的評估。準確率是現有漁場預報模型采用較多的評估依據[31-32,34],準確率表示模型預測正確的正例、負例占總樣本的比例,易于計算且復雜度低。但準確率是一種偏向全局化的衡量標準,信息量少且當模型對于非漁場(少數類)的識別率較高而對于漁場的識別率較低時也可能帶來準確率的偏高,這種模型往往不是我們想要的。查準率表示正例的分類準確率,表明被預測為正例的樣本中真實的正例的比例,查準率越高,表明漏掉的漁場就越少。召回率表示被預測正確的正例占所有真實的正例比例,召回率越高,代表漁場的識別率就越高。在漁業生產中,如果想盡可能覆蓋某片海域內的所有漁場可以選擇查準率較高的模型;如果想盡量避免無獲而返的情況可以選擇召回率較高的模型。實際情況下,需要在二者中尋找平衡,F1得分作為查準率和查全率的綜合考慮解決了這一問題。F1得分被認為在某些方面表現優于準確率[35],F1得分越高,表明漁場的識別率高且誤報的漁場較少。受試者工作特征曲線ROC曲線被認為衡量模型性能的有用指標[36],ROC曲線越靠近左上角表明模型的預測能力越強,AUC值大于0.75的模型被認為是“有用”的[37]。本文綜合考慮各個模型的特點,選擇準確率、查準率、召回率、F1-score、ROC曲線和AUC值作為模型的綜合評判指標,確保了模型結果的可靠性。

4 結 論

本研究利用中西太平洋黃鰭金槍魚的漁業生產數據,結合漁場時空因子、海洋環境因子及大尺度氣候數據作為訓練集構建了邏輯回歸(LR)、分類與回歸分類與回歸(CART)、近鄰(KNN)、自適應增強(Adaboost)、梯度提升樹(GBDT)、極端梯度提升決策樹(XGBoost)、隨機森林(RF)和XGBRF共8種黃鰭金槍魚漁場預報模型,并利用真實的漁業數據進行了模型驗證,研究結果如下:

1)通過多個指標結果的綜合分析顯示,XGBRF混合集成模型能在一定程度上提高XGBoost和RF模型的性能,其準確率和AUC的值均最高,分別為75.39%和79.48%,且XGBRF模型的ROC曲線能較好包含其他模型,證明模型的性能表現最好,優于傳統的預報模型。

2)模型因子的重要性分析結果表明,海表溫度是影響黃鰭金槍魚漁場分布最重要的因素,為7.573%。接下來的是300 m水層的溫度,其重要性達7.369%。除此之外,50 m水層鹽度、南方濤動指數、葉綠素a濃度和表層鹽度對黃鰭金槍魚的影響也較大。除SOI以外,其余大尺度氣候因子的影響相對較低。

3)20%測試集實際漁場和非漁場的疊加圖顯示,XGBRF模型預報得到的漁場位置與實際的漁場位置僅存在少量的偏差,預測結果的精確度和可信度較高,是一種有效的黃鰭金槍魚漁場預報方法。

本研究構建了一種隨機森林和極端梯度提升決策樹結合的XGBRF模型作為中西太平洋黃鰭金槍魚的漁場預報方法,通過與多種模型對比和實際漁業數據的檢驗,證明了該模型的可行性。在今后的研究中,可以進一步探究其他環境因子、模型參數優化、漁區劃分標準、海洋模式數據等因素對黃鰭金槍魚漁場的影響,進一步提高模型的精度和實用性。

[1] 張春玲,蔣逸,王冰洋,等. 中西太平洋黃鰭金槍魚隨附魚群區域溫度垂直結構的構建與初步分析[J]. 上海海洋大學學報,2022,31(1):233-241.

ZhangChunling,JiangYi,Wang Bingyang, et al. Construction and analysis of vertical temperature structure for FAD yellowfin tuna in the central and western Pacific Ocean[J]. Journal of Shanghai Ocean University, 2022, 31(1): 233-241. (in Chinese with English abstract)

[2] Ms A, Gmp B, Cr A, et al. Trade-offs for the southern longline fishery in achieving a candidate South Pacific albacore target reference point-ScienceDirect[J]. Marine Policy, 2019, 100(C): 66-75.

[3] 朱浩朋,伍玉梅,唐峰華,等. 采用卷積神經網絡構建西北太平洋柔魚漁場預報模型[J]. 農業工程學報,2020,36(24):153-160.

Zhu Haopeng, Wu Yumei, Tang Fenghua, et al. Construction of fishing ground forecast model of Ommastrephes bartramii using convolutional neural network in the Northwest Pacific[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 153-160. (in Chinese with English abstract)

[4] 周為峰,黎安舟,紀世建,等. 基于貝葉斯分類器的南海黃鰭金槍魚漁場預報模型[J]. 海洋湖沼通報,2018(1):116-122.

Zhou Weifeng, Li Anzhou, Ji Shijian, et al. Forecasting model for yellowfin tuna () fishing ground in the south China sea based on bayes classifier[J]. Transactions of Oceanology and Limnology, 2018(1): 116-122. (in Chinese with English abstract)

[5] 宋利明,沈智賓,周建坤,等. 庫克群島海域海洋環境因子對黃鰭金槍魚漁獲率的影響[J]. 上海海洋大學學報,2016,25(3):454-464.

Song Liming, Shen Zhibin, Zhou Jiankun, et al. Effects of environmental variables on catch rates of yellowfin tuna () in waters near Cook Islands[J]. Journal of Shanghai Ocean University, 2016, 25(3): 454-464. (in Chinese with English abstract)

[6] 徐國強,朱文斌,張洪亮,等. 基于GAM模型分析印度洋大眼金槍魚和黃鰭金槍魚漁場分布與不同環境因子關系[J]. 海洋學報,2018,40(12):68-80.

Xu Guoqiang, Zhu Wenbing, Zhang Hongliang, et al. Relationship between fishing grounds ofandwith environmental factors in the Indian Ocean based on generalized additive model[J]. Haiyang Xuebao, 2018, 40(12): 68-80. (in Chinese with English abstract)

[7] Perez G J P, Leonardo E M. Predicting the Distribution of Yellowfin Tuna in Philippine Waters[C]. Washington DC: American Geophysical Union, 2015.

[8] Zagaglia C R, Lorenzzetti J A, Stech José L. Remote sensing data and longline catches of yellowfin tuna () in the equatorial Atlantic[J]. Remote Sensing of Environment, 2004, 93(1/2): 267-281.

[9] 鄭志輝. 基于貝葉斯方法、分位數回歸和人工神經網絡模型的黃鰭金槍魚漁情預報模型比較[D]. 上海:上海海洋大學,2017.

Zheng Zhihui. A Comparison of Yellowfin Tuna Fishing Condition Forecast Models Based on Bayesian Method, Quantile Regression and Artificial Neural Network Model[D]. Shanghai: Shanghai Ocean University, 2017. (in Chinese with English abstract)

[10] 趙海龍,陳新軍,方學燕. 基于棲息地指數的東太平洋黃鰭金槍魚漁場預報[J]. 生態學報,2016,36(3):778-785.

Zhao Hailong, Chen Xinjun, Fang Xueyan. Forecasting fishing ground of yellowfin tuna in the eastern Pacific Ocean based on the habitat suitability index[J]. Acta Ecologica Sinica, 2016, 36(3): 778-785. (in Chinese with English abstract)

[11] 陳雪忠,樊偉,崔雪森,等. 基于隨機森林的印度洋長鰭金槍魚漁場預報[J]. 海洋學報, 2013,35(1):158-164.

Chen Xuezhong, Fan Wei, Cui Xuesen, et al. Fishing ground forecasting of Thunnus alalung in Indian Ocean based on random forest[J]. Haiyang Xuebao, 2013, 35(1): 158-164. (in Chinese with English abstract)

[12] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[13] Feng Y, Chen X, Gao F, et al. Impacts of changing scale on Getis-Ord Gi* hotspots of CPUE: A case study of the neon flying squid () in the northwest Pacific Ocean[J]. Acta Oceanologica Sinica, 2018, 37(5): 67-76.

[14] Ismail A I, Morrison E C, Burt B A, et al. Natural history of periodontal disease in adults: findings from the Tecumseh Periodontal Disease study, 1959-87[J]. Journal of Dental Research, 1990, 69(2): 430-435.

[15] 王少琴,許柳雄,朱國平,等. 中西太平洋金槍魚圍網的黃鰭金槍魚CPUE時空分布及其與環境因子的關系[J]. 大連海洋大學學報,2014,29(3):303-308.

Wang Shaoqin, Xu Liuxiong, Zhu Guoping, et al. Spatial-temporal profiles of CPUE and relations to environmental factors for yellowfin tuna () from purse-seine fishery in Western and Central Pacific Ocean[J]. Journal of Dalian Ocean University, 2014, 29(3): 303-308. (in Chinese with English abstract)

[16] 劉勇,陳新軍. 中西太平洋金槍魚圍網黃鰭金槍魚產量的時空分布及與表溫的關系[J]. 海洋漁業,2007(4):296-301.

Liu Yong, Chen Xinjun. Spatio-temporal distribution ofand its relationship with sea surface temperature in the tuna purse seine fishery of the Central and Western Pacific[J]. Marine Fisheries, 2007(4): 296-301. (in Chinese with English abstract)

[17] 崔雪森,樊偉,張晶. 太平洋黃鰭金槍魚延繩釣漁獲分布及漁場水溫淺析[J]. 海洋通報,,2005(5):54-59.

Cui Xuesen, Fan Wei, Zhang Jing. Primary study on the distribution of yellowfin tuna () longline fishery catch and the fishing-ground environment of the Pacific Ocean[J]. Marine Science Bulletin, 2005(5): 54-59. (in Chinese with English abstract)

[18] 宋婷婷,樊偉,伍玉梅. 衛星遙感海面高度數據在漁場分析中的應用綜述[J]. 海洋通報,,2013,32(4):474-480.

Song Tingting, Fan Wei, Wu Yumei. Review on the fishery analysis with satellite remote sensing sea surface height data[J]. Marine Science Bulletin, 2013, 32(4): 474-480. (in Chinese with English abstract)

[19] Cayre P. Behaviour of Yellowfin Tuna () and Skipjack Tuna () around fish aggregating devices (FADs) in the Comoros Islands as determined by ultrasonic tagging[J]. Aquatic Living Resources, 1991, 4(1): 1-12.

[20] 張衡,戴陽,楊勝龍,等. 基于分離式衛星標志信息的金槍魚垂直移動特性[J]. 農業工程學報,2014,30(20):196-203.

Zhang Heng, Dai Yang, Yang Shenglong, et al. Vertical movement characteristics of tuna () in Pacific Ocean determined using pop-up satellite archival tags[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(20): 196-203. (in Chinese with English abstract)

[21] 王靚. 西北太平洋主要小型中上層魚類資源量對大尺度氣候-海洋環境變化的響應研究[D]. 上海:上海海洋大學,2021.

Wang Jing. Study on the Response of Major Small Pelagic Fish Resource in the Northwest Pacific to Large Scale Climate-Marine Environmental Changes[D]. Shanghai: Shanghai Ocean University, 2021. (in Chinese with English abstract)

[22] Tian Y J, Akamine T, Suda M. Variations in the abundance of Pacific saury () from the northwestern Pacific in relation to oceanic-climate changes[J]. Fisheries Research, 2003, 60(2/3): 439-454.

[23] Vimont D J. The Contribution of the interannual ENSO cycle to the spatial pattern of decadal ENSO-like variability[J]. Journal of Climate, 2010, 18(12): 2080-2092.

[24] Elith J, Graham C H, Anderson R P. et al. Novel methods improve prediction of species' distributions from occurrence data[J]. Ecography (Copenhagen), 2006, 29(2): 129-151.

[25] Dormann C F, Elith J, Bacher S, et al. Collinearity: A review of methods to deal with it and a simulation study evaluating their performance[J]. Ecography, 2013, 36(1): 27-46.

[26] Ohlemuller R, Anderson B J, Araujo M B, et al. The coincidence of climatic and species rarity: High risk to small-range species from climate change[J]. Biology letters, 2008, 4(5): 568-572.

[27] 楊勝龍,張忭忭,張衡,等. 黃鰭金槍魚垂直移動及水層分布研究進展[J]. 水產科學,2019,38(1):119-126.

Yang Shenglong, Zhang Bianbian, Zhang Heng, et al. A review:vertical swimming and distribution of yellowfin tuna (thunnus albacares)[J]. Fisheries Science, 2019, 38(1): 119-126. (in Chinese with English abstract)

[28] 毛志華,朱乾坤,龔芳. 衛星遙感北太平洋漁場葉綠素a濃度[J]. 水產學報,2005(2):270-274.

Mao Zhihua, Zhu Qiankun, Gong Fang. Satellite remote sensing of chlorophyll a concentration in the north Pacific Fishery[J]. Journal of Fisheries of China, 2005(2): 270-274. (in Chinese with English abstract)

[29] Torres-Faurrieta L K, Dreyfus-León M J, Rivas D. Recruitment forecasting of yellowfin tuna in the eastern Pacific Ocean with artificial neuronal networks[J]. Ecological Informatics, 2016, 36: 106-113.

[30] Báez J C, Czerwinski I A, Ramos M L. Climatic oscillations effect on the yellowfin tuna () Spanish captures in the Indian Ocean[J]. Fisheries Oceanography, 2020, 29(6): 572-583.

[31] 侯娟,周為峰,樊偉,等. 基于集成學習的南太平洋長鰭金槍魚漁場預報模型研究[J]. 南方水產科學,2020,16(5):42-50.

Hou Juan, Zhou Weifeng, Fan Wei, et al. Research on fishing grounds forecasting models of albacore tuna based on ensemble learning in South Pacific[J]. South China Fisheries Science, 2020, 16(5): 42-50. (in Chinese with English abstract)

[32] 宮鵬,王德興,袁紅春,等. 基于 LightGBM 的南太平洋長鰭金槍魚漁場預報模型研究[J]. 水產科學, 2021,40(5):762-767.

Gong Peng, Wang Dexing, Yuan Hongchun, et al. Fishing ground forecast model of albacore tuna based on LightGBM in the South Pacific Ocean[J]. Fisheries Science, 2021, 40(5): 762-767. (in Chinese with English abstract)

[33] 袁紅春,陳冠奇,張天蛟,等. 基于全卷積網絡的南太平洋長鰭金槍魚漁場預報模型[J]. 江蘇農業學報,2020,36(2):423-429.

Yuan Hongchun, Chen Guanqi, Zhang Tianjiao, et al. Fishing ground forecast model of albacore tuna based on fully convolutional networks in the South Pacific[J]. Jiangsu Journal of Agricultural Sciences, 2020, 36(2): 423-429. (in Chinese with English abstract)

[34] 宋利明,任士雨,張敏,等. 基于集成學習的大西洋熱帶海域黃鰭金槍魚漁情預報[J]. 中國水產科學,2021,28(8):1069-1078.

Song Liming, Ren Shiyu, Zhang Min, et al. Fishing ground forecasting models for yellowfin tuna () in the tropical waters of the Atlantic Ocean based on ensemble learning[J]. Journal of Fishery Sciences of China, 2021, 28(8): 1069-1078. (in Chinese with English abstract)

[35] Hossin M, Sulaiman M N. A review on evaluation metrics for data classification evaluations[J]. International Journal of Data Mining & Knowledge Management Process, 2015, 5(2): 1-11.

[36] Guo H, Li Y, Shang J, et al. Learning from class-imbalanced data: Review of methods and applications[J]. Expert Systems with Applications, 2017, 73: 220-239.

[37] Swets J A. Measuring the accuracy of diagnostic systems[J]. Science, 1988, 240(4857):1285-1293.

Forecasting models for yellowfin tuna fishing ground in the central and western Pacific based on machine learning

Zhang Cong1,2, Zhou Weifeng1※, Tang Fenghua1, Shi Yongchuang1, Fan Wei1

(1.200090; 2.100081)

An accurate forecast can be greatly contributed to the yellowfin tuna fishing ground in the western and Central Pacific. However, a large amount of fishery data, and high feature dimension have posed a great over-fitting on the various classification in recent years. The random forest parallel integration can be expected to achieve the excellent performance of the extreme gradient boosting decision tree algorithm. In this study, a hybrid integration model was proposed to combine the Xgboost with Random Forest (XGBRF) with the random forest and extreme gradient lifting decision tree. The fishery production data was also collected from the operation data of 43 distant-water longline fishing vessels of China Aquatic Group in the western and Central Pacific (0°-30°S; 110°E-170°W) from 2008 to 2019, including catch information, such as amount, job date, as well as the job latitude and longitude. A comparison was performed on the fishery data, including the concentration of chlorophyll, eddy kinetic energy, sea surface height anomalies, temperature and salinity of the 0-500 m mixed water layer. A total of 36 variable combinations were used as the original data set, including the Southern Oscillation Index (SOI), the Arctic Oscillation Index (AOI), the Pacific Decadal Oscillation Index (PDOI), and North Pacific Gyre Oscillation Index (NPGOI). The original data set was divided into the training set and test set after the screening and normalization of the variance expansion factor, accounting for 80% and 20%, respectively. The training set was used to train eight models, including classification and regression, logistic regression, k-nearest neighbor, adaptive boosting, gradient boosting decision tree, xgboost, random forest, and XGBRF. The five-fold cross-validation was used for each model to determine the optimal parameters. Finally, the model was verified to superimpose the actual fishing ground of the test set. The experimental results showed that: 1) There was a significant correlation between the catch per unit fishing effort and various variable factors. There was also a great decrease in the degree of collinearity between the variables that were filtered by variance inflation factor. 2) The XGBRF hybrid ensemble model also significantly improved the performance of XGBoost and RF models. Specifically, the highest accuracy rate and Area Under Curve (AUC) were 75.39%, and 79.48%, respectively. The Receiver Operator Characteristic (ROC) curve of the XGBRF model was closer to the upper left, indicating the best performance of the forecasting model than before. 3) The sea surface temperature was the most important factor to dominate the distribution of yellowfin tuna fishing ground, accounting for 7.573%. The temperature of the 300 m water layer was equally important for the yellowfin tuna, which was 7.369%. In addition, the greater impact was also found in the salinity of the 50-meter water layer, the SOI, the concentration of chlorophyll, and the surface salinity. There was a relatively low influence of other large-scale climatic factors, except for the SOI. 4) There was only a small deviation between the fishing ground predicted by the XGBRF model and the actual fishing ground, indicating the high accuracy and reliability of the prediction. Overall, the XGBRF ensemble model performed the best on the fishing ground forecast of yellowfin tuna in the western and Central Pacific. The finding can also provide a strong reference for the fishing ground forecast.

machine learning; models; western and central Pacific;yellowfin tuna; fishing ground forecast

10.11975/j.issn.1002-6819.2022.15.036

S931.3

A

1002-6819(2022)-15-0330-09

張聰,周為峰,唐峰華,等. 基于機器學習的中西太平洋黃鰭金槍魚漁場預報模型[J]. 農業工程學報,2022,38(15):330-338. doi:10.11975/j.issn.1002-6819.2022.15.036 http://www.tcsae.org

Zhang Cong, Zhou Weifeng, Tang Fenghua, et al. Forecasting models for yellowfin tuna fishing ground in the central and western Pacific based on machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 330-338. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.036 http://www.tcsae.org

2022-04-29

2022-07-19

國家重點研發計劃項目(2019YFD0901405);農業農村部南海漁業資源開發利用重點實驗室開放基金項目(LOF 2022-05);中央級公益性科研院所基本科研業務費項目(2019T09);核電廠冷源安全保障相關技術開發項目(21FW018)

張聰,研究方向為機器學習與海洋漁場預報。Emai:zhangcong20190404@163.com

周為峰,博士,副研究員,研究方向為漁業遙感與漁場海洋學。Email:zhwfzhwf@163.com

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费国产高清视频| 亚洲一道AV无码午夜福利| 午夜一区二区三区| 成人日韩欧美| 久热这里只有精品6| 日韩精品亚洲人旧成在线| 国产免费a级片| 亚洲国产精品久久久久秋霞影院| 91成人在线免费视频| 国产精品开放后亚洲| 久久综合色88| 日韩欧美色综合| 国产成人夜色91| 日韩av手机在线| 99久久国产综合精品女同| 国产精品自在线天天看片| 青青操国产视频| 六月婷婷激情综合| 久久特级毛片| 亚洲日本韩在线观看| www.亚洲国产| 一级全免费视频播放| 91麻豆久久久| 久爱午夜精品免费视频| 日本日韩欧美| 久久毛片网| 中国国产A一级毛片| 日韩精品免费一线在线观看| 久久天天躁狠狠躁夜夜2020一| 久久五月视频| 国内熟女少妇一线天| 青青草原国产| 天天操精品| 亚洲无码高清一区| 久久综合丝袜长腿丝袜| 国产乱人伦AV在线A| 国产乱子伦视频在线播放| 国产香蕉97碰碰视频VA碰碰看| 国产制服丝袜无码视频| 2022精品国偷自产免费观看| 久久性妇女精品免费| 久久人人妻人人爽人人卡片av| 亚洲天堂在线免费| 国产女人在线| 久久99精品久久久久纯品| 免费黄色国产视频| 欧美日韩一区二区在线免费观看 | 制服丝袜国产精品| 亚洲一区二区三区麻豆| 在线99视频| 谁有在线观看日韩亚洲最新视频| 亚洲无码日韩一区| 亚洲欧美天堂网| 这里只有精品免费视频| 国模在线视频一区二区三区| 精品国产成人三级在线观看| 亚洲成aⅴ人片在线影院八| 黄片在线永久| 男人天堂亚洲天堂| 午夜福利免费视频| 欧美日本激情| 欧美激情综合| 国产网站黄| 9丨情侣偷在线精品国产| 四虎永久免费在线| 91福利免费| 国产精选小视频在线观看| 免费无码网站| 97精品国产高清久久久久蜜芽| 国产亚洲欧美另类一区二区| 青青草a国产免费观看| 一本久道热中字伊人| 人妖无码第一页| 国产欧美中文字幕| 国产91丝袜在线播放动漫| 久久久久青草线综合超碰| 永久毛片在线播| 国产亚洲精| 九九精品在线观看| 美女高潮全身流白浆福利区| 国产91特黄特色A级毛片| 国产地址二永久伊甸园|