李 濤,郁百成,鄒德武,任利利
(1.交通運輸部水運科學研究所,北京 100088;2.浙江省港航管理中心,浙江 杭州 310011;3.衢州市港航管理局,浙江 衢州 324000)
近年來,海洋生物入侵防范已成為世界海洋環境治理中的研究熱點。港口和航運業的持續發展,造成船舶壓載水交換量增加,壓載水帶來越來越多的外來生物,對近岸海洋生態系統造成了持續而顯著的影響[1-4]。據測算,全世界每年交換壓載水約120 億t,90%以上的潛在有害海洋生物通過船舶壓載水傳播。依據全國船舶自動識別系統(Automatic Identification System,AIS)數據計算,僅天津港2017 年壓載水排放量就超過5 000 萬t。根據江陰海關多年來對船舶壓載水中外來生物的檢測結果,我國壓載水和沉積物中檢測到的有毒有害生物達195 種。而經常在我國海域發現的赤潮物種,如夜光藻、中肋骨條藻、米氏凱倫藻等,均在壓載水中被檢測出。
國內外對海洋生態環境數據倉庫的研究和應用持續升溫,開發出了各種數據倉庫,如:德國計算機科學研究中心(Fonschangszentrum Informatik,FZI)開發的虛擬歐洲環境數據倉庫Coast Base[5];澳大利亞聯邦科學與工業研究組織(Common?wealth Scientific and Industrial Research Organiza?tion,CSIRO)開發的海洋數據倉庫[6];美國地質調查局(United States Geological Survey,USGS)針對海洋物種數據建立的NAS(Nonindigenous Aquatic Species)數據庫[7];大連海事大學為了滿足船舶運輸的安全要求,建立了數字海洋空間數據庫方案并提出了信息內容和結構設計[8];青島海洋大學建立了全球極端海面風速預測模型和基于極端海面風速預測的海洋地理信息系統[9]。這些數據庫的建設和應用為研究海洋生態環境,查詢海洋物種在近海的時空分布及變化情況提供了支持。
數據挖掘是一個知識提取的過程。數據挖掘技術被應用于各領域研究中[10-11],在生態環境領域同樣得到了廣泛的應用[12-15],例如:美國加利福尼亞大學的Baker 等人針對海洋環境信息異構數據構建了靈活的信息系統結構[16];日本東京國家情報學院采用了數據挖掘技術進行大數據分析以預報臺風[17];美國密西西比州立大學的Wooley等人采用分類分析和聚類分析方法對海洋數據進行挖掘研究[18];美國麻省理工學院的Guo 等人采用海洋數據的特征抽取和可視化技術進行海洋環境分析[19]。目前國內外針對生物入侵的大數據研究主要是利用數據挖掘技術分析影響特定物種入侵行為的主要環境影響因子(如水溫、溶解氧、pH 值等)及作用關系[20-21]。而采用數據挖掘技術進行壓載水排放引起的海洋生物入侵影響因子的研究較少。
浮游植物的豐度預測模型包括人工神經網絡模型[22-23]、多元回歸模型[24-25]、基于事例推理的相似預測[26],其中常用的是人工神經網絡模型和多元回歸模型。根據連接的拓撲結構,人工神經網絡模型可以分為前向網絡和反饋網絡(Back Propagation Neural Network,BP 神經網絡)。BP 神經網絡將誤差前饋,可以縮小誤差。研究表明,BP 神經網絡模型的準確性高于多元回歸模型[27]。所以,本文首先采用數據挖掘技術獲取海洋生物入侵的影響因素,繼而采用BP 神經網絡模型進行生物豐度預測。
中肋骨條藻是我國沿海較為常見的廣溫廣鹽浮游植物,也是常見的赤潮藻種。本文以中肋骨條藻為例建立生物豐度預測模型,通過在模型中輸入環境影響因子監測結果來計算中肋骨條藻的增殖擴散風險。趙行行等人[28]的研究結果表明,影響中肋骨條藻生長的關鍵環境因子為水溫、硅酸鹽和磷酸鹽,此外化學需氧量(Chemical Oxy?gen Demand,COD)、pH 值、透明度及鹽度等環境因子也對中肋骨條藻的生長有重要影響。宋婭婷等人[29]的研究也表明溫度、光照和磷酸鹽及其交互作用對中肋骨條藻的生長有顯著影響。根據《近岸海域環境監測技術規范》(HJ 442—2020)[30]的要求,水質監測頻次一般為每年3 次,采樣時間分別為3 月—5 月、7 月—8 月 和9 月—11 月。《海水水質標準》(GB 3097—1997)[31]規定,水質監測指標包含水溫、鹽度、pH 值、溶解氧、COD、生化需氧量(Biochemical Oxygen Demand,BOD)、無機氮、磷酸鹽、懸浮物等參數。天津港建港時間長,擁有長期的監測數據,港區和監測站圍繞渤海分布密集,有利于針對監測數據的挖掘分析。本文收集了天津港2005—2017年海域監測獲得的水質與生物指標數據,用聚類分析[32-34]和關聯分析[35-36]等數據挖掘算法[37]分析港口水域生物指標與港口水域水質環境指標的潛在相關性;然后以中肋骨條藻為例建立海洋生物豐度的BP 預測模型,以解決港口水域的浮游植物生物入侵風險評估這一關鍵技術難題。
本文收集整理了2005—2017年在天津港海域28 次監測的共計210 個監測站位的數據,監測項目為水質、沉積物和生物,并利用這些數據建立港口生態環境數據倉庫。港口生態環境數據倉庫指標主要包括:采樣時間、生物多樣性指數、生物均勻度指數、站位優勢度、生物豐度、水溫、鹽度、懸浮物、溶解氧、pH 值、COD、無機氨、磷酸鹽等影響因子。
海洋生物的生長與環境影響因子直接相關。本文關注的重點是與港口水域海洋生物的生態特征有關的屬性。本文對港口水域水質生物指標進行梳理,采用第三范式(Third Normal Form,3rd NF)[38-39]建模,根據各屬性的對應關系,提出并明確關系數據庫中數據的存取方法和存儲結構,建立了包括港口水質信息、港口水質采樣站位信息、港口信息、監測站信息等10個數據表結構的數據邏輯模型。基于數據邏輯模型建立的港口生態環境數據庫物理模型如圖1所示。
為了分析港口生態環境影響因子的關聯性,本文對港口生態環境影響因子進行關聯分析。采用K均值聚類算法[40]對定量屬性進行離散處理。生物多樣性指數、生物均勻度指數、站位優勢度、生物豐度的聚類屬性集合均為{0,1,2,3},鹽度、懸浮物、無機氨、磷酸鹽的聚類屬性集合為{0,1,2},水溫、溶解氧、pH 值、COD 的聚類屬性集合為{0,1}。
基于離散處理后的屬性值,為明晰港口水域海洋生物指標與時間屬性、空間屬性及水質指標之間的關聯關系,輸入限定的最小支持度為0.2、最小的置信度為0.7,計算相應的支持度和隸屬度,并根據輸入限定的最小支持度和最小置信度計算相關規則。
對樣本數據進行挖掘,先后得到頻繁1項集、頻繁2項集、頻繁3項集、頻繁4項集。從樣本中挖掘出所有的頻繁項目后,即可獲得相應的關聯規則。
根據關聯結果,對關聯性進行分析。為尋找水質指標、時間屬性、空間屬性與豐度之間的關系,將豐度作為后件,將水質指標、時間屬性、空間屬性作為前件,利用上述算法,計算滿足條件的規則,其中有指導意義的規則如表1所示。

圖1 港口生態環境數據的物理模型

表1 豐度規則列表
以表1中第一條規則為例,該規則的意義為:前件{種群名稱=浮游植物,COD=1,磷酸鹽=2}出現時,后件{豐度=0}出現的概率為85%,意味著COD 為1、磷酸鹽為2 時,浮游植物的豐度有85%的頻率取值為0。
從表1 中可以發現:浮游植物在COD 較高、磷酸鹽含量適中的環境中豐度低;浮游植物在水溫較低時豐度低,置信度為0.83;浮游植物在磷酸鹽含量適中的條件下豐度低,置信度為0.81;底棲生物在溶解氧含量較低、無機氮含量較高的理化條件下豐度較高;浮游動物在溶解氧含量較低、懸浮物含量較高時豐度高。以上結果說明,種群類型、磷酸鹽、COD、水溫與豐度關聯性較高。其中,浮游植物在COD 含量較高、磷酸鹽含量適中、水溫較低時豐度偏低。港口水域生物豐度與該水域的理化指標(水溫、鹽度、無機氮、磷酸鹽、溶解氧、COD)之間具有潛在關聯性。
基于關聯性分析結果,采用BP 神經網絡模型,建立港口水域浮游植物的豐度與理化指標之間的預測模型。實驗環境為Windows10+Py?thon3.5+keras2.2.2,在該環境中設計BP神經網絡結構,對浮游植物的豐度進行預測。原始數據為監測站點采集到的水溫、鹽度、無機氮、pH 值、懸浮物、溶解氧、磷酸鹽、COD 等理化指標。對采集到的原始數據采用Z-score 數據標準化進行預處理操作,作為BP神經網絡的輸入層特征。
根據2.1 節的關聯性分析結果,COD、水溫、鹽度、無機氮、磷酸鹽、溶解氧對浮游植物豐度影響較大,故將其作為影響豐度的主要初始特征。但是在進行預實驗時發現,將上述6 個理化指標作為影響豐度的特征進行BP 網絡訓練,易出現過擬合現象。經過多輪實驗,根據模型的收斂比較結果與預測的均方根誤差,最終選擇了水溫、鹽度、無機氮、磷酸鹽這4 項作為模型的訓練特征。
BP 神經網絡輸入層包括4 個訓練特征,隱藏層設置了8 個神經元,輸出層為豐度值。用梯度下降法進行神經網絡優化。圖2 為本文構建的豐度預測BP模型。

圖2 豐度預測BP模型
本文利用BP 神經網絡,以浮游植物中肋骨條藻為例建立外來生物入侵風險預測模型,其生物入侵風險大小以生物的豐度變化來表示。為了確定BP 神經網絡中各神經元的權重及閾值,本文以中肋骨條藻的豐度以及水溫、鹽度、無機鹽、磷酸鹽的48 組數據作為基礎數據進行實驗,隨機選取其中38 組數據作為訓練數據,余下10組作為測試數據,一共訓練400epoch。繪制訓練集的損失函數與驗證集的損失函數(如圖3 所示),顯示兩個函數全部收斂。最終模型訓練神經元的權重及閾值結果如表2、表3所示。

圖3 損失函數

表2 模型訓練輸入層神經元的權重及閾值

表3 模型訓練隱藏層神經元的權重及閾值
為了檢驗模型的預測效果,訓練后保存模型,對測試集的10組數據進行預測,將預測結果與真實值進行比較,得到如圖4 所示的豐度預測值與真實值對比圖。
從圖4 可以看到,與真實值相比,預測值存在偏大或偏小的情況。對10組數據的偏差進行分析,得到預測值與真實值的均方根誤差RMSE 為0.071 5,相對誤差絕對值的平均值為14.7%。實驗結果表明,BP神經網絡對于中肋骨條藻豐度有較好的預測效果。

圖4 豐度預測值與真實值對比
本節實驗的特征選擇主要分兩個階段:第一階段是基于數據挖掘技術和關聯分析方法,找出對浮游植物影響較大的港口水域水質環境指標,包括COD、水溫、鹽度、無機氮、磷酸鹽、溶解氧等共6 項;第二階段是基于BP 神經網絡模型,通過更換多次訓練結果證明水溫、鹽度、無機氮、磷酸鹽等特征能更好地表征中肋骨條藻的豐度,同時也減少了過擬合狀況。
本文運用聚類分析和關聯分析的方法,從天津港海域生態環境數據中挖掘出港口水域生物指標與港口水域水質環境指標的相關性和潛在知識;并通過關聯性分析,篩選出港口水質環境指標特征,包括水溫、鹽度、無機氮和磷酸鹽;然后通過建立基于BP 神經網絡的入侵生物豐度預測模型,以中肋骨條藻為例,根據水溫、鹽度、無機氮、磷酸鹽模擬其豐度,預測值與真實值相差較小,表明BP 神經網絡對于中肋骨條藻豐度的預測具有一定的可靠性和準確性,預測效果較好,可以為港口水域的浮游植物豐度變化模擬提供可靠的技術手段。數據挖掘技術和BP 神經網絡模型的綜合應用,解決了港口水域的浮游植物豐度變化模擬及外來生物入侵風險評估的關鍵技術難題,可以為指定港口水域的浮游植物豐度變化模擬及生物入侵風險評估提供支持。本文研究結果也可以用來模擬預測其他外來生物入侵的過程和損害程度。另外,外來生物的生長除了與水質、生態等環境因子有關外,還與水的運動有關。因而,更準確地評估壓載水生物入侵風險還需要考慮水動力因素,將水動力模型與豐度預測模型耦合。
本文采集的樣本量偏小,時空連續性存在不足,還需要進一步收集數據對結果加以驗證。同時,在今后的研究中可運用大數據技術對水生物種群的演變過程展開深入分析;本文中的數據挖掘理論及相關模型還有待在實際應用過程中進一步優化。