李曉梅,楊健浩,李俐,蓋榮麗,汪祖民
(大連大學 信息工程學院,遼寧 大連 116000)
我國是水產養殖大國,隨著經濟的快速增長,海水養殖業得到不斷提升和快速發展[1].近十年來,我國海參養殖規模不斷擴大,已經成為我國重要的水產養殖品種.但是海參對海水水溫極其敏感[2],這給海參養殖工作帶來了很多不便.因此研究海參養殖水溫預測的方法,及時預測海參養殖水溫變化,對提高海水養殖產品的產量和質量具有重要的實際意義.
真實可靠的數據是水溫預測的首要和關鍵性因素,各種環境因素均會影響到采集數據的準確性,易造成采集的數據存在一定偏差和少量噪聲[3],尤其是時間序列數據更易受到各種因素的影響.不少學者對此進行了探索,WANG等[4]提出了一種校正EMD方法的近似預測模型,并將其定義為一種新的信號降噪方法.但是該方法需要對每一個預測過程進行往返分解和重構,會花費大量時間.LI等[5]通過小波變換對載荷序列進行分解,以捕獲其在不同頻率下的復雜特征,但是小波分析方法雖然能夠提取不同尺度上的細節信息,但無法進行自適應的多分辨率分析.因此,為進一步提高數據的可靠性,解決傳統水溫預測模型易引入含噪數據等問題.本文利用小波閾值降噪(Wavelet Threshold Denoising,WTD)方法對影響海參養殖水溫變化的關鍵影響因子進行去噪,在保留有效信息的前提下,減少關鍵影響因子數據的噪聲,增強其數據的平滑性,以進一步提高水溫預測精度.
近年來,隨著智能化、數字化水平不斷提高,運用科技技術實現養殖智能化成為水產養殖發展的新方向,并獲得了一些成效[6-9].施佩等[10]提出了Empirical Mode Decomposition-Improved Genetic Algorithm-Improved Extreme Learning Machine(EMD-IGA-SELM)算法,用于預測工廠水產養殖環境下的水溫變化,并監測了氣象環境因子和部分水體因子.YANG等[11]提出了一種基于注意機制的Convolutional Neural Network-Long-Short-Term Memory(CNN-LSTM)混合水質預測模型,對北侖河口水質進行預測.徐大明等[12]利用粒子群算法優化Back Propagation(BP)神經網絡對水產養殖的水溫及pH值進行預測.陳英義等[13]提出基于Genetic Algorithm-Back Propagation(GA-BP)的池塘養殖水溫短期預測方法,但僅考慮了氣象環境因素對水溫變化的影響.同時當樣本數超過30時,預測值和實際值存在一些波動.盡管上述方法均取得了較好的結果,但大多聚焦于淡水領域,且未綜合考慮氣象和水體環境因子對水溫變化的影響,不能充分挖掘出海參養殖水溫的變化特征,降低了預測精度.因此,本研究系統地獲取影響海參養殖水溫變化的氣象與水體環境因子,充分考慮氣象和水體環境因子對水溫變化的綜合影響,以多維數據作為模型的輸入,進一步提高模型的預測性能.
綜上所述,本文提出了一種基于多維數據的混合Wavelet Threshold Denoising-Genetic Algorithm-Back Propagation(WTD-GA-BP)海參養殖水溫預測模型,利用WTD對影響海參養殖水溫變化的關鍵影響因子進行降噪,在保留有效信息的前提下,減少數據噪聲,增強數據的平滑性.同時,綜合考慮氣象和水體環境因子對水溫變化的影響,以降噪后的多維數據作為預測模型的輸入,充分挖掘水溫的變化特征,實現海參養殖水溫的精準預測.
實驗于2021年3月至9月在遼寧省大連市金州區海參養殖海域進行,該區域海水平均溫度12.1 ℃,鹽度平均為30%~32%,分布較為均勻,且具有水質好、水溫低、營養物質豐富等特點,海洋資源豐厚,有利于海參的生長繁育.

海參養殖環境水質參數的采集采用自主研發的海參養殖環境監測物聯網平臺系統,該系統由數據感知層、數據傳輸層和應用云平臺組成.數據感知層負責采集氣象和水質參數等信息包含溫度、鹽度、溶解氧、pH值等多種智能傳感器,并在海參養殖環境周邊安裝自動氣象站獲取氣象數據.數據傳輸模塊實現數據感知層與應用云平臺的無線通信,將所采集數據傳輸給應用云平臺.整體結構如圖1所示.系統的采樣周期為30 min.樣本總數為565組.收集到的數據被分為兩部分,前80%組數據用作學習樣本,后20%組數據作為測試樣本,檢驗水溫預測模型的預測效果.
1.3.1小波閾值降噪
小波變換能夠通過不同分辨率對時間序列進行分解,將原始信號分解成不同頻率子信號,使得原始信號的時序概況和細節部分盡可能多地被發現,因此成為當前分析時間序列的有效工具[14],其中WTD方法近年來得到了廣泛應用.因此,本文利用小波閾值降噪(WTD)對關鍵環境參數進行降噪,在保留有效信息的同時減少噪聲并增強數據的平滑性,其主要包括3個步驟:
(1)首先根據不同變量的數據特征選用最佳小波函數對含噪信號進行分解.
(2)選擇閾值函數去除原始數據信號的噪聲分量,因為硬閾值函數在ω=λ處存在不連續點,降噪后的數據信號易在奇異點附近出現較為顯著的假吉布斯效應,所以在本文中選擇軟閾值函數對數據信號進行去噪.
(3)根據前面1-N層的高頻系數和最后第N層的低頻系數進行小波重構,最終生成去噪數據信號.
1.3.2遺傳算法
遺傳算法(Genetic Algorithm,GA)是一種模擬自然界遺傳機制和生物進化論而形成的并行隨機搜索最優化方法,于1962年由Holland教授首次提出[15-17].GA將生物染色體編碼的機制運用到對優化目標參數組的編碼中,根據參數組表現的適應度進行模擬遺傳操作,篩選出新的種群,不斷迭代保留優質個體并保留至下一代,直至滿足終止條件.
1.3.3BP神經網絡
神經網絡(Back Propagation,BP)是一種具有信號正向傳播和誤差反向傳播的多層前饋性神經網絡,其經過多年研究和發展,已具備較為成熟的理論基礎,具有良好的非線性映射和自組織學習能力[18].一個BP神經網絡一般包含一個輸入層、一個輸出層以及一個或者多個隱含層.每層存在多個神經元,每個神經元的輸出值由輸入值、權重、閾值和激活函數決定.其學習過程由信號的正向傳播和反向傳播兩個過程構成:在正向過程中,輸入信號經過輸入層、隱含層,經過網絡的權值、閾值的作用后通過輸出層輸出,若輸出值大于期望誤差,則進行反向傳播,如此反復.在反復的過程中,網絡的權值和閾值都在進行自適應調整,直到所有的輸出值都達到預定誤差.BP神經網絡的輸入和輸出關系如式(1)、(2)所示.
(1)
yi=f(Ni),
(2)
式中,Ni為凈激活;wij為上層神經元j到下層神經元i的權值;xj為上層神經元的輸入信號;aj為閾值;yi為神經元i的輸出;fx為激活函數.
2.1.1數據預處理
由于海水養殖環境大多為露天養殖,海水環境復雜,污染和腐蝕性較強,傳感器放置于海水環境中,受腐蝕及其他環境因素作用,傳感器在數據采集過程中易發生偏差,網絡的傳輸也會產生數據的延遲及丟失,導致物聯網數據收集系統收集的數據出現缺失值和異常值.因此,選擇線性內插法來內插缺失的數據,并對異常值進行剔除.同時為了消除不同類別分子描述符在數量上的差距對建模的影響,本文利用數據歸一化處理方法將不同的分子描述符數據統一表示為[0,1]之間的數字.將不同維度的表達式轉換成同一維度表達式,解決數據間的可比性問題.
2.1.2影響水溫變化的相關因子分析
由于水體環境因子和氣象環境因子對水溫的變化均具有一定的影響.本文從海參養殖環境監測物聯網平臺監測獲取空氣溫度、空氣濕度、相對氣壓、風速、風向、陣風、降雨量、鹽分、溶解氧、pH值、水溫等11項數據指標,并將其進行關聯分析.在實驗的565組數據中,利用Pearson相關性分析得出各環境因素與海參養殖水溫間的相關關系.結果如表1所示,在各環境因素中與水溫呈顯著相關的有氣溫、相對空氣濕度、相對氣壓、風速、陣風、降雨量、溶解氧、鹽分、pH值等.
2.2.1指標選取
根據相關性分析結果可知,其中氣溫、空氣濕度、相對氣壓、風速、陣風、降雨量、溶解氧、鹽分、pH值等均與水溫呈顯著相關性,而風向與水溫間無顯著相關性.故選取氣溫、空氣濕度、相對氣壓、風速、陣風、降雨量、溶解氧、鹽分、pH值、水溫10項環境指標構建水溫預測模型.
2.2.2小波閾值降噪
利用WTD方法對與水溫顯著相關的關鍵影響因子數據進行降噪,增強數據的平滑性.其部分降噪前后的數據效果對比如圖2所示.
由圖2可知,WTD具有良好的降噪性能,有效去除了數據噪聲,極大增強了數據的平滑性.

傳統的BP神經網絡存在易陷入局部極值、收斂速度慢等缺點,而遺傳算法可以較好地克服陷入局部極值陷阱問題,且易于與其他算法結合[19-20].因此本研究提出基于多維數據的WTD-GA-BP海參養殖水溫預測模型.模型構建過程如圖3所示.
在整個模型當中,主要利用遺傳算法不斷優化BP神經網絡的權值和閾值.通過模擬遺傳的選擇、交叉和變異等操作獲得最佳權重和閾值;將獲取的參數傳送給BP神經網絡;最后由BP神經網絡進行訓練并輸出預測值.該預測模型具體步驟如下:
(1)根據海參養殖環境參數確定BP神經網絡的拓撲結構,并初始化BP神經網絡的權值和閾值.
(2)通過遺傳算法對BP神經網絡的權值和閾值進行編碼,得到初始種群,進行模擬遺傳操作,以獲取新的個體.
(3)將獲取的最佳參數賦予新建的BP神經網絡,根據經驗公式確定BP神經網絡的隱含層節點數[21]并對權值和閾值進行更新,其公式為:
(3)
式(3)中隱含層節點數由p表示,輸出層節點數為m,輸入層節點數由n表示,a為0到10之間的常數.
(4)不斷更新水溫預測模型的權值和閾值并計算預測值和真實值的誤差,判斷誤差是否超出規定范圍或達到計算次數.若誤差未超出規定范圍或達到了計算次數,則輸出水溫預測結果.
(5)利用平均絕對百分比誤差MAPE、均方誤差MSE和平均絕對誤差MAE對基于多維數據的WTD-GA-BP海參養殖水溫預測組合模型進行性能評價.各指標表達式為:
(4)
(5)
(6)

模型參數設置.經過不斷實驗比較,將WTD-GA-BP水溫預測模型初始種群規模設定為50,迭代次數設定為20.依據多次運行均方誤差最小的原則,確定遺傳算法的交叉概率0.3,變異概率為0.1[22].
為綜合驗證基于多維數據的WTD-GA-BP水溫預測模型的預測性能,本研究采用兩步進行.首先,以多維數據作為輸入,分別比較WTD-GA-BP模型、GA-BP模型、BP神經網絡和最小二乘支持向量回歸(Least Square Support Vector Regression,LSSVR)模型的預測性能,以驗證WTD-GA-BP預測模型具有更強的穩定性和更高的預測精度.進一步,分別以不同維度數據作為WTD-GA-BP模型的輸入,驗證在相同的WTD-GA-BP模型中,以多維數據作為模型輸入比單維數據作為模型輸入具有更好的預測性能.
為全面分析和比較WTD-GA-BP海參養殖水溫預測模型的性能,均以多維數據作為輸入,分別采用WTD-GA-BP水溫預測模型、GA-BP模型、BP神經網絡和LSSVR模型對海參養殖水溫進行預測.其中設置WTD-GA-BP與GA-BP模型的隱含層節點數均為13,BP隱含層節點數為11.上述4種模型的預測結果對比如圖4所示.
由圖4可知,同時以多維數據作為模型輸入,LSSVR和BP神經網絡模型的預測誤差較大,GA-BP相較于LSSVR和BP神經網絡預測誤差較小,但是在低拐點處偏離較大,存在一定的波動.而本研究提出的WTD-GA-BP組合模型的預測最為精準,在低拐點處無較大偏離值,預測效果最好.
同時,為綜合評價這4個模型的預測性能,依據式(4)、(5)、(6)中的MAE、MAPE和MSE值,分別比較4個模型的性能.對比結果如表2所示.

表2 基于多維數據的各模型性能對比
根據表2的結果可知,本文提出的WTD-GA-BP組合模型相比于GA-BP、BP神經網絡、LSSVR具有更好的預測性能,其預測精確度更高.將本文所提出的WTD-GA-BP模型與GA-BP相比,其評價指標MAE、MAPE、MSE分別降低了53.34%、53.49%和71.11%.同時,WTD-GA-BP相較于標準BP,其評價指標MAE、MAPE、MSE分別降低了64.84%、65.12%、80.49%.WTD-GA-BP相比于LSSVR的預測性能,其評價指標MAE、MAPE、MSE分別降低了64.50%、64.49%、84.66%.
上述分析表明,本研究提出的WTD-GA-BP水溫預測模型能夠準確預測海參養殖水溫的變化趨勢,WTD方法有效去除了數據信號噪聲,增強了數據平滑性,進一步提高了模型的預測精度.
為比較以不同維度數據作為輸入時對WTD-GA-BP預測性能的影響,分別以不同維度數據作為WTD-GA-BP模型的輸入,比較其預測效果.其中設置基于多維數據的WTD-GA-BP預測模型的隱含節點數為13,基于氣象環境參數的WTD-GA-BP預測模型的隱藏節點數為11,基于水體環境參數的WTD-GA-BP預測模型的隱藏節點數為6.各模型預測結果對比如圖5所示.
由圖5可知,相較于以單維氣象或水體環境參數作為模型輸入,基于多維數據的WTD-GA-BP水溫預測模型預測結果更加精準,預測精確度更高且異常值較少.
分別比較基于不同維度數據的WTD-GA-BP水溫預測模型的MAE、MAPE和MSE,對比結果見表3.

表3 基于不同維度數據WTD-GA-BP預測性能對比
由表3可知,基于多維數據的WTD-GA-BP預測模型相較于基于氣象參數的WTD-GA-BP預測模型、基于水體參數的WTD-GA-BP預測模型,預測精度得到了較大提升.基于多維數據的WTD-GA-BP預測精度達到了99.4%,而基于氣象參數的WTD-GA-BP預測精度為98.8%,基于水體參數的WTD-GA-BP預測精度為98.68%.基于多維數據的WTD-GA-BP水溫預測模型的MAE、MAPE、MSE分別為0.146 8、0.006 0、0.050 3,相比于氣象參數的WTD-GA-BP水溫預測模型,MAE、MAPE、MSE分別降低了49.41%、50.00%和69.33%.相比于基于水體參數的WTD-GA-BP的預測模型,MAE、MAPE、MSE分別降低了54.76%、54.55%和71.16%.結果表明,基于多維數據的WTD-GA-BP水溫預測模型預測精度優于單獨以氣象環境參數為輸入或單獨以水體環境參數為輸入的預測精度.
由3.1節、3.2節的實驗結果可得,本研究提出的基于多維數據的WTD-GA-BP水溫預測模型能夠有效去除噪聲影響,充分挖掘出水溫數據的變化特性,極大增強了模型的泛化能力,進一步提升了海參養殖水溫預測模型的預測性能.
針對海參養殖的水溫預測難度大,精確度較低等問題,本文提出了基于多維數據的WTD-GA-BP海參養殖水溫預測模型,對海參養殖環境水溫進行預測,通過研究得到如下結論:
(1)WTD算法具有較好的降噪能力,增強了數據的平滑性,有效提升了模型的預測性能.
(2)以多維數據作為WTD-GA-BP模型的輸入,解決了以往水溫預測模型僅以單維氣象環境參數或水體環境參數作為模型輸入,無法充分挖掘出水溫數據的變化特性,導致模型的泛化能力不足等問題,有效提高了模型的預測精度.
上述研究系統分析了影響海參養殖水溫變化的氣象及水體環境因子,構建基于多維數據的WTD-GA-BP海參養殖水溫預測模型,具有良好的預測結果,且實時性強,可以為海參養殖水溫預測提供科學指導.
本文基于多維數據構建了WTD-GA-BP模型,對海參養殖短時間內的水溫變化進行預測,取得了較好的預測效果.但由于樣本數較少,并未涉及長時間間隔的預測,因此在后續的研究工作中需要更加關注長時間間隔的水溫預測,以促進海參養殖信息化發展.