高 霞, 邸玉琦, 成艷君, 程倩倩, 袁明波, 曹麗英
(1.山東電子職業技術學院自動化工程系,山東濟南 250200; 2.吉林農業大學信息技術學院,吉林長春 130118;3.中國農業大學信息與電氣工程學院,北京 100083; 4.山東電子職業技術學院電子工程系,山東濟南 250200)
準確高效的水質預測對于研究水產養殖水質的變化規律,防范水體惡化以及病害危險具有十分重要的現實意義和經濟價值,目前國內外關于水產養殖水質預測模型的研究已經日趨成熟,并取得了一系列的實際應用成果。而水質預測模型的建立離不開大量的實測數據,與物聯網結合的數據采集可以大大提升其工作效率和數據質量[1],但冗余較多和數據缺失的問題會嚴重導致預測模型準確性的降低。作為預測模型的基礎,數據質量直接影響最終的建模效果,因此試驗數據的預處理顯得尤為重要。
但目前關于水質預測模型的研究主要集中在水質預測核心階段,著力于預測算法的選擇和優化而忽視了對水質數據預處理的研究,針對預測模型的數據預處理方法研究相對較少。姚亞利用線性插值法和均值法對水產養殖水質數據進行修復,但未涉及數據的結構化處理以及冗余消除等方面[2]。在特征識別與提取方面多采用聚類分析的方法[3],而未涉及其他數據質量問題方面的研究。
水產養殖物聯網數據受傳感器本身和傳輸環境影響,易發生數據的缺失和異常,因此數據修復必不可少。另外,水質預測模型需要環境因子作為輸入,而水產養殖環境因子之間關系復雜,存在著非線性、非穩定性等特點[4],且各個影響因子之間存在一定的冗余,給水質預測模型的建立帶來了很大的困難。數據初步修復后,利用數據歸約技術對數據進行特征選擇[5],在盡可能保持數據原始狀態的前提下,最大限度地精簡數據。其中,系統聚類法和主成分分析法因其高效性和準確性而備受研究人員青睞。此外,由于系統誤差、隨機誤差和人為誤差等情況,試驗數據都不可避免地含有噪聲污染,而噪聲影響會使得模型預測效果大大降低。鄭勛燁指出,20世紀80年代初由格羅斯曼提出了小波理論[6],由于它可以成功區分噪聲和有用信號,因而在信號處理中得到了廣泛應用[7-8]。與其他傳統降噪方法相比,小波分析在時域和頻域上同時具有良好的局部化性質[9],在降噪的同時可以很好地保留原數據的時間信息和頻率信息,且誤差較小。因此,本研究選擇小波分析的方法對數據進行降噪處理。
基于上述內容,本研究提出一種水產養殖數據預處理方法,分別利用系統聚類法和主成分分析法處理修復后的水產養殖水質數據,并對結果進行對比分析,篩選預測模型的關鍵影響因子,最后利用小波分析方法對主要影響因子進行降噪。同時采用該預處理方法對天津市寧河縣天祥水產有限責任公司銀鱈魚養殖池塘的水產養殖數據進行實證分析,驗證該預處理方法的有效性。
水產養殖樣本數據主要來源于天津市寧河縣天祥水產有限責任公司銀鱈魚養殖池塘。該池塘面積為666.7 m2,水深3 m,溫度適宜時為露天養殖,溫度較低時為大棚溫室養殖,安裝有3個增氧機,為集約化養殖模式。
以天津市寧河縣天祥水產有限責任公司銀鱈魚養殖池塘水質為研究對象,利用物聯網技術進行數據采集,采集氨態氮含量、水溫、溶解氧濃度、pH值等4項水質因素數據,以及降水量、風速、風向、太陽輻射強度、空氣溫度、空氣濕度、大氣壓強等7項氣象因子水產養殖數據。其中水質氨態氮含量使用 DZ-A 型水產養殖水質分析儀進行檢測,水溫、溶解氧濃度、pH值使用哈希HQ40d雙路輸入多參數數字化分析儀進行檢測。各因子數據檢測如圖1所示。

為保障數據準確性,在池塘中固定一點(岸邊中點距離岸邊1 m、水深1 m處)測量水溫、溶解氧濃度、pH值等水質參數,并采集水樣檢測水質氨態氮含量;將小型氣象站放置在試驗池塘旁邊,采集水質氨態氮含量檢測期間的氣象數據。
在水產養殖數據采集過程中,由于使用便攜式儀器、傳感器或氣象站測量數據時的人為失誤、設備故障、網絡中斷等原因,會產生有缺失和異常等情況的“臟數據”。臟數據會帶來數據處理成本的增加和響應時間的延長,最終還會影響預測模型的正確性[10],因此在預處理階段必須對數據進行修復。
2.1.1 數據缺失修復處理 在單點數據缺失或缺失數據時間間隔很小的條件下,可由線性插值法對其進行修復,具體計算公式為
(1)
式中:xk、xk+j分別表示k、k+j時采集的實際水質參數值;yk表示k時水質參數取值;yk+i表示k+i時缺失水質參數取值,如果是少量多點連續數據丟失,可以采用氣象狀況相似的日期中同時刻的數據對其進行填補修復;而如果是大量多點連續數據丟失,難以填補,則棄用該日數據。
2.1.2 異常數據修復處理 池塘水質數據具有時序性和延續性[11],變化較為平穩,不會出現劇烈變化的情況。通常情況下,如果在測量時發現某時刻水質數據急劇變化,且范圍超過其前后水質監測值的±10%,則認為該數據測量有誤,為異常數據。在使用便攜式儀器采集數據過程中,應時時與歷史測量數據進行比較,發現異常數據則立即刪除后重新測量。未及時刪除的異常數據可采用均值平滑法進行水平處理,計算公式為

(2)
式中:yk+1、yk-1分別表示k+1、k-1時采集的水質參數值;yk表示k時補充的水質參數取值。
采用數據歸約方法[12]定性分析水產養殖生態環境因子之間的相互作用關系,進而選擇數據特征集,該方法可以消除數據間的多重共線性,篩選出水質預測模型的關鍵影響因子,為合理選擇水質預測模型的輸入參數提供有效建議。利用數據歸約方法中的系統聚類法和主成分分析法選擇數據特征的方式已經在實際生活中有了很好的應用[13-15],有些研究者還將兩者結合使用[16-18]。考慮到水產養殖環境錯綜復雜,水質因子受其他環境生態因子以及人為因素影響較多,同時使用2種方法進行篩選,并對結果進行綜合對比分析,可增加篩選因子的可靠性,因此本研究利用系統聚類法和主成分分析法同時對數據進行歸約處理。
利用系統聚類法篩選水質因子變化的關鍵影響因子,步驟如下:(1)修復試驗數據中的缺失值,刪除替換異常值,并對數據進行標準化處理。(2)利用相關系數法度量水質因子變化相關因子變量的相似性。(3)使用類平均法對水質因子變化的相關因子變量進行聚類分析,根據需要確定類別數量。(4)從劃分的類別中篩選出代表性因子,作為影響水質因子變化的主要影響因子。
與基于相似性或距離的系統聚類分析方法不同,主成分分析法通過計算數據矩陣來分析數據間的線性關系并進行數據的篩選和壓縮。篩選步驟如下:(1)數據預處理包括修復缺失值、刪除或替換異常值,并對數據進行標準化處理。(2)使用下列公式計算各個因子的相關系數矩陣。
(3)

(3)計算相關矩陣的特征值。
|A-λIp|=0;
(4)
(λpIp-A)X=b。
(5)
式中:A是數據域P上的一個n階矩陣;λ表示特征值;Ip表示單位矩陣;λp表示數據域P上的一個特征值;X為A的對應子特征值λp的特征向量;b為特征根。
(4)使用公式(6)、(7)計算貢獻率和累計貢獻率。
(6)
(7)
式中:貢獻率bj是單個因子分析中抽取出的因子特征值與所有因子特征值之和的比值,累計貢獻率αp是因子分析中抽取出的因子特征值之和與所有因子特征值之和的比值,其中λ表示特征值,p為因子分析中抽取出的因子特征值數量,m為所有因子特征值數量,主成分貢獻率越大,說明該主成分越能夠更好地保留原始數據的特征信息。
(5)計算主成分載荷矩陣,篩選水質因子變化的關鍵影響因子。計算公式為
(8)
式中:αji表示第j個變量對第i個因子的累積貢獻率;lji表示其標準正交化特征向量。
在構建水產養殖因子預測模型時,從傳感器上獲取或直接采集的數據都會因儀器等問題出現噪聲污染,影響數據分析和最終模型的精確性,因此去除數據噪聲是預測模型構建的基礎之一[19]。傳統的信號降噪方法包括傅里葉變換等,只能描述信號在頻率域中的變化情況[20],而無法分辨出信號在時間軸上的突變,有著“一刀切”的缺點,在提高空間分辨率和信噪比上存在矛盾。而小波變換可以同時在頻率域和時間域內對信號進行分析,具有優越的局部化性能,在降噪的同時較好地保留信號中的有用信息。本研究利用小波降噪技術處理得到的預測模型關鍵影響因子數據,在保留真實數據特征信息的同時,保證數據精度,提高最終預測模型的正確性。小波降噪的基本過程為:(1)選擇haar、dmey、dbN(N=2~10)、symN(N=1~10)、coifN(N=1~5)小波基對原始數據進行如圖2所示的3層小波分解。

(2)分別對5種小波基選擇rigrsure閾值,對第1層至第3層的高頻系數進行軟閾值量化處理。
(3)將小波分解得到的第3層低頻信號和經過閾值量化后的高頻系數進行信號重構。
(4)計算小波降噪后每個因子的均方根誤差(RMSE)和信噪比(SNR),具體計算公式為
(9)
(10)
對水質預測模型的生態環境因子數據進行特征選擇,剔除對水質預測模型影響較小的生態環境因子,降低數據維度,減少數據復雜度以及數據冗余,最終提高水質預測模型輸入的準確性和預測效率。然后再將小波降噪技術應用于水質預測模型來處理關鍵影響因子。作為水質預測模型的輸入參數數據,關鍵影響因子數據的降噪可以減少噪聲對預測模型性能的干擾,提升預測精度,縮短預測時間。
基于特征選擇和小波降噪數據預處理方法的具體實現步驟如下:(1)對數據進行修復處理,利用線性插值法填補缺失數據,剔除或采用均值平滑法修改異常數據。(2)利用系統聚類法對數據進行歸約處理。數據標準化處理后,計算相關因子變量的相似性,確定關鍵影響因子個數后根據聚類分析劃分類別,然后從中選取關鍵影響因子。(3)利用主成分分析法處理數據。利用(1)中修復后的數據計算相關系數矩陣、特征值以及各因子貢獻率,最終根據載荷矩陣篩選關鍵影響因子。(4)對(2)和(3)中分別得到的關鍵影響因子進行分析評價,綜合對比之后得到最終結果。如果兩者差距較大,則計算有誤,返回(2)、(3)重新計算。(5)將(4)中得到的關鍵影響因子數據輸入到小波降噪模型中,進行小波分解,然后根據相應去噪規則對關鍵影響因子數據進行噪聲消除。(6)將降噪后的關鍵影響因子數據作為水質因子預測模型的訓練或測試輸入數據。基于特征選擇和小波降噪的預處理方法流程如圖3所示。

采集天津市寧河縣天祥水產有限責任公司銀鱈魚養殖池塘2015年9月29日至10月10日共12 d的數據,每天從 00:00 開始,每隔4 h采集1次水質氨態氮含量、水溫、溶解氧濃度、pH值等數據,小型氣象站數據采集間隔為10 min。
本研究以采集的池塘水質氨態氮含量作為研究對象進行實證分析:首先對試驗采集的氨態氮含量進行數據修復,修補缺失數據,剔除或更正異常數據,并進行氨態氮含量的數據初步篩選。然后對氨態氮含量進行數據歸約處理,選擇有效特征。按照系統聚類分析步驟對試驗采集的數據進行聚類分析,把影響水質氨態氮含量變化的水質因子和氣象因子劃分為5類,結果如圖4、表1所示。從圖4、表1可知,第1類因子為溶解氧濃度、pH值,第2類因子為風速、太陽輻射強度,第3類因子為風向,第4類因子為水溫、空氣溫度,第5類因子為空氣濕度、大氣壓強。從第1類中選擇溶解氧濃度、第2類中選擇太陽輻射強度、第3類中選擇風向、第4類中選擇水溫、第5類中選擇空氣濕度作為水質氨態氮含量變化的主要影響因子。同時利用主成分分析法對氨態氮含量進行數據降維,通過對試驗采集的水質因素數據和氣象因子水產養殖數據進行主成分分析計算生態環境因子的特征根和貢獻率,結果如表2所示。按照累計貢獻率達到85%以上作為提取主成分的原則較為合適,因此選取5個有效成分。


表1 系統聚類分析結果
由表3可知,氨態氮含量、水溫對主因子1影響較大,太陽輻射強度對主因子2貢獻最大,溶解氧濃度對主因子3有最大貢獻,風向對主因子4貢獻最大,太陽輻射強度對主因子5貢獻最大。因此,選擇水質氨態氮含量、水溫、太陽輻射強度、溶解氧濃度、風向為主要因子,其中水溫、太陽輻射強度、溶解氧濃度、風向為氨態氮含量變化的主要影響因子。

表2 水產養殖氨態氮含量生態環境因子的特征根與貢獻率

表3 水產養殖水質氨態氮影響因子載荷矩陣
從表4可以看出,系統聚類分析法和主成分分析法選出的關鍵影響因子相似,最后根據調研情況和專家評分綜合分析,篩選出水溫、溶解氧濃度、風向、太陽輻射等4項因子為影響水質氨態氮含量變化的關鍵影響因子。
最后對氨態氮含量按照小波降噪步驟進行數據小波降噪分析。由表5可知,小波基dmey對氨態氮含量的數據降噪信噪比最大,為25.888 6,均方根最小,為0.044 8,因此對氨態氮含量來說,小波基dmey的數據降噪效果最好。

表4 關鍵因子篩選

表5 不同小波基水質氨態氮含量的數據降噪情況
同時,對篩選得到的預測模型影響因子數據進行小波降噪分析。在氨態氮含量預測中,對水溫、溶解氧濃度、風向和太陽輻射強度等的數據進行小波降噪,采用小波基coif2對水溫和溶解氧濃度進行數據降噪處理(表6),采用小波基haar對風向和太陽輻射強度進行數據降噪。
利用特征選擇和小波降噪相結合的方法對采集的氨態氮含量進行數據預處理,具體篩選結果如表7所示,將水質氨態氮含量變化的關鍵影響因子降為4個,降低了預測模型輸入參數選擇的復雜度。
由表6可知,氨態氮含量的RMSE、信噪比分別為0.044 8、25.888 6,降噪效果良好。另外,由圖5至圖9可知,數據進行小波降噪處理后,變化曲線變得光滑,消除了噪聲和雜峰的影響。

表6 水產養殖氨態氮含量關鍵影響因子小波降噪情況

表7 關鍵影響因子篩選結果

為提高水產養殖水質因子預測模型的精度和準確性,本研究針對水產養殖環境錯綜復雜、各環境因子之間相互作用影響、數據冗余嚴重的特點,提出利用數據修復、特征選擇以及小波降噪對水產養殖數據進行組合處理的預處理方法,并以天津市銀鱈魚養殖池塘氨態氮含量為例,利用該方法進行預處理。最終將氨態氮含量變化的關鍵影響因子個數降為4個,減少氨態氮含量預測模型輸入參數的個數,同時降噪后氨態氮含量的RMSE降低為0.044 8,信噪比達到25.888 6。結果表明,該方法可以剔除臟數據,降低數據復雜度,減少噪聲干擾,能夠較好地滿足水產養殖環境中氨態氮含量數據精度需要,為后續氨態氮含量預測模型的構建提供數據基礎。

參考文獻:
[1]辛金國,龔 愷. 基于物聯網技術統計數據采集的影響因素[J]. 統計與決策,2015(23):34-37.

[2]姚 亞. 數據預處理和直方圖時間序列在水質預測中的應用[D]. 杭州:浙江大學,2013.
[3]楊爭光. 養殖水質數據處理與預測技術研究[D]. 太原:太原科技大學,2015.
[4]劉雙印,徐龍琴,李振波,等. 基于PCA-MCAFA-LSSVM的養殖水質pH值預測模型[J]. 農業機械學報,2014,45(5):239-246.
[5]游 欣,羅念龍,王映雪. 教學決策支持系統中數據預處理的方法研究[J]. 計算機工程與設計,2007,28(16):3985-3988,3993.
[6]鄭勛燁. 經典與新型小波理論及其在圖像處理中的應用[D]. 北京:中國地質大學(北京),2014.
[7]Grossmann A,Morlet J. Decomposition of hardy functions into square integrable wavelets of constant shape[J]. SIAM Journal on Mathematical Analysis,2006,15(4):723-736.
[8]D?kmen F,Aslan Z. Evaluation of the parameters of water quality with wavelet techniques[J]. Water Resources Management,2013,27(14):4977-4988.
[9]李 衡,趙毅強,楊瑞霞,等. 基于小波降噪數據預處理的硬件木馬檢測優化[J]. 計算機工程與應用,2017(1):49-53.
[10]姚李孝,薛美娟,馮繼安. 基于人工神經網絡的負荷數據預處理[J]. 西安理工大學學報,2007,23(3):277-281.
[11]趙 英. 地表水源水質預測模型數據挖掘技術及其適用性研究[D]. 哈爾濱:哈爾濱工業大學,2008.
[12]康睿智,郝文寧. 數據歸約效果評估方法研究[J]. 計算機工程與應用,2016(15):93-96.
[13]de Morsier F,Tuia D,Borgeaud M,et al. Cluster validity measure and merging system for hierarchical clustering considering outliers[J]. Pattern Recognition,2015,48(4):1478-1489.
[14]袁曉慶,李奇峰,李 琳,等. 基于主成分分析法的農業信息化評價研究[J]. 江蘇農業科學,2015,43(3):398-402.
[15]Gazzah M,Jaouachi B,Schacher L,et al. Study of the influential inputs on the bagged denim fabric behaviors using the principal component analysis method[J]. International Journal of Clothing Science and Technology,2015,27(6):922-939.
[16]Zhang J,Tuo X,Yuan Z,et al. Analysis of FMRI data using an integrated principal component analysis and supervised affinity propagation clustering approach[J]. IEEE Transactions on Biomedical Engineering,2011,58(11):3184-3196.

[18]鄧愛林,朱揚勇,施伯樂. 基于項目評分預測的協同過濾推薦算法[J]. 軟件學報,2003,14(9):1621-1628.
[19]趙恒平,俞金壽. 化工數據預處理及其在建模中的應用[J]. 華東理工大學學報(自然科學版),2005,31(2):223-226.
[20]劉守道,張來斌,王朝暉. 小波降噪技術在柴油機故障診斷中的應用[J]. 機械強度,2001,23(2):134-137.