施 珮,匡 亮,王 泉,袁永明
基于PC-RELM的養殖水體溶解氧數據流預測模型
施 珮1,2,匡 亮3,王 泉1,2,袁永明4
(1. 無錫學院,無錫 214105;2. 江蘇省物聯網設備超融合與安全工程研究中心,無錫 214105;3. 江蘇信息職業技術學院物聯網工程學院,無錫 214153;4.中國水產科學研究院淡水漁業研究中心,無錫 214081)
養殖水體中溶解氧濃度一直是最重要的水質參數之一。為了精準地對水體溶解氧進行調控,提高養殖生產效率,降低養殖風險,該研究考慮外部天氣條件對溶解氧的影響以及溶解氧自身的晝夜變化特征,提出一種基于正則化極限學習機(principal component analysis and clustering method optimized regularized extreme learning machine,PC-RELM)的養殖水體溶解氧數據流預測模型。首先,采用主成分分析法判斷影響溶解氧濃度的強重要性因子,降低預測模型的數據維度;其次,利用熵權法計算各時刻點的天氣環境指數,并利用快速動態時間規整算法(fast dynamic time warping,FastDTW)完成時間序列數據流在不同天氣環境下的相似度度量;然后使用-means算法對時間序列的相似度進行聚類分簇,并基于分簇結果完成正則化極限學習機預測模型的構建,實現溶解氧濃度的估算。最后將PC-RELM模型應用到無錫南泉試驗基地養殖池塘的溶解氧預測調控過程中。試驗結果表明:PC-RELM的預測均方根誤差值(root mean square error, RMSE)為0.961 9,與PLS-ELM(partial least squares optimized ELM)、最小二乘支持向量機(least square support vector machine,LSSVM)以及BP神經網絡模型進行對比,其RMSE值分別降低了41.54%、54.58%和67.16%。該預測模型可以有效地捕捉不同天氣條件下溶解氧的變化特點,具有較高的預測精度和效率。
溶解氧;養殖;水質;聚類;快速動態時間規整算法;正則化極限學習機
溶解氧濃度作為大規模高密度淡水養殖中的重要水體指標,當其濃度過高時易引起魚類發生氣泡病,濃度過低則會使得魚類生長緩慢,長時間的浮頭更會引發魚類死亡等問題[1]。溶解氧(dissolved oxygen,DO)濃度的變化研究具有明顯的非線性和復雜性[2],水體環境和天氣條件均對水體DO濃度的變化有直接和間接的影響。養殖水體的精準監測和預測,能夠幫助養殖從業者及時了解養殖環境,實現溶解氧濃度的精準調控,有效降低養殖風險。
當前水質數據流的預測研究主要分為單因子預測和多因子預測[3]。在單因素預測方面,Ahmad等[4]利用隨機模型對印度恒河10 a間采集的溶解氧數據流進行預測,并構建預測模型分別實現溫度、氯化物、pH值等水質參數數據流的預測。在多因素預測方面,Palani等[5]從復雜環境因子角度構建人工神經網絡對水體鹽度、溫度、DO、葉綠素等指標進行定量特征預測。Najah等[6]利用多層感知器神經網絡、集成神經網絡和支持向量機來預測DO、生化需氧量和化學需氧量等水質參數。Ahmed等[7]利用回歸森林和機器學習技術開發了基于多因素數據驅動的DO預測模型。但是該類預測模型構建的預測指標體系僅限于水體參數間的關聯關系,忽略了天氣條件對水體參數的影響。因此,一些研究從多個方面選擇不同的關聯因素進行預測,并利用各種優化算法不斷提高預測性能。張陽等[8]利用水質數據的空間相關性構建神經網絡模型實現對河流水質參數溶解氧和氨氮進行實時預測和分析。LIU等[9]利用水質指標和太陽輻射、氣溫、風速等氣象因子,采用最優改進柯西粒子群優化算法,建立了基于小波分析和最小二乘支持向量回歸(least square support regression,LSSVR)的混合溶解氧預測模型。然而溶解氧參數存在一定的復雜性,這些預測模型都存在運行時間長、泛化性能低、通用性差的缺點。
近年來,極限學習機(extreme learning machine, ELM)作為一種高效的前饋神經網絡在各領域內被廣泛應用[10]。同時,各種智能算法也被用來優化ELM模型,以提高其性能[11-17]。CAO等[18]利用灰色關聯分析、集合經驗模態分解、樣本熵和RELM提出了一種基于多因素、多尺度的溶解氧預測模型。宦娟等[19]針對溶解氧原始序列分解后高頻、中頻、低頻分量呈現的特點,提出一種基于集合經驗模態分解、游程檢測法重構、單項預測算法和BP神經網絡非線性疊加的組合預測模型,對池塘溶解氧進行預測。但是,在實際應用過程中,該模型還存在參數復雜、計算效率不夠高等問題。
因此,本文提出了一種基于相似時間段聚類機制的正則化極限學習機模型(PC-RELM)對養殖池塘水體溶解氧濃度進行預測。該模型通過定義天氣環境指數將晝夜時間序列的相似度進行有效度量,使得基于相似時間段的-means聚類過程可以捕捉水體溶解氧變化的潛在規律,改進的極限學習機模型在訓練過程中可以快速學習樣本數據的相似變化趨勢,得到溶解氧和各天氣指標、水質指標之間的映射關系,從而對養殖水體的溶解氧濃度進行高效準確地預測。
本文中所有數據采集自江蘇省無錫市南泉水產養殖試驗基地(北緯31°43,東經120°29),該基地緊鄰太湖,養殖池塘較多。本次養殖試驗是在4個具有循環水養殖系統的測試池塘進行,池塘配備物聯網監測系統、多種水下傳感器、增氧設備、尾水處理設備和自動氣象站。4個試驗池塘面積相近,約1 800 m2(30 m×60 m),池塘的深度為1.5 m。池塘養殖品種為加州鱸魚,養殖投放密度為2.8尾/m2。所有數據均通過物聯網監測系統和自動氣象站進行采集,其結構如圖1所示。

圖1 養殖監測系統結構
由如圖1可知,系統部署的多種水下傳感器包括溶解氧傳感器、pH傳感器和溫度傳感器。岸邊安裝的自動氣象站可同時采集多種天氣環境數據,包括氣溫、濕度、氣壓、二氧化碳、光照強度、光合有效輻射、輻射照度、風速和風向等。傳感器數據通過GPRS從感知設備傳輸至服務器,用戶可通過手機移動端或計算機PC端接入服務器,實時觀察水質數據和氣象數據。試驗設計參考文獻[1-2],采用擴大試驗周期和數據集,選擇加州鱸魚養殖周期內2019年7月9日至9月9日期間共62 d的水體參數數據流信息和天氣環境數據約8 967個數據集,樣本采樣頻率為10 min/次。試驗選取前7 077個(約80%)的數據樣本作為訓練集,其余1 890個數據樣本作為測試集。
在養殖水體中,DO濃度一直受水體環境和天氣條件的影響,具有明顯的晝夜變化特征。同時,在相似的天氣條件下,DO也會呈現一定的變化規律。因此,依據監測數據流的晝夜變化特征,需要對數據流進行時間段劃分,并度量時間序列數據流之間的相似度。由于時間序列長度不一定相等,需要采用適宜的算法實現相似度度量。動態時間規整算法(dynamic time warping,DTW)是一種適用于長度不等的時間序列距離度量方法,較廣泛應用于語音序列的識別[20]。
在DTW算法中,假設2個時間序列{1,2, …,R}和{1,2,…,V},它們的序列長度分別為和,由序列和構建一個×的距離矩陣×e,矩陣中每個元素(,)對應于一個基距離= (?)2。

DTW距離是將序列和上每個點之間建立對齊匹配關系,每種匹配關系可以用一條彎曲距離進行表示,DTW距離即為點對基距離之和的最小值。{w}={1,2,…,w}(=1~)為DTW算法獲得的彎曲路徑距離,w為彎曲距離的第個元素,時間序列與之間的DTW距離值則表示為

在使用DTW算法計算彎曲路徑時,若時間序列長度較長,則會出現運行效率不高的問題。FastDTW算法不同于傳統DTW算法,它通過限制和數據抽象2種方法完成DTW距離值的快速計算[21]。該算法能在和序列之間找到近似最優的彎曲路徑,降低運算時間復雜度。實現過程包括粗粒度化、投影、細粒度化等步驟。
1)粗粒度化。即通過數據抽象的形式對原序列進行抽象,用一半的時間序列采樣點表征原時間序列,使得縮減后的時間序列上每個采樣點的值為原序列相鄰兩點的均值,從而通過迭代的方式執行粒度矩陣的抽象過程。
2)投影。在較粗粒度距離矩陣上計算DTW值,從而找到彎曲路徑。
3)細粒度化。通過彎曲路徑經過的方格完成從粗粒度矩陣到較細力度矩陣的對應細化過程。
通過對投影的彎曲路徑方格進行搜索可以有效地減少算法的運行時間和時間復雜度,這是FastDTW算法的核心理念[22]。在最優彎曲路徑搜索過程中,為了避免最優路徑可能不在投影彎曲路徑中的問題,FastDTW額外增加參數,使得投影彎曲路徑方格的搜索可以擴大個方格。故當越大時,彎曲路徑越精準;越小時,彎曲路徑越粗略。
聚類作為一種典型的無監督學習方法,可以有效地將樣本分成若干類[23]。當樣本屬于未標記數據集時,聚類算法無需樣本集訓練即可發現樣本的內在規律。天氣環境時間序列之間的相似度可以有效的體現采樣時刻點之間的關聯性。當相似度值越低時,表明這些時間序列間的差異越大,且對應的天氣環境實際狀態差異性較大。反之,則差異性越小。
-means作為目前使用最廣泛的聚類算法之一,該算法原理是從大小為的樣本集中選定個樣本點作為初始聚類中心,依據當前樣本到這個簇類中心的距離長度,將樣本分配到距離值最近的簇中,不斷迭代,當簇類中心點變化很小,或達到指定迭代次數后終止迭代。在-means聚類算法中。其基本步驟如下:
1)在給定的個樣本中隨機選擇個對象作為簇類的初始中心;
2)對每個樣本點到最近的簇類中心的距離進行測算;
3)依據步驟2)計算的距離確定各樣本在簇類中的歸屬情況,若距離值大于設定的閾值則生成新簇。依據式(3)計算號新簇的簇類中心向量。

式中x為第個樣本點,Z為第號簇的樣本點子集,N則代表第號簇中樣本點的數量。
4)重復步驟2)和3),若簇類中心不再發生變化或達到迭代次數即終止。
對于待分類的個樣本,1為第1個樣本,樣本集為={1,2, …,x…,x}。本文以監測數據流為原始數據,經過時間序列時間段劃分共個時間段,度量各時間段間相似度值s。從而獲得相似度聚類分簇樣本集{1,2, …,s}。通過計算分簇樣本與中心間的距離,按距離值進行分簇,獲得不同的分簇結果。
ELM是一種簡單有效的單隱層前饋神經網絡學習算法[24]。該算法的隱含層權值和偏置是隨機選擇的,輸出權值需要使用MoorePenrose廣義偽逆來確定。給定一個樣本數據集(x,t),=1,2,…,,t為目標輸出,則激活函數為()且包含個隱含層節點的標準ELM網絡模型可以表示為

式中x=[x1,x2, …,x]T為第個輸入樣本,t=[t1,t2,…,t]T為目標輸出,O表示輸入x對應的網絡輸出,w=[w1,w2,…,w]T和b=[b1,b2, …,b]T分別為第個隱含層神經元與輸入向量的權值,以及第個隱含層神經元的偏置。β=[β1,β2,…,β]T是第個隱含層節點和輸出層節點的輸出權值向量。因此,w·x表示w與x的內積,為了使t與O之間的誤差最小,則式(4)可表示為


式中為隱含層神經元的輸出矩陣,為輸出權值矩陣,且傳統ELM中的求解是一個簡單的最小二乘問題,可以通過=T確定其值。H是的Moore-Penrose逆,當使用正交投影法時,則H=(T)-1T。
依據嶺回歸算法[25]原理,當ELM算法在計算時,若在T或T上加上參數1/,可以獲得更好、更穩定的泛化性能,解決偽逆求解過程中數值不穩定的問題。因此,常使用正則化最小二乘法對ELM中的求解進行優化[26],則式(5)可表示為

式中代表正則化參數,能夠平衡正則化項和訓練誤差項。對式(7)進行求解中計算得到式(8)。

式中為單位矩陣。
本文提出的基于相似時間段聚類機制的正則化極限學習機溶解氧預測模型,在分析天氣條件相似性的基礎上,探索溶解氧的晝夜變化特征,利用聚類機制,在分簇后的數據集中構建多個優化的ELM子預測模型,其預測總體流程如圖2所示。

注:k為數據流聚類后獲得的簇數,在各簇中對應得到k個預測子模型。
1)數據處理。本文的試驗數據由水下傳感器和自動氣象站進行采集,在數據預處理模塊中進行數據清洗和篩選。利用線性插值法對網絡傳輸過程中丟失的數據進行插補,獲得清洗后的數據流;再采用主成分分析法(principal component analysis, PCA)對影響DO濃度的指標因子進行關聯分析,提取強影響因素。通過數據處理能夠有效減少噪聲數據帶來的干擾,剔除冗余信息。
2)數據聚類。根據采集的天氣數據流呈現的規律,對相似天氣進行評估,量化時間序列的相似度,從而實現水體溶解氧數據流在相似天氣條件下的聚類分簇。通過對溶解氧變化規律的探索,獲取數據流特征,提高模型的預測精度。
3)構建預測模型。將聚類機制和正則化ELM神經網絡應用到預測模型中,在不同的簇類中構建多個預測子模型。并通過不斷訓練預測模型,確定模型的最優參數信息和網絡結構。
4)測試和分析。通過在測試數據集中進行試驗,評估預測模型的性能。同時,選擇不同的預測模型進行對比試驗,驗證本文提出的溶解氧預測模型的有效性和適用性。
養殖生產中水體的感知監測節點經常會發生設備斷電、故障等現象,使得采集的數據流不僅會丟失信息,還會產生很多噪聲數據。為了解決這些問題,提高采集數據的質量,本文使用線性插值法對非連續丟失數據或連續丟失少于5個數據的數據流進行插補。若丟失數據為連續數據(5個及以上),則將天氣環境指數作為參照信息,實現近似天氣環境指數下的連續丟失數據替換。同時,采用熵權法對天氣環境指數進行度量,基于空氣溫度、濕度、風速、風向、日照強度、光合有效輻射、輻射率等指標實現天氣環境的綜合評估。同時,監測系統采集的水質指標和天氣環境指標對溶解氧濃度的影響程度均不相同,若使用所有因子作為預測模型的輸入量,會影響預測模型的運行效率。為了降低預測模型的輸入維度,減少預測運行時間,避免冗余信息的干擾,本文采用主成分分析法對各影響因子的重要性進行分析。
1,2, …,X分別對應各監測指標,則大小為的樣本集則構成×的變量矩陣如下:

為了確定關鍵影響因子,首先需要對原始數據按照如式(10)進行標準化處理。





式中*為x*構成的數據矩陣;為r組成的相關系數矩陣;λ,η分別為相關矩陣的特征值和主成分貢獻率;為個主成分的得分系數值;U×h為各主成分對應的特征向量,且=[1,2, …,u]。
為了實現對DO濃度的準確預測,本文對DO變化的潛在規律進行探索。由于溶解氧在監測時間內呈現較為規律的晝夜波動變化曲線,故圖3僅列出溶解氧監測周期內的某一段連續5 d的變化曲線。從圖3可以發現,溶解氧在養殖監測周期內,呈現明顯的晝夜交替性變化,在每個19:00—06:00時間段(夜間)和06:00—19:00時間段(晝日)中均呈現相似的變化,但在每個時間段上的波動幅度仍有所區別。因此,結合數據采樣的季節特征,本文在試驗過程中將數據集按當季的晝夜時間點進行分割,并在分割后的數據集中構建多個預測子模型。本文將8 967個數據集分為126個時間序列數據流,這些數據流包括日間數據流和夜間數據流。事實上,這個時間序列的分割方式與整個養殖周期中的日出日落時間點相吻合,即所有日間數據流從06:00開始,到19:00結束,夜間數據流從19:00開始,到次日的06:00結束。

注:監測時間為2019年7月18日19:00至2019年7月23日18:50。
基于采樣數據流的晝夜分割原則,獲得DO數據流和對應天氣指數的時間序列。利用FastDTW算法對時間序列相似度的量化結果,采用-means實現水體溶解氧數據流的相似度聚類。在-means聚類過程中,初始參數的選擇直接影響整體聚類性能。為了評價選擇的聚類數的聚類效果,利用常見的聚類有效性指標戴維森堡丁指數(davies bouldin score, DB)以及誤差平方和(error sum of square, SSE)進行評估。DB為DB指數值,表示任意2個簇的平均距離之和除以2個簇中心之間距離的最大值。當DB值越小時,則簇內距離越小,簇間距離越大。SSE為聚類SSE值,代表簇內各點到簇中心距離的平方和,可以對聚類結果的松散度進行評估。SSE值越小則聚類效果越好越緊密。同時,肘部法則是一種目前被廣泛應用于選擇聚類數量的方法[27]。它主要利用SSE值來反映分簇的畸變程度,在變化曲線中能捕捉SSE值下降最大的位置對應的聚類數。一般來說,畸變程度最大的位置對應的簇數即為最優聚類數的值,DB與SSE指數的計算如下:



式中C和C分別表示第和第個簇,S和S分別表示C和C的緊湊度,d則表示C中心點z與C中心點z之間的歐式距離,φ表示第個簇C的重心。
本文利用均方根誤差(root mean square error, RMSE)[1]、平均絕對誤差(mean square error, MAE)[2]、納什效率系數(Nash-Sutcliffe efficiency coefficient, NSE)[3]和運行時間(run time, RT)對預測模型的預測性能進行評價。RMSE和MAE可以從不同的數學角度反映預測性能的誤差精度。RMSE和MAE值越低,表明模型越精確。NSE代表構建的預測模型的優劣。NSE值越接近1,表明模型的質量越好,預測能力越強。
本文采用PCA方法對8 967組試驗數據的11個影響因子進行分析,按照式(12)~(16)計算其各因子特征值和方差貢獻率,結果如表1所示。表1中5個主成分因子的累計貢獻率已達86.136%,可由該5個主成分因子表征所有指標。旋轉后的各主成分因子載荷矩陣結果見表2,該載荷結果值可體現各項指標與全部信息值之間的關系,載荷值的絕對值越大,表征的信息量則越大。
表1和表2結果顯示主成分1的累計貢獻率為34.188%,可表征光合有效輻射、日照和輻射率等因子。主成分2的貢獻率為19.644%,可表征水溫、氣溫等因子。主成分3的累計貢獻率為14.29%,可表征濕度因子。主成分4的貢獻率為10.83%,可表征CO2因子。主成分5的累計貢獻率為7.184%,可表征pH值因子。基于上述結果,從而確定溶解氧預測模型的預測輸入指標,包括光合有效輻射、日照、輻射率、水溫、氣溫、濕度、CO2和pH值等8項指標。

表1 特征值及方差貢獻率

表2 主成分因子載荷矩陣
本文使用-means對分段后的時間序列進行相似度聚類,利用式(15)計算不同簇數的聚類評估指標DB值。同時,結合肘部法對聚類數進行二次篩選,利用式 (17)獲得其SSE值的變化曲線,結果如圖4所示。圖4中,當=2時,其戴維森堡丁指數DB值為0.045 5,遠低于取其他值時的DB值;當=4時,其對應的DB為次低值。同時,當值不斷增大時,其對應的SSE指數呈現逐漸變小趨于穩定的狀態。依據肘部位置法,可確定肘部位置的SSE值對應的理想聚類數。圖4中不同聚類數的有效性指標SSE值變化明顯,當3至=5時,SSE值下降速度變慢,在=4時形成sse值的肘部孤點。結合=4的聚類有效性指標DB=0.560 8,為次低值,因此,本文選擇=4作為最優聚類數。

圖4 簇數(k)與聚類指標關系
3.3.1 不同優化操作改進的ELM預測性能
基于時間序列相似度聚類后最佳簇類數為4,故本文構建的溶解氧預測模型包含4個預測子模型,并在不同的簇類樣本中進行試驗。每個預測子模型中溶解氧預測模型的輸入量為8,輸出量為1。隱含層節點數由經驗法確定,在此基礎上,最終得到各子預測模型的隱含層節點數分別為25,40,37和76,各簇類樣本中的預測模型網絡結構如表3。本文中所有預測模型的測試試驗均基于Matlab R2014平臺。
為了測試PCA關鍵因子篩選、-means相似時間序列聚類和正則化等操作對ELM模型的優化作用,本文構建-means-RELM (-means聚類優化后的RELM)、RELM、ELM模型作為對比預測模型。分別對PCRELM和這3個對比模型進行性能評估,各預測模型的試驗數據樣本相同,輸入輸出節點數相同,其溶解氧濃度預測效果如圖5所示。

表3 不同簇中預測子模型的網絡結構表
注:表中網絡結構以“輸入-隱含層節點-輸出”的形式給出。
Note: Structure is given in the form of input-hidden layer node-output.

注:預測模型的測試時間為2019年8月27日19:00至2019年9月9日21:50。PC-RELM為基于主成分和聚類機制的改進正則化極限學習機模型。k-means-RELM為k-means聚類優化的改進正則化極限學習機模型。RELM為正則化極限學習機模型;ELM為極限學習機模型。下同。
圖5中,4個預測模型都能獲得較好的溶解氧預測效果,預測曲線逼近真實數據值。本文提出的PC-RELM和-means-RELM模型的溶解氧預測曲線在很多時刻上較為相似,預測結果更接近真實值。同時,RELM的預測曲線較ELM的預測曲線更接近真實值。由此可見,本文中,-means相似時間序列聚類操作和正則化優化操作能有效地提高溶解氧預測精度。
圖6為不同ELM優化模型的預測誤差,誤差值為0作為零參照線。若一條曲線越接近零參照線,表明該曲線的預測誤差越小,效果越優。圖6顯示,PC-RELM的預測誤差曲線最接近零參照線,誤差波動范圍最小,-means-RELM的預測誤差次之,波動幅度與PC-RELM較為接近,RELM的預測誤差更次之,ELM的預測誤差波動范圍最大,與零參照線的偏離程度最大。由此可以判定,在測試樣本集中,PC-RELM的預測誤差最小,PCA關鍵因子篩選操作、-means聚類操作和正則化操作優化效果明顯。同時,可以清晰地發現,除ELM模型的預測效果不穩定之外,其他各模型的預測誤差均在每天的12:00-17:00波動幅度最大。事實上,這一時間段正是一天之中溫度最高的時間。由于水溫的時滯性,水體中水草等植物的光合作用在這一時間段最為活躍,持續時間更長,使得溶解氧自身變化更為復雜。另外,由于微生物、水草、殘餌、殘藥等的附著,會使得傳感器存在一定的數據漂移。因此在養殖生產中會選擇5~6 d進行一次傳感器的清洗和校準,進而影響數據采集的質量,而這一預測結果也正與實際的工作日志吻合。

圖6 不同ELM改進模型的溶解氧預測誤差

表4 不同ELM改進模型的溶解氧預測精度
表4為不同ELM改進模型的溶解氧預測精度,可以發現PC-RELM的預測結果評價指標RMSE和MAE值分別為0.9619和0.6941,明顯低于其他2種模型。PC-RELM的RMSE值相比-means-RELM、RELM和ELM模型分別降低了5.75%、27.33%和43.10%。MAE值則相比較-means-RELM、RELM和ELM分別降低了5.42%、30.20%和47.21%。同時,PC-RELM方法的NSE值為0.712 8,比-means-RELM、RELM和ELM更接近1,且運行時間更短。-means-RELM方法與RELM方法比較,在各項預測精度指標和運行時間上均有較大程度的提高。上述結果表明,PC-RELM的預測精度和運行時間均具有一定的優勢,PCA分析過程能有效提高運行效率,-means晝夜相似時間序列的聚類機制和正則化操作均能有效地提高模型的預測準確度。
3.3.2 多預測模型性能分析
為了驗證本文提出的預測模型的優越性,本文將PC-RELM模型與現有的PLS-ELM(PLS優化ELM)[28]、LSSVM[9]和傳統BP神經網絡模型對測試時間內溶解氧的預測結果、預測誤差和預測精度等進行比較。各模型的溶解氧濃度預測效果如圖7所示。

注:PLS-ELM為偏最小二乘改進極限學習機模型。LSSVM為最小二乘改進支持向量機模型。BP為反向傳播神經網絡模型。
從圖7可以看出,現有各模型的溶解氧預測結果較為一致。同時,圖中PC-RELM的溶解氧預測曲線與真實值的趨勢曲線的擬合效果較其他3種模型的預測曲線具有更高的一致性。PLS-ELM的溶解氧預測效果僅次于PC-RELM的預測效果,它的擬合程度與PC-RELM較為接近。預測效果更次之的是LSSVM預測模型,而BP神經網絡的預測值與真實值差異較大。

圖8 4個預測模型的溶解氧預測誤差
圖8為4個預測模型的溶解氧預測誤差圖。可以看出,PC-RELM的預測誤差曲線最接近零參照線,其次是PLS-ELM,LSSVM和BP。LSSVM和BP模型的預測誤差波動較大,PC-RELM在局部樣本點上有一定幅度的波動,整體預測誤差波動幅度較為穩定。事實上,圖8中PC-RELM和PLS-ELM兩模型的預測誤差曲線波動趨勢較為一致,說明這2個模型能有效地捕捉了溶解氧的潛在變化規律,呈現溶解氧變化特點。波動幅度較大的時間段主要集中在每天12:00-17:00,這一時間段溫度較高,水生植物的光合作用也使得該時間段溶解氧波動更為明顯。LSSVM和BP模型的預測誤差較大,在各時間段內均有較大幅度波動,預測效果不佳。

表5 4個模型的溶解氧預測精度
表5為4種模型的溶解氧預測精度。可以看出PC-RELM的RMSE和MAE值分別為0.961 9和0.694 1,低于其他3種對比模型。PC-RELM的RMSE值分別比PLS-ELM、LSSVM和BP降低了41.54%、54.58%和67.16%,MAE值也分別降低了46.26%、59.98%和69.90%。在NSE指標上,PC-RELM的系數值更接近1,說明該模型具有較強的預測能力。同時,PC-RELM模型的運行時間比其他3種方法更短,表明該模型具有更高的預測效率。
結果表明,基于不同的優化操作構造的PC-RELM溶解氧預測模型是可行有效的。該模型通過時間序列的聚類機制獲得了較高的預測精度,實現了溶解氧濃度穩定的預測。同時模型的整體運行效率較高,在同類預測模型中具有一定的優勢。
本文考慮外部天氣條件對溶解氧的影響以及溶解氧自身的晝夜變化特征,對養殖水體數據流進行分析,提出一種基于相似時間段聚類機制的正則化ELM溶解氧預測模型PC-RELM。主要結論如下:
1)使用PCA方法篩選影響溶解氧濃度變化的關鍵因子,降低預測模型的輸入維度。從外部天氣條件和溶解氧晝夜變化的角度,定義和量化天氣環境指數,結合FastDTW完成基于天氣環境指數的晝夜時間序列相似度的度量,克服常用歐式距離和傳統DTW算法相似度計算的局限性。
2)采用-means方法完成相似度時間序列的聚類,將具有相似變化趨勢的樣本聚集在一起,捕捉晝夜時間下溶解氧變化的潛在規律,提高溶解氧預測準確度。
3)將PC-RELM模型的溶解氧預測結果與PLS-ELM、RELM和ELM模型的預測結果進行對比,其評估指標顯示,PC-RELM模型的NSE系數為0.712 8,遠遠高于PLS-ELM、RELM、ELM、LSSVM和BP模型。PC-RELM模型的預測精度MAE值為0.694 1,亦明顯優于其他模型,且運行效率較高,可見PC-RELM預測模型具有一定優勢。
本文提出的溶解氧預測模型獲得了較好的預測精度,能夠為精準水質調控提供理論依據,具有一定的研究和推廣價值。今后,我們將對水產養殖水體參數的預測預警進行更深入的研究,并將理論應用到生產實踐中。
[1] 陳英義,成艷君,楊玲,等. 基于改進深度信念網絡的池塘養殖水體氨氮預測模型研究[J]. 農業工程學報,2019,35(7):195-202.
Chen Yingyi, Cheng Yanjun, Yang Ling, et al. Prediction model of ammonia-nitrogen in pond aquaculture water based on improved multi-variable deep belief network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(7): 195-202. (in Chinese with English abstract)
[2] 曹守啟,周禮馨,張錚. 采用改進長短時記憶神經網絡的水產養殖溶解氧預測模型[J]. 農業工程學報,2021,37(14):235-242.
Cao Shuoqi, Zhou Lixin, Zhang Zheng. Prediction model of dissolved oxygen in aquaculture based on improved long short-term memory neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(14): 235-242. (in Chinese with English abstract)
[3] Cao X K, Liu Y R, Wang J P, et al. Prediction of dissolved oxygen in pond culture water based on K-means clustering and gated recurrent unit neural network[J]. Aquacultural Engineering, 2020, 91: 1-10.
[4] Ahmad S, Khan I H, Parida B P. Performance of stochastic approaches for forecasting river water quality[J]. Water Research, 2001, 35(18): 4261-4266.
[5] Palani S, Liong S Y, Tkalich P. An ANN application for water quality forecasting[J]. Marine Pollution Bulletin, 2008, 56(9): 1586-1597.
[6] Najah A, El-Shafie A, Karim O, et al. An application of different artificial intelligences techniques for water quality prediction[J]. International Journal of Physical Sciences, 2011, 6(22): 5298-5308.
[7] Ahmed M H, Lin L S. Dissolved oxygen concentration predictions for running waters with different land use land cover using a quantile regression forest machine learning technique[J]. Journal of Hydrology, 2021, 597: 1-12.
[8] 張陽,冼慧婷,趙志杰. 基于空間相關性和神經網絡模型的實時河流水質預測模型[J]. 北京大學學報:自然科學版,2022,58(2):337-344.
Zhang Yang, Xian Huiting, Zhao Zhijie. Real-time river water quality prediction model based on spatial correlation and neural network model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(2): 337-344. (in Chinese with English abstract)
[9] Liu S, Xu L, Jiang Y, et al. A hybrid WA-CPSO-LSSVR model for dissolved oxygen content prediction in crab culture[J]. Engineering Applications of Artificial Intelligence, 2014, 29: 114-124.
[10] Hua L, Zhang C, Peng T, et al. Integrated framework of extreme learning machine (ELM) based on improved atom search optimization for short-term wind speed prediction[J]. Energy Conversion and Management, 2022, 252: 1-18.
[11] 匡亮,華馳,鄧小龍,等. 一種優化極限學習機的果園濕度預測方法[J]. 傳感技術學報,2019,32(3):418-423.
Kuang Liang, Hua Chi, Deng Xiaolong, et al. The oorchard humidity prediction method based on optimized extreme learning machine[J]. Chinese Journal of Sensors and Actuators, 2019, 32(3): 418-423. (in Chinese with English abstract)
[12] Zhang J, Xu F, Zhang Y, et al. ELM-based driver torque demand prediction and real-time optimal energy management strategy for HEVs[J]. Neural Computing and Applications, 2019, 32(3): 1-19.
[13] Huang Y, Li S, Li J, et al. Spectral diagnosis and defects prediction based on ELM during the GTAW of AI alloys[J]. Measurement, 2019, 136: 405-414.
[14] Udmale S S, Singh S K. Application of spectral kurtosis and improved extreme learning machine for bearing fault classification[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(11): 4222-4233.
[15] 陸慧娟,安春霖,馬小平,等. 基于輸出不一致測度的極限學習機集成的基因表達數據分類[J]. 計算機學報,2013,36(2):341-348.
Lu Huijuan, An Chunlin, Ma Xiaoping, et al. Disagreement measure based ensemble of extreme learning machine for gene expression data classification[J]. Chinese Journal of Computers, 2013, 36(2): 341-348. (in Chinese with English abstract)
[16] 席磊,何苗,周博奇,等. 基于改進多隱層極限學習機的電網虛假數據注入攻擊檢測[J]. 自動化學報,2022,48:1-10.
Xi Lei, He Miao, Zhou Boqi, et al. Research on false data injection attack detection in power system based on improved multi layer extreme learning machine[J]. Acta Automatica Sinica, 2022, 48: 1-10. ( in Chinese with English abstract)
[17] 孫娜,周建中. 基于正則極限學習機的非平穩徑流組合預測[J]. 水力發電學報,2018,37(8):20-28.
Sun Na, Zhou Jianzhong. Hybrid forecasting model for non-stationary runoff based on regularized extreme learning machine[J]. Journal of Hydroelectric Engineering, 2018, 37(8): 20-28. (in Chinese with English abstract)
[18] Cao W, Huan J, Liu C, et al. A combined model of dissolved oxygen prediction in the pond based on multiple-factor analysis and multi-scale feature extraction[J]. Aquacultural Engineering, 2019, 84: 50-59.
[19] 宦娟,曹偉建,秦益霖,等. 基于游程檢測法重構集合經驗模態的養殖水質溶解氧預測[J].農業工程學報,2018,34(8):220-226.
HUAN Juan, CAO Weijian, QIN Yilin, et al. Dissolved oxygen prediction in aquaculture based on ensemble empirical mode decomposition and reconstruction using run test method[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(8):220-226. ( in Chinese with English abstract)
[20] 劉成菊,林立民,劉明,等.一種基于DTW-GMM的機器人多機械臂多任務協同策略[J].自動化學報,2022, 48(9):2187-2197.
LIU Chengju, LIN Limin, LIU Ming, et al. A multi-task collaborative strategy for multi-arm robot based on DTW-GMM[J]. Acta Automatica Sinica, 2022, 48(9): 2187-2197. ( in Chinese with English abstract)
[21] 姬文江,左元,黑新宏,等. 基于FastDTW的道岔故障智能診斷方法[J]. 模式識別與人工智能,2020,33(11):1013-1022.
Ji Wenjiang, Zuo Yuan, Hei Xinhong, et al. An intelligent fault diagnosis method based on FastDTW for railway turnout[J]. Pattern Recognition and Artificial Intelligence, 2020, 33(11): 1013-1022. (in Chinese with English abstract)
[22] 陳莉婷,鄭晶,高建清,等. 基于FastDTW案例檢索的臺風災害應急方案生成[J]. 中國安全科學學報,2022,32(4):171-176.
Chen Liting, Zheng Jing, Gao Jianqing, et al. Generation of typhoon emergency response plan based on FastDTW case retrieval[J]. China Safety Science Journal, 2022, 32(4): 171-176. (in Chinese with English abstract)
[23] 孫勇,譚文安,金婷,等. 基于在線聚類的協同作弊團體識別方法[J]. 計算機研究與發展,2018,55(6):1320-1332.
Sun Yong, Tan Wenan, Jin Ting, et al. A collaborative collusion detection method based on online clustering[J]. Journal of Computer Research and Development, 2018, 55(6): 1320-1332. (in Chinese with English abstract)
[24] Huang G, Huang G B, Song S, et al. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32-48.
[25] 郭恒亮,李曉,付羽,等. 基于核嶺回歸算法的PROSAIL模型反演高空間分辨率葉面積指數[J].草業學報,2022,31(12):41-51.
GUO Hengliang, LI Xiao, FU Yu, et al. High-resolution leaf area index inversion based on the kernel ridge regression algorithm and prosail model[J]. Acta Prataculturae Sinica, 2022, 31(12):41-51. ( in Chinese with English abstract)
[26] Heeswijk M, Miche Y. Binary/ternary extreme learning machines[J]. Neurocomputing, 2015, 149: 187-197.
[27] Bholowalia P, umar A. EBK-Means: A clustering technique based on elbow method and K-Means in WSN[J]. International Journal of Computer Applications, 2014, 105(9): 17-24.
[28] Shi P, Li G H, Yuan Y M, et al. Prediction of dissolved oxygen content in aquaculture using clustering-based softplus extreme learning machine[J]. Computers and Electronics in Agriculture, 2019, 157: 329-338.
Data stream prediction model for dissolved oxygen in aquaculture water using PC-RELM
SHI Pei1,2, KUANG Liang3, WANG Quan1,2, YUAN Yongming4
(1.,214105,; 2.,214105,; 3.,,214153,; 4.,,214081,)
Dissolved oxygen (DO) is one of the most important parameters for the water quality in aquaculture water. Long-term low oxygen environment can dominate the growth and reproduction of fish. Hypoxia can also cause large areas of fish death. Accurate and efficient DO prediction and control strategies can improve aquaculture production efficiency for the fewer aquaculture risks. However, an effective DO prediction has always been a tough challenge in aquaculture, due to the interference of external weather and the DO complexity. Multi-source or single sensors are generally used to build the prediction models, without considering the DO characteristics under similar weather conditions. Particularly, there is an outstanding diurnal variation in the DO content. Moreover, some redundant data can be collected from the water quality sensors in automatic weather stations. In this study, the principal component analysis and clustering method optimized regularized extreme learning machine (PC-RELM) was proposed to realize the DO prediction, considering the influence of external weather conditions on the DO and the diurnal variation. Firstly, the principal component analysis (PCA) was applied to determine the most influencing factors on the DO concentration, and reduce the data dimension of the prediction model for the high efficiency of prediction; Secondly, the entropy weight method was utilized to calculate the weather environment index at different time points. Fast dynamic time warping (FastDTW) was used to measure the similarity of weather environment in the time series data streams; Then, the-means algorithm was used to cluster the similarity of the time series using the weather environment index. And the sub-prediction models of regularized extreme learning machine (RELM) were constructed using the clustered datasets to forecast the DO concentration. Finally, the PC-RELM model was applied to the intelligent control process of DO in the aquaculture pond of the Wuxi Nanquan experimental base. The test results showed that the root-mean square error (RMSE) of PC-RELM prediction was 0.961 9, which outperformed the partial least squares optimized ELM (PLS-ELM), Least Square Support Vector Machine (LSSVM), and BP algorithms by 41.54%, 54.58%, and 67.16%, respectively. The mean square error (MSE) value of PC-RELM was 0.694 1, which outperformed the PLS-ELM, LSSVM and BP algorithms by 46.26%, 59.98%, and 69.90%, respectively. Meanwhile, the Nash-Sutcliffe efficiency coefficient of PC-RELM was 0.712 8, which was much higher than the rest prediction. In addition, the PC-RELM presented a high running speed of 0.316 2 s. The efficiency of PC-RELM was improved by about 7, 10, and 40 times, respectively, compared with the PLS-ELM, LSSVM, and BP. The improved model can be expected to extract the change patterns of DO under different weather conditions, indicating high prediction accuracy and efficiency. The finding can provide high-quality data and theoretical support for the precise control of DO in the pond water.
dissolved oxygen; aquaculture; water quality; clustering; fast dynamic time warping; regularized extreme learning machine
2023-01-05
2023-03-25
江蘇省高校自然科學研究面上項目(21KJB520020);無錫市“太湖之光”科技攻關項目(K20221044);國家自然科學基金項目(62072216);南京信息工程大學濱江學院人才啟動經費資助項目(2021r038);江蘇省教育科學“十四五”規劃2021年度課題(B/2021/01/15)
施珮,博士,講師,研究方向為農業物聯網和大數據分析。Email:njxk_sp@163.com
10.11975/j.issn.1002-6819.202301014
TP39; TP212; TP274.2
A
1002-6819(2023)-07-0227-09
施珮,匡亮,王泉,等. 基于PC-RELM的養殖水體溶解氧數據流預測模型[J]. 農業工程學報,2023,39(7):227-235. doi:10.11975/j.issn.1002-6819.202301014 http://www.tcsae.org
SHI Pei, KUANG Liang, WANG Quan, et al. Data stream prediction model for dissolved oxygen in aquaculture water using PC-RELM[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(7): 227-235. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202301014 http://www.tcsae.org