黃昕 姜春濤 任紫薇 潘淑儀 凌逸文 曹穎 肖浩鳴 邱文浩


摘要:傳統的神經網絡并不能做到長期記憶,存在“長期依賴”問題。但長短期記憶循環神經網絡模型擅長處理可變長度的時間序列的數據輸入,且網絡具有自連接的隱層,可以有效解決長期依賴問題。標準BP神經網絡算法收斂速度慢、局部極值、難以確定隱層數和隱層的節點個數。由于收集的水體數據中有許多屬性相關性較大,如果將所有屬性都用C4.5算法進行計算,則會造成一定的資源浪費,降低計算效率。而改進的C4.5算法則增加了去除相關性大的幾個屬性這一環節,從而有效地減少了不必要的計算。該文主要融合長短期記憶循環神經網絡以及決策樹兩種算法,來進行水產養殖病害預測。
關鍵詞:長短期記憶循環神經網絡;C4.5算法;水產病害預測
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2020)08-0194-02
每年水產養殖病害影響面積占全國總水產養殖面積10%以上,直接經濟損失高達上百億元,已經成為我國水產養殖健康發展的主要障礙之一。根據水產養殖動植物疾病監測預報,2017年,我國水產養殖因病害造成的經濟損失約361億元,其中魚類占33.8%,甲殼類占40.7%,貝類占13.2%,其他占12.4%。因此對水產病害進行預測分析對我國水產養殖具有極其重要的意義。
現有技術大都采用灰色預測模型、BP神經網絡模型進行預測分析。但灰色預測模型對時間序列平滑性要求較高,有快速衰減和遞增的屬性,所以他的時效性有限,不適合做長期的預測或者分析。標準BP神經網絡算法收斂速度慢、局部極值、難以確定隱層數和隱層的節點個數。長短期記憶循環神經網絡模型擅長處理可變長度的時間序列的數據輸入,也可以有效解決長期依賴問題。本文主要融合長短期記憶循環神經網絡以及決策樹兩種算法,來進行水產養殖病害預測。
1 C4.5-LSTM模型建立
1.1數據采集
收集水體m個因素x1,x2,...xm的數據及對應的病害數據將數據導入Excel表格中,對數據進行預處理。
1.2決策樹的生成
隨機抽取其中的80%組數據作為決策樹的訓練集,剩余的20%組數據作為決策樹的測試集。采取改進的C4.5算法生成決策樹。
1.2.1去除相關性大的屬性
1.2.3剪枝
采用PEP(Pessimistic Error Pruning)剪枝法進行因素的選擇最終確定因素個數v。
1.3數據處理
1.3.1數據標準化處理
收集上一步驟中的n個因素y1,y2...yn的數據將數據導入Excel表格中并將數據進行預處理。利用min-max標準化公式分別將y1,y2...yn的r行數據歸一化。
1.3.2數據劃分
將上一步驟中處理好的數據隨機選取80%組數據作為訓練集,剩余20%組數據作為測試集。將每個因素的數據分別依次輸入模型中。
1.4模型建立
步驟一:設置輸入、輸出層。設置網絡輸入為每次每個因
步驟四:長短期記憶循環神經網絡模型訓練。將數據代人模型進行訓練過程中,由小批量梯度下降法尋找使預測值與真實值相差最小的值,提高模型的精確度。確定先決條件即確定優化模型的假設函數及損失函數見公式(9),通過計算找出最合適的LSTM神經網絡中的權重。
步驟五:將預測出的各因素的數據組合成一組一組的數據,代入建立好的決策樹中進行分類預測水產病害的爆發。
2 總結
長短期記憶循環神經網絡模型擅長處理可變長度的時間序列的數據輸入,也可以有效解決長期依賴問題。改進的C4.5算法增加了去除相關性大的因素這一環節,從而有效地減少了不必要的計算,節省了計算資源。先利用長短期記憶循環神經網絡進行預測,再利用決策樹進行分類,可有效、精準地對水產病害進行預測,讓養殖戶們及時采取措施,減小由此帶來的巨大損失。
參考文獻:
[1]于家斌,尚方方,王小藝,等,基于GF-LSTM網絡的藍藻水華預測方法[Jl.計算機應用,2018:1-6.
【通聯編輯:代影】
收稿日期:2019-11-25
作者簡介:姜春濤(1985-),男,山東煙臺人,講師,博士,計算機學會(CCF)會員,主要研究方向為計算機微體系結構模擬、大數據系統優化;黃昕(1999-),女,江西贛州人,本科,主要研究方向為數據科學、大數據技術;任紫薇(1998-),女,安徽宿州人,本科,主要研究方向為數據科學、大數據技術。