









基金項目:教育部產學合作協同育人項目“基于海豚實驗平臺的人工智能專業‘雙師型’教師培訓實踐探索”(230705384254049)。
作者簡介:李丹(1984—),女,碩士,講師,研究方向:數據分析與處理、農業工程與信息技術;馮新玲(1983—),女,碩士,副教授,研究方向:計算機圖形學、計算機算法;付國帥(1984—),男,本科,高級實驗師,研究方向:農業工程與信息技術;李玉香(1964—),女,碩士,教授,研究方向:數據分析與處理、農業工程與信息技術。
摘 要:大蒜是一種重要農產品,其價格波動會給農民、經銷商和消費者帶來較大影響。因此,準確預測大蒜價格對決策制定、市場規劃和風險管理起到至關重要的作用。基于長短期記憶網絡算法來分析大蒜價格歷史數據,利用核主成分分析法對數據進行特征提取,得到最優參數的預測模型,并對大蒜價格進行短期預測。結果表明,基于KPCA的LSTM模型在對大蒜價格預測時達到預期良好效果,與傳統的神經網絡和時序模型相比,其具有更高的準確度和穩定性。
關鍵詞:長短期記憶網絡;大蒜價格預測;預測模型
中圖分類號:S126;TP183;S511 文獻標志碼:B 文章編號:1674-7909(2024)1-136-5
DOI:10.19345/j.cnki.xckj.1674-7909.2024.01.034
0 引言
大蒜是一種被廣泛種植和消費的農產品,其價格波動會對農民、經銷商和消費者產生重要影響。然而,受自然因素、市場需求和供應變化等多種因素影響,大蒜價格往往難以被精確預測。因此,建立可靠的大蒜價格預測模型對農戶進行種植決策、市場規劃和風險管理具有重要意義。隨著對人工智能的不斷研究和優化,BP神經網絡、RNN神經網絡、ARIMA模型在解決時間序列數據預測中的問題時有了很大突破,其被廣泛應用于預測大蒜市場價格。例如,史冠宇等[1]利用時間序列模型ARIMA對中國大蒜市場價格進行預測,基于歷史價格數據來建立模型,從而預測出大蒜未來價格走勢;劉合兵等[2]以5種農產品為研究對象,提出基于小波變換和BP神經網絡的組合預測模型,其能較好地預測出農產品價格,適用于對多種蔬菜價格的預測。
長短期記憶網絡(Long Short-Term Memorty,LSTM)是一種改進的時間循環神經網絡(RNN),在處理長時間序列預測問題時具有獨特優勢,被廣泛應用于機器翻譯、語音識別等領域[3-4]。然而,LSTM在大蒜價格預測中的應用還比較有限。為構建基于LSTM的大蒜價格預測模型,并提高大蒜價格預測的準確性,此研究用長短期記憶網絡來預測大蒜日價格和月價格,并將其預測結果與BP神經網絡、ARIMA預測模型的預測結果進行比較,探討LSTM在大蒜價格預測中的表現,進而為大蒜產業各環節提供精準的數據服務,為農戶的種植計劃、企業的高效運營和政府的科學調控提供更多的參考依據,推動大蒜產業健康可持續發展。
1 研究方法
1.1 研究區域
中牟縣位于河南省中部,是中國重要的大蒜產區之一。該地區屬溫帶季風氣候區,四季分明,夏季炎熱潮濕,冬季寒冷干燥,年降水量為500~700 mm,且降水主要集中在每年的6—8月。該地土壤主要為黃綿土,土質肥沃,且具有良好的排水性。中牟縣農民積累了豐富的大蒜種植經驗,能運用先進的種植技術,如土壤調理、肥料施用、種植密度控制、病蟲害防治等,來提高大蒜的產量和質量。
1.2 數據來源
大蒜歷史價格來源于大蒜網,大蒜成災面積、大蒜播種面積和大蒜單位面積產量等數據來自《河南省統計年鑒》,大蒜庫存量和進出口量數據來自前瞻數據庫,河南省城鎮居民人均可支配收入數據來自國家統計局,原油價格數據來自金投網。研究時間為2021年1月1日—12月31日。
1.3 LSTM算法
LSTM算法在處理序列數據和時間序列預測任務方面表現出色[5]。相較于傳統的RNN,LSTM具有更長的記憶延遲和更好的梯度傳播特性,能有效解決傳統RNN中的梯度消失和梯度爆炸問題,能更好地捕捉到序列中的長期依賴關系。LSTM的基本結構如圖1所示。
lt;E:\2024年工作\鄉村科技\1月份\1上內文與目錄\《鄉村科技》2024年1上正文\Image\image1_4.pnggt;
圖1 LSTM神經網絡結構
LSTM通過引入門控機制結構來控制信息流動,包括輸入門、遺忘門和輸出門[6]。
1.3.1 輸入門(Input Gate)
通過計算當前輸入和前一個時刻的隱藏狀態,使用一個sigmoid函數來決定保留輸入中的哪些信息。輸入門可控制輸入權重,有選擇性地傳遞和存儲重要輸入。其計算公式為式(1)。
[it=σWiht-1,xt+bi]
[gt=σWght-1,xt+bg]" " " " " " " " "(1)
式(1)中:Wi、Wg為權重;bi、bg為偏置。
1.3.2 遺忘門(Forget Gate)
通過計算當前輸入和前一個時刻的隱藏狀態,使用一個sigmoid函數來確定遺忘前一個時刻信息的程度。遺忘門可丟棄過去信息,只保留對當前任務有用的信息,其計算公式為式(2)。
[ft=σWfht-1,xt+bf]" " " " " " " " " "(2)
式(2)中:[Wf]為忘記門權重;[ht-1]為上一個單元的輸出;[xt]為當前單元的輸入;[bt]為偏置;[σ]為sigmod函數。
1.3.3 輸出門(Output Gate)
通過計算當前輸入和前一個時刻隱藏狀態,用一個sigmoid函數來決定輸出的激活狀態。同時,使用tanh函數生成一個新的隱藏狀態,作為當前時刻輸出。輸出門決定隱藏狀態中哪些信息會被傳遞到下一個時刻。當前狀態的計算公式為式(3)。
[St=ft×St-1+gt×it]" " " " " " " " " " " " (3)
門控機制使得LSTM能根據當前輸入和前一個時刻隱藏狀態來選擇性保留和傳遞重要信息,并能有效解決梯度消失和梯度爆炸問題。因此,LSTM在處理長序列和捕捉長期依賴關系方面表現出色。此研究采用LSTM算法來預測大蒜的短期價格,模型的輸入為中牟縣2021年大蒜銷售旺季和淡季任意連續10 d的銷售價格。
1.4 模型評價指標
此研究采用均方根誤差和平均絕對誤差來評價預測模型的優劣程度。
1.4.1 均方根誤差(root mean square error,RMSE)
[RMSE=1ni=1nY'i-Yi2]" " " " " " nbsp; " "(4)
1.4.2 平均絕對誤差(mean absolute error,MAE)
[MAE=1ni=1nY'i-Yi]" " " " " " " " " " " "(5)
式(4)和(5)中:[Y'i]和[Yi]分別為預測值和實際值,n為測試樣本的個數。
2 結果和分析
2.1 月度大蒜價格波動趨勢
對2021年每個月份的大蒜價格波動幅度進行頻數統計,結果如圖2所示。2021年,大蒜價格的正常波動和小幅波動均在年初和年末出現頻率最高,這說明在11月至次年2月的大蒜價格相對穩定。與小幅波動相比,中幅波動在1—3月出現的頻率相似,而在3—12月,中幅波動的頻率與小幅波動相反。在波動幅度方面,只有9月的波動幅度以中幅為主,其他月份的波動幅度主要是大幅或正常波動。每年9月份,大蒜庫存已經確定,市場上供應量穩定,因此大蒜價格波動從大幅向正常過渡。大幅波動主要集中在3—7月,其中6月的幅度波動頻率最高,表明新蒜上市對大蒜價格的影響較大。
lt;E:\2024年工作\鄉村科技\1月份\1上內文與目錄\《鄉村科技》2024年1上正文\Image\3.jpggt;
圖2 2021年月度大蒜價格波動幅度統計
2.2 大蒜價格影響因素分析
此研究采用灰色關聯分析法來評估大蒜價格的影響因素與價格波動之間的關聯程度,從而篩選出影響大蒜價格的主要因素,為后續研究提供依據。
灰色關聯分析法是通過觀察參考序列和比較序列之間的變化趨勢相似度來確定關聯程度緊密程度的。兩者變化趨勢越相似,則二者之間的關聯程度就越大[7]。具體分析流程如圖3所示。
lt;E:\2024年工作\鄉村科技\1月份\1上內文與目錄\《鄉村科技》2024年1上正文\Image\7.jpggt;
圖3 灰色關聯分析流程
2.2.1 確定參考序列和比較序列
以參數指標為參考序列Y、影響參數指標因素為比較序列X,其矩陣表示見式(6)。
[Y=Y1,Y2,…,Yn][T]
[Xi=Xi1,Xi2,…,Xin][T]" " " " " (6)
式(6)中:i(=1,2,…,n)為比較序列中的一行,即一個特征。
2.2.2 變量的無量綱化處理
由于原始數據的單位或量綱不同,若直接比較,會對結論產生一定影響,因此需要進行無量綱化處理。此研究采用均值化處理,見式(7)。
[xik=xikxi]" " " " " " " " " " " " " " (7)
式(7)中:i=1,2,…,m;k=i=1,2,…,n;k為對應時間段。
2.2.3 計算關聯系數
[ζik=miniminkyk-xik+ρmaximaxkyk-xikyk-xik+ρmaximaxkyk-xik]
[Δik=yk-xik],則
[ζik=miniminkΔik+ρmaximaxkΔikΔik+ρmaximaxkΔik]" " " " " " (8)
2.2.4 計算關聯度
[ri=1nk=1nζik]" " " " " " " " " " " " " "(9)
2.2.5 關聯度排序及評價
對計算得到的關聯度進行排序,關聯度越大表示兩者間的關聯程度越大。根據相關文獻和經驗,此研究選擇灰色關聯度在0.75以上的因素作為影響大蒜價格的主要因素[8],包括大蒜產量、大蒜庫存量、大蒜播種面積、大蒜出口量、居民人均可支配收入、國際原油價格和貨幣供應量。通過分析可知,大蒜產量、庫存量等因素是造成大蒜價格波動的重要因素。此外,根據已有的研究成果,上一期的大蒜價格對當前價格也有較大影響。因此,在預測大蒜價格時,可將選取的影響因素與大蒜歷史價格數據作為輸入數據,建立相應的大蒜價格預測模型。大蒜價格與各影響因素的灰色關聯度見表1。
表1 大蒜價格與各影響因素的灰色關聯度
[大蒜影響因素 灰色關聯度 大蒜產量 0.989 9 大蒜庫存量 0.890 9 大蒜播種面積 0.880 7 大蒜出口量 0.846 6 居民人均可支配收入 0.835 8 國際原油價格 0.810 0 貨幣供應量 0.804 5 ]
2.3 大蒜價格預測模型
通過需求分析,筆者認為該系統應包括數據采集、數據存儲、數據分析和數據預測等功能模塊,如圖4所示。數據采集模塊包括管理員導入數據和網絡爬蟲數據兩個子模塊,可用來獲取大蒜價格相關數據。數據存儲模塊主要用來存儲大蒜的日價格數據、月價格數據等。數據分析模塊具有價格波動趨勢、價格波動頻幅等分析功能,用來對大蒜價格數據進行統計和可視化分析。數據預測模塊用來對大蒜價格進行預測,基于選取的影響因素和歷史數據,建立相應的預測模型。
3 試驗結果
3.1 基于LSTM的大蒜價格模型預測
此研究對大蒜價格進行短期預測,且考慮到河南省大蒜價格在不同季節的波動情況有所不同。通常情況下,2—6月新蒜上市,大蒜價格大幅下跌,屬銷售淡季;7—12月是大蒜銷售旺季。因此,從河南省大蒜淡旺季分別選取任意連續的10 d,對大蒜價格進行預測和分析。通過兩組測試集對模型的預測精度進行驗證,并記錄預測結果的RMSE和MAE。基于KPCA的LSTM模型的預測擬合結果,如圖5和圖6所示。
lt;E:\2024年工作\鄉村科技\1月份\1上內文與目錄\《鄉村科技》2024年1上正文\Image\9.jpggt;
圖5 2021-11-11—2021-11-20預測結果與實際價格對比
lt;E:\2024年工作\鄉村科技\1月份\1上內文與目錄\《鄉村科技》2024年1上正文\Image\10.jpggt;
圖6 2021-3-1—2021-3-10預測結果與實際價格對比
由圖5、圖6可知,預測值曲線與真實值曲線在總體趨勢上基本吻合,且兩組測試集的預測值和實際值的偏差程度較小。為了評估模型的誤差,此研究使用平均絕對誤差(MAE)和均方根誤差(RMSE)進行評價,具體評價結果見表2。
由表2可知,KPCA-LSTM模型在11月11—20日的預測值與真實值的平均絕對誤差為0.011 2,在3月1—10日的平均絕對誤差為0.020 7。以RMSE為模型誤差指標,此研究所建立的模型對大蒜價格的短期預測誤差約為2.02%。總體而言,基于LSTM的價格預測模型能很好地反映大蒜價格在一周內的走勢,從而達到預期效果。
3.2 試驗模型對比分析
為了進一步驗證LSTM模型的性能,此研究還建立了基于BP神經網絡的大蒜價格預測模型、基于ARIMA的大蒜價格預測模型,并與LSTM模型進行對比分析。
BP神經網絡模型采用三層結構,輸入層個數為12。通過訓練,對BP神經網絡結構的超參數進行優化,并確定隱藏層神經元個數為64、最大迭代次數為2 000、學習率為0.01、步長為50。ARIMA模型是在平穩時間序列基礎上建立的,但由于大蒜價格序列存在不平穩性,因此需要對其進行一次或多次差分,從而使其平穩。
對這三種模型的RMSE和MAE值進行對比分析,預測結果如圖7、圖8所示,具體對比結果見表3。
lt;E:\2024年工作\鄉村科技\1月份\1上內文與目錄\《鄉村科技》2024年1上正文\Image\11.jpggt;
圖7 2021-11-11—2021-11-20各模型預測結果對比
由圖7可知,BP模型和ARIMA模型的預測曲線擬合效果均相對較差。由表3可知,盡管ARIMA模型的11月11日到11月20日的平均絕對誤差為0.060 6,但其不能很好地捕捉到大蒜價格波動趨勢。由圖8可知,BP模型和ARIMA模型對價格波動的擬合效果較差。由表3可知,以RMSE為模型評估指標,BP模型的平均誤差率約為11.84%、ARIMA模型的平均誤差率約為6.15%。相比之下,此研究提出的LSTM模型的平均誤差率約為2.02%。模型平均誤差如圖9所示。綜合來看,相較于其他模型,LSTM模型在預測大蒜價格走勢、擬合價格波動方面表現良好,誤差率相對較低。
由圖9可知,在兩組測試集中,基于LSTM模型的RMSE和MAE均是最小的,且總體平均誤差也是最低的。因此,與傳統的BP神經網絡和傳統的時序模型相比,此研究所構建的模型在大蒜價格預測準確度上表現出最高水平,穩定性也更強。這一結果表明,基于LSTM的預測模型在一定程度上能克服傳統神經網絡和傳統時序模型在價格預測時的一些缺點。
綜上所述,基于KPCA的LSTM模型在大蒜價格預測方面取得了良好效果,能實現預期目標,與傳統神經網絡和時序模型相比,其具有更高的準確度和穩定性。
4 結束語
基于長短期記憶網絡的大蒜價格預測模型在試驗中表現出良好的性能和準確性,為農產品價格預測提供了新的方法和思路,其具有廣闊的應用前景。通過對大蒜價格歷史數據的分析,LSTM算法能捕捉價格的趨勢和周期性特征,并做出準確預測。然而,模型仍會受數據質量、特征選擇和模型參數等因素的影響。未來,可進一步優化模型,提高其性能,并探索其他深度學習算法的應用,以提高大蒜價格預測的準確性和實用性。
參考文獻:
[1]史冠宇,李玫瑰.基于ARIMA模型的青島市大蒜價格時間序列預測分析[J].山東農業科學,2017(5):168-172.
[2]劉合兵,韓晶晶,席磊.小波變換—BP神經網絡的農產品價格預測研究[J].中國農業信息,2019(6):85-92.
[3]湯鵬杰,王瀚漓,許愷晟.LSTM逐層多目標優化及多層概率融合的圖像描述[J].自動化學報,2018(7):1237-1249.
[4]吳娟娟,任帥,張衛鋼等.一種基于LSTM模型的日銷售額預測方法[J].計算機技術與發展,2020(2):133-137.
[5]HOCHREITER S,SCHMIDHUBER J.LSTM can solve hardlong time lag problems[C]//Advances in neural informationprocessing systems.Canada:NIPS,1996:473-479.
[6]勾志竟,宮志宏,劉布春.基于TensorFlow的LSTM算法在農業中的應用[J].計算機技術與發展,2021(8):215-220.
[7]劉蓮蓮.大蒜價格波動特征分析及價格預測研究[D].泰安:山東農業大學,2022.
[8]張璇.基于LSTM的河南省花生價格預測研究[D].鄭州:華北水利水電大學,2021.