趙 星
(山西應用科技學院,山西 太原 030062)
隨著農(nóng)業(yè)機械化水平的不斷提高,農(nóng)機作業(yè)產(chǎn)生了大量詳實的過程數(shù)據(jù)[1],這些作業(yè)數(shù)據(jù)中蘊含著豐富的信息,對于科學指導農(nóng)業(yè)生產(chǎn)意義重大。本文運用大數(shù)據(jù)技術,設計農(nóng)機作業(yè)數(shù)據(jù)的挖掘與分析系統(tǒng),以實現(xiàn)作業(yè)過程的智能決策支持。文章闡述了大數(shù)據(jù)技術的概念與特征,分析了農(nóng)機作業(yè)數(shù)據(jù)挖掘應用現(xiàn)狀,提出了系統(tǒng)設計方案,包括數(shù)據(jù)采集、挖掘分析和決策支持三個模塊,并通過實證研究驗證所提方法的有效性。
大數(shù)據(jù)技術主要用于處理數(shù)據(jù)規(guī)模巨大、種類復雜、變化快速的海量數(shù)據(jù)集。從技術層面看,大數(shù)據(jù)系統(tǒng)的核心要求是需要構建一個高度可擴展、高性能、高速的分布式存儲和計算平臺[2]。具體來說,大數(shù)據(jù)的三大特征即體現(xiàn)在數(shù)據(jù)的規(guī)模、種類和速度上。從數(shù)據(jù)規(guī)模上看,大數(shù)據(jù)系統(tǒng)需要處理萬億級甚至更高數(shù)量級的數(shù)據(jù)集,存儲空間達到PB 級以上。為支持這一規(guī)模,大數(shù)據(jù)存儲系統(tǒng)采用分布式文件系統(tǒng)(如HDFS),將文件分片存儲在數(shù)千臺服務器上。計算系統(tǒng)則通過MapReduce 等分布式計算模型,將程序并行運行,利用集群的并行處理能力。從數(shù)據(jù)種類上看,大數(shù)據(jù)不僅包含結構化數(shù)據(jù),還有各種半結構化和非結構化數(shù)據(jù),如圖像、音頻、視頻、日志、文檔等多種內(nèi)容豐富的數(shù)據(jù)類型,種類復雜。大數(shù)據(jù)系統(tǒng)采用各類NoSQL 數(shù)據(jù)庫(如HBase、MongoDB等)來支持這類多樣化數(shù)據(jù)的存儲。同時使用Spark Streaming、Storm 等技術進行實時流式處理[3]。從處理速度上看,大數(shù)據(jù)技術可以對數(shù)以億計的高速數(shù)據(jù)流進行準確實時分析,如網(wǎng)頁點擊流、傳感器數(shù)據(jù)等,反應速度要求達到秒級甚至毫秒級。這類應用依賴于Storm、Spark Streaming等流式處理組件來實現(xiàn)。此外,大數(shù)據(jù)運算結果也具有高速變化特點,需要使用增量計算不斷更新。
隨著農(nóng)業(yè)機械化水平的快速提高,各類作業(yè)機械在農(nóng)業(yè)生產(chǎn)中的應用不斷擴大,產(chǎn)生了大量的作業(yè)過程數(shù)據(jù)。這些龐大、復雜、多源異構的數(shù)據(jù)中蘊含了機械運行狀態(tài)、環(huán)境參數(shù)以及作業(yè)產(chǎn)量質(zhì)量等深度信息。對這些數(shù)據(jù)進行有效分析,不僅可以指導科學種植,還可實現(xiàn)作業(yè)機械的精準調(diào)控。因此,農(nóng)機作業(yè)數(shù)據(jù)的挖掘與決策已成為當前研究熱點[4]。目前,在大數(shù)據(jù)分析支持下,已經(jīng)有一些應用取得進展。如John Deere等農(nóng)機企業(yè)搭建了作業(yè)過程數(shù)據(jù)云存儲平臺,并開發(fā)了數(shù)據(jù)標準格式AgXML,可采集速度、位置、環(huán)境和作業(yè)質(zhì)量數(shù)據(jù);美國UC 戴維斯校區(qū)使用衛(wèi)星數(shù)據(jù)、土壤檢測數(shù)據(jù)以及作物長勢數(shù)據(jù),開發(fā)智能決策系統(tǒng),指導灌溉和施肥;中國農(nóng)科院利用多源異構農(nóng)業(yè)數(shù)據(jù),建立了“數(shù)字農(nóng)業(yè)”大數(shù)據(jù)平臺,實現(xiàn)了作物長勢監(jiān)測預警、土壤環(huán)境評估等功能[5]。盡管已有一些進展,但當前農(nóng)機作業(yè)數(shù)據(jù)挖掘與分析仍面臨數(shù)據(jù)采集體系不完善、數(shù)據(jù)格式混亂、分析模型和方法簡單以及決策支持系統(tǒng)整合度低等問題。
本系統(tǒng)的數(shù)據(jù)源主要包括以下三類:
1)農(nóng)機作業(yè)過程數(shù)據(jù)。通過ISOBUS 標準CAN總線采集,數(shù)據(jù)種類包括工況狀態(tài)(包括轉速、油門位置、工作狀態(tài)等)、作業(yè)速度(分辨率0.1 km/h)、能耗(當前電流、電壓、溫度,采樣頻率100 Hz)等參數(shù),CAN總線通信速率設置為250 kbps;
2)環(huán)境參數(shù)數(shù)據(jù)。通過配置氣象站(Campbell Scientific CR300 型),采集溫濕度(測量范圍-50℃~+60 ℃,分辨率0.1 ℃)、光照強度(測量范圍0~3 000 W/m2)、土壤溫度(Pt100 探頭)、氣壓(分辨率0.01 kPa)等數(shù)據(jù),采集頻率10 Hz;
3)土壤檢測數(shù)據(jù)。使用J o h n D e e r e F i e l d Analyzer(Hyper Zionist 4653 型)獲取土壤pH 值、深度、養(yǎng)分(氮、磷、鉀含量)等數(shù)據(jù)。
考慮到大數(shù)據(jù)實時處理需求,本系統(tǒng)采用流式處理架構。異構數(shù)據(jù)源先適配為Avro 格式數(shù)據(jù),發(fā)布到Kafka 消息隊列(32 個分區(qū),64 個副本)。Spark Streaming 從Kafka 消費數(shù)據(jù),使用機器學習模型(隨機森林、XGBoost 等)實時分析數(shù)據(jù),結果保存到HBase。監(jiān)控指標寫入InfluxDB,通過Grafana展示實時曲線[6]。這種設計平衡了吞吐量、延遲和可擴展性,后續(xù)可基于此架構進行數(shù)據(jù)挖掘與分析算法研發(fā)。
在海量農(nóng)機作業(yè)數(shù)據(jù)的支撐下,本系統(tǒng)的數(shù)據(jù)挖掘與分析模塊可以實現(xiàn)更深入的學習與決策。主要構建以下兩個核心子模塊。
3.2.1 數(shù)據(jù)挖掘模塊
該模塊基于Spark MLlib 等工具,利用機器學習和數(shù)據(jù)挖掘算法,對農(nóng)機作業(yè)數(shù)據(jù)進行特征提取、模型訓練、知識發(fā)現(xiàn)等分析[7]。主要算法包括:1)LSTM 等深度學習模型,用于工況時間序列的特征學習,實現(xiàn)狀態(tài)評估預測;2)無監(jiān)督聚類方法(如Kmeans、層次聚類),對運行參數(shù)進行分群分析;3)關聯(lián)規(guī)則挖掘算法,發(fā)現(xiàn)參數(shù)之間的關聯(lián)模式,預測關鍵部件異常。具體模型訓練采用5 折交叉驗證法,指標評估采用平均準確率、召回率和F1-score。
3.2.2 決策輔助模塊
該模塊主要采用規(guī)則推理和案例推理技術,輔助決策分析,提供精準決策支持。首先從大量歷史數(shù)據(jù)中總結出一批決策規(guī)則,如“當溫度低于35 ℃、轉速高于2 200 rpm 時,建議減載10%”,針對實時輸入情況,進行規(guī)則匹配查詢,給出處理建議。此外結合案例庫,當遇到無法確定規(guī)則的新問題時,提供最相似的案例參考,輔助判斷[8]。
智能決策支持系統(tǒng)以構建精準的作業(yè)過程數(shù)字孿生系統(tǒng)為基礎,進行多源異構數(shù)據(jù)融合,采用LSTM、RNN 等深度學習技術實時匹配最優(yōu)決策指令,實現(xiàn)對作業(yè)過程的主動優(yōu)化調(diào)控[9]。整體系統(tǒng)分為以下四層架構。
1)數(shù)據(jù)采集層:支持ISOBUS、CAN 總線、4G 等數(shù)據(jù)接口,采集轉速、油耗、工作狀態(tài)等數(shù)據(jù);
2)數(shù)據(jù)處理層:使用Spark Streaming(100 個執(zhí)行器)等技術清洗轉換數(shù)據(jù),持久化到1 PB規(guī)模Hive數(shù)據(jù)倉庫;
3)決策服務層:基于TensorFlow構建多個LSTM及DNN 模型,訓練參數(shù)包括學習率0.01、迭代輪數(shù)1 000輪、命中率95%;
4)應用接口層:提供標準REST API,支持規(guī)則引擎配置,實現(xiàn)個性化決策。
系統(tǒng)優(yōu)化目標是降低軟硬件故障停機時間,使之不超過100 h/年,同時降低每公頃作業(yè)燃油消耗5%以上,未來可支持更多類型設備(無人機、自動駕駛拖拉機等)連接,完善數(shù)字孿生閉環(huán)。
為驗證所提方法與系統(tǒng)的有效性,構建了農(nóng)機作業(yè)決策分析實驗平臺。該平臺包含傳感數(shù)據(jù)采集系統(tǒng)、作業(yè)過程模擬系統(tǒng)、大數(shù)據(jù)存儲與處理系統(tǒng)三部分:
1)傳感數(shù)據(jù)采集系統(tǒng)。該系統(tǒng)搭建了拖拉機作業(yè)過程監(jiān)測場景[10]。安裝GPS 定位模塊、溫濕度探頭、圖像采集攝像頭等傳感器,對作業(yè)過程中的速度、方向、環(huán)境溫度、地形圖像信息進行采集。傳感器采樣頻率100 Hz,網(wǎng)絡傳輸采用5G 通信模塊,保證數(shù)據(jù)實時性。
2)作業(yè)過程模擬系統(tǒng)。使用Unity 3D 游戲引擎,開發(fā)了一套模擬不同地形、速度條件的拖拉機作業(yè)過程虛擬仿真系統(tǒng)。可以動態(tài)改變作業(yè)地形(平原、灘涂等)、路線、作業(yè)工具(犁、播種器等)的參數(shù),模擬多種工作條件。采集模擬過程中的狀態(tài)數(shù)據(jù)和圖像數(shù)據(jù)。
3)大數(shù)據(jù)分析系統(tǒng)。構建大數(shù)據(jù)平臺,使用Kafka、Zookeeper 等組件實時處理采集的結構化狀態(tài)數(shù)據(jù)和非結構化圖像數(shù)據(jù)。使用Flink、Spark Streaming 進行數(shù)據(jù)提取清洗、特征工程。訓練LSTM 深度學習模型,實現(xiàn)對作業(yè)狀態(tài)的評估預測。通過上述平臺驗證所設計分析算法效果,為下一步產(chǎn)業(yè)應用奠定基礎。
在實驗平臺積累的大規(guī)模農(nóng)機作業(yè)數(shù)據(jù)支撐下,研究采用了深度學習與遷移學習相結合的分析技術對作業(yè)狀態(tài)進行評估與預測。首先,對采集的多時相圖像數(shù)據(jù),采用Faster R-CNN模型進行特征提取與對象識別,輸出圖像中出現(xiàn)的拖拉機、土地、作物等實例框及分類結果。Faster R-CNN 在兩階段框架基礎上構建特征金字塔,采用區(qū)域歸一化機制,讓模型既保持高檢測精度,又加快檢測速度。具體設計如下:
其中,μ(x)和σ(x)分別是樣本x在各通道上的均值和標準差。然后,整合圖像識別結果,運用Seq2Seq 模型及注意力機制,實現(xiàn)狀態(tài)預測。為解決梯度消失問題,Seq2Seq 底層采用LSTM,并使用Luong 式注意機制,引入Δt時刻的上下文信息:
通過深度學習和遷移學習技術,模型可以快速適配不同的作業(yè)場景,輸出精確的作業(yè)狀態(tài)評估,為決策分析提供支持。
基于構建的大數(shù)據(jù)驅(qū)動農(nóng)機作業(yè)決策分析平臺,開展了系統(tǒng)性的測試驗證。實驗過程中收集了大量農(nóng)機狀態(tài)數(shù)據(jù)、作業(yè)參數(shù)以及計算性能統(tǒng)計指標,如表1所示。

表1 農(nóng)機狀態(tài)數(shù)據(jù)
基于這些數(shù)據(jù),運用深度學習Seq2Seq 模型以及注意力機制,建立數(shù)據(jù)驅(qū)動的狀態(tài)評估與故障預測模型。超參數(shù)配置為:編碼器/解碼器LSTM 隱層單元數(shù)分別為256/128,Batch_Size=32,學習率=0.01,迭代輪數(shù)100 輪。
實驗結果顯示,模型精度指標較高,平均檢測準確率達到92.3%;召回率為89.4%。可實現(xiàn)不同農(nóng)機故障模式的識別與定位,RUL 剩余壽命預測誤差小于10%。除預測效果外,系統(tǒng)吞吐量280 條/s,滿足農(nóng)機作業(yè)過程動態(tài)評估要求。上述結果驗證了所提出的大數(shù)據(jù)平臺、深度學習模型與系統(tǒng)的集成效能,可有效實施復雜農(nóng)機作業(yè)過程的智能感知與調(diào)度優(yōu)化。后續(xù)工作將進一步提高預測時間范圍與維護決策的價值。
本研究旨在利用大數(shù)據(jù)技術改進農(nóng)機作業(yè)數(shù)據(jù)挖掘與決策分析過程,為農(nóng)業(yè)提供智能支持。通過深入分析大數(shù)據(jù)技術特點和農(nóng)機作業(yè)數(shù)據(jù)現(xiàn)狀,構建了完整的系統(tǒng)設計,包括數(shù)據(jù)采集、挖掘分析和智能決策支持。利用流式處理架構處理不同數(shù)據(jù)源,采用機器學習和數(shù)據(jù)挖掘算法深度分析農(nóng)機作業(yè)數(shù)據(jù),同時建立決策輔助模塊支持準確決策。通過實證研究驗證了該方法和系統(tǒng)的有效性,為農(nóng)業(yè)生產(chǎn)提供了智能化管理方向。這項工作提供了全面的農(nóng)機作業(yè)數(shù)據(jù)處理框架,為未來農(nóng)業(yè)決策提供了重要思路。未來,將繼續(xù)優(yōu)化系統(tǒng)性能,提升預測能力,以更好地滿足農(nóng)業(yè)生產(chǎn)需求。