







摘 要:隨著大數(shù)據(jù)技術(shù)的深入推廣與應(yīng)用,如何借助科學(xué)的方法來對海量的基礎(chǔ)數(shù)據(jù)進(jìn)行加工處理,從中獲得一些能夠為相關(guān)決策活動提供參考指導(dǎo)的信息成為研究者高度關(guān)注的問題。本文重點圍繞一種黔南州烤煙產(chǎn)量到戶預(yù)測模型展開研究,通過實際烤煙生產(chǎn)中得到的數(shù)據(jù),建立了一個R2為0.679的多元線性回歸預(yù)測模型,建立的預(yù)測模型在偏差率[偏差率=(預(yù)測值-實際值)/實際值]上,單戶平均偏差率0.39%,可用于實際生產(chǎn)預(yù)測。本文僅為如何有效運用該模型提出相關(guān)的指導(dǎo)和建議,以促進(jìn)該模型在烤煙產(chǎn)量到戶預(yù)測方面發(fā)揮更大的價值。
關(guān)鍵詞:烤煙;產(chǎn)量;預(yù)測模型;黔南州
為了實現(xiàn)大數(shù)據(jù)技術(shù)在貴州省黔南州農(nóng)業(yè)生產(chǎn)活動中的積極應(yīng)用,為烤煙產(chǎn)量的科學(xué)預(yù)測提供科學(xué)的支撐,筆者以黔南州為例,構(gòu)建了一種烤煙產(chǎn)量到戶預(yù)測模型,并通過往年數(shù)據(jù)的檢驗取得了較好的結(jié)果。現(xiàn)就該預(yù)測模型構(gòu)建的相關(guān)理論與實踐內(nèi)容進(jìn)行介紹說明,以推動模型的推廣與應(yīng)用。
一、研究背景
在現(xiàn)代化農(nóng)業(yè)發(fā)展過程中,如何通過有效的科學(xué)技術(shù)來提升生產(chǎn)活動的準(zhǔn)確性,降低生產(chǎn)過程中的盲目性和風(fēng)險性,是近年來理論與實踐研究中的重點內(nèi)容。隨著大數(shù)據(jù)技術(shù)的發(fā)展,如美國、德國等發(fā)達(dá)國家通過建立生產(chǎn)預(yù)測模型和方法來指導(dǎo)農(nóng)業(yè)生產(chǎn),取得了明顯的效益,而且為農(nóng)業(yè)科學(xué)技術(shù)的發(fā)展提供了推動力。相較于國外而言,雖然國內(nèi)一些專家學(xué)者已經(jīng)將大數(shù)據(jù)技術(shù)應(yīng)用到農(nóng)業(yè)生產(chǎn)領(lǐng)域,通過構(gòu)建相應(yīng)的生產(chǎn)模型來預(yù)測生產(chǎn)經(jīng)營的效益,但尚處于探索階段,需要深入進(jìn)行研究與實踐。當(dāng)然,雖然目前國內(nèi)農(nóng)業(yè)生產(chǎn)預(yù)測模型應(yīng)用偏少,但也存在利用預(yù)測模型來對天然林、水稻、小麥籽粒等產(chǎn)量進(jìn)行預(yù)測的成果。
黔南州作為我國烤煙生產(chǎn)的重點區(qū)域,對其產(chǎn)量進(jìn)行準(zhǔn)確的預(yù)測可以為經(jīng)濟(jì)方面的相關(guān)決策提供充分、科學(xué)的依據(jù),進(jìn)而提升農(nóng)戶生產(chǎn)的綜合效益[1]。對于產(chǎn)量的預(yù)測來說,最佳的方法就是通過產(chǎn)量到戶的預(yù)測模型來預(yù)測每戶煙農(nóng)所能生產(chǎn)的烤煙產(chǎn)量,進(jìn)而確定整個地區(qū)的產(chǎn)量[2]。基于上述原因的考慮,本次研究選擇以黔南州藜山煙草站為例,根據(jù)大數(shù)據(jù)的相關(guān)思想和方法,以及煙草站積累的數(shù)據(jù),建立烤煙產(chǎn)量到戶預(yù)測模型,為該地區(qū)的烤煙產(chǎn)量預(yù)測提供指導(dǎo)和幫助。
二、烤煙產(chǎn)量到戶預(yù)測建模的主要方法
本次構(gòu)建的烤煙產(chǎn)量到戶預(yù)測模型主要采用多元線性回歸模型。之所以選擇該模型,主要是考慮到影響烤煙產(chǎn)量的因素比較多,除了實際種植面積、病害發(fā)生率、蟲害發(fā)生率等因素以外,還有肥料用量、用藥頻次和勞動力投入等。相對于一元線性回歸模型而言,多元線性回歸模型所具備的對一個變量與多個變量之間的關(guān)系進(jìn)行研究的優(yōu)勢能夠滿足農(nóng)戶了解產(chǎn)量與其他諸多因素之間的數(shù)量關(guān)系,從而提升預(yù)測模型的實
效性。
除了上述理論性內(nèi)容以外,從現(xiàn)實的可行性方面來看,模型構(gòu)建所需的上等煙比例、667 m2產(chǎn)量、合同面積等數(shù)據(jù)可以通過相關(guān)的信息化系統(tǒng)進(jìn)行查詢,而實際種植面積、病害發(fā)生率、蟲害發(fā)生率、有效葉片數(shù)、肥料用量、家庭勞動力和用藥次數(shù)等數(shù)據(jù)可以通過對農(nóng)戶的調(diào)查獲取,從而為烤煙產(chǎn)量到戶預(yù)測模型的構(gòu)建提供完整的數(shù)據(jù)支持。
三、自變量的選擇
自變量的選擇是模型構(gòu)建中的關(guān)鍵性工作,其直接影響烤煙產(chǎn)量到戶預(yù)測模型的最終構(gòu)建效果。在本次研究過程中,為了確保自變量選擇的科學(xué)性和正確性,圍繞影響烤煙產(chǎn)量的因素進(jìn)行了探索,通過研究小組成員的多次反復(fù)討論與交流,通過比對及驗證后確定為追肥施用量、病蟲害發(fā)生率、氣候條件、合同面積和長勢情況5項指標(biāo)在內(nèi)的自變量因素。而在對這些因素進(jìn)行深入分析后認(rèn)為,相較于其他4種自變量而言,氣候條件這一自變量雖然對烤煙產(chǎn)量的影響較大,但從現(xiàn)實方面來考慮,一方面該數(shù)據(jù)指標(biāo)獲取的難度比較大,并且產(chǎn)量到戶預(yù)測模型主要是以藜山煙草站所轄的區(qū)域為對象來對農(nóng)戶的烤煙產(chǎn)量進(jìn)行的預(yù)測,農(nóng)戶產(chǎn)量受氣候條件的影響差異較小,最終決定將其排除自變量范圍。因此,最終構(gòu)建的模型主要用于探討肥料施用、病蟲害發(fā)生、合同面積、長勢情況對農(nóng)戶烤煙產(chǎn)量的影響。
四、建立烤煙產(chǎn)量到戶預(yù)測模型
本次烤煙產(chǎn)量到戶預(yù)測模型建立過程中,相關(guān)的數(shù)據(jù)主要通過對藜山煙草站的139戶煙農(nóng)及其煙田進(jìn)行實地調(diào)查,主要搜集合同面積、實際面積、根莖病害發(fā)生率、蟲害發(fā)生率、有效葉片數(shù)、追肥用量和667 m2產(chǎn)量等數(shù)據(jù)。而烤煙產(chǎn)量到戶預(yù)測模型的構(gòu)建主要采取兩步,即剔除異常數(shù)據(jù)和建立模型。
(一)剔除異常數(shù)據(jù)
在建立模型之前,首先需要對調(diào)查數(shù)據(jù)中的因變量單位面積產(chǎn)量進(jìn)行有效性篩選。在建立模型之前,為了保證所建立模型的有效性,初步確定了有效剔除異常數(shù)據(jù)的3種方案:方案一,根據(jù)顯著性差異去除;方案二,用單變量離散點檢驗去除;方案三,用差值分析的置信區(qū)間去除。而經(jīng)過深入分析后發(fā)現(xiàn),以顯著性差異為標(biāo)準(zhǔn)對異常數(shù)據(jù)進(jìn)行剔除雖然簡單且容易操作,但其準(zhǔn)確性相對比較差,難以滿足研究的需要;單變量離散點檢驗方法能夠確保數(shù)據(jù)的完整性,但操作起來相對比較復(fù)雜;以差值分析的置信區(qū)間去除異常數(shù)據(jù)雖然簡單易行,但難以有效保證數(shù)據(jù)的完整性。小組成員圍繞3種剔除方法的難易度、效果性、科學(xué)性、數(shù)據(jù)完整性和數(shù)據(jù)可行性等方面進(jìn)行綜合評分后,發(fā)現(xiàn)用單變量離散點檢測去除異常數(shù)據(jù)的方法性價比相對比較高(見表1),因此,選擇該方法對異常數(shù)據(jù)進(jìn)行剔除。
所謂的單變量離散點檢驗,是指在建立預(yù)測模型的過程中,為了有效地弱化那些預(yù)測效果不佳的觀測點的影響,通過boxplot.stats函數(shù)將這些點去除出去,從而確保研究效果的方法。
(二)自變量調(diào)查及處理
在對自變量進(jìn)行數(shù)據(jù)調(diào)查的過程中,分別對單戶煙農(nóng)的基肥施用量、病蟲害發(fā)生情況、有效葉片數(shù)、合同面積和實際面積進(jìn)行了調(diào)查。選用的是單戶農(nóng)戶的具有代表性地塊,按照隨機(jī)五點式方法調(diào)查50株。其中,病害調(diào)查選擇了當(dāng)?shù)爻D臧l(fā)生且相對其他病害較為嚴(yán)重的青枯病作為自變量,而蟲害調(diào)查選擇的是煙株平滑傷口作為評價蟲害發(fā)生的自變量。選擇煙株鋸齒狀傷口作為蟲害自變量,一方面在于實際生產(chǎn)過程中,煙株平滑傷口調(diào)查難度較小,在實際生產(chǎn)工作中可有效推行;另一方面在于煙株鋸齒狀傷口可有效地評價煙株的整體蟲害發(fā)生情況,具有代表性。病害發(fā)生率、蟲害發(fā)生率、有效葉片數(shù)計算方法分別如下:
病害發(fā)生率(X3)/%=青枯病發(fā)病株/調(diào)查總株數(shù)×100
蟲害發(fā)生率(X4)/%=具有鋸齒狀傷口的煙株/調(diào)查總株數(shù)×100
有效葉片數(shù)(X5)/片=∑(調(diào)查的各煙株的葉片數(shù))/調(diào)查株數(shù)
(三)建立模型
本次研究的模型構(gòu)建主要借助SPSS軟件進(jìn)行。建模主要以合同面積X1(hm2)、實際面積X2(hm2)、病害發(fā)生率X3(%)、蟲害發(fā)生率X4(%)、有效葉片數(shù)X5(片)、基肥用量X6(kg/667 m2)為自變量,以單位面積產(chǎn)量Y(kg/667 m2)為因變量構(gòu)建多元回歸模型。
1.置信區(qū)間在0%~70%時的模型
置信區(qū)間在0%~70%時的模型匯總情況見表2,系數(shù)見表3。
綜合上述2種置信區(qū)間內(nèi)的模型結(jié)果最終確認(rèn)為Y=-185.184-0.792X1+0.514X2-1.731X3-1.073X4+22.243X5+1.818X6為烤煙產(chǎn)量到戶預(yù)測的模型,其中Y為單位面積產(chǎn)量,X1為合同面積,X2為實際面積,X3為病害發(fā)生率,X4為蟲害發(fā)生率,X5為有效葉片數(shù),X6為基肥用量。
五、模型的運用
對于本次研究來說,建立模型僅僅是工作中的第一部分,最重要的是將其運用到實際的烤煙產(chǎn)量預(yù)測中,為農(nóng)戶的烤煙生產(chǎn)和產(chǎn)量的掌握提供科學(xué)的依據(jù)。具體來說,烤煙產(chǎn)量到戶預(yù)測模型的運用為產(chǎn)量預(yù)測和實際烤煙收購過程中的信息獲取提供
支持。
(一)產(chǎn)量預(yù)測
通過該模型對調(diào)查的139戶煙戶的產(chǎn)量進(jìn)行預(yù)測,并與實際產(chǎn)量進(jìn)行對比,得出模型預(yù)測值與實際值的偏差,結(jié)果見表6。
通過測試可以發(fā)現(xiàn),該模型的偏差在-2.98%。并且預(yù)測模型的相關(guān)系數(shù)目標(biāo)值為0.6,實際值為0.679,模型預(yù)測達(dá)到目標(biāo)。在單戶產(chǎn)量檢測過程中發(fā)現(xiàn),產(chǎn)量越接近150 kg/667 m2的煙戶,其偏差
(二)實際烤煙收購
在得到模型預(yù)測的產(chǎn)量后,除了可以對單個煙戶的產(chǎn)量進(jìn)行預(yù)測外,收購站還可以有效地掌握單站的產(chǎn)量預(yù)測。例如,在本次研究過程中,按照2018年收購數(shù)(上機(jī)數(shù)+代保管數(shù)量)統(tǒng)計,實際產(chǎn)量為169.54 kg/667 m2,推算值為165.50 kg/667 m2。按照2018年藜山煙草站烤煙種植面積為293.33 hm2計算:實際產(chǎn)量=169.54 kg/667 m2×
通過上述模型可以對烤煙收購過程中的質(zhì)量問題進(jìn)行一定的參考和指導(dǎo),確保收購工作的效果。
六、展望
通過對烤煙產(chǎn)量到戶預(yù)測模型的分析可以看出,該模型是基于現(xiàn)實數(shù)據(jù)基礎(chǔ)上,通過科學(xué)方法所構(gòu)建的模型,具有科學(xué)性和可行性。并且通過該模型可以有效預(yù)測每戶煙戶的單位面積產(chǎn)量,為精準(zhǔn)收購和實效數(shù)據(jù)信息的充分利用提供了科學(xué)的輔助作用。但由于研究現(xiàn)實數(shù)據(jù)缺乏的原因,所構(gòu)建的模型對于氣候等自然性因素的考慮較少,進(jìn)而制約了該模型在我國其他地區(qū)的應(yīng)用。因此,在接下來的烤煙產(chǎn)量到戶預(yù)測模型研究過程中,會對氣象因子進(jìn)行收集,探討包含氣候變量在內(nèi)的更加科學(xué)有效的烤煙產(chǎn)量到戶預(yù)測模型,為烤煙生產(chǎn)與銷售提供指導(dǎo)。
參考文獻(xiàn):
[1]石嵐.經(jīng)濟(jì)數(shù)學(xué)預(yù)測模型和方法在農(nóng)業(yè)工程中的應(yīng)用[J].農(nóng)業(yè)工程,2018(10):147-149.
[2]許靜,曹偉,陜娟娟,等.小麥不同生育期水肥管理與產(chǎn)量模型構(gòu)建[J].北京農(nóng)學(xué)院學(xué)報,2016(1):5-8.