薛文龍+蘇萬益
摘要:互聯網及移動互聯網的快速發展為農民提供了便捷,越來越多的農民學會了上網,更學會了使用網絡為農業生產提供服務,網絡搜索各種農業次生災害的解決方案成為農民使用上網查詢的首選。民眾的搜索日志對于搜索引擎來說只須要稍加處理,便能使用當下流行的大數據技術為農業生產提供服務,本試驗提出基于用戶搜索行為的農業安全預警模型,能夠比政府氣象部門提前3~15 d預報各區域即將發生的影響農業生產的安全事件,既可以為農民提供預警行為,又不需要政府投入巨額資金,為我國農業發展作出貢獻。
關鍵詞:大數據;農業安全;互聯網;網絡搜索;預警
中圖分類號: S126文獻標志碼: A文章編號:1002-1302(2017)12-0188-04
隨著智能手機和“可穿戴”設備的出現,人類自身產生的一些數據逐漸能夠被記錄和分析。以此為基礎的大數據技術快速發展,由此人類社會邁進了一個以數據為基礎的新時代[1]。目前,國內外有眾多的大數據在公共衛生、科學計算、商業服務等領域的成熟應用,只要深度發掘數據價值,就能使用數據巧妙地激發新產品的設計和新型服務的誕生。因此,大數據與某一行業的結合必能顛覆該行業的傳統思維[2],引來新思路,聯系到我國農業安全預警方面與國外差距巨大,那么將大數據與農業安全預警相結合,必能找到我國自主預警發展道路,能夠更加快速、高效、低成本地實現農業安全預警[3]。
1我國農業安全預警現狀
1.1國外現狀
國外在農業安全預警方面發展較快,很多發達國家采用人工調查地面大面積樣方統計法,如美國國家農業統計局(NASS)依靠收集到的人工觀測數據,對種植意向、實際種植面積、自然災害、作物單產及總產進行預報預警工作;在收獲將近結束時,給出其實際總產量的評估結果。歐洲國家采用的是作物產量和生產情況報告制度,由匯報員在作物的生長期內對作物的生長進行觀察,然后對可能的單產及可能產生的自然災害作出預報預警,收獲后對作物單產作出最終的報告。日本在農業預警方面研究較為深刻,其研究包括:(1)利用作物環境參數進行統計的氣象統計模式;(2)利用作物生理生態要素進行產量預報的生態統計模式;(3)作物生長統計模式;(4)利用遙感技術大范圍獲取作物信息進而進行產量預報的模式。
1.2國內現狀
中國人口眾多,糧食產量居于世界首位。糧食生產是國民經濟的基礎,農業生產力水平將影響國計民生。如果能把農業問題解決好,將極大地促進中國的經濟發展乃至社會穩定。為了增加政府宏觀調控的可操作性,使農業方面的宏觀調控與管理有規律可循,就須要對農業安全發展趨勢進行了解和判斷。因此,加強對農業安全預警研究具有重要意義。
國內也進行了關于農業安全預警系統的相關工作,取得了一些成績和成果。很多農業安全預警系統的設計是將信息系統與預警系統進行結合,偏重于農業安全監測和產量預報。與國際先進水平相比,還有很大的距離。主要缺陷包括:過分注重信息系統的監測應用,基本上是一個監測系統,而不是預警系統。另外,功能不全、數據不可靠、數據處理及分析不是很精確。在目前的國際國內背景下,農業安全預警系統也在逐漸演變,出現了逐漸與大數據相結合的趨勢,本研究旨在應用大數據解決農業安全預警的基礎理論工作。
2基于用戶搜索行為的農業安全預警
大數據的到來讓大家完全有能力改造傳統的預警方法,傳統預警方法既費時又費力,而且成本巨大,收效甚微[4]。本研究采用百度引擎,從百度上獲取影響農業安全的關鍵詞在某一地市的搜索量,然后將收集到的查詢數據進行處理,從而形成新的可用數據。結合圖形化方法,使用現代信息技術進行處理,能夠將中央氣象臺公布的農業安全數據與查詢數據按時空分布顯示出來,以此為依據進行判斷查詢數據是否可以模擬農業安全數據,然后對數據進行分析,找出與農業安全有關的關鍵詞在百度上的搜索量在時空分布上的不同點。最后,利用搜索數據進行農業安全預警。使用這種預警方式可以預估影響農業安全的作物傳染病、病蟲害等傳染情況和時空分布情況。為我國農業安全預警工作提供大數據支持,為農業發展作出應有的貢獻。
2.1農業安全預警可監測數據分析
蝗蟲是一種食性復雜、易遷飛、暴發時會產生極其嚴重危害的害蟲。一旦發生蝗災、蝗蟲大規模起飛,鋪天蓋地,發出如狂風呼嘯和飛機轟鳴般的聲音,猶如雷霆萬鈞之勢,所到之處,農作物、雜草甚至樹葉、樹皮都可能被吃光。據記載,在我國2 600多年的歷史長河中,暴發的重大蝗災就有800多次,平均每2~3年就有1次區域性蝗災發生,5~7年就有1次全國性的大規模蝗災發生,對我國農業造成不可估量的損失[5]。由于蝗災對我國農業造成了巨大的災害,且政府相關部門目前并無重大措施對蝗災進行預警和防治。因此,本研究擬選取蝗災作為預警研究對象進行大數據研究,以期為政府部門和廣大農民提供先期預警,達到降低農業次生災害對農業本身的傷害。
本研究以百度引擎搜索數據作為監測數據參與分析,選取關鍵詞為“蝗蟲”。對“蝗蟲”“旱災”2個詞在百度指數上的搜索量進行可視化比對處理,觀察二者相關性,以對蝗蟲災害在我國的發展趨勢和分布特征進行分析,判斷是否會對我國農業造成大面積減產并給出預警信息。
根據蝗蟲特點及以往的研究成果,影響蝗災的主要天氣因素是降水量與干旱情況,且研究結果表明干旱與蝗蟲同年發生的概率或相關性最大,其次為上一年發生干旱或先澇后旱,蝗蟲成片;蝗蟲災害與水、旱災害常此起彼伏,交替發生,由圖1可知它們之間的相關性。而本試驗選取的百度指數是以百度引擎搜索數據為基礎的一個大數據平臺,通過此平臺可以查詢每天某個詞在全國或者特定區域的搜索相對值,一段時期內的走勢以及與其相關的新聞輿情變化,哪些人關注這些詞?這些人在哪里?同時這些人還搜索了哪些相關的詞?百度指數是網絡采樣的一種具體體現,這里把搜索引擎當成是采樣方,這樣每個在網上搜索的民眾所輸入的關鍵詞就是采樣樣本。不同的人在網上搜索后都會留下相應的搜索痕跡,而這些搜索痕跡的搜索次數被搜索引擎記錄下來,經過計算最終形成百度指數蝗蟲災害作為一種農業病蟲災害,自帶地域屬性,而從搜索引擎得到的數據也具有地域屬性,從百度引擎獲取到的“蝗蟲”“降水量”“干旱”3個關鍵字數據用可視化方法表達出來,進而研究蝗災的地域變化特征和聚集性。endprint
2.2蝗蟲災害百度指數數據可視化
蝗蟲災害作為一種農業病蟲災害,自帶地域屬性,而從搜索引擎得到的數據也具有地域屬性,從百度引擎獲取到的“蝗蟲”“降水量”“干旱”3個關鍵字數據用可視化方法表達出來,進而研究蝗災的地域變化特征和聚集性。
2.3網絡搜索關鍵詞相關性分析
在蝗蟲災害發生時,會運用網絡的人往往希望從搜索引擎獲取信息來提高對蝗蟲的認知。普通農民會使用模糊查詢對該病蟲害進行相應的搜索,這時人們搜索的關鍵詞很多,但往往又會集中在一些比較常見的關鍵詞上,如蝗蟲、蝗蟲的防治,將此類關鍵詞稱為普通關鍵詞。另外,由于部分農民和農業知識比較豐富的人員也可能使用引擎查詢蝗蟲災害防治,他們使用的關鍵詞可能跟“蝗災”相關,如干旱、降水量等,將
此類關鍵詞稱為相關關鍵詞;最后,一些其他人員在網上搜索一些蝗蟲信息,如蝗蟲的習性等,將此類關鍵詞稱為其他關鍵詞。接下來對幾類關鍵詞按照公式(1)進行求和計算。
type=∑ni=1Xim。(1)
式中:type表示關鍵詞類別;n表示關鍵詞數量;m表示周數,該周數是每一個關鍵詞經錯位調整達到最大時差相關性的周數。最后把這幾類關鍵詞加在一起,就得到了合成搜索指數,計算過程如下:
type=type1+type2+type3。(2)
通過圖4分析可知,不同類別的關鍵詞在搜索量的區域分布量上有著驚人的相似之處,說明它們之間的相關性強。但是,關鍵詞的搜索量與蝗蟲災害的嚴重程度之間的相關性不僅受到當地蝗災情況的影響,還會受到媒體、人員文化程度、經濟發展水平等的影響,通過分析可以發現,發達地區相關關鍵詞的搜索量遠遠高于不發達的地區,但是在發達地區相關關鍵詞的搜索量同“蝗災”之間的相關性卻不高、甚至遠低于不發達地區。普通關鍵詞可以較好地描述發達地區的蝗災發生情況,也適用于描述欠發達地區的蝗災發生情況。其他關鍵詞在蝗災發生區域周圍搜索的比率相對較高。3類關鍵詞的合成搜索指數與蝗災發生區域有一定的相關性。
2.4利用用戶搜索數據進行安全預警
2.4.1構建預警模型本研究采用基于BP神經網絡的搜索行為預警模型,模型圖如圖5所示,這是一個“輸入→處理→輸出”的過程。
輸入是3類搜索指數和1類合成指數,輸出就是需要的5種預警結果。本試驗采用3層BP神經網絡(輸入層、隱性層、輸出層)的網絡結構,輸入節點數是4,輸出節點數是5。
2.4.2搜索與合成指數歸一化處理本研究涉及的搜索及合成指數均是負指數。負指數是指指數值越小,越好的指標,在預警研究過程中,指數值越小代表越安全,危機等級就越小[6]。其若無量綱,則以最大值為基準,無量綱化處理方式如下:
Y=Yi-YminYmax-Ymin。(3)
式中:Y表示量化后的指數值;Yi表示指數的實際值;Ymin表示指數的最小值;Ymax表示指數的最大值。
2.4.3輸出及隱性層處理安全預警共分5個等級,分別是無蝗災、個別區域蝗災、一般蝗災、較大蝗災、重大蝗災。輸出5個節點,每個節點的輸出狀態分別為00 001、00 010、00 100、01 000、10 000,分別對應5個安全預警級別。隱性層節點數量采用公式(4)來確定。
X=x+y+λ。(4)
式中:x表示輸入層節點個數;y表示輸出層節點個數;λ表示1~10之間的常數。
2.4.4數據處理搜索指數及合成指數選擇2011年1月至2016年10月的數據作為處理樣本,以搜索次數為單位,1周為最小時間段,總共304周,這樣各個時間點的數據就有了可比性,原始數據見表1。
2.4.6結果分析據Matlab仿真訓練結果顯示,實際輸出結果與期望輸出(00 010) 一致,發出預想的預警信號(00 010),表明此時蝗蟲災害的預警等級處于輕度預警狀態。經實踐證明,本試驗所研究的網基于用戶搜索行為的農業安全預警設計是合理的、可行的。
3結束語
在建立用戶搜索數據的基礎上,構建基于用戶搜索行為的預警模型,并通過蝗蟲災害數據進行仿真試驗,驗證此模型的有效性。試驗結果表明,此模型不僅理論上可行,實踐上也是可行的。
參考文獻:
[1]孫忠富,杜克明,鄭飛翔,等. 大數據在智慧農業中研究與應用展望[J]. 中國農業科技導報,2013,15(6):63-71.
[2]汪洋談大數據[EB/OL]. [2016-05-06]. http://miit.ccidnet.com/art/32661/ 20140114/5325641_1.html.
[3]許世衛. 農業大數據與農產品監測預警[J]. 中國農業科技導報,2014,16(5):14-20.
[4]張浩然,李中良,鄒騰飛,等. 農業大數據綜述[J]. 計算機科學,2014(增刊2):387-392.
[5]趙瑞瑩,楊學成. 農業預警系統研究[J]. 生產力研究,2004(1):64-66.
[6]陳桂芬,曹麗英,王國偉. 加權空間模糊動態聚類算法在土壤肥力評價中的應用[J].endprint