摘要:數據挖掘技術廣泛應用于農業生產,采用Weka軟件的關聯規則挖掘算法,對近3年氣象和病蟲害監測數據庫的重要特征屬性進行挖掘,得到氣象條件與茶葉病蟲害發生等級之間的關聯規則,旨在為做好病蟲害預防準備和發出預警信號提供決策支持。
關鍵詞:數據挖掘;茶葉病蟲害;關聯規則;預警;應用
中圖分類號:TP311.13;S685.14 文獻標識碼:A 文章編號:0439-8114(2013)24-6172-03
數據挖掘(Data mining,DM)也叫數據庫中的知識發現(Knowledge discovery from database,KDD),是20世紀90年代發展起來的數據庫系統和數據庫應用領域一個欣欣向榮的前沿學科,對數據庫中的數據進行抽取、轉換、分析以及模型化處理,提取隱含在其中的但又是潛在有用的信息和知識的過程。在過去的幾年中,我國曾耗費巨資進行各種農業數據的普查,積累了各種作物的苗情、土情、肥情、水情、蟲情、氣象和災害等數據資料,但基本上是作為文件存檔,而在生產過程中,我國許多地區還處在盲目生產、無計劃無規律的狀態[1]。數據挖掘通過分析存在于數據庫里的數據來解決問題,已應用于茶葉鑒定[2]和農產品安全生產[3]。在茶葉病蟲害數據庫中合理使用數據挖掘技術,挖掘出氣象條件與茶葉病蟲害發生等級之間的關聯關系,有助于依據天氣預報對茶葉病蟲害及時發出預警信號,提高茶葉的產量和質量。
云南省常發生的茶葉主要蟲害有小綠葉蟬(Empoasca pirisuga Matumura)、茶葉斑蛾(Eterusia aedea Linnaeus)、茶細蛾(Caloptilia theivora Walsingham)等,其中小綠葉蟬是云南省普洱市茶葉主產區中心目標害蟲,常年造成茶葉產量損失達10%~15%[4]。本研究以小綠葉蟬為主要研究對象,根據該市茶葉研究所提供的近3年氣象和病蟲害監測數據庫,抽取月份(Month)、平均氣溫(Average temperature)、最高氣溫(Maximum temperature)、最低氣溫(Minimum temperature)、降雨量(Rainfall)、日照時數(Sunshine hours)和小綠葉蟬蟲數(Insect pest level)7個特征屬性,采用理論與實踐相結合的研究方法,運用數據挖掘Weka平臺的關聯規則算法實現挖掘目標。
1 數據預處理
對氣象和病蟲害數據庫先進行數據格式轉換,原始的數據是存儲為Xls的表文件,先另存為Csv格式文件,然后打開Weka,選擇Tools菜單下的ArffViewer模塊,找到此Csv文件,重新保存為Arff格式。其次進行數據類型轉換,7個特征屬性中有連續的Numeric數值型數據,而關聯規則挖掘算法處理的是Nominal布爾型離散數據,這就需要對挖掘數據集分組,轉換成布爾型離散數據,茶葉蟲害根據小綠葉蟬蟲數分為4個等級,分別是輕度發生(Mild)、中度發生(Moderate)、嚴重發生(Serious)、非常嚴重發生(Very serious),轉換后的數據如圖1所示。通過Preprocess中的Visualize all可視化界面,可以很直觀地看到數據的分類匯總可視化圖,如圖2所示。
2 關聯規則挖掘
2.1 概念
根據得到的挖掘結果,可以獲取氣象條件與茶葉病蟲害發生等級的關聯規則:降雨量小于55.77 mm或者日照時間在200.10~227.88 h的月份,小綠葉蟬蟲害輕度發生;最高氣溫高于30.67 ℃或者日照時間少于137.17 h的月份,小綠葉蟬蟲害中度發生;降雨量小于141.18 mm或者日照時間在87.32~113.44 h的月份,小綠葉蟬蟲害嚴重發生;最高氣溫在29.27~30.73 ℃的月份,小綠葉蟬蟲害發生非常嚴重。這些聯系的置信度都大于90%,降低置信度進行挖掘,會有更多的規則。
3 結語
可見,小綠葉蟬蟲害的發生與氣象條件息息相關,茶農可以根據天氣預報提前做好預防蟲害發生的準備,如采取噴霧預防農藥、人工遮陰、人工干預氣象等措施;農業技術部門提前發出預警信號,為蟲害防治提供決策支持。
參考文獻:
[1] 勞 飛,朱玉業.數據挖掘技術在農業中的應用[J].安徽農業科學,2007,35(13):4053,4082.
[2] 張 超,張婭玲,楊如艷.數據挖掘在茶葉鑒定中的應用[J].安徽農業科學,2012,40(2):1219-1220.
[3] 張 洵.數據挖掘在農產品安全生產中的應用[J].安徽農業科學,2007,35(34):11294-11295.
[4] 唐智英,王祖鳳.關聯規則挖掘技術在茶葉病蟲害中的研究與應用[J].計算機光盤軟件與應用,2012(15):114-115.
[5] TAN P N, STEINBACH M, KUMAR V.數據挖掘導論[M].范 明,范宏建,譯.北京:人民郵電出版社,2006.