徐東升 張昊辰
一、前言
我國政府非常重視農業的信息化建設,農業信息化已有30多年的歷史,特別是近幾年,基于物聯網技術、傳感器、移動通信、云計算等技術為基礎的智慧農業的發展,農業的信息化建設已經融入到農業產業的各個領域。
隨著農業信息量的加大,如何利用數據爬取的方法,幫助農業信息需求者從已存在的海量數據中快速定位自身需求的信息,從而使需求與信息匹配,最大程度的發揮農業信息對農業經濟的支撐和引導作用是一個研究點。
二、技術研究
從海量的數據中爬取需要的數據并入庫是本研究的重點,以從農業信息網(www.nongnet.com)獲取“蘋果”信息為例進行接下來的研究。從農業信息需要者的視角登錄并訪問該網站,打開任意1條“蘋果”的農業信息,需要從首頁開始依次點擊“水果”->“蘋果”,并點擊大圖列表才能進入具體的頁面。這個過程是非常繁瑣和低效的。對有信息需求者而言,最關注的的就是三個信息,即聯系人,聯系方式和地址,可以看到對應網站上的條目分別是“聯系人”、“手機號碼”、“所在地區”。加上要查找信息的條件,即“產品品種”,相當于對于任何來自于該網站的信息,最關鍵的只需要首先獲取者以上4條信息即可。
接下來利用python編寫一段程序,將該網站下的基于以上4個關鍵字段進行網頁爬取。部分代碼如下:
resp=requests.get(url,timeout=30)
respencoding='utf-8'
print(resp.status_code)
products=refindall(r'pic_divxinxi_title.+?