葉煉煉?
【摘要】??? 水產(chǎn)養(yǎng)殖在改善民生、增加農(nóng)民收入方面發(fā)揮了重要作用。但傳統(tǒng)的養(yǎng)殖信息的閉塞,及憑經(jīng)驗養(yǎng)殖的老辦法,在生產(chǎn)實踐中卻存在種種弊端,所生產(chǎn)的水產(chǎn)品難以滿足市場需求。本文介紹利用基于python的網(wǎng)絡爬蟲技術(shù)如何從各大電商網(wǎng)站獲取水產(chǎn)品價格數(shù)據(jù),為以后進一步實現(xiàn)基于水產(chǎn)價格的大數(shù)據(jù)分析預測系統(tǒng)做數(shù)據(jù)收集準備。
【關(guān)鍵詞】??? 水產(chǎn)養(yǎng)殖??? python??? 水產(chǎn)品價格??? 網(wǎng)絡爬蟲技術(shù)
前言:隨著大數(shù)據(jù)時代的來臨,信息技術(shù)領(lǐng)域的重點由“計算”轉(zhuǎn)為“數(shù)據(jù)”,不少計算機科學領(lǐng)域的著名學者或大師逐漸轉(zhuǎn)變成數(shù)據(jù)科學家。有學者認為,數(shù)據(jù)科學將成為科學研究、認識世界的第四范式隨著時間的推移和時代的不斷改革創(chuàng)新,“大數(shù)據(jù)”在很多的社會性工作當中都得到了一定的應用。我國是水產(chǎn)養(yǎng)殖大國,水產(chǎn)養(yǎng)殖產(chǎn)量占到了全世界的73%。在漁業(yè)發(fā)展中,傳統(tǒng)的養(yǎng)殖模式曾對我國水產(chǎn)品產(chǎn)量的快速增長起了重大作用。但傳統(tǒng)的養(yǎng)殖信息的閉塞,及憑經(jīng)驗養(yǎng)殖的老辦法,在生產(chǎn)實踐中卻存在種種弊端,所生產(chǎn)的水產(chǎn)品難以滿足市場需求。所以雖然在互聯(lián)網(wǎng)上有著豐富的水產(chǎn)品信息資源,但要成為有用的數(shù)據(jù),卻面臨著數(shù)據(jù)抓取和處理分析的難題。本文對大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術(shù)進行詳盡的闡述和分析,有利于后續(xù)水產(chǎn)價格的大數(shù)據(jù)分析預測系統(tǒng)的研究。
一、基于python的網(wǎng)絡爬蟲技術(shù)的基本敘述
1、網(wǎng)絡爬蟲技術(shù)的基本概念。所謂的網(wǎng)絡爬蟲技術(shù)(經(jīng)過實際調(diào)查可以發(fā)現(xiàn),這項技術(shù)又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),其實就是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲[1]。用簡單一點的方式來說,這項技術(shù)其實就是能夠利用網(wǎng)頁的連接地址,從而能夠完成自動獲取網(wǎng)頁內(nèi)容,而用更加形象一點的方式進行闡述的話,可以將如今的互聯(lián)網(wǎng)比作為一個巨大無比的蜘蛛網(wǎng),在此蜘蛛網(wǎng)當中具有海量的信息和網(wǎng)頁,而網(wǎng)絡爬蟲技術(shù)能夠運用自身的優(yōu)勢,從而獲取到所有網(wǎng)頁的內(nèi)容。2、基于python的網(wǎng)絡爬蟲技術(shù)。所謂Python,其實就是一種跨平臺的計算機程序設計語言,是一種面向?qū)ο蟮膭討B(tài)類型語言,最初被設計用于編寫自動化腳本(shell),隨著版本的不斷更新和語言新功能的添加,越來越多被用于獨立的、大型項目的開發(fā),而網(wǎng)絡爬蟲技術(shù)就屬于一種大型的項目,因此,在大數(shù)據(jù)的環(huán)境下進行網(wǎng)絡爬蟲技術(shù)的研究和分析,python計算機程序語言可以說是一種最優(yōu)解了,如果可以將它的優(yōu)勢發(fā)揮出來,那么即使面對的是海量的信息檢索要求,這項技術(shù)也能夠在很短的時間內(nèi)完成工作,以此就說明,大環(huán)境數(shù)據(jù)下基于python的網(wǎng)絡爬蟲技術(shù)具有良好的抓取數(shù)據(jù)的能力[2]。
二、大數(shù)據(jù)環(huán)境下python網(wǎng)絡爬蟲技術(shù)的應用
1、爬蟲主程序模塊。在大數(shù)據(jù)的基本環(huán)境下,基于python的網(wǎng)絡爬蟲技術(shù)的主程序是非常重要的,此主程序模塊進行細致區(qū)分的話,還包括三個模塊;首先是url管理器,這一模塊在實際的運行過程當中主要負責的是對網(wǎng)絡爬蟲url地址的精準提取,然后根據(jù)搜索用戶的需求,來完成對已經(jīng)提取完成的url地址的處理(例如編輯以及刪除等等操作);其次就是網(wǎng)頁下載器模塊了,這一模塊主要負責的其實就是將rul管理器處理且編輯好的網(wǎng)頁下載(來自于萬維網(wǎng)),這樣用戶在下載完成之后,就能夠獲取到網(wǎng)頁當中的內(nèi)容[3];最后就是解析器模塊了,這一模塊能夠?qū)崿F(xiàn)對網(wǎng)頁的信息的處理,并且能夠識別出其中最具有價值的內(nèi)容,當信息的提取條件和用戶的搜索需求大致相對等的時候,網(wǎng)絡爬蟲就可以停止自身的工作了,在停止之后還能夠有效地保證獲取到的信息的質(zhì)量。
2、爬蟲實現(xiàn)流程。為了有效說明在大數(shù)據(jù)環(huán)境下,網(wǎng)絡爬蟲的實現(xiàn)流程,本文將會舉出實際的事例以佐證爬蟲的實現(xiàn)流程;首先,要選取相應的網(wǎng)絡地址作為爬蟲的處理對象[4],在這一步的操作當中,需要模擬用戶的工作人員點擊網(wǎng)站當中需要點進去的頁面,并且,用戶還需要將檢索的要求輸入進去,這樣爬蟲主程序模塊就能夠進行分析的工作,隨后在短時間之內(nèi)利用python網(wǎng)絡爬蟲技術(shù),能夠?qū)崿F(xiàn)信息提取請求的發(fā)送,網(wǎng)頁下載打開之后,爬蟲就能夠?qū)⒕W(wǎng)頁當中的各種信息進行提取,在這一步操作之后,用戶可以將需要的信息保存至文件(格式多數(shù)為TXT或XLS),這樣就基本實現(xiàn)了爬蟲的實際工作流程了。在網(wǎng)絡爬蟲實際工作的過程當中,所有爬蟲程序中的庫都去要進行相關(guān)的導入處理。
結(jié)論:綜上所述,就是目前為止的大數(shù)據(jù)環(huán)境下基于python網(wǎng)絡爬蟲技術(shù)的大致敘述了,筆者在文中對python以及網(wǎng)絡爬蟲技術(shù)都進行了一定的闡述和分析,并且還將網(wǎng)絡爬蟲實現(xiàn)流程進行了一定的介紹。在世界乃至國內(nèi),網(wǎng)絡技術(shù)的發(fā)展都是非常迅速的,在這種情況之下,大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術(shù)就更要進行一定整理改進,這樣才能夠滿足水產(chǎn)品價格大數(shù)據(jù)環(huán)境下的數(shù)據(jù)需求。
參? 考? 文? 獻
[1]李培.基于Python的網(wǎng)絡爬蟲與反爬蟲技術(shù)研究[J].計算機與數(shù)字工程,2019,47(6):1415-1420,1496.DOI:10.3969/j.issn.1672-9722.2019.06.028.
[2]陳樂.基于Python的網(wǎng)絡爬蟲技術(shù)[J].電子世界,2018,(16):163,165.
[3]潘巧智,張磊.淺談大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術(shù)[J].網(wǎng)絡安全技術(shù)與應用,2018,(5):41-42. DOI:10.3969/j.issn.1009-6833.2018.05.025.
[4]王碧瑤.基于Python的網(wǎng)絡爬蟲技術(shù)研究[J].數(shù)字技術(shù)與應用,2017,(5):76.