基于python的水產(chǎn)品價格大數(shù)據(jù)網(wǎng)絡爬蟲技術(shù)

2019-03-27 12:29:12葉煉煉

中國新通信 2019年23期

葉煉煉?

【摘要】??? 水產(chǎn)養(yǎng)殖在改善民生、增加農(nóng)民收入方面發(fā)揮了重要作用。但傳統(tǒng)的養(yǎng)殖信息的閉塞，及憑經(jīng)驗養(yǎng)殖的老辦法，在生產(chǎn)實踐中卻存在種種弊端，所生產(chǎn)的水產(chǎn)品難以滿足市場需求。本文介紹利用基于python的網(wǎng)絡爬蟲技術(shù)如何從各大電商網(wǎng)站獲取水產(chǎn)品價格數(shù)據(jù)，為以后進一步實現(xiàn)基于水產(chǎn)價格的大數(shù)據(jù)分析預測系統(tǒng)做數(shù)據(jù)收集準備。

【關(guān)鍵詞】??? 水產(chǎn)養(yǎng)殖??? python??? 水產(chǎn)品價格??? 網(wǎng)絡爬蟲技術(shù)

前言：隨著大數(shù)據(jù)時代的來臨，信息技術(shù)領(lǐng)域的重點由“計算”轉(zhuǎn)為“數(shù)據(jù)”，不少計算機科學領(lǐng)域的著名學者或大師逐漸轉(zhuǎn)變成數(shù)據(jù)科學家。有學者認為，數(shù)據(jù)科學將成為科學研究、認識世界的第四范式隨著時間的推移和時代的不斷改革創(chuàng)新，“大數(shù)據(jù)”在很多的社會性工作當中都得到了一定的應用。我國是水產(chǎn)養(yǎng)殖大國，水產(chǎn)養(yǎng)殖產(chǎn)量占到了全世界的73%。在漁業(yè)發(fā)展中，傳統(tǒng)的養(yǎng)殖模式曾對我國水產(chǎn)品產(chǎn)量的快速增長起了重大作用。但傳統(tǒng)的養(yǎng)殖信息的閉塞，及憑經(jīng)驗養(yǎng)殖的老辦法，在生產(chǎn)實踐中卻存在種種弊端，所生產(chǎn)的水產(chǎn)品難以滿足市場需求。所以雖然在互聯(lián)網(wǎng)上有著豐富的水產(chǎn)品信息資源，但要成為有用的數(shù)據(jù)，卻面臨著數(shù)據(jù)抓取和處理分析的難題。本文對大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術(shù)進行詳盡的闡述和分析，有利于后續(xù)水產(chǎn)價格的大數(shù)據(jù)分析預測系統(tǒng)的研究。

一、基于python的網(wǎng)絡爬蟲技術(shù)的基本敘述

1、網(wǎng)絡爬蟲技術(shù)的基本概念。所謂的網(wǎng)絡爬蟲技術(shù)（經(jīng)過實際調(diào)查可以發(fā)現(xiàn)，這項技術(shù)又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡機器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），其實就是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲[1]。用簡單一點的方式來說，這項技術(shù)其實就是能夠利用網(wǎng)頁的連接地址，從而能夠完成自動獲取網(wǎng)頁內(nèi)容，而用更加形象一點的方式進行闡述的話，可以將如今的互聯(lián)網(wǎng)比作為一個巨大無比的蜘蛛網(wǎng)，在此蜘蛛網(wǎng)當中具有海量的信息和網(wǎng)頁，而網(wǎng)絡爬蟲技術(shù)能夠運用自身的優(yōu)勢，從而獲取到所有網(wǎng)頁的內(nèi)容。2、基于python的網(wǎng)絡爬蟲技術(shù)。所謂Python，其實就是一種跨平臺的計算機程序設計語言，是一種面向?qū)ο蟮膭討B(tài)類型語言，最初被設計用于編寫自動化腳本（shell），隨著版本的不斷更新和語言新功能的添加，越來越多被用于獨立的、大型項目的開發(fā)，而網(wǎng)絡爬蟲技術(shù)就屬于一種大型的項目，因此，在大數(shù)據(jù)的環(huán)境下進行網(wǎng)絡爬蟲技術(shù)的研究和分析，python計算機程序語言可以說是一種最優(yōu)解了，如果可以將它的優(yōu)勢發(fā)揮出來，那么即使面對的是海量的信息檢索要求，這項技術(shù)也能夠在很短的時間內(nèi)完成工作，以此就說明，大環(huán)境數(shù)據(jù)下基于python的網(wǎng)絡爬蟲技術(shù)具有良好的抓取數(shù)據(jù)的能力[2]。

二、大數(shù)據(jù)環(huán)境下python網(wǎng)絡爬蟲技術(shù)的應用

1、爬蟲主程序模塊。在大數(shù)據(jù)的基本環(huán)境下，基于python的網(wǎng)絡爬蟲技術(shù)的主程序是非常重要的，此主程序模塊進行細致區(qū)分的話，還包括三個模塊;首先是url管理器，這一模塊在實際的運行過程當中主要負責的是對網(wǎng)絡爬蟲url地址的精準提取，然后根據(jù)搜索用戶的需求，來完成對已經(jīng)提取完成的url地址的處理（例如編輯以及刪除等等操作）;其次就是網(wǎng)頁下載器模塊了，這一模塊主要負責的其實就是將rul管理器處理且編輯好的網(wǎng)頁下載（來自于萬維網(wǎng)），這樣用戶在下載完成之后，就能夠獲取到網(wǎng)頁當中的內(nèi)容[3];最后就是解析器模塊了，這一模塊能夠?qū)崿F(xiàn)對網(wǎng)頁的信息的處理，并且能夠識別出其中最具有價值的內(nèi)容，當信息的提取條件和用戶的搜索需求大致相對等的時候，網(wǎng)絡爬蟲就可以停止自身的工作了，在停止之后還能夠有效地保證獲取到的信息的質(zhì)量。

2、爬蟲實現(xiàn)流程。為了有效說明在大數(shù)據(jù)環(huán)境下，網(wǎng)絡爬蟲的實現(xiàn)流程，本文將會舉出實際的事例以佐證爬蟲的實現(xiàn)流程;首先，要選取相應的網(wǎng)絡地址作為爬蟲的處理對象[4]，在這一步的操作當中，需要模擬用戶的工作人員點擊網(wǎng)站當中需要點進去的頁面，并且，用戶還需要將檢索的要求輸入進去，這樣爬蟲主程序模塊就能夠進行分析的工作，隨后在短時間之內(nèi)利用python網(wǎng)絡爬蟲技術(shù)，能夠?qū)崿F(xiàn)信息提取請求的發(fā)送，網(wǎng)頁下載打開之后，爬蟲就能夠?qū)⒕W(wǎng)頁當中的各種信息進行提取，在這一步操作之后，用戶可以將需要的信息保存至文件（格式多數(shù)為TXT或XLS），這樣就基本實現(xiàn)了爬蟲的實際工作流程了。在網(wǎng)絡爬蟲實際工作的過程當中，所有爬蟲程序中的庫都去要進行相關(guān)的導入處理。

結(jié)論：綜上所述，就是目前為止的大數(shù)據(jù)環(huán)境下基于python網(wǎng)絡爬蟲技術(shù)的大致敘述了，筆者在文中對python以及網(wǎng)絡爬蟲技術(shù)都進行了一定的闡述和分析，并且還將網(wǎng)絡爬蟲實現(xiàn)流程進行了一定的介紹。在世界乃至國內(nèi)，網(wǎng)絡技術(shù)的發(fā)展都是非常迅速的，在這種情況之下，大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術(shù)就更要進行一定整理改進，這樣才能夠滿足水產(chǎn)品價格大數(shù)據(jù)環(huán)境下的數(shù)據(jù)需求。

參? 考? 文? 獻

[1]李培.基于Python的網(wǎng)絡爬蟲與反爬蟲技術(shù)研究[J].計算機與數(shù)字工程，2019，47（6）：1415-1420，1496.DOI：10.3969/j.issn.1672-9722.2019.06.028.

[2]陳樂.基于Python的網(wǎng)絡爬蟲技術(shù)[J].電子世界，2018，（16）：163，165.

[3]潘巧智，張磊.淺談大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術(shù)[J].網(wǎng)絡安全技術(shù)與應用，2018，（5）：41-42. DOI：10.3969/j.issn.1009-6833.2018.05.025.

[4]王碧瑤.基于Python的網(wǎng)絡爬蟲技術(shù)研究[J].數(shù)字技術(shù)與應用，2017，（5）：76.

中國新通信2019年23期

中國新通信的其它文章: 萬古霉素敏感性下降金黃色葡萄球菌的研究進展; 高等學校校醫(yī)院預防保健工作現(xiàn)狀及有效途徑; 立體定向核團毀損術(shù)治療帕金森病; 火電廠汽輪機組節(jié)能影響因素及其降耗對策研究; 油田開發(fā)后期的地質(zhì)挖潛增效措施; 從《經(jīng)典詠流傳》看傳統(tǒng)文化的傳承與傳播