999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于python爬蟲的圖片信息檢索與分析

2019-12-17 03:32:10劉雷周玫江西工業(yè)職業(yè)技術學院
數(shù)碼世界 2019年12期
關鍵詞:信息

劉雷 周玫 江西工業(yè)職業(yè)技術學院

一、研究背景

在日常生活中,我們在網(wǎng)絡上檢索圖片信息,一般采用百度搜索、谷歌搜索、360搜索等等搜索引擎,但是在檢索過程中,一般都會出現(xiàn)搜索引擎本身提供的廣告、推廣等信息,為了使搜索內容簡單、準確化,利用python爬蟲技術,開發(fā)了一款圖片搜索功能程序,便于圖片檢索的精準化。

二、具體實現(xiàn)目標:

1.數(shù)據(jù)抓取

利用爬蟲技術,輸入檢索關鍵字,將網(wǎng)絡上雜亂無章的初步數(shù)據(jù)進行整理,并在盡量少的先驗假定條件下進行數(shù)據(jù)分析,爬取優(yōu)質網(wǎng)頁數(shù)據(jù),檢索出篩選出符合條件的最優(yōu)質的圖片資源信息。

2.圖片存儲

將爬取回來的可能存在數(shù)據(jù)缺失、錯誤等情況,使用pandas 包方法進行數(shù)據(jù)的二次處理,最后直接用文件的形式存在本地文件夾中。

三、采用關鍵技術

1.爬蟲技術數(shù)據(jù)檢索

使用現(xiàn)階段較為流行的網(wǎng)絡爬蟲技術,根據(jù)關鍵字進行數(shù)據(jù)針對化檢索,將檢索的信息最大程度符合用戶需要。

2.數(shù)據(jù)處理

對爬取的URL數(shù)據(jù)信息進行二次處理,將數(shù)據(jù)缺失,無效。錯誤信息進行篩選,以保證爬取信息真實有效。

3.URL 存儲

將篩選后有效的圖片資源數(shù)據(jù)信息保存到本地文件夾中,方便用戶使用。

四、工具及解決方案

爬蟲是采用python語言開發(fā),按照特定規(guī)則自動獲取網(wǎng)絡資源的腳本或程序,其爬取過程大部分都是按“發(fā)送請求——獲得頁面——解析頁面——抽取并儲存內容”這樣的流程來進行,這其實也是模擬了瀏覽器獲取網(wǎng)頁信息的過程。

1.本系統(tǒng)采用的研究方法及技術路線:利用基于Python設計及實現(xiàn)一個完整的網(wǎng)絡爬蟲,利用檢索關鍵字方法爬取符合條件的所有目標網(wǎng)站及待抓取的鏈接地址,對鏈接地址中的信息進行有效分析提取,并保存在網(wǎng)絡收藏夾或本地文件當中。

2.試驗方案:通過現(xiàn)有URL進行分析,查看各類符合條件的網(wǎng)頁源代碼,繼續(xù)網(wǎng)頁抓包分析,將各類網(wǎng)頁文件、代碼形式進行分類概括,基本步驟:

(1)不設防的網(wǎng)站,直接爬取,不做任何偽裝

(2)基礎防備的網(wǎng)站,爬取過程中增加休眠次數(shù),降級爬取頻次,防止被限制。再可以每次爬取切換頭信息,偽裝成多個終端發(fā)起的請求

(3)需要登錄的情況下,需要多個用戶賬戶,爬取過程中切換cookie 信息,模擬不同用戶在請求。

(4)使用 IP 代理池,切換 IP,越過高級限制。

3.可行性分析:利用基于Python設計及實現(xiàn)一個完整的網(wǎng)絡爬蟲,爬取用戶需要的更準確的檢索信息,可以在互聯(lián)網(wǎng)上驗證實驗方案的可行性和正確性。

4.數(shù)據(jù)處理

數(shù)據(jù)處理包括數(shù)據(jù)收集、數(shù)據(jù)預處理、數(shù)據(jù)分析及存檔。

數(shù)據(jù)的收集,這需要對爬蟲軟件進行時間設置以保障收集到的數(shù)據(jù)時效性質量。

預處理環(huán)節(jié)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉換等內容,可以大大提高搜索數(shù)據(jù)的總體質量,是數(shù)據(jù)過程質量的體現(xiàn)。數(shù)據(jù)清理技術包括對數(shù)據(jù)的不一致檢測、噪聲數(shù)據(jù)的識別、數(shù)據(jù)過濾與修正等方面,有利于提高數(shù)據(jù)的一致性、準確性、真實性和可用性等方面的質量。

圖1爬蟲流程圖

數(shù)據(jù)分析是數(shù)據(jù)處理與應用的關鍵環(huán)節(jié),它決定了數(shù)據(jù)集合的價值性和可用性,以及分析預測結果的準確性。在數(shù)據(jù)分析環(huán)節(jié),應根據(jù)數(shù)據(jù)應用情境與決策需求,選擇合適的數(shù)據(jù)分析技術,提高大數(shù)據(jù)分析結果的可用性、價值性和準確性質量。

存檔是將通過數(shù)據(jù)收集、預處理病分析后的正確數(shù)據(jù)保存到網(wǎng)絡收藏夾或者本地文件夾中,是爬取數(shù)據(jù)結果的體現(xiàn)。

5.系統(tǒng)測試

針對基于python的高職教育信息爬取與數(shù)據(jù)分析進行測試,包括三個方面:

(1)針對場景測試,可以通過輸入關鍵字進行測試,包括成功的爬取場景和失敗的場景,比如無數(shù)據(jù)、無效數(shù)據(jù)。

(2)爬蟲質量測試,主要是根據(jù)整體設計和代碼實現(xiàn)來分析爬蟲的處理方式是否是高可用的。

(3)爬蟲效率測試,主要針對錄入關鍵字進行數(shù)據(jù)爬取,包括成功爬取所使用的時間和數(shù)量。

五、總結

根據(jù)以上設計,利用python技術實現(xiàn)了關鍵字檢索往哪里圖片信息的作用,該系統(tǒng)主要是將網(wǎng)絡上零散的數(shù)據(jù)信息,通過在線數(shù)據(jù)分析主要包括探索性數(shù)據(jù)分析,并成功的將檢索關鍵字將檢索符合條件的圖片信息保持到本地文件夾中。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
展會信息
展會信息
展會信息
展會信息
展會信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 蜜桃视频一区二区| 国产成人一级| 国产成人精品高清不卡在线| 日本欧美一二三区色视频| 亚洲精品少妇熟女| 99re热精品视频中文字幕不卡| 女同国产精品一区二区| 国产成年女人特黄特色毛片免| 精品无码专区亚洲| 色综合热无码热国产| 亚洲欧美激情另类| 2021无码专区人妻系列日韩| 中文字幕免费在线视频| 婷婷综合色| 久久激情影院| 国产精品手机视频| 国产精品网址在线观看你懂的| 茄子视频毛片免费观看| 国产乱人伦AV在线A| 午夜久久影院| 伊人无码视屏| 999国产精品永久免费视频精品久久| 日韩 欧美 国产 精品 综合| 亚洲自拍另类| 精品无码视频在线观看| 呦女亚洲一区精品| 国产欧美精品专区一区二区| 97视频免费看| 亚洲欧美人成电影在线观看| 国产精品2| 国产男人的天堂| 欧美成人A视频| 日本免费一区视频| 天天躁夜夜躁狠狠躁躁88| 精品国产成人高清在线| 国产91久久久久久| 欧美一级夜夜爽www| 精品少妇三级亚洲| 9久久伊人精品综合| 亚洲最大福利网站| 91激情视频| 国产精品欧美激情| 久久综合色视频| 欧美激情第一区| 久久综合五月婷婷| 国产成人高清精品免费| 福利在线不卡一区| 国模沟沟一区二区三区| 欧洲精品视频在线观看| 高清精品美女在线播放| 国产成人综合亚洲网址| 亚洲国产欧洲精品路线久久| 女人av社区男人的天堂| 中文字幕不卡免费高清视频| 国产亚洲精品在天天在线麻豆| 国产精品嫩草影院av | 国产玖玖视频| 午夜性刺激在线观看免费| 色婷婷色丁香| 中文字幕乱码二三区免费| 国产成人毛片| 欧美一级视频免费| 视频二区欧美| 精品一区二区三区波多野结衣| 奇米精品一区二区三区在线观看| 99无码中文字幕视频| 午夜精品久久久久久久99热下载 | 久久久久久尹人网香蕉| a亚洲视频| 欧洲欧美人成免费全部视频| 欧美日韩一区二区三区四区在线观看| 欧美第二区| 午夜国产精品视频黄| 亚洲精品老司机| 欧美高清三区| 男人天堂亚洲天堂| 国产亚洲欧美在线视频| 91精品aⅴ无码中文字字幕蜜桃| 欧美国产日韩在线观看| 香蕉视频国产精品人| 欧美中文字幕在线二区| 日韩在线观看网站|