999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于python的二手房數(shù)據(jù)爬取及分析

2019-09-24 02:00:29趙綠草饒佳冬
電腦知識(shí)與技術(shù) 2019年19期

趙綠草 饒佳冬

摘要:隨著海量數(shù)據(jù)的出現(xiàn),如何快速有效的獲取到我們想要的數(shù)據(jù)成為難題。以房源信息為例,該文使用Python語(yǔ)言結(jié)合Scrapy分布式爬蟲來對(duì)房源信息網(wǎng)——鏈家網(wǎng)上在售二手房數(shù)據(jù)進(jìn)行爬取,解讀武漢市的二手?jǐn)?shù)據(jù)背后隱藏的房源趨勢(shì)。

關(guān)鍵詞:Scrapy;爬蟲;Python;可視化分析

中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)19-0001-03

1 背景

近年來,大數(shù)據(jù)、互聯(lián)網(wǎng)和云計(jì)算等技術(shù)發(fā)展迅速,“智慧城市”建設(shè)進(jìn)程加快,越來越多的實(shí)物用數(shù)據(jù)代為表示,用數(shù)據(jù)來反映問題成為一種直觀又具有說服力的方式。如今,大部分地區(qū)已進(jìn)入城市化進(jìn)程,人口的眾多與住房用地的減少使得房?jī)r(jià)大漲,如何找到合適的住房已成為常見的民生難題。

互聯(lián)網(wǎng)為用戶提供了各種房源數(shù)據(jù),在爬蟲的爬取下集中有用的數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行清洗、統(tǒng)計(jì)和可視化分析,可以為用戶挖掘出隱藏在網(wǎng)絡(luò)數(shù)據(jù)中的所有房源的分布情況以及價(jià)格等特征走向,幫助用戶做出更好的決策。

2 Scrapy分布式爬蟲

Scrapy是一種用于抓取網(wǎng)站和提取結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序框架,可廣泛應(yīng)用于信息處理,數(shù)據(jù)挖掘或歷史存檔。最初Scrapy是為網(wǎng)絡(luò)抓取而設(shè)計(jì)的,但它也可以用于使用API或者作為通用網(wǎng)絡(luò)爬蟲來提取數(shù)據(jù)[1]。

Scrapy是基于Twisted異步網(wǎng)絡(luò)庫(kù)來處理通訊, 架構(gòu)清晰, 并且包含了各種中間件接口, 可以靈活的完成各種需求。其工作原理為:首先從首頁(yè)URL開始, 調(diào)度器會(huì)傳給下載器進(jìn)行下載, 之后會(huì)交給爬蟲進(jìn)行分析, 根據(jù)分析結(jié)果進(jìn)行不同處理。如果是需要進(jìn)一步爬取的鏈接, 這些鏈接會(huì)傳回調(diào)度器;如果是需要保存的數(shù)據(jù), 則被送到項(xiàng)目管道組件進(jìn)行后期處理, 包括詳細(xì)分析、過濾、存儲(chǔ)等。此外, 在數(shù)據(jù)流動(dòng)的通道里還允許安裝各種中間件, 進(jìn)行必要的處理[1]。

3 Scrapy爬取及數(shù)據(jù)清洗

3.1 Scrapy爬取數(shù)據(jù)

打開cmd命令窗口,在常用文件夾下建立新的Scrapy爬蟲工程,設(shè)置爬取首頁(yè)和爬蟲名稱,便有了一個(gè)spiders文件夾及其目錄結(jié)構(gòu),使用配置有python3.6的pycharm打開我們所建立的爬蟲工程開始正式編寫爬蟲。

然后轉(zhuǎn)到爬蟲模塊,定位房源字段信息,在parse()方法中對(duì)這些信息的源代碼進(jìn)行復(fù)制解析,利用for循環(huán)從第一頁(yè)開始進(jìn)行翻頁(yè),回調(diào)parse()方法,對(duì)每一頁(yè)的信息進(jìn)行同樣的提取,直到最后一頁(yè)。最后數(shù)據(jù)爬取完成,轉(zhuǎn)到管道模塊,將爬取的全網(wǎng)二手房數(shù)據(jù)轉(zhuǎn)換為json純文本寫入到csv文件存儲(chǔ)。

3.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗是對(duì)所爬取的數(shù)據(jù)進(jìn)行規(guī)范化操作,將數(shù)據(jù)中多余的符號(hào)及字符做刪除或者替換處理,并且通過使用正則表達(dá)式等工具對(duì)數(shù)據(jù)進(jìn)行一致性處理的過程。由于爬取出來的數(shù)據(jù)很亂,有各種換行符,制表符以及空格隱藏在數(shù)據(jù)中,或者是字段出現(xiàn)錯(cuò)位,存在缺失值異常值等情況,因此需要先將數(shù)據(jù)進(jìn)行清洗補(bǔ)充缺失數(shù)據(jù)等數(shù)據(jù)處理再進(jìn)行探索分析。

首先用split()和drop()方法將含有多條信息的一列分成多列,pandas.concat()合并數(shù)據(jù)。然后通過正則表達(dá)式處理數(shù)據(jù)中影響分析的字符,re.sub()刪除指定字符,re.findall()提取指定字符。最后刪掉不必要的數(shù)據(jù),將一些不規(guī)范的數(shù)據(jù)替換掉,例如年份一列中有“未知”字段,屬于字符型,為了便于后續(xù)分析,我們將“未知”兩個(gè)字替換為整型。

4 數(shù)據(jù)可視化分析

4.1 簡(jiǎn)單概括性分析

數(shù)據(jù)初步清洗完畢,進(jìn)行分析之前先檢查一下數(shù)據(jù)缺失情況,如果數(shù)據(jù)缺失嚴(yán)重,需要對(duì)缺失值進(jìn)行填補(bǔ)或者其他處理,否則會(huì)影響數(shù)據(jù)分析結(jié)果準(zhǔn)確性。檢查結(jié)果如圖3,從圖中可以看出數(shù)據(jù)沒有嚴(yán)重缺失,再對(duì)數(shù)據(jù)做描述性統(tǒng)計(jì)分析如圖4,可以看出武漢市二手房的價(jià)格均值約為212.6萬(wàn),平均面積102.8平方米,兩者相除得出的每平米均價(jià)約2萬(wàn)多,與統(tǒng)計(jì)結(jié)果中每平米單價(jià)的均價(jià)基本一致,說明該數(shù)據(jù)異常值不明顯,可以進(jìn)行數(shù)據(jù)可視化。

4.2 可視化分析

數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)轉(zhuǎn)換成圖形圖表, 為決策提供依據(jù)[2]。數(shù)據(jù)可視化技術(shù)的研究已得到了快速發(fā)展并取得相應(yīng)的成就[3]。

對(duì)武漢市每個(gè)區(qū)域二手房數(shù)量進(jìn)行分析并且分析每個(gè)區(qū)域二手房每平米單價(jià)均值和總價(jià)箱形圖,可視化結(jié)果分別如圖5和6。

從圖5可以觀察到武漢洪山區(qū)二手房數(shù)量最多,遠(yuǎn)遠(yuǎn)高于其他區(qū)域,但是房屋每平米價(jià)格卻不是最高的,武昌區(qū)二手房每平米單價(jià)均值最高,可能是因?yàn)槲洳龑儆谥行奈恢茫瑫r(shí)占據(jù)交通和經(jīng)濟(jì)兩大優(yōu)勢(shì)。另外,通過6的箱型圖結(jié)果可以得出,武漢各區(qū)房屋總價(jià)中位數(shù)都在300萬(wàn)以下,而且房屋總價(jià)分布趨勢(shì)比較分散,最高的是洪山區(qū),房屋總價(jià)達(dá)到了1400萬(wàn),最低的不到100萬(wàn),說明房屋價(jià)格特征不是理想的正太分布。

通過distplot和kdeplot繪制柱狀圖并給出標(biāo)準(zhǔn)擬合正態(tài)分布,觀察武漢市二手房面積分布情況如圖7,可以看出房子面積分布與標(biāo)準(zhǔn)正態(tài)分布大部分?jǐn)M合,說明我們觀測(cè)的大部分二手房面積在正常范圍之內(nèi),面積90平米左右的二手房最多,還有一些面積大于200平米超出正常范圍的二手房。再以有無(wú)電梯為分類依據(jù)繪制面積和價(jià)格之間的散點(diǎn)圖,如圖8,發(fā)現(xiàn)整體上面積特征基本與價(jià)格呈現(xiàn)線性關(guān)系,同樣面積的二手房有電梯比無(wú)電梯價(jià)格高,符合基本常識(shí),面積越大,有電梯,價(jià)格越高。

5 總結(jié)

隨著信息技術(shù)越來越成熟,如何使用爬蟲和數(shù)據(jù)可視化等技術(shù)更好地了解用戶以及他們的意向是WEB2.0時(shí)代的關(guān)鍵領(lǐng)域。本文通過研究如何從互聯(lián)網(wǎng)上采集相關(guān)數(shù)據(jù),讓數(shù)據(jù)采集更高效,把采集到的數(shù)據(jù)進(jìn)行清洗、過濾,將有用的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和可視化分析,從中分析和挖掘出有價(jià)值的信息[4],充分利用大數(shù)據(jù)潛在的價(jià)值。

參考文獻(xiàn):

[1] 晉振杰, 曹少中, 項(xiàng)宏峰, 等. 基于python的電商書籍?dāng)?shù)據(jù)爬蟲研究[J]. 北京印刷學(xué)院學(xué)報(bào), 2018, 3(26): 39-42.

[2] 曾悠. 大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)可視化概念研究[D]. 杭州: 浙江大學(xué), 2014.

[3] 任磊, 杜一, 馬帥, 等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報(bào), 2014, 25(9): 1909-1936.

[4] 肖樂, 叢天偉, 嚴(yán)衛(wèi). 基于python的Web大數(shù)據(jù)采集和數(shù)據(jù)分析[J]. 電腦知識(shí)與技術(shù), 2018, 14(22): 9-11.

【通聯(lián)編輯:謝媛媛】

主站蜘蛛池模板: 无码aaa视频| 国产青青操| 国产熟女一级毛片| 老司机久久99久久精品播放| 亚洲欧美日韩另类在线一| a毛片免费在线观看| 久久精品娱乐亚洲领先| 人妻无码一区二区视频| 青青青视频蜜桃一区二区| 噜噜噜久久| 成人无码一区二区三区视频在线观看 | 免费在线看黄网址| 欧美日韩成人在线观看| 精品日韩亚洲欧美高清a| 国产成年无码AⅤ片在线| 免费精品一区二区h| 亚洲综合第一页| 永久免费av网站可以直接看的 | 国产极品美女在线播放| 欧美在线中文字幕| 亚洲愉拍一区二区精品| 国产成人久久777777| 欧美日本在线播放| 国产精品尹人在线观看| 国产精品网址你懂的| 久久人人爽人人爽人人片aV东京热 | 97视频在线精品国自产拍| 一区二区影院| 黄色不卡视频| 日韩av无码精品专区| 久久伊人操| 色综合天天综合| 欧美一区二区啪啪| 国产无吗一区二区三区在线欢| 成人午夜亚洲影视在线观看| 亚洲毛片在线看| 国产成人艳妇AA视频在线| 亚洲一区二区三区在线视频| 91精品在线视频观看| 亚洲一区二区三区国产精华液| 毛片网站免费在线观看| 午夜爽爽视频| 国产成人亚洲综合A∨在线播放| 久热99这里只有精品视频6| 又爽又大又黄a级毛片在线视频 | 国产丝袜啪啪| 久久香蕉国产线看观| 日本黄网在线观看| 一级看片免费视频| 久久国产乱子| jizz在线观看| 欧美一区二区福利视频| 精品欧美日韩国产日漫一区不卡| 999精品色在线观看| 19国产精品麻豆免费观看| 欧美在线观看不卡| 亚洲色图综合在线| 青青草国产免费国产| 天堂va亚洲va欧美va国产| 美女国内精品自产拍在线播放| 国产精品久久久久久久久久98| 国产午夜看片| 久久99国产精品成人欧美| 综合亚洲网| 伊人久久久大香线蕉综合直播| 国产一区二区丝袜高跟鞋| 亚洲国产成人精品无码区性色| 欧美性精品| 国产无人区一区二区三区| 亚洲激情区| 夜精品a一区二区三区| 色男人的天堂久久综合| 精品国产毛片| 五月天久久综合| 天堂成人在线视频| 亚洲国语自产一区第二页| 91精品视频在线播放| 国产女人18毛片水真多1| 成人欧美日韩| 日本91在线| 91麻豆国产视频| 男女猛烈无遮挡午夜视频|