999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)技術(shù)的房?jī)r(jià)數(shù)據(jù)采集及可視化分析應(yīng)用

2021-09-05 05:05:01石慧陳培輝
計(jì)算機(jī)時(shí)代 2021年8期
關(guān)鍵詞:可視化

石慧 陳培輝

摘 ?要: 在“房住不炒”定位下,住房選購(gòu)成了廣大市民比較關(guān)心的問(wèn)題。把大數(shù)據(jù)分析技術(shù)引入到房?jī)r(jià)分析,利用Scrapy爬蟲框架對(duì)廣州房?jī)r(jià)線上數(shù)據(jù)的爬取,經(jīng)清洗和可視化,把影響房?jī)r(jià)的要素以可視化的形式予以呈現(xiàn)。與傳統(tǒng)方法相比,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集及可視化分析應(yīng)用方面優(yōu)勢(shì)明顯。

關(guān)鍵詞: 大數(shù)據(jù)分析; 可視化; 爬蟲框架; 房?jī)r(jià)數(shù)據(jù)

中圖分類號(hào):TP399 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1006-8228(2021)08-71-05

Housing price data collection and visualized analysis with big data technology

Shi Hui, Chen Peihui

(Department of Information Engineering, Shanwei Vocational and Technical College, Shanwei, Guangdong 516600, China)

Abstract: Under the positioning of "housing without speculation", the purchase of housing has become a concern of the general public. This article introduces the big data analysis technology into the housing price analysis, and the online data of Guangzhou housing price is crawled by using the Scrapy crawler framework. After cleaning and visualization of online data, the factors affecting housing price are presented in the form of visualization. Compared with traditional methods, big data analysis technology has obvious advantages in applications of data collection and visualized analysis.

Key words: big data analysis; visualization; crawler framework; housing price data

0 引言

網(wǎng)絡(luò)數(shù)據(jù)采集是通過(guò)網(wǎng)絡(luò)爬蟲[1]等技術(shù)從互聯(lián)網(wǎng)采集數(shù)據(jù)的過(guò)程。網(wǎng)絡(luò)數(shù)據(jù)采集和數(shù)據(jù)可視化具有廣泛的應(yīng)用范圍,涉及挖掘數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、交通可視化、生物醫(yī)學(xué)可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化等領(lǐng)域。閆志國(guó)[2]等通過(guò)爬取電商藥品數(shù)據(jù)并對(duì)數(shù)據(jù)可視化處理,為用戶在網(wǎng)上買藥提供參考。曹睿娟[3]等提出基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測(cè)及演化機(jī)理,為內(nèi)澇事件輿情應(yīng)對(duì)提供決策支持。于鳳芹[4]等借助動(dòng)態(tài)面板模型和多重中介效應(yīng)模型,研究金融科技與商業(yè)銀行盈利能力的關(guān)系及中介傳導(dǎo)機(jī)制。饒加旺[5]等構(gòu)建了智慧城市文本大數(shù)據(jù)與自動(dòng)分詞模型,指出當(dāng)前智慧城市建設(shè)中的問(wèn)題。

有效地利用大數(shù)據(jù)技術(shù),深入挖掘互聯(lián)網(wǎng)中的數(shù)據(jù),可以為我們提供許多有趣的信息[6],也能為消費(fèi)者和商家等目標(biāo)用戶提供一定的參考意見和決策支持。

1 基于大數(shù)據(jù)技術(shù)的房?jī)r(jià)分析方法

本文主要利用網(wǎng)絡(luò)爬蟲技術(shù)采集58同城網(wǎng)的廣州房?jī)r(jià)線上數(shù)據(jù),并挖掘和分析網(wǎng)絡(luò)數(shù)據(jù)中的信息。首先利用Xpath Helper獲取返回DOM樹形結(jié)構(gòu)的根節(jié)點(diǎn),再結(jié)合Python的Scrapy框架對(duì)廣州房?jī)r(jià)的線上網(wǎng)站的數(shù)據(jù)進(jìn)行爬取,之后調(diào)用Sqlalchemy引擎對(duì)所采集的數(shù)據(jù)進(jìn)行存取,接著調(diào)用Pandas庫(kù)和Numpy庫(kù)中的函數(shù),對(duì)數(shù)據(jù)進(jìn)行清洗,最后結(jié)合Matplotlib庫(kù)、Seaborn庫(kù)以及Pyecharts庫(kù)中的函數(shù)對(duì)清洗后的數(shù)據(jù)進(jìn)行直觀的可視化展示。

1.1 Scrapy框架

Scrapy爬蟲框架是基于Python開發(fā)的一個(gè)快速、高層次的屏幕抓取和Web抓取框架,Scrapy框架主要由調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(Spider)和實(shí)體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)五大組件構(gòu)成[7-8]。調(diào)度器抓取網(wǎng)頁(yè)網(wǎng)址或鏈接的優(yōu)先隊(duì)列,可以去除重復(fù)的網(wǎng)址,用戶根據(jù)自己的需求定制調(diào)度器。建立在Twisted高效異步模型上的下載器用于從網(wǎng)絡(luò)上高速下載資源。用戶通過(guò)定制正則表達(dá)式等語(yǔ)法定制自己的爬蟲,從特定的網(wǎng)頁(yè)中采集實(shí)體信息,也可以提取鏈接讓Scrapy繼續(xù)抓取下一個(gè)頁(yè)面。實(shí)體管道用于處理爬蟲提取的實(shí)體,主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息[9-10]。

2 房?jī)r(jià)數(shù)據(jù)采集和預(yù)處理

2.1 房?jī)r(jià)數(shù)據(jù)采集

前期調(diào)研階段,通過(guò)分析國(guó)內(nèi)主流房產(chǎn)網(wǎng)站和熱點(diǎn)大城市的網(wǎng)絡(luò)搜索熱度和權(quán)重,結(jié)合區(qū)域特點(diǎn),選擇58同城網(wǎng)的廣州房?jī)r(jià)數(shù)據(jù)為數(shù)據(jù)來(lái)源[11],具體信息包括戶型、面積、朝向、樓層、城區(qū)、小區(qū)名、總價(jià)、單價(jià)等[12]。

房?jī)r(jià)數(shù)據(jù)采集過(guò)程:查找房?jī)r(jià)具體內(nèi)容、檢驗(yàn)爬取內(nèi)容、查詢Headers信息、數(shù)據(jù)存儲(chǔ)調(diào)用等。①房?jī)r(jià)具體信息的查找:進(jìn)入網(wǎng)站,通過(guò)頁(yè)面的Html源碼查看特定信息標(biāo)簽,根據(jù)標(biāo)簽信息爬取特定的數(shù)據(jù)。數(shù)據(jù)爬取過(guò)程中需要理清標(biāo)簽之間的嵌套關(guān)系,從首頁(yè)面到二級(jí)子頁(yè)面,依次往下涉及的標(biāo)簽種類有整體框架標(biāo)簽、下級(jí)標(biāo)簽、具體內(nèi)容的標(biāo)簽等。②利用XPath Helper插件獲取爬取內(nèi)容的標(biāo)簽層級(jí),檢驗(yàn)所采集的數(shù)據(jù)是否出現(xiàn)錯(cuò)誤。③HTTP請(qǐng)求頭Headers信息的查詢:考慮到很多網(wǎng)站設(shè)置了反爬蟲機(jī)制,在合法合規(guī)前提下通過(guò)在Headers信息中添加代理IP以達(dá)到反爬的目的。④利用Sqlalchemy引擎實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和調(diào)用:數(shù)據(jù)庫(kù)中為了防止字段亂碼,要把表中的字段改成英文的形式,利用字典的形式更換成英文字段,然后把表插入數(shù)據(jù)庫(kù)中。

2.2 房?jī)r(jià)數(shù)據(jù)清洗

房?jī)r(jià)數(shù)據(jù)清洗階段主要操作包括:缺失值檢測(cè)、數(shù)據(jù)去重、數(shù)據(jù)格式統(tǒng)一、過(guò)濾模糊數(shù)據(jù)等步驟。

由于爬取的信息沒有缺失值,所以只進(jìn)行了全面的檢測(cè),分別查看了含缺失值的列。數(shù)據(jù)去重階段通過(guò)判斷重復(fù)數(shù)據(jù),并統(tǒng)計(jì)重復(fù)數(shù)據(jù)的數(shù)目,查看重復(fù)的數(shù)據(jù)。為了檢驗(yàn)重復(fù)的數(shù)據(jù)是否準(zhǔn)確,可以隨機(jī)選擇一個(gè)標(biāo)題,用query()函數(shù)進(jìn)行選擇行操作,使用count()方法,判斷去除重復(fù)項(xiàng)的數(shù)據(jù)表剩下的數(shù)據(jù)量,通過(guò)調(diào)用pandas庫(kù)的drop_duplicates()函數(shù)執(zhí)行對(duì)數(shù)據(jù)的去重操作。做重復(fù)數(shù)據(jù)的去除時(shí)可以重新使用一張數(shù)據(jù)表,再次進(jìn)行去重操作。

數(shù)據(jù)格式統(tǒng)一:需要去重單位字段,再把去重后的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。表1顯示的是去重后存放在數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)結(jié)果。

過(guò)濾模糊數(shù)據(jù)主要是通過(guò)調(diào)用query()函數(shù)選取非模糊的數(shù)據(jù)信息來(lái)實(shí)現(xiàn)模糊信息過(guò)濾。由于數(shù)據(jù)中房子的地址包括了廣州周邊的,對(duì)研究每個(gè)地區(qū)房子的價(jià)格沒有太大的價(jià)值,需要去除這部分冗余信息。

3 房?jī)r(jià)數(shù)據(jù)分析和可視化

3.1 房?jī)r(jià)數(shù)據(jù)的分組和透視

房?jī)r(jià)數(shù)據(jù)分組是根據(jù)影響房?jī)r(jià)的要素對(duì)房?jī)r(jià)數(shù)據(jù)進(jìn)行聚類分組,以便進(jìn)一步分析各要素對(duì)房?jī)r(jià)的影響。不同的購(gòu)房者對(duì)房子具體需求不同,在對(duì)房?jī)r(jià)數(shù)據(jù)分組時(shí)要對(duì)不同要素做具體分析,需要把數(shù)據(jù)重新組合成更直觀的列表形式來(lái)表達(dá)。對(duì)廣州各地區(qū)進(jìn)行分組,查看每個(gè)地區(qū)可售房源的數(shù)量,分析得出,番禺出售的房子數(shù)量比較多,其次分別是天河、花都、黃埔、增城。再對(duì)各地區(qū)的數(shù)據(jù)取均值,最后對(duì)價(jià)格排序。

房?jī)r(jià)數(shù)據(jù)透視用到pandas庫(kù)的pivot_table函數(shù),以地區(qū)和朝向進(jìn)行分組查看面積和價(jià)格,對(duì)每個(gè)地區(qū)房?jī)r(jià)最高的小區(qū)進(jìn)行數(shù)據(jù)透視,并按房?jī)r(jià)進(jìn)行降序,結(jié)果如表2所示。

3.2 房?jī)r(jià)數(shù)據(jù)的可視化及分析

房?jī)r(jià)的數(shù)據(jù)可視化是在房?jī)r(jià)數(shù)據(jù)分組或聚合之后的可視化,對(duì)廣州每個(gè)地區(qū)的房?jī)r(jià)生成箱型圖,分析各地區(qū)價(jià)格情況,如圖2所示。分析得到:廣州各地區(qū)房?jī)r(jià)的差距比較大,在2020年上半年中,因?yàn)橐咔榈脑颍瑥V州各地區(qū)經(jīng)濟(jì)受到不同程度的影響[13],只有天河、越秀和南沙GDP屬于正增長(zhǎng)狀態(tài),并且平均房?jī)r(jià)比較高的各地區(qū)同比增長(zhǎng)率平均都在-1.0%左右。GDP最高的天河區(qū)房?jī)r(jià)最高,如果單純只是想在廣州買到房,不考慮其他因素,可以選擇花都區(qū)、增城區(qū)、南沙區(qū)、從化區(qū),這幾個(gè)區(qū)的房?jī)r(jià)相對(duì)穩(wěn)定,均價(jià)在1.5萬(wàn)到2.5萬(wàn)之間,其余區(qū)之間的價(jià)格差距明顯比較大,差距幾乎有1萬(wàn)多。

如果只關(guān)注價(jià)格信息,得到的信息比較片面,需要把朝向、價(jià)格、密集情況結(jié)合起來(lái)。以朝向?yàn)槔炎⒅胤孔映虻男畔⒕C合作為參考,圖3、圖4顯示其中朝南和朝東方向受到購(gòu)房者關(guān)注度情況。

圖中x軸為地區(qū),y軸為價(jià)格,每個(gè)朝向?yàn)橹黝},分析得到:在廣州相對(duì)關(guān)注比較多的朝向是南、南北、東南,而東西、西北受關(guān)注較少,其中東北朝向集中分布在天河、海珠、番禺,根據(jù)散點(diǎn)分布,番禺價(jià)位較低。如果從地區(qū)經(jīng)濟(jì)狀況看,天河、海珠,這兩個(gè)地區(qū)在高價(jià)位上的變動(dòng)不大,但海珠地區(qū)散點(diǎn)密集高于天河,如果想要更多的朝向選擇,可以考慮海珠地區(qū)。朝北的房子分布比較均衡,且經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū)普遍價(jià)位較高,東朝向的房子分布較均勻,經(jīng)濟(jì)力量最強(qiáng)的天河區(qū)依然房?jī)r(jià)最高。

圖5、圖6分別將廣州總體房?jī)r(jià)以曲線圖和地圖形式展現(xiàn)出來(lái),可以直觀判斷出廣州房?jī)r(jià)的狀況,幫助購(gòu)房者根據(jù)需求在現(xiàn)波動(dòng)范圍內(nèi)合理決策。

4 結(jié)論

本文利用網(wǎng)絡(luò)爬蟲技術(shù)采集58同城網(wǎng)的廣州房?jī)r(jià)數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)進(jìn)行爬取、存取、清洗和可視化,把影響房?jī)r(jià)的要素以一種合理的可視化的形式加以呈現(xiàn)。相比傳統(tǒng)分析方法,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集、數(shù)據(jù)挖掘和可視化應(yīng)用方面優(yōu)勢(shì)明顯。

參考文獻(xiàn)(References):

[1] 潘曉英,陳柳等.主題爬蟲技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2020.37(4):961-965

[2] 閆志國(guó),宛楠等.基于Scrapy爬取電商藥品數(shù)據(jù)及數(shù)據(jù)可視化分析處理[J].輕工科技,2021.37(3):98-100

[3] 曹睿娟,姜仁貴.基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測(cè)及演化機(jī)理[J].西安理工大學(xué)學(xué)報(bào),2020.36(2):151-158

[4] 于鳳芹,于千惠.金融科技影響商業(yè)銀行盈利能力的機(jī)制分析[J].金融與經(jīng)濟(jì),2021.2:45-62

[5] 饒加旺,王勇,馬榮華.文本大數(shù)據(jù)的智慧城市研究與分析[J].測(cè)繪科學(xué),2020.45(7):174-184

[6] 夏秋月,路婕等.大數(shù)據(jù)背景下鄭州市中原區(qū)二手房特征價(jià)格研究,2020.39(1):83-88

[7] Shemshadi A, Sheng Q Z, Qin Y. ThingSeek: a crawler

and search engine for the internet of things//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. New York,2016:1149-1152

[8] 曾健榮,張仰森,鄭佳等.面向多數(shù)據(jù)源的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)技術(shù)及應(yīng)用[J].計(jì)算機(jī)科學(xué),2019.46(5):304-309

[9] 樊宇豪.基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2018.

[10] 李曉煬.Scrapy在氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)中獲取第三方數(shù)據(jù)的應(yīng)用[J].無(wú)線互聯(lián)科技,2019.16(21):3-4

[11] 王康,李含偉.自媒體時(shí)代的企業(yè)網(wǎng)絡(luò)輿情應(yīng)對(duì)策略研究——基于上市公司百度指數(shù)的研究[J].情報(bào)科學(xué),2018.36(1):113-117

[12] 瞿詩(shī)進(jìn),胡守庚,李全峰,等.城市住宅地價(jià)影響因素的定量識(shí)別與時(shí)空異質(zhì)性——以武漢市為例[J].地理科學(xué)進(jìn)展,2018.37(10):71-80

[13] 陳憂子.2020年GDP:天河黃埔越秀總量居前,番禺反超白

云重回第四[N].廣州日?qǐng)?bào),2021.3.24.

收稿日期:2021-04-06

基金項(xiàng)目:2020年度廣東普通高校創(chuàng)新團(tuán)隊(duì)項(xiàng)目“人工智能技術(shù)與應(yīng)用創(chuàng)新團(tuán)隊(duì)”(2020KCXTD045); 2020年度廣東省高職院校高水平專業(yè)群建設(shè)項(xiàng)目“計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)群”(GSPZYQ2020076)

作者簡(jiǎn)介:石慧(1983-),女,湖北咸寧人,碩士研究生,講師,主要研究方向:大數(shù)據(jù)技術(shù)、人工智能技術(shù)。

猜你喜歡
可視化
無(wú)錫市“三項(xiàng)舉措”探索執(zhí)法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統(tǒng)
三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統(tǒng)
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語(yǔ)境下信息可視化新趨勢(shì)
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
主站蜘蛛池模板: 精品91自产拍在线| 国产成人精品亚洲日本对白优播| 国产无遮挡猛进猛出免费软件| 激情视频综合网| 少妇极品熟妇人妻专区视频| 国内视频精品| 欧美无专区| 国产激爽大片在线播放| 免费精品一区二区h| 久久精品亚洲热综合一区二区| 欧美性猛交一区二区三区| 亚洲第一成年人网站| 成人夜夜嗨| 国产精品女同一区三区五区| 亚洲久悠悠色悠在线播放| 毛片网站观看| 四虎永久在线| 国产麻豆另类AV| 美女被躁出白浆视频播放| 女人av社区男人的天堂| 91网址在线播放| 91高清在线视频| 色亚洲激情综合精品无码视频| 久久这里只有精品66| 又粗又硬又大又爽免费视频播放| 国产地址二永久伊甸园| 国产日韩欧美中文| 在线免费观看a视频| 免费观看男人免费桶女人视频| 国产一级精品毛片基地| 成人综合网址| 久久青草精品一区二区三区 | 欧美午夜视频在线| 综合久久五月天| 露脸国产精品自产在线播| 亚洲成人精品| 精品无码人妻一区二区| 国产成人精品一区二区| 青青青国产免费线在| 亚洲一级毛片| 亚洲国产看片基地久久1024| 欧美亚洲香蕉| 日本人又色又爽的视频| 亚洲一级毛片免费观看| 亚洲欧美激情小说另类| 久久综合成人| 国产一区二区三区在线精品专区| 91欧美亚洲国产五月天| 成人欧美在线观看| 免费看美女自慰的网站| 国产亚洲精品资源在线26u| 国产嫩草在线观看| 免费在线a视频| 成人国产小视频| 亚洲欧美人成电影在线观看| 日韩小视频在线播放| 国产小视频在线高清播放| 免费又爽又刺激高潮网址 | 狠狠色丁香婷婷| a毛片免费观看| 无码中文字幕精品推荐| 久久a毛片| 国禁国产you女视频网站| 国产主播在线一区| 成人看片欧美一区二区| 亚洲欧美精品日韩欧美| 男人的天堂久久精品激情| 亚洲精品动漫| 97se亚洲综合不卡| 欧美成人综合视频| 亚洲人成影视在线观看| 亚洲熟妇AV日韩熟妇在线| 欧美特黄一级大黄录像| 91福利在线看| 亚洲αv毛片| 午夜免费视频网站| 91精品免费久久久| 久久人搡人人玩人妻精品一| 久久精品只有这里有| 国产香蕉97碰碰视频VA碰碰看 | 伦精品一区二区三区视频| 自拍亚洲欧美精品|