999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

房價數據抓取與分析系統設計與實現

2020-07-04 02:15:25孫婷婷丁碩權
電腦知識與技術 2020年15期
關鍵詞:數據分析

孫婷婷 丁碩權

摘要:隨著網絡時代的到來,越來越多的民眾選擇通過網絡上的房源信息來進行選房、購房,但如何從海量的房源信息中篩選出符合自己需要的商品房是一個難題。因此,該文設計實現房價數據抓取與分析系統,通過對某一地區房價數據的采集、處理、分析得到房價預測模型,同時為了讓用戶更加方便的選房,實現了前端網頁展示地區房源統計信息,此外還提供房源信息的篩選以及地圖選房功能。

關鍵詞:房價數據;數據抓取;數據分析;數據可視化

中圖分類號:TP39 文獻標識碼:A

文章編號:1009-3044(2020)15-0024-04

房地產行業在我國屬于支柱性產業,在我國社會經濟發展中一直扮演著重要角色。房價問題,尤其是大中城市的房價問題,一直是政府、大眾和眾多研究人員關注的熱點。如何科學地預測房價是房價問題的研究方向之一。隨著互聯網時代的來臨,如今越來越多的民眾選擇通過網絡獲取房源信息并進行選房購房,如何盡可能多角度的呈現房源信息幫助民眾選房成為一個值得深人研究的課題剛。

為此,本文使用爬蟲技術獲取某一地區的房源信息,然后使用機器學習中的相關算法對房價數據集進行訓練,得到與實際擬合度較高的房價模型,從而實現房價的預測。在房價數據抓取階段使用爬蟲技術,該方法獲取的房價數據與傳統從政府信息網站獲取的房價數據相比更加豐富并具有時效性。在房價數據分析時使用機器學習中的算法,這些算法能夠高效地進行大數據分析并建立房價模型。在房價數據展示部分利用前端網頁技術實現房源統計信息展示、房源信息檢索篩選、地圖選房、房價預估等功能可以幫助消費者更加高效地選房、購房。

1需求分析

1.1設計目標

考慮到本文系統運行的環境和后續的數據處理,我們將上海房價作為研究對象,通過編寫爬蟲程序從鏈家網上爬取相關的二手房和租房信息,并將獲取的信息保存到mysql數據庫中。在得到房價信息后將對相關數據進行清洗和預處理,為后續的房價建模做準備。在對房價數據進行處理得到房價數據集后,采用機器學習中的多元線性回歸和隨機森林算法分別對房價數據集進行訓練,從而得到房價模型,訓練過程中遵循2-8原則,即20%的測試集,80%的訓練集。通過比較兩種不同算法得到的房價模型與實際房價的擬合度,找到性能更優的模型,并給出模型預測的房價值。為了方便用戶進行選房、購房,計劃在前端展示上海地區的房價統計信息,包括地區均價、房源數量等,同時設計了檢索篩選功能,用戶可以通過單關鍵詞或者多關鍵詞從數據庫中獲取所需房源信息,此外為了更加直觀的展示地區房源信息,調用了高德地圖API,用戶可以通過關鍵字在地圖上檢索某一地區的房源,房源信息將在地圖上標注,用戶點擊后可以得到相應的二手房和租房信息。

1.2功能需求

根據前一節的具體設計目標和需求,本文的房價數據抓取與分析系統需要滿足以下的功能需求。

(1)房源數據抓取是本系統開發的基礎,無論是房價模型的建立還是后續前端數據展示都依托于房源數據,所以房價數據抓取與分析系統的首要需求就是實現房源數據的抓取。該需求要求系統能夠自動從目標房源信息網站上抓取有關的房源信息,并進行保存。爬取的數據要盡可能完整,效率不能過低,同時能應對數據爬取過程中出現的意外情況。

(2)房價數據處理與分析在獲取了目標房源數據后,為了后續的數據分析,需要對獲取的原始房源數據進行簡單的預處理,預處理根據獲取數據的實際特點進行針對性處理。在得到處理后的房源數據集后,采用合適的模型對數據集進行建模分析,得到房價模型,同時通過不同模型的比較得到最符合實際的房價模型,實現房價的預測。

(3)房價數據前端展示是為了讓用戶更加方便地進行選房、購房,需要在前端展示房源數據以及地區的房源統計信息,并能根據關鍵詞實現房源數據的混合檢索,篩選出符合用戶需求的房源信息,同時為用戶提供房價模型得出的房價參考值。此外滿足用戶直接在地圖上指定區域選房的需求,實現更加高效的獲取所需房源數據。

1.3用例分析

使用用例圖來對需求涉及的場景進行描述,可以更加清楚地說明系統與用戶之間的交互。

(1)房價數據管理用例

圖1展示了管理員管理房價數據的用例圖,包括使用爬蟲獲取原始房源數據,接著是對房源數據的處理,最后對新的房源數據集進行訓練,得到房價模型。

(2)房源數據檢索用例

圖2展示了用戶檢索房源數據的用例圖,包括通過關鍵詞搜索房源以及查看該地區的房源統計信息。

(3)地圖搜索房源用例

圖3展示了地圖房源信息的用例圖,包括通過搜索關鍵詞在地圖定位、目的地周邊小區顯示、小區內房源信息展示。

2系統設計

2.1總體結構設計

好的系統結構設計對于系統的性能起著至關重要的作用。本房價數據抓取與分析系統的結構設計主要體現在第三部分的房價數據展示。第一階段的房價數據獲取以及第二階段的房價數據處理與分析實際上是取得目標數據的過程。當然爬蟲程序也可以看成是一個子系統,但該系統的結構相對較為簡單,所以本部分不做過多闡述。房價數據展示部分使用的是較為經典的MVC三層架構,即模型層(model)、視圖層(view)和控制器(controller),其中模型層主要負責數據的存儲,在該部分對應于房源數據集,視圖層負責將數據在前端展示,控制器負責接受用戶操作,并根據操作從數據庫中獲取數據,該部分中對應于響應前端用戶發起的數據檢索等請求,從數據庫中獲取數據后再調用視圖顯示數據。圖4展示的是房價數據展示的系統結構圖。

2.2功能模塊設計

功能模塊設計是將程序劃分成若干個功能模塊,每一個模塊分別完成一個子功能,這些功能模塊總體構成了系統。在功能模塊的設計的過程中需要遵循高內聚、松耦合的原則,所謂高內聚就是要提高模塊內各個元素之間的緊密程序,低耦合就是要減少模塊間的數據交換,從而降低程序復雜度。結合這些設計原則對房價數據抓取與分析系統進行了劃分。

(1)房價數據抓取功能模塊

該模塊主要實現了房價數據的抓取,首先輸入需要爬取的目標房源網址,爬蟲程序判斷網址信息是否準確,然后從目標網頁上獲取房源信息,同時將新增的房源網址放到url隊列中,程序不斷循環直到沒有待爬取的房源網址。圖5展示了房價數據爬蟲程序的流程圖。

(2)房價數據處理與分析模塊

該模塊主要實現對爬取房價數據的預處理并使用機器學習算法構建房價模型,在數據預處理部分根據獲取房價數據的特征進行針對性處理,比如獲取的數據的類型是字符串,需要轉化為數值類型才能進行后續建模。在數據分析部分選取機器學習中的常見算法對房價數據集進行訓練,通過比較選取與實際房價擬合度高的模型,同時嘗試調整模型中的參數。

(3)房價數據前端展示模塊

該模塊主要提供房源信息檢索和地圖搜索房源這兩個功能,在房源信息檢索中用戶可以根據自己的需求選擇房源信息關鍵詞,系統根據關鍵詞返回符合條件的房源,用戶可以點擊每一條房源查看詳細信息,同時用戶也可以查看地區的房源統計信息。在地圖搜索房源部分,用戶可以輸入目的地關鍵詞,系統在地圖上定位目的地,同時查找目的地周圍的所有小區,小區在側欄分頁顯示,通過點擊每一個小區用戶可以查看該小區內房源信息。圖6是房價數據前端展示部分的程序流程圖。

3系統實現

3.1房價數據抓取實現

本文系統選取了鏈家網上海二手房源的以下信息進行爬取,包括小區名稱、所在區域、房屋戶型、建筑面積、單價、總價、房屋朝向、所在樓層、裝修情況、該房源信息所在網址等信息。

在房源數據爬蟲程序中主要采用的是寬度優先遍歷策略,首先將每一頁上的所有二手房源記錄的網址信息爬取,用list數據結構存儲這些網址信息,該list相當于ud管理器,接著從url列表中逐次取出每套二手房詳細信息所在的網址,接著訪問該網址,爬取其中所需的房源信息。詳細的步驟如下:

第一步:獲取分頁信息。通過檢查網頁可以定位到分頁標簽所在位置,從中我們可以看到當前所在的頁數(curPage)以及總共頁數(totalPage),通過觀察發現每頁的結構是固定的,ud結構https://sh.1ianjia.com/ershoufang/pg{page}/,{page}代表當前的頁數。為此編寫獲取所有二手房源記錄所在頁url函數,獲取的url存儲在list中。

第二步:獲取當前頁中二手房源詳細信息所在網頁url。在獲取了所有的分頁信息后,下一步需要獲取每一頁上二手房源詳細信息所在的網頁ud。通過檢查網頁定位到每條二手房源記錄所在位置,從網頁結構中可以看到每條二手房源信息所在ud位于類名為title的div標簽下的超鏈接標簽中,為此編寫獲取url的函數。首先是向目標地址服務器發送請求,獲取服務器響應的內容,然后為網頁信息創建對象,將會將網頁信息轉化成一個樹形結構,通過調用對象中的各種函數可以篩選元素,通過標簽名、類名、id名等方式實現元素篩選,這里需要查找的是類名為title的div標簽。最后在篩選的div標簽中找到超鏈接網址并存儲到列表中。

第三步:獲取每套二手房詳細信息。獲取二手房信息的方式與第二步中獲取二手房詳細信息url類似,同樣是通過創建對象進行解析,不過由于標簽結構的復雜度提高,篩選元素的過程也相應復雜些,為此編寫getHouseInfo函數(節選了部分信息的獲取),如圖7所示。

每一條二手房源的信息存儲在了houseinfo字典中,房源信息中的每個屬性對應字典中的key,而屬性值對應字典中的val-ue。最后將每一條二手房的房源信息存儲到本地數據庫中名為sechouse的表中。

3.2房價數據處理與分析實現

在完成第一部分的上海房源數據獲取工作后,第二部分中我們將對獲取的上海房價數據進行相應的處理,并通過機器學習中的相關算法對上海二手房價數據集進行訓練,得到二手房價的模型,并比較不同算法得到模型的性能,通過二手房價的模型我們可以對現有的二手房房價進行預估,并判斷其預測值與市場值之間的大小關系,從而給購房者一定的參考,同時也可以為新出現的二手房進行預估。

(1)數據處理

通過對數據集的觀察可以初步從以下幾個角度來處理數據,一是房屋戶型現在是以字符串形式存儲,例如,房屋戶型為2室2廳1廚2衛,這樣的數據顯然是無法進行數據分析的,所以我們要將戶型根據室、廳、廚、衛分開,并且只保留1、2、3這樣的數字,同時為了后續的數值計算,需要將原本字符串類型的數值轉化成float類型。二是單價、總價、建筑面積后的單位需要刪除,其數值類型也需要轉化成float類型。三是房屋朝向中存在著冗余信息,房屋朝向主要參考的是主立面所對方向,像“南北”這樣的數據顯然指的是坐北朝南,所以要將其中的干擾和冗余信息去除,此外將所在樓層中括號中的總樓層去除,方便后續的數據集訓練。

(2)模型建立與房價預測

在獲取數據以及對數據的預處理后,期望發掘出這些數據的價值,所以這一部分的研究重點聚焦于房價建模,以實現上海二手房房價的預測。在房價預測過程中主要使用的是多元線性回歸和隨機森林兩種機器學習模型,首先使用獲取的數據集對模型進行訓練,然后使用訓練好的模型進行預測分析。在進行數據集訓練前,對數據集中的字符數值化,并且將數據集按照訓練集和測試集劃分。通過兩者比較得出:隨機森林模型與多元線性回歸相比訓練得到的二手房價模型與實際擬合度更高,多元線性回歸訓練的模型中會存在異常值,而在隨機森林模型中則并未出現這些異常值,準確率更高。

(3)前端展示

①數據檢索

為了讓用戶可以方便快速的篩選出符合自己條件的二手房源信息,在前端設計了檢索工具,用戶可以通過選取條件或者自己設置條件從數據庫中獲取所需的房源信息,從而簡化選房的過程,此處篩選條件是靈活的,用戶可以通過單關鍵字或者多關鍵字混合查詢所需的房源信息,如圖8所示。

②房源統計信息展示

除了設計二手房的檢索功能,還考慮將二手房的相關統計信息在前端展示,主要通過ECharts動態構建圖表展示上海地區二手房的地區分布,各地區均價等信息。下圖9是前端展示的上海二手房地區分布餅圖以及各地區均價柱狀圖。

⑧地圖選房

在前端展示部分還設計了地圖選房功能,通過用戶指定一區域,地圖可以直觀顯示該區域的二手房源和租房數量,同時在地圖上標識這些房源所在的小區,用戶可以點擊相應的小區查看該小區下房源和租房信息。加入地圖選房這一模塊是為了讓用戶對所選房屋在地理上有直觀的認識,從而更加方便進行選房和租房,如圖10所示。

4結束語

本文將上海房源數據作為研究對象,實現了房價數據的獲取、處理、分析、展示。首先,爬取了鏈家網上的上海房源數據,然后對房源數據進行了預處理,接著使用機器學習中相關算法對房價數據集進行訓練,通過比較得到與實際房價擬合度較高的房價預測模型。最后在前端使用ECharts中的圖表展示上海地區的房源統計信息,并設計了房源信息檢索功能和房價預測功能,此外還調用高德API構建地圖實現目標區域內房源信息查詢功能。

猜你喜歡
數據分析
電子物證檢驗的數據分析與信息應用研究
基于matlab曲線擬合的數據預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 亚洲国产精品久久久久秋霞影院| 久久综合干| 欧美 亚洲 日韩 国产| 中文无码毛片又爽又刺激| 亚卅精品无码久久毛片乌克兰| 国产在线精品香蕉麻豆| 国产成人精品男人的天堂| 精品国产黑色丝袜高跟鞋| 欧美激情视频二区| а∨天堂一区中文字幕| 国产打屁股免费区网站| 五月激情综合网| 欧美日韩一区二区在线播放| 福利小视频在线播放| 亚洲aaa视频| 日韩在线永久免费播放| 国产福利小视频高清在线观看| 亚洲综合专区| 色综合五月婷婷| 欧美成人综合视频| 欧美成人免费午夜全| 玖玖精品视频在线观看| 欧美日韩国产精品va| 国产高清在线精品一区二区三区 | 无码啪啪精品天堂浪潮av| 台湾AV国片精品女同性| 狠狠色综合久久狠狠色综合| 亚洲自拍另类| 91在线无码精品秘九色APP| a国产精品| 色综合综合网| 都市激情亚洲综合久久| 国产91成人| 久久久久88色偷偷| 有专无码视频| 成人午夜天| 黄色三级毛片网站| 久久久国产精品免费视频| 动漫精品中文字幕无码| 亚洲午夜天堂| 99视频精品在线观看| 中文字幕久久亚洲一区| 亚洲精品视频在线观看视频| 99这里精品| 欧美专区日韩专区| 欧美日韩中文字幕在线| 在线va视频| 国产人成在线视频| 精品丝袜美腿国产一区| 精品国产成人三级在线观看| 欧美激情第一区| 一区二区欧美日韩高清免费| 久久久亚洲色| 欧美成人免费| 狠狠亚洲五月天| 亚洲色图在线观看| 在线观看的黄网| 精品91视频| 永久免费AⅤ无码网站在线观看| 色婷婷综合在线| 超清无码一区二区三区| 国产91线观看| 免费国产在线精品一区| 亚洲成人黄色网址| 国产视频大全| 久操中文在线| 国产精品综合色区在线观看| 欧美一区二区福利视频| 欧美亚洲第一页| 亚洲资源站av无码网址| 国产综合另类小说色区色噜噜| 日本精品一在线观看视频| 波多野结衣亚洲一区| 成人91在线| 国产成人凹凸视频在线| 亚洲黄色片免费看| 久久婷婷综合色一区二区| 天堂在线www网亚洲| 久久99精品久久久久久不卡| 久久夜色精品国产嚕嚕亚洲av| 国产91熟女高潮一区二区| 婷婷激情五月网|