999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在房價預測與分析中的應用

2022-11-30 02:48:12蔡天潤
統計科學與實踐 2022年10期
關鍵詞:杭州效果模型

□蔡天潤

黨的十八大之后,我國全面加大對房地產市場的有效調控。特別是提出“房住不炒”概念之后,全國各地房價調控政策不斷提出。保障人民群眾合理住房的需求,保證房地產市場健康有序發展成為了當務之急。構建有效的房價預測模型對金融市場、民情民生有著重要意義。2021 年1 月27 日,杭州樓市發布新政策,加強了對限購、限售、稅收調節等環節的監管,完善無房家庭認定標準以及高層次人才優先購房政策。同年8 月5 日,杭州樓市再發新政策,進一步完善新房銷售和搖號政策。多重因素的作用下,杭州二手房房價整體呈現出明顯變化,研究杭州二手房房價有利于幫助“新杭州人”更好地了解杭州樓市現狀。

|數據來源和預處理

(一)數據的來源與說明

本文以爬取杭州鏈家上城區、余杭區、蕭山區等10 個行政區域的二手房源數據為例。鏈家網正式成立于2010 年,其房源包含上海、北京、廣州等42 個城市,在2015年榮獲“傳統企業互聯網+”創新獎,是國內最熱門的房源提供平臺。

本文爬取了29027 條數據,數據所涵蓋的時間跨度從2018 年到2021 年,爬取的部分數據共有46個類別,包含區域位置、緯度、經度、單價、總價、關注度、所在樓層、建筑面積、戶型結構、套內面積、建筑類型等變量。

(二)數據預處理

在爬取數據的過程中,會產生異常值、噪聲、數據丟失等情況,數據清洗能防止出現上述情況,從而提高模型預測效果,是預處理中重要的環節,不可或缺。在本次處理缺失數據中,我們首先刪除空值的行、列。隨后觀察數據特征變量,刪除一些對房價預測明顯無關的信息,如看房時間、鏈家編號、房本備件等。隨后,將暫無數據的數據全部轉為空值,去除建筑面積后帶有的單位,只保留數值部分。最后將區域拆分為區域和子區域,分離所在樓層的樓層數。

如果爬取房價是空值,可以自定義函數,用相同經緯度樓盤的數據做填充。如果房價數據的相關信息缺失,可使用該組數據的眾數做填充。比如,對于配備電梯、房屋年限、戶型結構等列,對其空值采用眾數填充。對于像電梯這樣只有兩個類別的變量,可以通過布爾值將其轉換為0 和1。但是對于房屋朝向等特征,此時可以用one-hot熱編碼將定性變量轉化為數值變量,從而更好適應算法。

|數據探索分析

(一)房價影響因素分析

在經過數據清洗后,得到一份新的數據。觀察可知,杭州十個行政區域中,濱江、上城、余杭的二手房價最高,房源數量較多且價格浮動較為平穩,而蕭山、臨安等區二手房價較低且數量較少,可見一些老城區二手房源不僅數量較多且價格也偏高。因此,對于年輕人來說,如果手中的現金流不太充足,可以考慮一些蕭山、臨安的二手房。

分析杭州市二手房掛牌時間,可以看出在2018 年之前杭州二手房的掛牌數量十分少,因此我們可以著重分析2020 年和2021 年這兩年二手房樓市之間的變化情況,并進一步分析影響房價的相關因素。

通過進一步觀察,可以發現房屋面積越大,價格大部分也越高,但是部分面積小的房價卻比面積大的房價高。這種情況也可以側面說明,房屋建筑面積不是影響房價的唯一因素。觀察房價與樓層的關系,發現并不是樓層越高,二手房單價就越高,大部分35 層以下的房子還是受人歡迎的,說明樓層與房價單價之間存在一定的關聯。最后分析已有數據,可以觀察到目前市場上3 室2 廳1 廚2 衛的戶型是市面上出售最多的戶型,因此可以合理地猜測房價會受到戶型的影響,并且不同的室、廳、衛分布情況對房價會產生不同的影響。

(二)特征變量選取

從已有數據繪制的相關系數熱力圖可以看出,房屋建筑不是影響房價的唯一因素。房屋的建筑面積與房價存在一定相關性,而關注度、燃氣價格、樓層數與房價之間的關系不大,所以這幾個方面的特征可以在構建特征工程時忽略不計。

|杭州二手房房價預測

(一)模型評價指標

在構建模型的過程中,需要選擇合適的指標來衡量模型的預測效果。針對回歸問題,常用的度量指標為均方誤差(MSE)。均方誤差反映了實際值和預測值平方和的期望,通常情況下均方誤差越小,那么表明預測模型效果越好,其數學表示式可以記為:

上式中的N 表示樣本總數,i表示每個樣本數據,其中yi 表示第i 個實際值,表示回歸模型的預測第i 個樣本的預測值,通常情況下均方誤差越小,代表模型的預測越好。

同時,可以引入平均絕對誤差(MAPE)作為一個評估模型準確性的另一個指標,該指標綜合考慮了實際值與預測值之間的誤差,也將誤差與真實值之間的比例考慮其中。該指標的取值范圍為[0,+∞),當MAPE 取值為0%代表完美模型,當大于100%時則表示為劣質模型,其公式如下所示:

在此基礎上,為了衡量預測值相對真實值擬合好壞的程度,本文引入了R2,該變量可以衡量線性回歸的擬合程度,線性模型的可以理解為以最小化R2為目標,尋求y和x 之間的最優線性關系,其定義如下所示:

(二)杭州二手房價的多元線性回歸模型

經過數據預處理后還剩下27977 條杭州市二手房房價數據,將數據集隨機劃分為訓練集和測試集,使訓練集占總數據集的70%,測試集占總數據集的30%,為了使模型預測的效果更加穩定,本次模型構建采用了三折交叉驗證,將訓練集分成3 份,2 份作為訓練集,1份作為測試集,求得3 次試驗的平均結果。本文使用python 中sklearn庫中的多元線性回歸算法,它的主要參數包含 fit_intercept、normalize、n_jobs 和copy_X。訓練模型的評價指標具體如表1 所示:

表1 測試結果比較表

觀察多元線性回歸模型的均方誤差和平均絕對誤差,可以看出該模型的預測效果比較一般,而R 平方的值小于0.8,說明該模型的擬合效果也不是非常理想,于是考慮嘗試建立其他回歸模型進行二手房價的預測。

(三)杭州二手房價的隨機森林模型

本文調用了python 中sklearn庫中隨機森林算法,用該算法對杭州二手房價進行預測,設置隨機種子random_state=0,這樣可以使每次構建的模型都是不同的,并采用5 折交叉驗證對訓練集和測試集進行驗證。該算法的主要參數包含:n_estimator、max_depth、min_samples_leaf 等。

綜合考慮算法處理時間和后續網格搜索空間,首先要確定隨機森林各參數大致取值范圍。這里以基評估器樹目為例,該參數對隨機森林模型的影響呈正相關性,當該參數取值越大,模型的預測效果也越好,當n_estimator 的取值上升到一定情況時,模型的預測效果便不會存在顯著提升。這里設置n_estimators 取值范圍為100 到4000,步長為 1000,繪 制n_estimators 和R 方之間的關系圖(圖1)。

圖1 n_estimators 和R 方關系圖

從圖中可以看出,隨著n_estimators 的增大,R 方的值也越大,說明模型的擬合效果也越好,因為在n_estimators 在取值為1100時,R 方的數值并沒有明顯的改進,考慮計算性能,可以將n_estimators 取值設為1100。隨 后繪制min_samples_leaf 和R 方的學習曲線圖(圖2)。

圖2 min_samples_leaf 和R 方學習曲線圖

從圖中可以發現,隨著min_samples_leaf 數值的增大,模型的擬合效果越來越差,說明在為調整min_samples_leaf 后,模型的預測效果反而變差。因此,這里的min_samples_leaf 設置為默認值。同時,畫出最小樣本分枝數時的情況跟上圖相類似,所以最小樣本分數值也取默認值。

最后,進行網格搜索,將n_estimators 設為1100,最大深度設為15、20、25,分支的最大特征數設為auto,得到以下結果(表2):

表2 測試結果比較表

可以看出,相比對多元線性回歸,隨機森林模型的預測效果有了進一步提升,在訓練集上的R 方達到0.97,但是測試集上缺只有0.799,說明該模型存在一定的過擬合現象,但是相對于多元線性回歸模型,隨機森林回歸模型整體表現較好。

(四)杭州二手房價的XGBoost模型

XGBoost 實質上是一種基于梯度提升樹的集成學習算法,因此具有和樹相同的性質。它包含以下重要參數:n_estimators 代表弱評估器,若該值越大,說明模型的學習能力也就越強;subsample 的取值范圍為 (0,1],表示隨機抽樣的比例;學習率用learning_rate 來表示,可以控制模型的迭代速度;gamma代表復雜度懲罰項;max_depth 代表樹的最大深度,可以控制模型的復雜度。

隨后,根據num_round 和R方、eta 和R 方的學習曲線,可以選 擇 num_round 的值為 1500,subsample 的值為0.9,隨后用xgb自帶的網格搜索進行調參,繪制對比圖可以發現,相比于初始默認參數來說,經過調參后的模型泛化能力變強。同時,模型在訓練集上調整后的均方誤差也變小了,這表明XGBoost 模型的預測效果還是相對理想,最后得到的訓練結果如表3所示:

表3 測試結果比較表

(五)預測對比分析

分別使用隨機森林、XGBoost、多元線性回歸三個回歸模型對杭州二手房房價進行預測,假設現在某購房者想購入一套二手房,該二手房具體信息如下:120 平方米,中層(16),3 室1 廳1 廚1 衛,朝東南,濱江區,平層,精裝,有電梯,普通住宅,未滿兩年。使用三種不同的預測模型對該二手房進行房價預測,并將結果與實際值進行比較,比較結果如表4 所示:

表4 杭州二手房房價預測表

從該測試結果可以看出,使用隨機森林和XGBoost 訓練出的模型可以較好地預測房價,而多元線性回歸預測的結果不盡如人意,這可能是特征工程構建不當所導致。

|總結和展望

本次通過對杭州鏈家官網的數據進行爬取、預處理、構建特征工程等一系列操作,運用數據挖掘技術對已有的數據進行探索,初步了解了整個杭州二手房房價總體分布情況。根據已有的數據集劃分測試集和訓練集,運用已有的機器學習算法構建相應的房價預測模型,優化算法對超參數進行相應的優化,得到最優結果。

但是本次實驗也有很多不足,如選取特征工程時候沒有考慮到一些國家政策的因素,即缺少了一些文本信息,這在以后的實驗中需要進一步改進。同時,本次訓練得到的模型具有一定的局限性,不能準確預測中國各省市二手房價,這一點也要在未來仔細考量。本文理論方面創新不夠,僅僅通過現在的機器學習模型進行預測,調優超參數方面也使用較為簡單的網格搜索算法,后續可以考慮引入Stacking 組合模型等。

猜你喜歡
杭州效果模型
一半模型
杭州
幼兒畫刊(2022年11期)2022-11-16 07:22:36
按摩效果確有理論依據
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
G20 映像杭州的“取勝之鑰”
傳媒評論(2017年12期)2017-03-01 07:04:58
杭州
汽車與安全(2016年5期)2016-12-01 05:21:55
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎国产精品永久一区| 欧美亚洲香蕉| 久久久亚洲色| 欧美日韩免费在线视频| 亚洲无码91视频| 中文字幕66页| 2022国产无码在线| 久久精品人人做人人爽电影蜜月 | 99热这里只有免费国产精品| 天堂成人av| 野花国产精品入口| 久久久久亚洲AV成人网站软件| 亚洲国产成熟视频在线多多| 国产一区二区福利| 欧美成人一区午夜福利在线| 国产成人一区| 精品三级在线| 无码中文字幕加勒比高清| 在线观看国产黄色| 午夜三级在线| 日韩大片免费观看视频播放| 国产性生交xxxxx免费| 综合网天天| 欧美怡红院视频一区二区三区| 亚洲毛片一级带毛片基地| 伊人激情久久综合中文字幕| 伊人久久大香线蕉影院| 91精品视频在线播放| 国产欧美日韩91| 91成人在线免费观看| 亚洲精品欧美重口| 久久精品视频一| 国产另类视频| 婷婷综合色| 色精品视频| 亚洲不卡av中文在线| 欧美成人精品高清在线下载| 992tv国产人成在线观看| 天天操精品| 日韩少妇激情一区二区| 成人午夜免费视频| 亚洲自偷自拍另类小说| 久久精品嫩草研究院| 国产免费久久精品44| 99精品在线视频观看| 在线不卡免费视频| 在线国产资源| 成年人视频一区二区| 无码精品一区二区久久久| 中文字幕日韩视频欧美一区| 日本妇乱子伦视频| 亚洲香蕉伊综合在人在线| 国产美女91视频| 一本大道香蕉中文日本不卡高清二区 | 精品福利网| 亚洲黄色网站视频| 久久99国产精品成人欧美| 国产小视频免费观看| 国产精品毛片一区视频播| 日韩毛片在线播放| 日韩在线视频网| 亚洲精品国产精品乱码不卞| 亚洲综合色婷婷中文字幕| 五月天久久综合| 国产在线精彩视频论坛| 国产精品视频观看裸模| 亚洲国产欧美国产综合久久| 免费观看成人久久网免费观看| 日本一区高清| 成人精品亚洲| 1769国产精品视频免费观看| 欧美日韩国产精品va| 91久久国产综合精品女同我| 国产中文在线亚洲精品官网| 女人av社区男人的天堂| 日韩精品专区免费无码aⅴ| 玖玖精品在线| 综合色天天| 欧美日韩午夜| 亚洲综合中文字幕国产精品欧美| AV无码无在线观看免费| 毛片卡一卡二|