999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的武漢二手房估價模型研究

2019-09-10 01:16:05姚沖閉鑫業
商訊·公司金融 2019年10期

姚沖 閉鑫業

摘要:本文通過集成學習方法對武漢市二手房的數據進行分析和研究。本文構建了三種二手房房價估值模型:一、決策樹集成的隨機森林模型:二、通過AdaBoost,采用多層感知器神經網絡構建了神經網絡集成模型;三、用XGBoost方法建模,并對三種模型進行分析對比,結果顯示使用AdaBoost算法建立的模型更準確。

關鍵詞:武漢二手房:集成學習:隨機森林:XCBoost

隨著全國二手房關注度的提高,與二手房交易相關的抵押等交易越來越豐富,而買賣前的二手房估價是非常重要的環節?,F有運用數理模型進行房價預估的研究中較為常見的是采用最小二乘法擬合多元線性回歸法。這種方法在建模的中一般要求誤差項要符合零均值并且獨立同分布的設想。此外,這些方法通常用t檢驗來檢測回歸系數的顯著性,用F檢驗來檢測模型整體水平的顯著性。但是如果數據不能夠滿足正態性條件,t檢驗與F檢驗的方法相對不滿足正態分布的數據來說沒有多大意義。在對相對復雜的數據進行建模時,簡單的線性回歸算法會有欠擬合和模型解釋能力較低的問題。為了避免以上評估方法的限制,尋找到更好的評估方法,本文使用集成學習的方法,用隨機森林、AdaBoost、XGBoost三種方法進行建模,分別得到隨機森林、AdaBoost、XGBoost三個模型,用測試集數據進行測試,再進行調參,用MAE(平均絕對誤差)評估模型的適用程度。

一、數據探索

(一)數據來源

1.原始數據

本次報告所采用的數據源來自“鏈家網”中的武漢二手房相關數據f如圖l所示 2.數據清洗 如圖l所示,數據不僅結構混亂,且含有缺失值,不匹配的記錄。首先,刪去不匹配的、缺失值內容太多的記錄:其次,利用Python將混合字段拆分成獨立的字段;最后,利用替換功能,將特殊字符、單位去掉變為數值型數據,并將變量的數據統一化處理。經過處理后,研究的變量為武漢二手房每平方米的價格,影響因素包括武漢二手房的建房年份、面積、樓層位置、樓層總高度、臥室數量、所在區域、裝修情況、戶型結構、產權年限、是否配備電梯等因素。

(二)描述性分析

1.武漢市二手房房價分布

根據上述處理過的數據,利用Pvthon繪圖工具包mat-plotlib和seahorn分析工具可得出二手房單位價格大多處于10000 - 30000元之間,且集中在50平方米至150平方米區間內,分布帶有輕微的有偏性,但大致服從正態分布,高價位和低價位的二手房數都相對較少,且最高不超過5萬/平方米。

二手房相對于新的商品住宅來說,樓房建造時間對價格影響較大,武漢市二手房建造年份主要是在2000年左右,相對較新:而2000年之前的老房子掛牌銷售的較少。

2.武漢市二手房房價影響因素分析

對二手房房價影響的因素有很多,如樓房是否有電梯,房子所在區域,樓層結構,產權年限以及裝修程度等因素。

首先,影響價格因素最大的是區域。武漢市在售的二手房在洪山區、武昌區、江岸區等區域的房價較高,而蔡甸、新洲地區房價相對較低。

其次,武漢市在售的二手房中影響次要原由樓層結構,裝修程度等。在售房中,主要樓層結構有平層、復式、錯層、躍層,其中復式價格相對較高,而平層是購房較多的購房結構。產權年限對價格的影響也比較大,一般選擇70年產權比較符合大多數人的情況。裝修方式對房價的影響也比較顯著,其中精裝的武漢二手房房價相對較高,其余裝修方式對應的房價依次按照簡裝、毛坯的順序遞減。

最后,電梯對二手房價格有較明顯的影響,有電梯的二手房房價集中偏高于20000元每平方米,而沒有電梯的二手房房價則明顯低于有電梯的。

綜上所述,最受關注的武漢二手房,其每平方米的價格大概是20000元左右,面積普遍都在50平方米至200平方米之間,高樓層,樓型為板樓,建筑時問在2000年以后。并且,處于武昌、江漢區等繁華地區、裝修方式為精裝、樓型為板塔結合、社區有電梯的二手房房價相對較高。

二、武漢市二手房建模及評估

(一)建模流程

1.建模思路

經過數據清洗后,將清洗后的數據分為訓練集、測試集,分別為變量訓練集X_train、變量測試集X test、因變量訓練集y_train、因變量測試集y_test,分別得到以隨機森林、AdaBoost、XGBoost為算法的模型,進行調參,選取最好的結果,對這三個模型進行比較,選中較好的模型作為預測模型。

2.基礎算法與集成算法

本文對數據進行集成算法訓練前也對基礎算法進行訓練,有線性回歸、邏輯回歸、決策樹回歸等,對其進行建模,得到的MAE遠大于集成學習的評估,對此基礎算法對于該數據的二手房估價并不是很準確,因此選擇了集成學習算法進行構建估價模型。

(二)隨機森林

利用Python軟件中的sklearn庫的隨機森林算法,通過調節算法中的超參數,讓模型達到最好的擬合效果。其中,需要調節的主要參數。

n_estimators是指隨機森林算法中決策樹的數量,默認值為10,經過不斷調試,n_estimators= 250時,MAE達到較好的效果。

n_johs= -1為計算機使用最大核數,只影響計算時間,不影響計算結果。

random_state為隨機種子,這里的參數值為666,為了方便對比,不會因為訓練集所選的數據不一樣影響結果。

max_samplessplit=4,所需的最少樣本數量作為分割內部節點,經調試,等于4時效果最好。

max_depth= 45,樹的最大深度,防止過擬合,該超參數力45時效果最好。

經過調節這些參數后計算出MAE= 2563.3151。

f三)AdaBoost

同樣的在Python中的sklearn中使用AdaBoost算法,其調整的參數類似與隨機森林,因為兩種算法都是以決策樹為基礎,參數意義基本相同。需要調節的主要參數。

maxdepth= 15,樹的深度,防止過擬合,在此算法中,該超參數為15時效果最好。

maxsamples_split=4,參數意義同隨機森林。

random_state= 666,參數意義同隨機森林。

n_estimators參數意義同隨機森林,默認值為10,經過不斷調試,n estimators= 480時,MAE達到較好的效果。

最后輸出的MAE= 2524.6871。

(四)XC.Boost

在Python中,使用XCBoost建模,其主要超參數。

min_child_weight是最小葉子節點樣本的權重和。xc-Boost是這個參數是最小樣本權重的和,而CBM是最小樣本和,這個參數用于避免過擬合。min_childweight=6時MAE達到較好的效果。

gamma是算法在節點分裂的時候,當分裂后損失函數的值下降了,才能分裂這個節點。Gamma指出節點分裂所用最小損失函數下降值。這個參數越大,算法相對保守。Gamma=0.1,效果最好。

colsample_bylevel用來控制決策樹的每級的每次分裂,對列數特征的采樣的占比,colsample_bylevel=0.9時效果較好。

lamhda權重的L2正則化項(Ridge regression類似)。參數是用來控制XCBoost的正則化部分,防止過擬合,lamhda=l時效果較好。

最后輸出MAE= 2861.4871。

(五)模型評估

在使用集成學習算法構建成的模型,使用隨機森林建立起的模型進行估價,將會存在2563元左右的誤差,使用AdaBoost算法建立的模型,對該二手房數據的擬合更高,得到更好的估價模型。

經過調試三個模型,AdaBoost的模型效果比隨機森林和XCBoost更好,相對于武漢市二手房均價20000元/平方米的價格,AdaBoost的模型預測誤差MAE在2500元左右,是均價的12.6%左右,該模型可以對武漢市二手房做大致的估價(如表2所示)。

三、結果與展望

(一)分析總結

本文通過對從鏈家網獲取的2985條武漢市二手房交易數據進行探索、集成學習的方式建立估價模型,得到以下結論。

第一,從變量來看,房子的區域、大小、建造年份對價格影響比較大。武昌、江漢等區域二手房房價相對較高,江夏、蔡甸等區域則相反:房價每平方米的價格大概是20000元左右,面積普遍都在200平方米以下,位于高樓層,樓型為板樓,社區有電梯、建筑時問在2000年以后等特點。

第二,對于二手房價格估價模型,集成學習優勢高于單個算法建立的模型,在隨機森林、AdaBoost、XCBoost這三個模型中,AdaBoost擬合效果最好,能更好地對二手房進行估價。

第三,在房地產估價中,人T-智能以及機器學習的介入,可以幫助該行業迅速發展。當二手房中介建立估價模型時,應當使用大量二手房交易數據,信息越詳細通過機器學習訓練出來的模型,才能更準確地對房價進行估算。

(二)研究的不足與展望

本文不足主要在數據獲取方面,首先,因為計算機性能、軟件、二手房網站信息不全等方面的影響,收集到的數據較少,缺失較大,信息不詳細,用于建模的數據噪音較大,以至于影響最后結果。其次,沒有在文本挖掘方面提取其他信息,比如是否靠近地鐵,是否是學區房等因素。最后,二手房市場的價格容易受政策的干預,應該進一步考慮到政策的影響。

參考文獻:

[1]吳姍撕.基于BP神經網絡的南京市房價預測[J].市場周刊.2016.

[2]袁秀芳,鄭伯川,焦偉超.基于SVR的上海市商品房價格預測『J].西華師范大學,2016.

[3]霍妹宇,王春萍,史朝陽.基于聚類分析技術的昆明二手房源價格分析[J].中國集體經濟,2016.

[4]王智超.基于數據挖掘的房價預測分析[J].四川大學.2017.

[5]劉冰,金躍強,王書營.南京市二手房房價影響因素的多元線性回歸分析[J].南京工業技術學院,2017.

主站蜘蛛池模板: a级免费视频| 尤物特级无码毛片免费| 日韩av在线直播| 国产精品福利尤物youwu| 91po国产在线精品免费观看| 综合色婷婷| 91青青草视频在线观看的| 国产精品一区在线麻豆| 国产在线91在线电影| 曰AV在线无码| 精品三级网站| 日本欧美中文字幕精品亚洲| 亚洲欧美另类视频| 这里只有精品在线| 国产精女同一区二区三区久| 熟妇无码人妻| 91精品专区国产盗摄| 99久久国产综合精品2020| 国产一区免费在线观看| 亚洲精品在线观看91| 97se亚洲综合在线韩国专区福利| 国产成人三级| 91精品国产91久无码网站| 久久国语对白| 国产一区三区二区中文在线| 一区二区在线视频免费观看| 无码免费试看| AV熟女乱| 福利姬国产精品一区在线| av天堂最新版在线| 国产91精品调教在线播放| 国产精品久久久免费视频| 无码AV高清毛片中国一级毛片| 久久亚洲天堂| 视频一区视频二区中文精品| 久久77777| 干中文字幕| h视频在线播放| 日韩欧美国产成人| 免费 国产 无码久久久| 2021精品国产自在现线看| 无码中字出轨中文人妻中文中| 国产精品毛片在线直播完整版| 国产在线观看91精品| 亚洲区视频在线观看| 日本a级免费| 亚洲成a人在线观看| 97青草最新免费精品视频| 真实国产精品vr专区| 欧美日在线观看| 永久在线精品免费视频观看| 国产综合另类小说色区色噜噜| 国产成人一区| 日本免费一区视频| 99久久精品免费视频| 成人在线观看不卡| 国产一级毛片yw| 日韩人妻精品一区| 2048国产精品原创综合在线| 亚洲视频影院| 无码中文AⅤ在线观看| 午夜无码一区二区三区| 久久黄色一级视频| 亚洲中文精品久久久久久不卡| 青青草原国产免费av观看| 无码一区二区波多野结衣播放搜索| 亚洲男人在线| 国产无码在线调教| 麻豆AV网站免费进入| 国产91小视频在线观看| 国产日韩欧美黄色片免费观看| 4虎影视国产在线观看精品| 超碰免费91| h视频在线观看网站| 99在线观看精品视频| 日本欧美一二三区色视频| 毛片a级毛片免费观看免下载| 免费欧美一级| 永久免费av网站可以直接看的| 一本大道无码日韩精品影视| 久久精品一品道久久精品| 亚洲香蕉久久|