999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林模型的房價預(yù)測

2016-11-19 17:16:09陳世鵬金升平
科技創(chuàng)新與應(yīng)用 2016年4期

陳世鵬 金升平

摘 要:根據(jù)襄陽2012年的房貸數(shù)據(jù),考慮影響房價的各種特征變量,嘗試建立隨機(jī)森林模型,利用其優(yōu)秀的集成學(xué)習(xí)能力和泛化能力對測試樣本進(jìn)行房價預(yù)測,并與學(xué)者應(yīng)用較多的ARMA模型及經(jīng)典的多元線性回歸模型預(yù)測的房價和實際房價進(jìn)行對

比,取得了較好的效果。

關(guān)鍵詞:隨機(jī)森林;房價;ARMA模型;多元線性回歸模型

1 傳統(tǒng)的房價預(yù)測模型簡介

1.1 ARMA模型

ARMA即自回歸滑動平均模型,是研究時間序列的重要方法,可以研究并預(yù)測房價隨時間的變化,由AR(Auto-Regressive)和MA(Moving-Average)兩個部分組成,若時間序列yt服從(p,q)階的ARMA模型,則其滿足形式為:

1.2 多元線性回歸模型

多元線性回歸模型經(jīng)常用來刻畫一個變量受多個變量影響時的情況,適用于自變量與因變量之間呈現(xiàn)密切的線性相關(guān)且自變量之間具有一定的互斥性的情形,其基本模型如下:

2 隨機(jī)森林模型的建立

2.1 隨機(jī)森林建模的步驟

隨機(jī)森林在建立模型及預(yù)測的流程如圖1所示:

其基本思想是通過自助法重采樣技術(shù)從原始訓(xùn)練樣本集中抽取樣本生成新的訓(xùn)練樣本集合,由此生成多棵決策樹組成隨機(jī)森林,分類數(shù)采取投票方式、回歸數(shù)利用均值來進(jìn)行結(jié)果預(yù)測,具體步驟為:(1)確定生成一棵決策樹時用到的特征變量個數(shù)m(

助樣本集,并由此構(gòu)建K棵決策樹,每次未被抽到的樣本組成k個袋外數(shù)據(jù),即out-of-bag(OOB);(3)每個自助樣本集生長為單棵決策樹,每個節(jié)點處按照節(jié)點不純度最小原則選取特征進(jìn)行充分生長,不進(jìn)行剪枝操作;(4)根據(jù)生成的決策樹分類器對預(yù)測集進(jìn)行預(yù)測,對每棵樹的預(yù)測結(jié)果求均值即為最終預(yù)測結(jié)果[3]。

2.2 模型的建立與優(yōu)化

整合2012年襄陽房貸數(shù)據(jù),得到6354條有效數(shù)據(jù),其中特征變量有房子所在樓層、總樓層、所在區(qū)域、房子面積、交易時間等,解釋變量為每平方米單價(千元)。以總數(shù)據(jù)的75%作為訓(xùn)練集構(gòu)造隨機(jī)森林,剩下的25%數(shù)據(jù)作為測試集用來檢驗?zāi)P汀C看纬槿∪舾蓴?shù)據(jù)和特征變量,以信息增益或基尼指數(shù)作為衡量標(biāo)準(zhǔn)來選擇節(jié)點處特征,然后進(jìn)行充分生長構(gòu)建決策樹。

隨機(jī)森林中最重要的兩個參數(shù)有樹節(jié)點預(yù)選的特征變量個數(shù)、隨機(jī)森林中決策樹的個數(shù)。特征變量個數(shù)決定了每棵樹的規(guī)模,太多會導(dǎo)致每棵決策樹差別不大,產(chǎn)生過擬合現(xiàn)象;太少則不能從數(shù)據(jù)中有效學(xué)習(xí)模型。同理,決策樹數(shù)量太多會浪費很多時間進(jìn)行計算,太少則預(yù)測效果很差。

圖2中a圖是利用R語言計算的默認(rèn)的特征變量個數(shù)為1時的絕對累積誤差和,可以發(fā)現(xiàn)當(dāng)決策樹的數(shù)量大于150以后,模型累積誤差趨于穩(wěn)定;對特征變量的個數(shù)進(jìn)行遍歷,可以發(fā)現(xiàn)預(yù)選個數(shù)為2時誤差和最小,如b圖所示。

3 預(yù)測結(jié)果的對比

根據(jù)整合的房貸數(shù)據(jù),由訓(xùn)練集建立模型,利用測試集來對房價進(jìn)行預(yù)測,隨機(jī)森林與傳統(tǒng)的ARMA模型和多元線性回歸模型預(yù)測的部分房價(單位:千元/平方米)數(shù)據(jù)如表1所示。

4 結(jié)果分析

由預(yù)測結(jié)果可以看出,隨機(jī)森林模型取得了較好的預(yù)測效果,基于OOB數(shù)據(jù)和測試集數(shù)據(jù)的絕對誤差均值分別為大約0.08(千元/平方米)和0.2(千元/平方米),相對誤差分別只有1.6%和4%,雖然上述預(yù)測結(jié)果相對于ARMA等傳統(tǒng)模型優(yōu)勢并不明顯,這是由于文章采用的數(shù)據(jù)特征變量數(shù)較少所導(dǎo)致的。實際中影響房子價格的可能還有小區(qū)的停車位、環(huán)境、運動設(shè)施、物業(yè)管理費用,周邊的交通如公交線路、地鐵線路的數(shù)量,到醫(yī)院、學(xué)校、銀行、商場、菜市場、CBD的距離等因素[4],隨機(jī)森林的優(yōu)勢在當(dāng)特征變量數(shù)增加時會更加明顯,其預(yù)測精度會進(jìn)一步提升。

參考文獻(xiàn)

[1]常振海,劉薇.基于非參數(shù)自回歸模型的房價預(yù)測[J].天水師范學(xué)院學(xué)報,2010,3(2):56-58.

[2]劉忠璐.ARIMA模型在房價預(yù)測中的應(yīng)用[J].決策與信息,2011(4):3-4.

[3]黃文,王正林.數(shù)據(jù)挖掘:R語言實戰(zhàn)[M].電子工業(yè)出版社,2014:220-241.

[4]孫憲華,張臣曦.房屋質(zhì)量及其對房地產(chǎn)價格指數(shù)的影響[J].統(tǒng)計與信息論壇,2009(9):43-47.

作者簡介:陳世鵬,男,武漢理工大學(xué)碩士,研究方向:最優(yōu)化理論與計算。

金升平,男,教授,碩士生導(dǎo)師,研究方向:金融統(tǒng)計計算與隨機(jī)模擬。

主站蜘蛛池模板: 欧美亚洲第一页| 国产99免费视频| 国产亚洲精品精品精品| 亚洲国产精品一区二区第一页免| 国产啪在线91| 新SSS无码手机在线观看| 精品人妻AV区| 色综合天天视频在线观看| 伊人久久大香线蕉aⅴ色| 综合社区亚洲熟妇p| 亚洲欧美成人在线视频| hezyo加勒比一区二区三区| 扒开粉嫩的小缝隙喷白浆视频| 国产精品一区不卡| lhav亚洲精品| 91久久偷偷做嫩草影院电| 久久久久亚洲AV成人人电影软件 | 亚洲综合色吧| 怡红院美国分院一区二区| 2020精品极品国产色在线观看| 97狠狠操| 国产欧美日本在线观看| 欧美国产在线一区| 视频一区视频二区日韩专区 | 亚洲精品片911| 亚洲男人的天堂久久精品| 国产高清不卡| 国产日韩欧美在线视频免费观看| 亚洲欧美一区二区三区麻豆| 欧美日韩午夜| 91小视频版在线观看www| 日本五区在线不卡精品| 国产一区二区福利| 少妇极品熟妇人妻专区视频| 亚洲天堂啪啪| 亚洲精品自产拍在线观看APP| 国产在线专区| 无码精油按摩潮喷在线播放| 直接黄91麻豆网站| 伊人精品视频免费在线| 青青青亚洲精品国产| 久久精品国产在热久久2019| 日韩麻豆小视频| 无码一区18禁| 久久特级毛片| 国产亚洲现在一区二区中文| 久久国产拍爱| 美女潮喷出白浆在线观看视频| 亚洲欧洲免费视频| 91青青视频| 久久精品中文字幕免费| 色网站在线视频| 免费在线国产一区二区三区精品| 国产福利小视频在线播放观看| 一本大道视频精品人妻| 毛片卡一卡二| 免费观看无遮挡www的小视频| 国产免费网址| 蜜芽国产尤物av尤物在线看| 久久成人18免费| 在线观看精品国产入口| 亚洲精品成人片在线观看| 91福利片| 精品一区二区三区中文字幕| 1024国产在线| 中文纯内无码H| 国产欧美另类| 国产欧美日韩精品综合在线| 四虎成人免费毛片| 亚洲精品国产首次亮相| 日韩精品免费在线视频| 日韩天堂在线观看| 无码中文字幕乱码免费2| 国产内射在线观看| 国产尤物视频网址导航| 视频二区中文无码| 国产免费人成视频网| 性做久久久久久久免费看| 国产精品妖精视频| 又大又硬又爽免费视频| 国产精品嫩草影院av| 国产97区一区二区三区无码|