999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法的房價預測模型

2021-07-07 16:39:06王冬雪郭秀娟
北方建筑 2021年3期
關鍵詞:模型

王冬雪,郭秀娟

(吉林建筑大學電氣與計算機學院,吉林 長春 130118)

0 引言

近年來,人們對房價的關注一直居高不下。由于城市化的加劇,對房屋租賃和購房的需求也持續增加,而房價問題不僅關系到人民生活水平,更是與國民經濟發展息息相關。因此,對房價進行預測不僅對人們買賣房屋具有參考意義,而且對于政府進行房價調控也有積極作用[1]。因而確定一種可以精準反映房價走勢的算法具有重要意義。

本文通過使用XGBoost算法來預測房價。通過對數據分析、預處理及基于XGBoost模型來構建房價預測模型。影響房價的因素多且復雜,如房屋面積、房屋地理位置、房屋戶型等,本文僅選取對于房價影響較大的79個特征對房價預測模型進行評估,并選擇RMSLE算法作為預測房價的評估算法。

1 數據預處理

在實際情況下,由于環境復雜等因素,我們獲取的數據往往是存在缺失和異常的,因此,在建模前要對數據進行預處理。

1.1 數據集來源

該數據采集來源于Kaggle 2016年競賽項目,分為訓練數據和測試數據。其中訓練數據中有1 460個樣本,每個樣本中含有80個特征,測試數據中包含1 459個樣本,每個樣本中有79個特征。

1.2 缺失值處理

對于數據的缺失問題,要考慮2個重要因素:缺失數據的情況是否普遍,丟失的數據是規律的還是隨機的。數據的缺失可能意味著樣本量的減少,這可能對我們接下來的分析和建模產生阻礙。因此,對缺失值的處理是必需的。對于不同的數據缺失機制,處理的方法也是不同的,常用方法分為數據填充和刪除樣本兩大類[2]。對缺失值的統計如圖1所示。本文所使用的數據缺失值不能確定是否是隨機的,例如缺失比例最高的游泳池質量,可能是由于很多房子里并沒有游泳池。因此根據缺失值的統計結果,本文通過刪除缺失比例較高的變量及帶有缺失值的樣本對缺失值進行處理。

圖1 缺失數據統計圖

1.3 樣本因自變量相關分析

本文所使用的數據集雖然給出了80個自變量,但是有些因素對房價的影響非常小,如果不進行篩選可能會影響結果的準確性[3]。因此,進一步篩選后,得出對房價最具影響的特征依次為:整體質量(整體材料和裝修)、居住面積(地面以上)、車庫容量、車庫面積、地下室總面積、一樓面積、高檔全浴室、客房總數(不含浴室)、建成年份。其相關矩陣熱力圖如圖2所示。

圖2 相關矩陣熱力圖

1.4 數據標準化處理

如圖3所示,房屋的價格已經偏離了正態分布。因此,對于非正態分布,本文采用Box-Cox變換,使數據變得更“正常”。

圖3 原始數據分布

Box-Cox變換的一般形式為:

式中y(λ)為經Box-Cox變換后的響應變量,y為原始連續因變量,λ為變換參數。以上變換要求原始變量取值為正[4]。圖4為經Box-Cox變換后分布。

圖4 變換后數據分布

2 XGBoost模型

XGBoost又稱極端梯度上升,它是大規模并行Boosted Tree,是Gradient Boosting Machine的擴展,在相同的環境和條件下,XGBoost比同類算法快10倍以上[5]。XGBoost還可以通過分布式運算,進一步提高訓練速度[6]。

2.1 基本模型

XGBoost是由k個基模型組成的加法運算式:

其中ft為k個基模型,為第i個樣本的預測值。

其中n為樣本數量。

模型的偏差和方差共同決定了該模型的預測精度,模型的偏差具體表現為損失函數,模型越簡單則其方差越小,所以目標函數由模型的損失函數loss與抑制模型復雜度的正則項Ω組成,所以目標函數可表示為:

其中Ω為模型的正則項。

以第t步的模型為例,模型對第i個樣本xi的預測為:

而根據泰勒公式,可以把上述目標函數寫為:

其中gi為損失函數的一階導,hi為損失函數的二階導。

將決策樹定義為ft(x)=wq(x),x為某一樣本,q(x)代表該樣本所在的葉子結點,而wq則代表葉子結點取值w,所以wq(x)代表每個樣本的取值w(即預測值),則目標函數的正則項可以定義為[7]:

其中λ和γ是XGBoost定義的,其值可設定,值越大,表示越希望獲得結構簡單的樹,T為葉子數。

而其中葉子結點j對應的權值可表示為:

所以目標函數可簡化為:

記IL,IR分別是數據集的左右結點,其中I=IL∪IR,則分裂后增益為:

XGBoost在構建樹的節點時,為每個節點添加了一個缺省方向,當樣本缺失對應特征時,就會被歸類到缺省方向上。如果樣本存在特征缺失的情況,則只需分配到左右節點而無需遍歷,故算法所需遍歷的樣本量大大減少。稀疏感知算法比basic算法速度快了超過50倍[9-10]。

2.2 模型評價

本文采用均方根對數誤差(RMSLE)來作為模型評價的標準。其公式如下:

對訓練集訓練100次后的RMSLE為0.041 646 875 398 8,如圖5所示。XGBoost能更好地適應不平衡的數據集,同時也更不容易過擬合,泛化能力較好,應用范圍廣泛,因此該模型基本可以實現對房價的精準預測。對于該預測模型,可應用到以下場景。

圖5 預測結果圖

1)鏈家、安居客等二手房的交易。該模型更加有利于買賣雙方看清房價接下來的走勢,及時把握住期望成交價格。

2)房產投資的應用。近年來,從《新中產白皮書》中可以看到,新中產人群,除去自住房,投資性房地產占比是最多的。因此,該模型對于投資者有一定的指導性作用。

3 結論

房價預測問題本質上來說就是典型的回歸問題。本文基于XGBoost算法進行房價預測,首先對數據進行缺失值處理、相關分析及標準化處理等一系列預處理,然后使用XGBoost算法對數據集進行建模和訓練,最終實現對房價的精準預測。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线免费亚洲无码视频| 亚洲综合专区| 欲色天天综合网| 青青热久麻豆精品视频在线观看| 婷婷亚洲天堂| 国产区免费| 九九热精品在线视频| 亚洲日产2021三区在线| 亚洲毛片网站| 亚洲最大综合网| 中文字幕va| 色窝窝免费一区二区三区| 成人福利在线观看| 国产福利免费在线观看| 久久人搡人人玩人妻精品| 国产美女91呻吟求| 国产爽爽视频| 999福利激情视频| 精品视频第一页| 亚洲精品视频在线观看视频| 伊人蕉久影院| 色哟哟色院91精品网站| 婷婷伊人五月| 国产美女叼嘿视频免费看| 成人福利在线看| 99久久国产综合精品2020| 91精品国产一区| 97视频在线观看免费视频| 88国产经典欧美一区二区三区| 亚洲国产高清精品线久久| 91久久国产热精品免费| 精品久久久久无码| 欧美人与牲动交a欧美精品| 天堂亚洲网| 欧美日韩中文国产va另类| 试看120秒男女啪啪免费| 国产91蝌蚪窝| 波多野结衣在线一区二区| 99热这里只有免费国产精品 | a级毛片毛片免费观看久潮| 色婷婷亚洲综合五月| 国内精品久久久久鸭| 久久久波多野结衣av一区二区| 欧美日韩国产成人在线观看| 亚洲最猛黑人xxxx黑人猛交| а∨天堂一区中文字幕| 国产乱人乱偷精品视频a人人澡| 一级毛片免费不卡在线| 好久久免费视频高清| 久久伊伊香蕉综合精品| 日本国产精品一区久久久| 亚洲福利片无码最新在线播放| 青草免费在线观看| 丁香六月综合网| 91久久天天躁狠狠躁夜夜| 97免费在线观看视频| 国产麻豆91网在线看| 中文字幕在线免费看| 亚洲无码熟妇人妻AV在线| a级毛片在线免费| 狠狠色丁婷婷综合久久| 亚洲娇小与黑人巨大交| jizz国产视频| 国产中文在线亚洲精品官网| 性欧美在线| 日韩在线观看网站| 国产精品护士| 国产成人综合在线观看| 国产成人h在线观看网站站| 最新国产午夜精品视频成人| 国产精品永久久久久| 国产一区在线视频观看| 99re热精品视频国产免费| 蜜芽国产尤物av尤物在线看| 毛片在线播放a| 亚洲一区二区三区中文字幕5566| 国内精品免费| 1024国产在线| 熟妇丰满人妻| 噜噜噜久久| 午夜丁香婷婷| 欧美特黄一免在线观看|